您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:高维时空嵌入的视角:物理增强型样本熵择时模型 - 发现报告

高维时空嵌入的视角:物理增强型样本熵择时模型

信息技术2025-12-07中泰证券米***
AI智能总结
查看更多
高维时空嵌入的视角:物理增强型样本熵择时模型

中泰证券金融工程 吴先兴证券分析师执业证书编号:S0740525110003邮 箱:wuxx02@zts.com.cn 李倩云证券分析师执业证书编号:S0740520050001邮 箱:liqy02@zts.com.cn 张天伦证券分析师执业证书编号:S0740525070005邮 箱:zhangtl01@zts.com.cn 研究内容 •本研究聚焦于ETF市场的量化择时策略构建,核心在于将非线性动力学的样本熵理论与物理学的推重比概念深度融合,实现对市场复杂性与驱动力在风险平衡层面的一体化刻画。 •成功构建了一套物理增强型样本熵(Phys-Enhanced SampEn)择时策略,创新性地将“推重比序列” 作为输入项进行熵计算,能够同时量化“价格波动的随机性”与“驱动力-风险平衡的规律性”,突破了传统单维度不确定性度量的局限。 •引入流动性调整推重比,通过量价共振动量与流动性阻力因子修正,有效解决了理论信号与实际可交易性的脱节问题,形成了从不确定性量化、物理属性嵌入到流动性约束的完整策略框架。通过历史数据回测验证了策略的有效性和稳健性。 风险提示:报告资料均来源于公开数据,分析结果通过历史数据统计、建立模型和测算完成,在政策、市场环境等发生变化时模型存在失效的风险。 主要结论 •本策略在多元ETF体系中展现出较好的适应性:回测期2017年1月-2025年11月,覆盖完整牛熊周期,标的横跨宽基指数、科技成长、周期资源、消费医疗与金融等多元板块,共38只ETF。策略在不同市值风格、不同波动特征、不同流动性水平的标的上均展现出良好适应性。 •年化收益率方面,整体区间平均年化收益率27.19%,中位数25.64%,显著超越买入持有策略(平均年化超额22.29%);风险调整后收益方面,平均夏普比率1.30,索提诺比率达155.77%,表明择时策略在获取超额收益的同时有效控制了下行风险;回撤控制方面,相较买入持有平均降低28.18%,展现出较强的净值修复能力。同时策略不仅在高波动科技类标的上平均年化收益达33.84%且索提诺比率达176.28%,在低波动宽基类标的上也实现了夏普比率达1.31的稳健表现,验证了策略对不同市场环境和产品类别的良好适应性。 •回测结果表明,基于融合熵值分位数阈值与推重比方向的一体化信号规则能够有效地动态适配不同市场状态,策略通过有效捕捉趋势转折点并控制交易频率,实现了信号准确率与风险收益指标的双重优化,验证了物理-统计融合框架在量化择时领域的有效性与实用性。 风险提示:报告资料均来源于公开数据,分析结果通过历史数据统计、建立模型和测算完成,在政策、市场环境等发生变化时模型存在失效的风险。 一、样本熵理论溯源与方法论演进 目录 二、流动性调整推重比详解 三、物理增强型样本熵择时模型 C O N T E N T S 四、策略回测结果与分析 CCONTE样本熵理论溯源与方法论演进 熵(Entropy)的起源 •熵的概念最早源于19世纪热力学研究。1865年,德国物理学家Clausius在研究热机效率时提出熵的概念,用以描述能量转化过程中不可逆性的度量。热力学第二定律指出,孤立系统的熵总是趋于增加,即系统自发地从有序走向无序。 •熵的物理意义在于量化系统的混乱程度或不确定性。低熵态对应高度有序的系统状态,比如晶体结构;高熵态则对应高度无序的系统状态,例如气体分子的随机运动。这一概念揭示了自然界演化的基本方向性:封闭系统总是朝着熵增加的方向演化,直至达到热力学平衡。 •熵的概念为理解复杂系统提供了统一框架。从最初的热力学应用,熵的思想逐步渗透到统计物理、信息论、生物学、经济学等多个领域,成为刻画系统复杂性与不确定性的核心工具。 信息熵概念 •1948年,Shannon在《通信的数学理论》中提出信息熵概念,将熵从物理学引入信息论。信息熵定义为 = ܪ− ∑ ݌ ݔlog ݔ(݌),用于量化信息源的平均不确定性或信息量。当所有事件等概率发生时,信息熵达到最大值,表示系统最不可预测;当某事件必然发生时,信息熵为零,系统完全确定。 •信息熵与热力学熵在本质上具有深刻联系。两者均度量系统的不确定性或可能状态的多样性,数学形式上高度相似。Boltzmann在统计物理中建立的熵公式ܵ݇=ܹln,其中ܹ为微观状态数,݇是玻尔兹曼常数(约 1.38×10⁻²³J/K),用于将微观状态数与宏观熵值建立定量联系。与Shannon信息熵的概率求和形式本质一致, Boltzmann揭示了熵作为度量不确定性的普适性。 •信息熵为时间序列分析提供了新视角。传统统计方法关注均值、方差等低阶矩特征,而信息熵能够捕捉数据分布的完整结构特征。在金融市场中,价格序列的信息熵可反映市场的有效性程度:高熵对应高度随机的有效市场,低熵则暗示存在可预测的结构性规律。 从信息熵到近似熵 •金融时间序列本质上是动态演化系统。价格序列的特征不仅取决于某一时刻的值分布,更关键在于时间依赖关系——历史价格对未来价格的预测能力。传统金融时间序列分析(如自相关、谱分析)主要捕捉线性结构,对非线性、混沌特性的识别能力不足。而市场并非完全随机,其内在的确定性混沌结构蕴含了潜在的可预测性。为刻画这种动态复杂性,需要将熵的概念从静态推广到时间序列领域。 •近似熵由Steve Pincus于1991年提出,旨在解决生理信号这类短数据、含噪声序列的复杂性度量问题,其首次将信息论引入动态系统分析,通过度量“相似模式延续的概率”量化序列复杂性。其核心思想为:如果系统高度规律(如正弦波),相似的子序列在延长后仍倾向于保持相似;若系统高度随机(如白噪声),相似性纯属偶然,延长后立即消失。 •近似熵的计算逻辑为:对长度为ܰ的序列,构建݉维嵌入向量ݔ௜ݔ ,௜ାଵ, ⋯ , ݔ௜ା௠ିଵ,统计与之相似(距离小于阈值ݎ)的向量比例ܥ௜௠ݎ,其定义式包含向量与自身的匹配(即݆݅=时也计入相似数),对每个ܥ௜௠ݎ取自然对数,进而对所有݅求平均,得到∅௠ݎ,这一步将概率转化为了信息度量。将维度从݉增加到݉+ 1,重复上述步骤,得到∅௠ାଵݎ。 •近似熵最终定义为:݊ܧ݌ܣ݉,ݎ=∅௠ݎ− ∅௠ାଵݎ 近似熵的缺陷 •自匹配导致的系统性偏差:近似熵计算中,模板向量与自身进行比较,这在小样本中会显著高估相似度计数ܥ௜௠ݎ,其直接后果是系统性地低估熵值,使得分析结论(如市场的有效性评估)在数据量不足时(ܰ< 200)存在固有偏差,可信度降低。 •统计一致性差:由于上述偏差的程度高度依赖于具体的样本路径,导致对同一金融系统(如同一资产在不同时期)进行重复测量时,近似熵的结果会产生不应有的较大波动。这种不稳定性使其无法作为可靠的状态识别或因子指标用于策略回测。 •对数据长度的敏感性:自身匹配的固定贡献在短数据中占比更大,导致近似熵的估计值严重依赖于序列长度ܰ。这使得比较不同时间窗口(如比较日频与月频数据的复杂度)或不同期限结构(如短期与长期波动率序列)的结论失去意义,严重阻碍了跨数据集的对比分析。 样本熵(SampEn)的提出与推导 •2000年,Richman和Moorman在生理信号分析中提出样本熵(SampEn),通过排除自匹配和概率比值对数化两项改进,实现对短序列的稳健估计,成为目前复杂性量化的主流指标。 •设原始时间序列为= ݔ , 2 ݔ , 1 ݔ⋯ , ܰݔ,此处引入三个核心参数: ①嵌入维度m:子序列的长度(通常取2或3),用于捕捉序列的局部动态特征。②延迟时间τ:子序列中相邻元素的时间间隔(通常取1,即连续元素),平衡信息冗余与特征捕捉能力。③阈值r:判断子序列相似性的临界值(通常取序列标准差的x倍,例如0.1~0.2倍),控制相似性判断的严格程度,r越小判断越严格,能区分更细微的差异。 样本熵(SampEn)的直观理解与举例(1) •样本熵的本质是:计算“数据片段延长后,还能保持相似” 的概率,再通过对数把这个概率转换成衡量 “混乱度” 的数值。 •简单说,步骤就 4 步(用“10 天心跳数据”举例): 1.先把数据拆成一个个 “短片段”(比如每个片段包含 2 个连续心跳值,叫 “2 维片段”);2.统计所有片段里“长得像”的成对数量(比如片段 1 和片段 3 的心跳变化趋势差不多,就算一对);3.再把每个片段 “加长 1 个数据”(变成“3 维片段”),同样统计“长得像”的成对数量;4.用“加长后相似的数量 ÷ 原来相似的数量”得到概率,最后用对数算出样本熵——概率越小,熵值越大(数据越乱)。 样本熵(SampEn)的直观理解与举例(2) •样本熵的核心公式是:SampEn(m, r, N) = -ln(A/B) •先解释括号里的 3 个“参数”(相当于计算时的“设定条件”): 1.m:原来的片段长度(比如 m=2,就是先拆 2 个数据为一个片段); 2.r:判断 “相似” 的标准(比如 r=0.2× 数据标准差,简单说就是“差异不超过数据整体波动的20%,就算相似”); 3.N:原始数据的总个数(比如 10 个心跳数据,N=10)。 •再解释公式里的 A 和 B(核心是“相似片段的数量”): 1.B:m 维片段(原来的短片段)中,“相似成对” 的总数量 ÷ 所有可能成对的总数量(简单说就是“原来片段的相似概率”); 2.A:把片段加长到 m+1 维(比如从 2 维变 3 维)后,“相似成对”的总数量 ÷ 所有可能成对的总数量(“加长后片段的相似概率”); 样本熵(SampEn)的直观理解与举例(3) •假设用 10 个心跳数据(N=10),设定 m=2(2 个数据为一个片段),r=0.2× 数据标准差: 1.拆 2 维片段:能拆出 8 个片段(1-2、2-3、3-4…8-9、9-10); 2.算 B:这 8 个片段中,假设有 6 对 “相似”,所有可能成对的数量是 8×7=56,所以B=6/56≈0.107; 3.加长到 3 维片段:能拆出 7 个片段(1-2-3、2-3-4…7-8-9、8-9-10); 4.算 A:这 7 个片段中,假设有 2 对 “相似”,所有可能成对的数量是 7×6=42,所以A=2/42≈0.048; 5.算样本熵:SampEn = -ln (0.048/0.107) ≈ -ln (0.449) ≈ 0.801。 样本熵公式推导 •步骤1:重构݉维嵌入向量 •为捕捉序列的动态特性,需将一维序列转换为高维嵌入向量。这一过程基于Takens延迟嵌入定理,该定理揭示了通过延迟坐标可以从单变量观测中重构高维动力系统的拓扑结构。对序列中的每个时间点݅,我们构造一个包含历史信息的݉维向量: •该嵌入过程将时间信息转化为空间信息。在原始一维表示中,不同时刻的数值只是孤立的观测点;而在嵌入空间中,它们组成了描述局部动态模式的向量。Takens定理保证,当嵌入维度足够大(݉݀2 ≥+ 1,݀为原系统维度)时,这种映射能够保留原始动力系统的本质特征,如吸引子的几何形态和Lyapunov指数。虽然金融市场并非严格的低维确定性系统,但局部时间窗口内的价格演化仍表现出一定的结构性,相空间重构能够有效捕捉这种短期动力学特征。 •示例:若݉= 2,߬= 1,序列4ݔ ,3ݔ ,2ݔ ,1ݔ的嵌入向量为:ܺଵଶ=2ݔ ,1ݔ,ܺଶଶ=3ݔ ,2ݔ,ܺଶଶ=4ݔ ,3ݔ,此时有效向量数ܰ௠= 4 − 1 = 3。 样本熵公式推导 •步骤2:定义子序列相似性度量 •在完成相空间重构后,需要定义嵌入向量之间的“距离”来量化相似程度。样本熵采用Chebyshev距离(也称切比雪夫距离或ܮஶ范数)作为度量标准: •选择Chebyshev距离而非更常见的欧氏距离,是源于实践考量。欧氏距离通过平方项会显著放大异常值的影响,单个极端偏差就可能主导整体距离;而Chebyshev距离关注“最坏情况”,要求所有时刻都保持接近,这与时间序列分析中“模式在每个时间点都相似”