您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之二百五十九:基于马氏距离K-Means聚类的价值-成长股分类 - 发现报告

“学海拾珠”系列之二百五十九:基于马氏距离K-Means聚类的价值-成长股分类

2025-12-12吴正宇、严佳炜华安证券坚***
AI智能总结
查看更多
“学海拾珠”系列之二百五十九:基于马氏距离K-Means聚类的价值-成长股分类

主要观点: 分析师:严佳炜执业证书号:S0010520070001邮箱:yanjw@hazq.com ⚫混合算法显著提升聚类稳定性与鲁棒性 K-Means++MD混合算法通过结合K-Means++初始化和马氏距离计算,有效解决了传统K均值对初始质心敏感的局限性。实证表明,该算法将戴维森堡丁指数(DBI)降至1.86,特征标准差锐减至0.03,显著优于基准方法(如K-Means MD的DBI为2.06),确保了聚类结果在投资组合构建中的可重复性与可靠性。 ⚫特征复杂度与分类效果存在权衡关系 1.《重新审视回撤规则:实证反思与框架重 构——学海 拾 珠系 列 之二 百 五十八》 研究通过对比不同财务指标组合发现,仅包含市净率(P/B)和市盈率(P/E)的简约特征集产生最优聚类效果(DBI=0.93,轮廓系数=0.32),而引入增长类指标(如动量、季度增长率)反而降低分类清晰度(如“增长”组合DBI升至1.68)。这表明价值-成长分类应聚焦核心估值比率,避免冗余指标引入噪声。 2.《所有日子并不平等:通过加权历史收益理解动量效应——“学海拾珠”系列之二百五十七》 3.《重审股票投资组合中的持股数量——“学海拾珠”系列之二百五十六》 ⚫纯化组合凸显风格区分与经济意义 基于轮廓系数和距离比率构建的“纯价值”与“纯成长”组合,在2008–2023年间展现出显著的风险调整后超额收益:纯成长组合夏普比率达0.66,最大回撤仅-32.4%,显著优于基准指数。此类组合在行业分布上(如金融股主导价值组合、科技股主导成长组合)亦符合传统风格定义,验证了聚类结果的经济可解释性。 4.《财报季“信息洪流”下的反常行为:投资者如何从细节转向宏观?——“学海拾珠”系列之二百五十五》 5.《海外主动基金业绩基准的设置与纠偏——“学海拾珠”系列之二百五十四》 核心内容摘选自Marc Weibel, Lionel Nyffeler于2025年在SSRN上的文章《Enhancing Value-Growth Stock Classification Using K-MeansClustering with Mahalanobis Distance》。 6.《因子溢价如何随时间变化?——来自一个世纪数据的证据——“学海拾珠”系列之二百五十三》 ⚫风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 正文目录 1引言............................................................................................42文献综述.........................................................................................52.1价值与成长投资的演变..........................................................................52.2定义价值与成长股..............................................................................52.3S&P500价值与成长方法论......................................................................62.4股票能否完全分割为价值或成长?................................................................62.5K-MEANS聚类与马氏距离.........................................................................62.6聚类在金融中的应用...........................................................................73数据............................................................................................73.1数据收集与样本构建...........................................................................73.2关键指标.....................................................................................83.3标准化与数据转换.............................................................................83.4处理缺失数据.................................................................................93.5相关性分析..................................................................................103.6交易模拟调整................................................................................114方法论.........................................................................................114.1数据处理与特征选择..........................................................................114.2K均值聚类...................................................................................124.3K均值++初始化...............................................................................134.4使用马氏距离的K均值++(K-MEANS++MD)........................................................144.5聚类验证指标................................................................................164.6纯化方法论..................................................................................174.7投资组合构建与交易模拟......................................................................185实证结果........................................................................................195.1K均值聚类方法的鲁棒性分析...................................................................195.2特征复杂性..................................................................................215.3聚类结果的解读..............................................................................235.4绩效评估....................................................................................256结论...........................................................................................28风险提示:........................................................................................28 图表目录 图表1文章框架...........................................................................................................................................................................................................4图表2指标缺失值数量.............................................................................................................................................................................................9图表3正态分位数转换后的QQ图..................................................................................................................................................................10图表4财务指标的分布:偏度、峰度及JARQUE-BERA检验统计量...................................................................................................10图表5转换后财务指标的相关矩阵..................................................................................................................................................................11图表6欧氏距离(ED)的K均值聚类算法..................................................................................................................................................12图表7马氏距离(MD)的K均值聚类算法..................................................................................................................................................1