
目前主流量化私募基本采用了不做市场择时、不主动风格择时、超分散持股、机器+人工构建特征、线性+非线性算法特征组合、量化模型不断迭代以及完全程序化交易的基本框架。因此,量化私募筛选需了解更多投资细节,包括量化投资流派、团队合作模式、策略研究能力和投资执行力等。 量化选股投资理念种类繁多,大致可分为学院派模式、金融科技模式与主动量化模式三大类型。学院派更注重“科”,金融科技派更注重“技”,主动量化派更注重“人”。 量化私募团队合作模式主要包括silo PM制和centralized book制。 Silo PM制下,特征挖掘存在竞争优势,除核心PM以外的团队离职率对产品影响较小;centralized book制下,特征组合和算法交易上具备比较优势,策略迭代能力更强。 量化私募通常在特征挖掘、特征组合、组合优化以及算法交易中的某一模块具备竞争优势。在不同市场环境以及不同的投资模式下,各个模块的重要性也不尽相同。例如,当市场有效性极弱时,特征挖掘最为关键,一个好因子通常能带来非常不错的收益风险比;在基金规模不断扩大时,算法交易能够大幅降低不断增长的冲击成本;当策略逐渐低频化时,组合优化的价值凸显;当策略较为拥挤时,风险敞口管理更加重要。 量化私募交易频繁,我们需要了解量化私募是否实现了实验环境和生产环境的分离,具备完善的交易指令管理体系;除此之外,量化模型无法考虑到未来所有情况,因此我们需要了解量化私募历史的突发事件应对经验;最后,IT基础建设支持重要性不言而喻。 1.量化选股投资简史 量化选股投资理念种类繁多,大致可分为学院派模式、金融科技模式与主动量化模式三大类型。 学院派模式:20世纪70年代,量化投资鼻祖BGI(Barclays Global Investors)发行了全球首只量化选股产品。凭借其学术背景,BGI的主动和被动产品例如IShares等大获成功,成为全球最大的资产管理公司之一,2009年BGI被贝莱德收购,2008年出版的《Active Portfolio Management》公开了BGI 控制风险获取超额收益的数量方 法,基于此的多因子选股产品被称之为BGI模式,是量化选股领域的学院派 。1998年,学院派对冲基金AQR成立,将行为金融学引入多因子选股,2005年,SmartBeta概念兴起, AQR基于因子投资理念构建了收 费低廉的指数增强产品 ,其中价值风格是AQR主要投资风格。2008年 金融危机后,BGI海外人才归国发展,BGI模式在国内开始流行。 在BGI模式快速崛起的同时,自20世纪80年代起,美国也涌现了一批其他模式的量化对冲基金如Renaissance等,如今同样成长为量化巨头。 金融科技模式:代表包括Renaissance、TwoSigma、Worldquant等,采用系统化投资框架,数据驱动的纯定量投资模式。Renaissance以数学和统计为特色,采取了高频统计套利模式,基金只招数学、物理及统计等背景的博士生,他们 认为如果一个交易很有逻辑,那么大概率已经被别 人发现了,因此他们敢于交易没有逻辑但统计显著的策略,通过频繁交易创造超额收益;Two sigma以大数据闻名,拥有71+ PB的数据体量和过万的数据源;WorldQuant则专注于因子开发,寻找高质量的交易信号。目前国内大部分量化私募采用了此类投资模式。 主动量化模式:代表包括Blackrock、D. E. Shaw等,其交易频率较低,策略容量高。Blackrock以严谨的系统化方式分析投资基本面,使主动投资更具科学性;D. E. Shaw同样将系统化投资与主动投资结合形成混合策略,例如量化预测可能没有考虑到疫情等黑天鹅事件的影响,混合策略有助于减少预测误差,更具灵活性。 海外量化基金虽各有特色,但拥有共同的量化基因:通过金融与科技的结合实现投资流程系统化、投资组合分散化,交易执行纪律化。凭借系统化、分散化、纪律化的竞争优势,头部量化基金管理规模不断扩大、投资策略愈发丰富,上述不同类型策略均有涉猎、投资范围也从权益、债券扩大到另类资产。根据海外学者研究(《Factor Features: Not Your “90s Quant”》),截止2019年Q2,美国量化基金的规模占美股总市值的比例达到接近9%,量化基金整体的规模大约为3.3万亿美元。 量化基金发展绝非一帆风顺,历史上每一次极端风格的演绎对于量化管理人都是极大的考验。AQR创始人阿斯内斯曾写信给投资者说:任何一个策略都不会很容易,市场上没有容易钱。如果一个策略可以躺着赚钱,那它一定会很快被套利走。任何持续、长期能挣钱的因子,都是时不时会让你非常疼一下。 2000年互联网泡沫时期,以价值为导向的AQR市场中性策略遭遇巨大亏损,业绩下降近40%,但AQR依旧坚守价值,不久互联网泡沫破灭,价值风格收益大涨,AQR一战封神。2008年,一度严重亏损,在巨大压力下,创始人西蒙斯选择干预量化模型,主动减仓,遗憾错失了市场反弹后的收益。 Renaissance也 国内量化私募的发展晚于海外,大致可分为四个阶段。 图1国内量化私募发展回顾 2005年至2009年萌芽期:2004年量化公募基金光大保德信成立,2006年深圳天马资产管理的深国投·天马发行,但受制于量化工具缺乏、股票数量有限,以分散化投资为特点的量化投资难以施展其优势。 2010年至2014年探索期:2010年4月沪深300股指期货挂牌上市,量化策略开始拥有对冲工具,由于小市值风格的异常强势以及股指期货长期升水,绝对收益量化策略开发难度不大,基于学院派BGI模式的量化策略表现优异,量化私募发展进入小高潮。 2015年至2018年蛰伏期:2014年末,沪深300指数高歌猛进,大市值风格崛起,而大量暴露于小市值风格的量化基金损失惨重,许多成立不久的量化产品面临清盘,2017年量化私募再度面临新的挑战:A股市场出现了极端的一九分化,期间分散化投资优势荡然无存,量化私募产品表现不尽人意,大量产品面临缩水。在当时的不利环境下,以高频策略和机器学习为特色的金融科技模式成为破局之法,基金规模迅速扩张。 2019年至今的过热期:政策方面量化私募迎来春天,2019年6月,证监会发布公募基金转融通业务指引,不久交易所公告两融标的扩充到1600只,再次丰富融券券源的种类和规模。标的证券的扩容有助于改善股票的流动性和波动率,为T0交易策略提供了更广阔的空间,扩大了配对交易的股票池,进一步丰富了量化交易策略;市场方面,股票分化成和成交量的连续攀升成就了丰厚的ALPHA收益空间。量化私募规模借此契机得以快速扩张,截止2021年年末,百亿量化私募超过100家,量化私募进入万亿时代。 2.如何理解量化选股策略收益和风险? 表面看,量化选股策略收益主要来自于基本面ALPHA、高频量价ALPHA以及T0交易。但从交易行为来看,上述三种收益均来源于非有效市场中投资者的行为偏差(BIAS)。中长线投资者的行为偏差如保守性偏差等带来了基本面ALPHA;短线交易者的行为偏差如后悔厌恶等造就了高频ALPHA;交易员的行为偏差以及T+1制度产生了T0收益。 根据行为金融学理论,投资者的行为偏差可分为认知上的偏差和情绪上的偏差。认知上的偏差可以通过学习和训练规避,但情绪偏差无法消除。 从 2008年金融危机中的经验来看 ,一旦出现回撤,量化传奇西蒙斯也未 能克服情绪偏差选择不干预策略运行。因此,在主动投资主导的市场中,量化选股策略超额收益可能衰减,但不会消失。 如同价值投资收益存在周期性一样,量化策略ALPHA收益本身也存在周期性。随着投资者结构变化、策略拥挤度提升、市场成熟度提高,量化模型存在失效风险;当市场成交量萎靡、个股走势趋同、风格快速切换时,量化策略面临较高的投资风险。 当前A股市场新增开户活跃,成交量破万亿成为常态,散户交易维持高位,市场属于弱有效市场,因此在投资者结构发生变化前,量化选股依然处于不容错过的时代红利期,较高的投资胜率和预期收益率是当前国内量化选股产品的核心竞争优势,从海外经验来看,量化策略ALPHA断崖式消失可能性不大,长期来看,量化选股策略收益大概率缓慢衰减至合理区间。 图2 A股账户新增开户数 3.量化选股策略主流做法 当前主流量化私募选股流程可分为四大模块:特征挖掘、特征组合、组合优化以及交易算法。通过四大模块量化私募实现了从原始数据至真实下单的程序化交易,四大模块共同构成了量化选股私募的竞争壁垒。 图3量化选股流程 3.1.特征挖掘 特征挖掘的质量与数量直接决定了策略收益的上限,而模型和算法只是逼近这个上限而已。如图所示,特征挖掘模块包括特征设计、特征处理以及特征监控等流程。特征挖掘的难点在于其不仅以计算机技术为基础,更考验量化团队的投资能力。高质量的特征反映的是团队对A股市场宏观或者微观层面独到且深入的理解。 图4特征挖掘流程 如下图所示,特征挖掘模块大致可分以下为四个阶段。 图5特征挖掘发展 初代特征常常与市场风格具有较高的相关性,其特征可分为估值、盈利、成长、动量、流动性和波动率等几大类。此类特征对股票预期收益率解释力度大,但投资逻辑较为朴素,特征同质性较高,常常是量化产品回撤的原因,例如2014年小市值风格回撤、2019年低估值风格回撤、2021年年末流动性风格回撤,因此量化投资者更乐于将此类特征当作风险管理的手段。 二代特征挖掘借助遗传规划、神经网络等机器学习技术实现特征的自动挖掘,在高频量价领域机器挖掘特征具有天然的优势,标准化的数据使得挖掘算法能够突破人类思维局限性,挖掘出人脑难以构建的特征,然而特征自动挖掘技术也存在四个难点:生成因子的过拟合(样本外存活率过低)问题、生成因子的高线性相关问题、因子非线性问题以及因子生命周期不确定问题。如何解决上述四个问题是区分特征自动挖掘技术优劣的关键。 图6遗传规划流程 前两代特征挖掘以寻找对股票收益具有线性解释力的特征为主,而当市场主流特征组合建模从线性模型转为非线性模型时,特征挖掘不再局限于线性因子,企业性质、上市时长等非线性特征也成为了有用的增量信息,此类特征单一预测能力远弱于前两代特征,但是其数量巨大,通过特征组合建模,此类特征得以聚沙成塔,也能够形成有效的收益预测。 图7股票特征示意 近年来,在量化策略趋同的背景下,某些量化私募主动转型开始第四代以另类数据为核心的特征挖掘,从非标数据中寻找企业基本面变化的代理变量。 图8另类数据分类 总结来说,特征挖掘整体呈现在频率上由低到高、广度上由宽到窄、深度上由浅入深的发展趋势。 3.2.特征组合 特征组合技术是量化选股私募的核心技术壁垒,特征组合技术的发展与使用的特征种类息息相关,为了更好契合特征的数据特点,特征组合同样可以分为以下四个阶段。 图9特征组合分类 传统量化模型以低频线性因子为主,因而初代特征组合采用线性回归或者等权的方式,作为白箱模型,线性回归操作简单,易于理解,预测效果稳健,因而线性回归目前仍是以基本面因子为主或擅长低频交易的量化私募喜爱采用的特征组合方式。 伴随高频量价数据的广泛应用,第二代特征组合方式为以XGBoost为代表的机器学习算法。XGBoost最早由2014年3月陈天奇博士提出,是目前最为成功的树形算法之一,号称“数据科学比赛夺冠的必备大杀器”,横扫机器学习竞赛罕逢敌手。因为量价因子常常存在“余弦形”预测能力,所以量价模型更适合非线性组合方式,在众多机器学习算法中,XGBoost算法同样在金融数据上大放异彩,其收益预测表现不仅超越线性回归,且显著优于传统机器学习算法。 图10量价因子非线性预测力 图11树形算法发展 集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。三代使用集成学习进行特征组合主要有两方面的原因,一是XGboost不再是非线性特征组合的唯一选择,CatBoost、LightBGM、深度神经网络等算法同样优秀,集成学习