您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:高频因子跟踪:Sora模型有望进一步提升投研生产力 - 发现报告

高频因子跟踪:Sora模型有望进一步提升投研生产力

2024-02-19高智威、王小康国金证券S***
高频因子跟踪:Sora模型有望进一步提升投研生产力

Sora模型横空�世,投研生产力有望进一步提升 Sora模型本质是基于DiffusionTransformer结构实现的,其中的Diffusion结构能够通过对图片加入噪声进行学习并进一步去除噪声的方式来实习图片生成的功能。与文本Condition的结合能够使模型得到文生图的效果。而Sora所用Diffusion是基于Transformer架构来实现的,该架构在Patchify层将图像切分成多个patches,转换为序列后作为Transformer的输入,后续再叠加Decoder部分预测噪声实现Diffusion过程,得到一个清晰的视频帧。 该模型的出现除了能够利好图像创作、视频创意等领域外,同样能够在分析师的路演、电话会议,基金经理的路演、投资者宣导等工作中发挥其优异的视频表达效果,从而给受众更好的视听体验,帮助解放投研工作的生产力。而在投研过程中,我们可以充分发挥Diffusion出色的图像识别能力,将上市公司相关图片投喂模型后,帮助投资者快速了解公司的产品、生产状态、环境地理条件等,节省投研人员时间。而若将K线图投喂给模型,能够帮助投资者快速掌握常见技术指标、当前量价信息的潜在投资机会,降低量价分析的门槛。 今年以来高频&基本面共振组合超额收益4.71% 我们对前期挖掘的高频选股因子进行跟踪测试,发现因子在样本外整体表现出色。就本周表现来看,价格区间因子多头超额收益率1.77%,价量背离因子0.24%,遗憾规避因子1.03%,斜率凸性因子0.12%。本月以来,价格区间因子多头超额收益率为2.30%,价量背离因子0.13%,遗憾规避因子0.93%,斜率凸性因子1.08%。今年以来高频因子表现整体都比较优秀,价格区间因子多头超额收益率2.74%,价量背离因子-0.37%,遗憾规避因子2.16%。斜率凸性因子表现欠佳,多头超额收益率0.30%。 其中价格区间因子衡量股票在日内不同价格区间成交的活跃程度,能体现出投资者对于股票未来走势的预期。该因子展现出了较强的预测效果,今年以来表现比较稳定。价量背离因子主要衡量股票价格与成交量的相关性,一般而言相关性越低,未来上涨的可能性越高。但该因子近几年表现一直不太稳定,多空净值曲线趋近走平,不过今年超额收益处于历史较高水平。遗憾规避因子通过考察股票当天被投资者卖出后反弹的比例和程度,展现了较好的预测效果。该因子样本外超额收益稳定,表明A股投资者的遗憾规避情绪依然会显著影响股价的预期收益。而斜率凸性因子则从投资者耐心与供求关系弹性的角度出发,刻画订单簿的斜率和凸性对预期收益的影响。 我们将三类高频因子首先等权合成后构建出了高频“金”组合中证1000指数增强策略,该策略年化超额收益率11.02%,超额最大回撤为6.04%。本周录得1.22%的超额收益,本月以来超额收益为2.00%,今年以来超额收益为2.31%。 为考虑进一步增强策略的业绩表现,我们将高频因子与三个比较有效的基本面因子进行等权合成构建出了高频&基本面共振组合中证1000指数增强策略,该策略在样本外超额收益稳定。本周录得1.18%的超额收益,本月以来超额收益为1.75%,今年以来超额收益率为4.71%。截止到本周,该策略的年化超额收益率为16.12%,超额最大回撤为4.22%。 风险提示 1.以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。 2.策略依据一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、OpenAI发布SORA,或将进一步提升投研人员生产力4 1.Sora模型基本原理介绍4 2.Sora模型在投研领域应用展望5 二、高频因子超额收益概览5 三、各类高频因子近期表现跟踪6 1.高频价格区间因子6 2.高频量价背离因子7 3.遗憾规避因子9 4.斜率凸性因子11 四、基于基本面因子与高频因子构建的中证1000指数增强策略表现13 附录一:高频“金”组合中证1000指数增强策略本周持仓列表15 附录二:高频&基本面共振组合中证1000指数增强策略本周持仓列表16 风险提示17 图表目录 图表1:LatentDiffusion模型结构示意图4 图表2:DiT(DiffusionTransformer)模型架构示意图5 图表3:各大类高频因子近期在中证1000指数成分股的选股表现5 图表4:价格区间细分因子近期在中证1000指数成分股的收益表现6 图表5:价格区间细分因子最近一周在中证1000指成分股的收益表现6 图表6:价格区间因子净值曲线7 图表7:价格区间因子近期在中证1000指数成分股的收益表现7 图表8:量价背离细分因子近期在中证1000指数成分股的收益表现8 图表9:量价背离细分因子最近一周在中证1000指成分股的收益表现8 图表10:量价背离因子净值曲线8 图表11:量价背离因子近期在中证1000指数成分股的收益表现9 图表12:遗憾规避细分因子近期在中证1000指数成分股的收益表现9 图表13:遗憾规避细分因子最近一周在中证1000指数成分股的收益表现10 图表14:遗憾规避因子净值曲线10 图表15:遗憾规避因子近期在中证1000指数成分股的收益表现11 图表16:斜率凸性细分因子近期在中证800指数成分股的收益表现11 图表17:斜率凸性细分因子近期在中证800指数成分股的收益表现12 图表18:斜率凸性细分因子净值曲线12 图表19:斜率凸性细分因子近期在中证800指数成分股的收益表现12 图表20:高频“金”组合中证1000指数增强策略净值曲线13 图表21:高频“金”组合中证1000指数增强策略指标13 图表22:高频“金”组合中证1000指数增强策略近期表现14 图表23:高频&基本面共振组合中证1000指数增强策略净值曲线14 图表24:高频&基本面共振组合中证1000指数增强策略指标14 图表25:高频&基本面共振组合中证1000指数增强策略近期表现15 图表26:高频“金”组合中证1000指数增强本周持仓列表15 图表27:高频&基本面共振组合中证1000指数增强策略本周持仓列表16 一、OpenAI发布SORA,或将进一步提升投研人员生产力 1.Sora模型基本原理介绍 近期,OpenAI发布了视频生成大模型Sora,该模型可以通过提示词输出长达60秒的高清视频,效果领先于目前的其他所有视频生成类模型。从披露的信息来看,OpenAI并未使用新的模型结构,与GPT类似的是,Sora基于Diffusion和Transformer结构,扩大模型规模并提供更加丰富的训练数据。我们尝试首先解读下Sora背后的原理: Transformer结构:经历过去年ChatGPT的爆火后,Transformer在处理自然语言任务时的突出能力已经得到了大家的广泛认可,该模型首先将文本中的单词转换为token,将token序列转换成Embedding的向量加上token的位置信息输入模型中。在Encoder部分对每个token添加位置编码信息,基于向量化矩阵生成的QKV得到了Header结构。Encoder和Decoder分别用来进行上下文理解和生成内容,而ChatGPT正是使用了Decoder部分,创造出了强大的生成模型。 Diffusion过程:在图片识别领域也已经大放光彩的DALLE等模型背后都是基于Diffusion模型来实现的。对于一系列高斯噪声,将输入的图片转换成纯高斯噪声(前向过程)。Diffusion能通过学习反转的去噪过程来将该图片复原回原本的图片(逆向过程)。若要实现文生图的功能,需要引入一个文字的condition,并对图片做Encoder从而得到一个图片的Latent表示,然后对Latent做diffusion过程。 图表1:LatentDiffusion模型结构示意图 来源:https://arxiv.org/abs/2112.10752,国金证券研究所 Sora模型:基于上述两个模型,针对视频做与图片类似的处理,可以将视频中的每一帧用一个Encoder转换成Latenttokens。得到token后就能将数据喂入Transformer结构中去理解视频、处理视频。进一步地,模型将latent表征加入噪声,不过此处预测噪声模型不再是大多数Diffusion所用的Unet,而是换成了Transformer结构。该架构左侧输入分别是被加了噪声的Latent表征和condition,在Patchify层中将图像切分成多个大小为p*p的patches,转换为序列后作为Transformer的输入,后续再叠加Decoder部分预测噪声,就能实现Diffusion过程,从一个噪声视频帧得到一个清晰视频帧。 图表2:DiT(DiffusionTransformer)模型架构示意图 来源:https://arxiv.org/abs/2212.09748,国金证券研究所 2.Sora模型在投研领域应用展望 模型所生成的视频在空间细节上的真实程度超出了很多人的预期,预计在图像创作、视频创意等领域会有较大的应用潜力。而在投研领域,我们预计同样能有Sora发挥其能力的空间。去年ChatGPT兴起后不久,就有某分析师构建了基于其个人形象所塑造的AI“替身”,代替其进行路演、电话会议等工作。然而受限于当时大模型在视频领域的水平,在真人替代方面无法做到完全的模拟。随着Sora模型的问世,未来分析师的路演、电话会议,基金经理的路演、投资者宣导等重复工作可以由Sora高度代替,大幅解放投研工作的生产力。 此外,Diffusion模型在图像识别领域的能力在之前的多家厂商公布的模型中已经得到验证,若将上市公司相关的图片投喂给模型进行分析,可以帮助投资者快速了解上市公司的产品、生产状态、行业格局、环境地理条件等,能有效节省投研人员的时间。对于量价投资者而言,图像识别模型同样可以通过学习K线图的方式,快速帮助投资者掌握常见技术指标、当前量价信息所蕴含的潜在投资机会,进一步降低量价分析的门槛。 二、高频因子超额收益概览 过去一周,各类高频因子多头组合在中证1000指数成分股中的表现稳定。其中,价格区间类因子多空收益率5.02%,多头超额收益率1.77%。量价背离因子多空收益率3.13%,多头超额收益率0.24%。遗憾规避因子多空收益率为3.86%,多头超额收益率1.03%。以下为各大类高频因子的周度表现: 图表3:各大类高频因子近期在中证1000指数成分股的选股表现 因子名称 价格区间因子 量价背离因子 遗憾规避因子 本周 5.02% 3.13% 3.86% 多空 本月以来 4.75% 2.71% 4.04% 今年以来 3.24% 6.83% 5.80% 本周 1.77% 0.24% 1.03% 多头超额 本月以来 2.30% 0.13% 0.93% 今年以来 2.74% -0.37% 2.16% 来源:上交所,深交所,Wind,国金证券研究所 注:1.本报告中周频测试的调仓价均为每周最后一个交易日的收盘价,因此与前期深度报告中的测试结果可能会略有差异; 2.本报告中所展示的大类合成因子均为做过行业市值中性化后的因子表现。3.本报告以所有成分股等权配置作为基准计算 超额收益率。 三、各类高频因子近期表现跟踪 1.高频价格区间因子 在前期深度报告《另辟蹊径系列之一:基于高频快照数据的行为追踪因子》中,我们从高频数据的角度探究了市场的日内微观结构。利用三秒的快照数据,发现: 高价格区间成交笔数与成交量因子与股票未来收益呈现显著的负相关性,即股票在日内高价格区间投资行为聚集程度与成交活跃度越低,未来上涨可能性越大。低价格区间平均每笔成交量因子与股票未来收益呈现显著的正相关性,即低价格区间的平均每笔成交量越大,大资金活跃程度越高,股票未来上涨可能性越大。 我们发现高价格80%区间成交量因子(VH80TAW)、高价格80%区间成交笔数因子(