
2024.06.09 孙雨(分析师) 0755-23976934 基金研究 多任务学习在行业轮动策略中的应用 本报告导读: 多任务学习能够高效训练多个标签,利用标签间的共性学习到通用特征,本文引入多任务学习机制,减少单个任务过拟合的风险,提升模型的泛化能力。 摘要: 相较于单任务学习,多任务学习可以通过参数共享的形式减少单任务学习中的过拟合问题,提升模型泛化能力。多任务学习能够高效训练多个标签,可以利用标签间的共性学习到通用特征,减少单个任务过 拟合的风险,提升模型的泛化能力,同时也能够利用标签间的差异性实现知识动态迁移与协作训练,通过增大训练样本的方式,降低单个任务的训练难度,改善训练结果。 sunyu025238@gtjas.com 登记编号S0880521090002 王继恒(分析师) 0755-23976934 wangjiheng@gtjas.com 登记编号S0880522100003 “固收加”组合5月底增持A股、债券,减持黄金 “固收加”组合5月底增持A股、债券,减持黄金 2024.06.04 组合5月底增持印股,减持美股与红利 2024.06.04 本文通过构建多目标预测模型实现中信一级行业的行业轮动策略,模型较单任务目标预测具有显著的提升。我们采用2013年1月4日至 2023年12月25日的中信一级行业指数数据,构建模型特征值,对中 信一级行业未来一周及未来一个月的收益率相对强弱进行预测,构建 港股投资建议关注优质高分红央企基于中证800的动量策略构建 2024.06.03 2024.06.02 固定交易周期的行业轮动策略,不同交易周期下多目标预测模型行业 轮动策略均优于单目标预测模型。 接下来我们比较了四个常用模型间的效果差异(XGBoost,LightGBM,单任务学习STL,多任务学习MTL)。预测未来一周收益率方面,多任务学习具有明显的优势,能够较准确地预测对应行业 的收益率排序,从而获得层次清晰的分组回测结果,XGBoost和单任务学习次之,LightGBM预测效果较差。预测未来一个月的收益率方面,LightGBM预测效果最优,多任务学习仍旧优于单任务学习,呈现出更强的预测能力。 增持QDII、黄金、大盘价值,减持中小盘、 量化 2024.05.18 基金研 究 专题研 究 证券研究报 告 将决策树模型与神经网络模型结果进行复合,策略稳定性小幅上升。在预测周期为一周的情况下,“XGBoost+多任务学习MTL”的组合模型在一定时间段内具有优势;在预测周期为1个月的情况下,组合模 型均优于XGBoost模型与多任务学习模型。 风险提示:本报告结论完全基于公开的历史数据进行计算,分析结论并不预示其未来表现,也不能保证未来的可持续性,亦不构成投资收益的保证或投资建议;模型假设风险;模型估测不准确风险;部分私 募基金不公布产品业绩,可能导致文中私募统计数据出现偏误。 目录 1.引言3 2.多任务学习3 2.1多任务学习的概念3 2.2损失函数的加权方式4 2.3研究发展现状5 3.多任务学习具有较好的预测效果6 3.1数据准备6 3.2采用硬参数共享结构进行模型训练7 3.3多任务学习行业轮动策略表现良好7 3.3.1多任务学习模型优于单任务学习模型7 3.3.2复合预测模型结果在一定时间段内具有优势9 4.总结10 5.参考文献11 1.引言 多任务学习(MultitaskLearning)神经网络中的一种数据学习方法,能够在同一系统中,学习多个任务的信息,从而在学习过程中共享信息,提高学习效率与任务性能。目前,多任务学习在自然语言处理、语音识别、计算机视觉、人脸识别到药物发现等诸多应用中都已取得了成功,其逐渐渗透到机 器学习的全方位领域。例如,在自然语言处理中,多任务学习在处理文本时,可以同时识别文本中的实体(如人名、地点、组织)和实体之间的关系,通过共享底层表示,模型能够更好地理解实体在文本中的上下文,并提高关系抽取的准确性;多任务学习也可以同时构建问答系统与情感分析模型,同时学习回答关于特定主题的问题,并判断这些问题的情感倾向,这样的多任务设置能够使得模型更好地理解问题的意图与相应的情感内容。 多任务学习能够高效训练多个标签,可以利用标签间的共性学习到通用特征,减少单个任务过拟合的风险,提升模型的泛化能力,改善训练结果。在深度学习的背景下,多任务学习通常是通过硬参数共享或软参数共享来实 现共享结构。硬参数共享架构中,多项任务完全共享特征结构,不同任务的输出层相互独立。在软参数共享中,每一个任务都具有自己的模型与参数,在此基础上增加共享特征模块,实现共享机制。 本文聚焦于多任务学习在行业轮动方面的应用,涵盖多任务学习的基本概念与应用优势,研究发展的现状,测试模型的构建与结果分析。测试模型使用中信一级行业指数,选取自2013年1月4日至2023年12月25日各个 交易日的数据,分别以30个行业指数的未来5日与21日收益率排序作为任务的预测目标,采用硬参数共享机制,训练全连接神经网络,以截面上的未来5日与21日的收益率排序作为标签,模型的损失函数权重设置为两个任务对应的不确定性,伴随模型训练不断更新迭代。 2.多任务学习 2.1多任务学习的概念 多任务学习旨在通过从共享参数中学习多个任务目标,进而提高模型的学习效率和预测精度。而多任务学习在机器学习中的许多应用也非常普遍,从计算机视觉(Kokkinos等,2016)、自然语言处理(Collobert和Weston, 2017)到语音识别(Huang等,2013),都有了新的研究进展。 在深度学习的背景下,多任务学习通常是通过隐藏层的硬参数共享机制或软参数共享机制来实现。硬参数共享是神经网络中最常用的多任务学习方法,由Caruana(1993)提出,是通过所有任务的共享隐藏层进行应用,同 时保留不同任务的特定输出层,降低了训练模型中过拟合的风险。在软参数共享中,每一个任务都具有自己的模型与参数,通过对模型参数之间的距离进行正则化操作,进而提升参数相似程度,如使用L2距离进行正则化 (Duong等,2015),以及使用跟踪范数(Yang和Hospedales,2017)等方法。 图1:硬参数共享结构图2:软参数共享结构 资料来源:国泰君安证券研究资料来源:国泰君安证券研究 多任务学习具有以下的优势,有益于实现各项任务的预测目标,如:隐式数据增强、注意力聚焦、表现偏差、任务正则化等。 隐式数据增强:由于所有任务都存在噪声,当在某一任务上训练模型时,理想情况总是忽略了数据中的噪声,而多任务学习有效地增加了用于训练模 型的样本量。单独学习一个任务总存在对该任务过拟合的风险,一个同时学习两个任务的模型表示更具一般性,而共同学习也可以使模型通过对噪声模式的平均获得更好的表现结果。 注意力聚焦:多任务学习可以帮助模型将注意聚焦到真正重要的特征上,因为其余任务可以为这些特征的相关性或不相关性提供额外的证据。 表现偏差:多任务学习使模型倾向于选择其他任务的偏好,这有助于模型样本外预测,因为一个在足够多的训练任务中表现良好的假设空间,在相同环境中学习新的任务也将具备良好的表现。 任务正则化:多任务学习通过引入一个归纳偏置作为正则化器,对主任务进行正则化,降低了模型的过拟合风险以及模型的复杂性,即模型拟合随机噪声的能力。 2.2损失函数的加权方式 本文采用任务的不确定性作为损失函数的权重,即采用uncertaintyweight方式进行加权。在多任务学习中,损失函数的加权方式对于模型的预测结果有较大的影响,常见的任务损失函数加权方式包含uncertaintyweight, dynamicweightaverage,geometriclossstrategy等。 在研究多任务学习的加权方法中,由于任务的不确定性获取了任务之间的相对置信度,反映出回归或分类任务所固有的不确定性,Kendall等人(2017)提出使用同方差不确定性作为多任务学习的加权损失基础。对于双任务学习模型,给定充分统计量𝑓𝑊(𝑋),使用模型输出结果𝑦1和𝑦2,将可能性定义成输出的分解形式: 𝑝(𝑦1,𝑦2|𝑓𝑊(𝑋))=𝑝(𝑦1|𝑓𝑊(𝑋))𝑝(𝑦2|𝑓𝑊(𝑋)) 在极大似然推导中,将模型的对数似然值最大化,比如在回归问题中,对数似然可以写作一个包含𝜎(模型的观测噪声参数)的高斯似然值。 𝑙𝑜�𝑝(𝑦|𝑓𝑊(𝑋))�−1 2𝜎2 ||�−𝑓𝑊(𝑋)||2−𝑙𝑜�� 假设模型输出是由𝑦1和𝑦2组成,且二者都服从高斯分布,设置多输出模型的最小化目标为损失函数𝐿(𝑊,𝜎1,𝜎2): 𝐿(𝑊,�,�)=−𝑙𝑜�𝑝(�,�|𝑓𝑊(𝑋))�1 ||� −𝑓𝑊(𝑋)||2 1212 2𝜎121 1 +||� −𝑓𝑊(𝑋)||2+𝑙𝑜𝑔�� 2𝜎22212 11 =2�2𝐿1(𝑊)+2�2𝐿2(𝑊)+𝑙𝑜𝑔𝜎1𝜎2 12 其中𝜎1和𝜎2分别代表两项任务的不确定性,在网络中设置为伴随模型训练不断更新迭代的参数,由神经网络学习得到,不确定性越大意味着该任务对模型的贡献越小。𝐿1(𝑊)和𝐿2(𝑊)分别代表两项任务的损失函数,在本文中用对应任务的mse表示。 2.3研究发展现状 除之前介绍的两种共享机制外,目前也有部分研究在深度神经网络中开发了更好的多任务学习机制。在计算机视觉中,Long和Wang(2015)提出了深度关系网络,除了共享层和任务特异层外,将先验矩阵放置在全连接层上, 类似于构造贝叶斯模型,使得模型能够学习子任务之间的关系。图3:深度关系网络(共享卷积和任务特定的全连接层) 资料来源:ADeepRelationshipNetworkwithsharedconvolutionalfullyconnectedlayers 除此以外,Lu等(2016)提出一种自下而上的方法,实现完全自适应的特征共享扩展,在训练过程中,对相同任务进行分组,不断利用贪心方法动态扩展该分支过程。贪心算法的核心思想是在每一步选择中都采取当前最优 的决策,期望通过一系列的局部最优决策达到全局最优解,适用于将问题分解为相互独立的子问题,并且局部最优解能实现全局最优解的情形。 Misra等(2016)提出了cross-stitch网络,在两个独立的模型架构中,允许模型通过学习前一层输出的线性组合,从而确定任务特异层以何种方式学习其他任务共享的特征。该机制不仅仅让网络共享低层特征,还通过 cross-stitch单元动态地以权重分配的方式混合高层特征。cross-stitch单元可视为一个个小矩阵,用于控制不同任务间的特征流动和交互,促进神经网络中多任务间的特征融合与交互,通过精心设计的交叉连接策略优化资源共享,提升模型在多任务学习场景下的表现。 图4:自适应特征共享拓展 资料来源:Wideningprocedureforfully-adaptivefeaturesharing Yang和Hospedales(2016)推广了矩阵分解方法,利用张量分解将模型参数分割成共享层和任务特异层的参数。Ruder等(2017)提出了sluice网络, 该模型推广了硬参数共享机制和cross-stitch网络,以及创建任务层次结构的NLP方法,使模型学习应该共享哪些层与子空间,以及在哪些层学习输入序列的最佳表示。sluice网络的核心在于引入了一种名为sluiceunits的组件,该组件可以视为门控机制,用于调节信息流,每个sluiceunit能够控制从一个任务的特定层到另一个任务的对应层的信息传递量。通过这种端到端的训练,模型能够学习到这些门的最优配置,从而在保持任务间有益共享的同时,避免负面的迁移效应。 图5:双任务的Cross-stitch网络图6:双任务的水闸网络 资料来源:Cro