您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国联民生证券]:随机森林模型在REITs基金中的应用 - 发现报告

随机森林模型在REITs基金中的应用

2025-08-06 - 国联民生证券 Bach🐮
报告封面

随机森林模型在REITs基金中的应用 |报告要点 随机森林是一种基于多个决策树的集成学习技术,它通过构建多个决策树并将它们的预测结果集成起来。随机森林模型因其较好的准确性和适应性,在量化分析和金融领域中具有较高的应用价值。REITs随机森林模型策略每周选排名前5的基金等权配置,截至2025年7月18日,其年化收益率39.76%,超额收益率40.01%,年初至该日策略组合收益率及超额收益分别为73.81%、60.49%。 |分析师及联系人 金融工程定期随机森林模型在REITs基金中的应用 ➢随机森林模型介绍 相关报告 随机森林模型的核心思想是通过构建多个决策树模型,并将它们组合起来进行预测。随机森林模型因其较好的准确性和适应性,在量化分析和金融领域中具有较高的应用价值。随着相关技术的不断进步和完善,随机森林有望在未来的金融市场分析中发挥更大的作用。 1、《两融资金持续净流入,红利增强策略表现优异—周报2025年8月1日》2025.08.032、《衍生品择时出现多头信号,价值中性策略表现优异—周报2025年7月25日》2025.07.27 ➢因子选择 随机森林模型对单因子影响力要求较高,我们通过IC作为单因子进行测试标准,筛选IC绝对值大于2.5%的因子用于后续模型拟合。 ➢参数敏感性分析 随机森林模型具有大量的参数,每个参数的调整都会影响模型的复杂度、预测能力和计算效率,我们通过样本内10折交互验证、网格搜寻等方法,确定参数在样本内对模型准确率的影响,最终选定包括树的数量、叶节点最小样本数、树最大深度等参数取值。 ➢持仓选定 随机森林模型中,我们通过每期回归给出的未来一周涨跌幅高低,每周选定最高的5只基金作为最终持仓。 ➢绩效表现 截至2025年7月18日,REITs随机森林模型策略年化收益率39.76%,超额收益率40.01%,夏普率2.82。年初至2025年7月18日,策略组合收益率73.81%,超额收益率60.49%。 ➢模型评价 随机森林模型具有较好的泛化能力,能有效处理包括高维数据和缺失数据在内的复杂数据类型,并且其作用方式易于理解,类似于传统的投资决策过程;其缺点在于对模型收益率变化的敏感度不够高,且模型复杂性和计算成本较高。 风险提示:量化模型存在失效风险,信息仅供参考,不构成投资建议。市场存在波动性和不确定性,投资需谨慎。过去的业绩表现不能保证未来的收益,投资者应根据自身的风险承受能力和投资目标独立判断并做出决策。 扫码查看更多 Aaaaad 正文目录 1.随机森林模型......................................................41.1决策树......................................................41.2随机森林....................................................62.样本选定..........................................................72.1数据获取....................................................82.2特征和标签提取..............................................82.3特征预处理..................................................82.4训练集合交叉验证集合成......................................82.5交叉验证调参................................................82.6样本外测试..................................................82.7模型评价....................................................93.随机森林因子选择..................................................94.随机森林模型构建..................................................94.1参数敏感性分析..............................................94.2模型结果...................................................124.3样本外实际组合模拟.........................................135.随机森林模型评价.................................................145.1随机森林模型优点...........................................145.2随机森林模型缺点...........................................156.风险提示.........................................................16 图表目录 图表1:决策树数据样本举例............................................5图表2:决策树示例....................................................6图表3:随机森林模型示意图............................................7图表4:因子列表......................................................9图表5:决策树数量与RMSE(均方根误差)..............................10图表6:网格搜索交叉验证集结果.......................................11图表7:网格搜索样本外测试集结果.....................................11图表8:最近两期选择的REITs基金及占比(2025年7月7日以及7月14日)13图表9:REITs随机森林策略与中证REITS全收益指数净值以及超额收益率(截至2025年7月18日)....................................................14图表10:REITs随机森林策略历史绩效(截至2025年7月18日)..........14 1.随机森林模型 在机器学习范畴中,随机森林模型是一类极具分量且应用普遍的集成学习手段。其雏形最早可追溯至20世纪90年代,由Tin Kam Ho、Leo Breiman等学者共同提出。这一模型的演进离不开决策树算法的铺垫,在其基础上进行了多方面的革新与完善。如今,随机森林模型已成为解决诸多实际问题的优选方案,在数据挖掘、图像识别、自然语言处理等多个领域都展现出了较好的效能。 随机森林模型的核心逻辑在于搭建多个决策树模型,再将这些模型的预测结果整合起来形成最终判断。在构建单棵决策树时,该模型会随机选取部分特征组成子集,以此削弱特征间的关联性,从而提升模型的泛化性能。最终的预测结论是综合所有决策树模型的结果并进行加权处理后得出的,这也正是集成学习的核心要义所在。 总的来说,随机森林模型的发展经历了不断的改进和优化,成为了机器学习领域中一种重要且强大的集成学习方法。它的应用范围广泛且可靠,为解决实际问题提供了有力的工具和技术支持。随着技术的进一步演进和发展,相信随机森林模型仍将在未来的机器学习研究和应用中发挥重要作用。 下面,我们将从决策树的基本原理出发,深入探究随机森林在REITs选股场景中的具体应用方式。 1.1决策树 决策树(DecisionTree)是一种直观、易于理解的机器学习模型,其结构类似人类做决策时的逻辑推理过程,因形似一棵倒置的树而得名。它既可以用于分类任务(预测离散类别),也可以用于回归任务(预测连续数值),是数据科学中最基础且常用的算法之一。 决策树由以下几个核心部分组成,自上而下形成层级结构: ⚫根节点(Root Node):位于树的最顶端,包含整个数据集,是决策的起点。⚫内部节点(InternalNode):每个内部节点代表一个对特征的判断(如“年龄是否>30岁”“收入是否>5000元”),并根据判断结果将数据分到不同的子节点。⚫叶节点(LeafNode):位于树的最底端,代表最终的决策结果(分类任务中是 类别标签,回归任务中是具体数值)。 ⚫分支(Branch):连接不同节点的线段,代表特征判断的结果(如“是”或“否”)。 决策树构造步骤: 1.选择最佳特征 -使用信息增益或基尼指数来选择最佳特征。在本例中,我们使用信息增益。 -计算各个特征的信息增益。例如,计算市场情绪的信息增益。 计算样本集的熵(Entropy): 其中,𝑝𝑖是类别i的概率。 计算特征“市场情绪”的条件熵: 然后计算信息增益: 2.数据划分 -选择信息增益最大的特征进行划分,例如假设“市场情绪”是最佳特征。 -根据“市场情绪”将数据集分成两个子集:乐观、悲观。 3.递归构造子树 -对每个子集,重复上述过程,选择新的最佳特征进行进一步划分。例如,对于“乐观”这个子集,可能选择“公司财报”作为下一个最佳特征;对于“悲观”这个子集,则选择“行业趋势”作为下一个最佳特征。 资料来源:国联民生证券研究所整理 1.2随机森林 1.2.1随机森林模型的基本原理 随机森林是一种集成学习方法,它通过构建多个决策树并将它们的结果进行投票或平均,以得到最终的预测。这种方法的主要优点是,通过集成多个模型,随机森林具有较高的准确性、一定的抗过拟合能力、并能提供特征重要性评估等特点,它在处理高维度数据、数据中存在较多噪声时有较为优异的表现 随机森林模型的建模过程和关键参数。随机森林的建模过程主要包括以下步骤: 步骤一:从原始数据集中使用自助采样法(bootstrapsampling)抽取样本,形成多个子数据集。 步骤二:对每个子数据集,构建一个决策树。在每个节点,随机选择一部分特征 进行分裂。 步骤三:重复以上步骤,直到生成指定数量的决策树。 资料来源:国联民生证券研究所整理 因此,随机森林的关键参数主要包括: 树的数量:决策树的数量越多,模型的性能通常越好,但计算成本也会相应增加。 随机选择的特征数量:在每个节点进行分裂时,随机选择的特征数量。通常,随机选取的特征数量等于总特征数量的平方根或对数值。一般来说,特征数量的选择会影响模型的偏差和方差。 1.2.2随机森林模型的内在机理 随机森林模型的核心机制主要体现在其随机性和集成性两个方面。随机性源于对样本和特征的随机抽取,这使得每棵决策树都具有独特性,从而增强了模型的多样性。集成性则表现在通过对多个决策树的预测结果进行投票或平均,来综合得出最终结果,这一过程有效地减少了模型的方差,提高了预测的稳定性和准确性。 为了实现随机森林模型的高效预测,我们需要提供有意义的数据,并确保森林中的每棵树能够独立作出判断。这样,在它们共同决策时,就能生成一个既准确又可靠的结果。 另外,随机森林模型还具备一定的可解释性,能够通过分析特征的重要性来理解模型的预测依据。这些特性使得随机森林模型在许多实际问题中都有很好的应用效果。 2.样本选定 2.1数据获取 1)测试区间内上交所、深交所全部未停牌REITs基金,截至2025年7月18日共68只基金2)样本内训练区间:2021年7月1日至2024年6月