行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

随机森林模型在REITs基金中的应用

2025-08-06 - 国联民生证券 Bach🐮

随机森林模型在REITs基金中的应用

随机森林模型介绍

随机森林是一种基于多个决策树的集成学习技术，通过构建多个决策树并将它们的预测结果集成起来。其核心思想是搭建多个决策树模型，并将它们组合起来进行预测，通过集成多个模型提高准确性、抗过拟合能力，并提供特征重要性评估。

样本选定

数据获取：测试区间内上交所、深交所全部未停牌REITs基金，截至2025年7月18日共68只基金；样本内训练区间为2021年7月1日至2024年6月30日；样本外测试区间为2024年7月1日至2025年7月18日。
特征和标签提取：每周最后一个交易日计算因子暴露度作为样本特征，计算到下一周的收益率为因子得分。
特征预处理：对每个截面因子取z-score进行标准化，缺失值用前值填充。
训练集合交叉验证集合成：训练集为2021年7月1日至2024年6月30日，采用10折交互验证方法或每次随机选取90%的样本作为训练集，余下10%的样本作为交叉验证集。
交叉验证调参：通过样本内交叉验证得到平均的预测准确率，选取准确率最高的一组参数作为最优参数。最终选定最大深度为15，叶节点最小样本数为15作为最终参数。
样本外测试：确定最优参数后，在样本外以每周最后一个交易日得到的特征作为模型输入，得到每个样本当期因子得分，选取得分最高的top5组合构建策略，以下一个交易日收盘价为调仓价格，进行策略测试。

随机森林因子选择

采用因子IC作为筛选标准，选取截面因子IC绝对值在2.5%以上的因子作为模型因子拟合。
选定因子列表包括：...

随机森林模型构建

参数敏感性分析：
- 决策树的数量：在1到200范围内对n进行测试，通过10折交互验证方法，选择均方根误差（RMSE）局部最低点n_estimators=100进行后序测试。
- 特征个数（max_features）：此次模型中，筛选过后的因子合计27个，故不做特殊限制。
- 树的最大深度（max_depth）：不做特殊限制。
- 叶节点所需最小样本数（min_samples_leaf）：结合树的最大深度（max_depth）常见取值，通过网格搜寻找到相对较优的参数。最终选定最大深度为15，叶节点最小样本数为15作为最终参数。
模型结果：样本内拟合结果为均方误差（MSE）为0.00044，均方根误差（RMSE）为0.021，决定系数（R²）为0.501。
样本外实际组合模拟：
- 组合属性：每周最后一个交易日通过随机森林模型选择模型得分最高的5支REITs基金构建组合，下周第一个交易日调仓。
- 组合绩效表现：截至2025年7月18日，REITs随机森林策略年化收益率39.76%，超额收益率40.01%，夏普率2.82。年初至2025年7月18日，策略组合收益率73.81%，超额收益率60.49%。

随机森林模型评价

优点：
- 非线性关系捕捉
- 鲁棒性
- 特征重要性评估
- 处理高维数据
- 适应性强
- 可解释性
- 可拓展性
缺点：
- 复杂性和计算成本
- 模型解释性
- 超参数调整
- 过拟合风险
- 数据不平衡处理

风险提示

量化模型存在失效风险，信息仅供参考，不构成投资建议。市场存在波动性和不确定性，投资需谨慎。过去的业绩表现不能保证未来的收益，投资者应根据自身的风险承受能力和投资目标独立判断并做出决策。

随机森林模型在REITs基金中的应用 |报告要点随机森林是一种基于多个决策树的集成学习技术，它通过构建多个决策树并将它们的预测结果集成起来。随机森林模型因其较好的准确性和适应性，在量化分析和金融领域中具有较高的应用价值。REITs随机森林模型策略每周选排名前5的基金等权配置，截至2025年7月18日，其年化收益率39.76%，超额收益率40.01%，年初至该日策略组合收益率及超额收益分别为73.81%、60.49%。 |分析师及联系人金融工程定期随机森林模型在REITs基金中的应用 ➢随机森林模型介绍相关报告随机森林模型的核心思想是通过构建多个决策树模型，并将它们组合起来进行预测。随机森林模型因其较好的准确性和适应性，在量化分析和金融领域中具有较高的应用价值。随着相关技术的不断进步和完善，随机森林有望在未来的金融市场分析中发挥更大的作用。 1、《两融资金持续净流入，红利增强策略表现优异—周报2025年8月1日》2025.08.032、《衍生品择时出现多头信号，价值中性策略表现优异—周报2025年7月25日》2025.07.27 ➢因子选择随机森林模型对单因子影响力要求较高，我们通过IC作为单因子进行测试标准，筛选IC绝对值大于2.5%的因子用于后续模型拟合。 ➢参数敏感性分析随机森林模型具有大量的参数,每个参数的调整都会影响模型的复杂度、预测能力和计算效率,我们通过样本内10折交互验证、网格搜寻等方法，确定参数在样本内对模型准确率的影响，最终选定包括树的数量、叶节点最小样本数、树最大深度等参数取值。 ➢持仓选定随机森林模型中,我们通过每期回归给出的未来一周涨跌幅高低，每周选定最高的5只基金作为最终持仓。 ➢绩效表现截至2025年7月18日，REITs随机森林模型策略年化收益率39.76%，超额收益率40.01%，夏普率2.82。年初至2025年7月18日，策略组合收益率73.81%，超额收益率60.49%。 ➢模型评价随机森林模型具有较好的泛化能力，能有效处理包括高维数据和缺失数据在内的复杂数据类型，并且其作用方式易于理解，类似于传统的投资决策过程；其缺点在于对模型收益率变化的敏感度不够高，且模型复杂性和计算成本较高。风险提示：量化模型存在失效风险，信息仅供参考，不构成投资建议。市场存在波动性和不确定性，投资需谨慎。过去的业绩表现不能保证未来的收益，投资者应根据自身的风险承受能力和投资目标独立判断并做出决策。扫码查看更多 Aaaaad 正文目录 1.随机森林模型......................................................41.1决策树......................................................41.2随机森林....................................................62.样本选定..........................................................72.1数据获取....................................................82.2特征和标签提取..............................................82.3特征预处理..................................................82.4训练集合交叉验证集合成......................................82.5交叉验证调参................................................82.6样本外测试..................................................82.7模型评价....................................................93.随机森林因子选择..................................................94.随机森林模型构建..................................................94.1参数敏感性分析..............................................94.2模型结果...................................................124.3样本外实际组合模拟.........................................135.随机森林模型评价.................................................145.1随机森林模型优点...........................................145.2随机森林模型缺点...........................................156.风险提示.........................................................16 图表目录图表1：决策树数据样本举例............................................5图表2：决策树示例....................................................6图表3：随机森林模型示意图............................................7图表4：因子列表......................................................9图表5：决策树数量与RMSE（均方根误差）..............................10图表6：网格搜索交叉验证集结果.......................................11图表7：网格搜索样本外测试集结果.....................................11图表8：最近两期选择的REITs基金及占比（2025年7月7日以及7月14日）13图表9：REITs随机森林策略与中证REITS全收益指数净值以及超额收益率（截至2025年7月18日）....................................................14图表10：REITs随机森林策略历史绩效（截至2025年7月18日）..........14 1.随机森林模型在机器学习范畴中，随机森林模型是一类极具分量且应用普遍的集成学习手段。其雏形最早可追溯至20世纪90年代，由Tin Kam Ho、Leo Breiman等学者共同提出。这一模型的演进离不开决策树算法的铺垫，在其基础上进行了多方面的革新与完善。如今，随机森林模型已成为解决诸多实际问题的优选方案，在数据挖掘、图像识别、自然语言处理等多个领域都展现出了较好的效能。随机森林模型的核心逻辑在于搭建多个决策树模型，再将这些模型的预测结果整合起来形成最终判断。在构建单棵决策树时，该模型会随机选取部分特征组成子集，以此削弱特征间的关联性，从而提升模型的泛化性能。最终的预测结论是综合所有决策树模型的结果并进行加权处理后得出的，这也正是集成学习的核心要义所在。总的来说，随机森林模型的发展经历了不断的改进和优化，成为了机器学习领域中一种重要且强大的集成学习方法。它的应用范围广泛且可靠，为解决实际问题提供了有力的工具和技术支持。随着技术的进一步演进和发展，相信随机森林模型仍将在未来的机器学习研究和应用中发挥重要作用。下面，我们将从决策树的基本原理出发，深入探究随机森林在REITs选股场景中的具体应用方式。 1.1决策树决策树（DecisionTree）是一种直观、易于理解的机器学习模型，其结构类似人类做决策时的逻辑推理过程，因形似一棵倒置的树而得名。它既可以用于分类任务（预测离散类别），也可以用于回归任务（预测连续数值），是数据科学中最基础且常用的算法之一。决策树由以下几个核心部分组成，自上而下形成层级结构： ⚫根节点（Root Node）：位于树的最顶端，包含整个数据集，是决策的起点。⚫内部节点（InternalNode）：每个内部节点代表一个对特征的判断（如“年龄是否>30岁”“收入是否>5000元”），并根据判断结果将数据分到不同的子节点。⚫叶节点（LeafNode）：位于树的最底端，代表最终的决策结果（分类任务中是类别标签，回归任务中是具体数值）。 ⚫分支（Branch）：连接不同节点的线段，代表特征判断的结果（如“是”或“否”）。决策树构造步骤： 1.选择最佳特征 -使用信息增益或基尼指数来选择最佳特征。在本例中，我们使用信息增益。 -计算各个特征的信息增益。例如，计算市场情绪的信息增益。计算样本集的熵（Entropy）：其中，𝑝𝑖是类别i的概率。计算特征“市场情绪”的条件熵：然后计算信息增益： 2.数据划分 -选择信息增益最大的特征进行划分，例如假设“市场情绪”是最佳特征。 -根据“市场情绪”将数据集分成两个子集：乐观、悲观。 3.递归构造子树 -对每个子集，重复上述过程，选择新的最佳特征进行进一步划分。例如，对于“乐观”这个子集，可能选择“公司财报”作为下一个最佳特征；对于“悲观”这个子集，则选择“行业趋势”作为下一个最佳特征。资料来源：国联民生证券研究所整理 1.2随机森林 1.2.1随机森林模型的基本原理随机森林是一种集成学习方法，它通过构建多个决策树并将它们的结果进行投票或平均，以得到最终的预测。这种方法的主要优点是，通过集成多个模型，随机森林具有较高的准确性、一定的抗过拟合能力、并能提供特征重要性评估等特点，它在处理高维度数据、数据中存在较多噪声时有较为优异的表现随机森林模型的建模过程和关键参数。随机森林的建模过程主要包括以下步骤：步骤一：从原始数据集中使用自助采样法（bootstrapsampling）抽取样本，形成多个子数据集。步骤二：对每个子数据集，构建一个决策树。在每个节点，随机选择一部分特征进行分裂。步骤三：重复以上步骤，直到生成指定数量的决策树。资料来源：国联民生证券研究所整理因此，随机森林的关键参数主要包括：树的数量：决策树的数量越多，模型的性能通常越好，但计算成本也会相应增加。随机选择的特征数量：在每个节点进行分裂时，随机选择的特征数量。通常，随机选取的特征数量等于总特征数量的平方根或对数值。一般来说，特征数量的选择会影响模型的偏差和方差。 1.2.2随机森林模型的内在机理随机森林模型的核心机制主要体现在其随机性和集成性两个方面。随机性源于对样本和特征的随机抽取，这使得每棵决策树都具有独特性，从而增强了模型的多样性。集成性则表现在通过对多个决策树的预测结果进行投票或平均，来综合得出最终结果，这一过程有效地减少了模型的方差，提高了预测的稳定性和准确性。为了实现随机森林模型的高效预测，我们需要提供有意义的数据，并确保森林中的每棵树能够独立作出判断。这样，在它们共同决策时，就能生成一个既准确又可靠的结果。另外，随机森林模型还具备一定的可解释性，能够通过分析特征的重要性来理解模型的预测依据。这些特性使得随机森林模型在许多实际问题中都有很好的应用效果。 2.样本选定 2.1数据获取 1)测试区间内上交所、深交所全部未停牌REITs基金，截至2025年7月18日共68只基金2)样本内训练区间：2021年7月1日至2024年6月

点击免费查看完整报告

随机森林模型在REITs基金中的应用