2026年06月11日 BondClaw固收投研系列:构建AI友好数据集-以REITs数据集为例 证券研究报告 张亮分析师SAC执业证书编号:S1450526030001zhangliang1@sdicsc.com.cn REITs披露数据首次可直接查询对比: 叶青联系人SAC执业证书编号:S1450126040005yeqing2@sdicsc.com.cn 数据集将87只公募REITs自2021年以来的公开披露信息已归集为24.9万个结构化数据对象,月度的车流量与通行费收入、季度的出租率与发电量,以及分红、费率等字段均提取覆盖率99.3%,经7轮迭代审计评分96.51%并持续更新。30只REITs具备3年以上纵向分析条件,73只(84.1%)有完整分红记录。 相关报告 通胀研究系列一:内需与通胀为何背离2026-06-05零亿OMO的影响:6月3日公开市场操作点评2026-06-03从7,642家主体看信用修复进度:应收账款偏离度指引内需反弹时点2026-06-01债市周思考:债券要止盈了吗?2026-06-01余额宝破1%:从资金搬家到利率传导的深度拆解2026-05-28 运营数据指向量稳价缩: 数据集中运营数据具有较高价值,产业园13只中10只出租率维持较高水平,但租金是主要挑战——高租金与高出租率不可兼得,以价换量或保价弃量是现实选择,需求端尚无回暖迹象。高速15只中仅1只车流量持续正增长(华泰江苏交控),2只趋势恶化(中金安徽交控、国金中国铁建),货车为主型路段春节后回落确认下行,客车为主型稳态运行但费率承压。能源电价全面微降,补贴退坡叠加市场化改革持续压缩收入端。三类资产共同指向同一宏观信号:量在稳、价在缩,内需探底过程中实体资产收入端普遍承压,区位优势与运营效率是守住现金流的关键变量,规模权重偏低。 结构化数据集为投研洞察创造更多条件: 在AI的辅助下,以往耗费大量人力的数据获取和清洗环节,得到了大幅压缩,但面对更为庞大的数据,投研工作流的重点转向了如何利用数据,人的洞察仍是核心生产力,如何利用AI辅助进行海量的数据分析,成为下一个重点探索方向。 风险提示:数据覆盖不均,指标口径差异,披露模板各异,AI提取误差,数据时滞。 内容目录 1.数据集整体特征.............................................................3 1.1.数据集内容概览.......................................................31.2.规模与覆盖度.........................................................31.3.资产类型与公告结构...................................................41.4.数据内容与质量.......................................................61.5.投研应用价值:瓶颈从找数据到读数据...................................62.构建过程简介...............................................................73.运营数据分析...............................................................83.1.产业园:出租率分化与以价换量的困境...................................83.2.高速公路:流量与费率的分化..........................................103.2.1.三角关系:车流量、通行费收入、单车费率.........................103.2.2.季节性规律:客车与货车的反向效应...............................113.2.3.同比增速分化:增长、修复与恶化三条轨迹.........................123.3.能源:靠天吃饭与补贴退坡............................................133.4.运营数据的投资价值..................................................154.风险提示..................................................................16 图表目录 图1.年度文件量增长轨迹(2021-2026).........................................4图2.九大资产类型的数量与文件量对比..........................................5图3.前十大公告类型的年度分布变迁(2021-2026)...............................5图4.数据集质量五维评估......................................................6图5.资产类型x投研场景适配矩阵.............................................7图6.产业园REITs出租率分布:三梯队分明......................................9图7.产业园出租率vs租金:高价与高位难以兼得................................9图8.产业园出租率变化:3只下降vs 0只上升..................................10图9.高速公路REITs:车流量、通行费收入、单车费率的三角关系..................11图10.高速公路车流量的季节性规律:春节低谷与暑期高峰........................12图11.高速公路REITs车流量YoY走势:分化中的趋势信号........................13图12.能源类REITs发电量对比:规模差距悬殊..................................14图13.利用小时数vs发电量:效率与规模的交叉................................14图14.风电REIT的年际发电量波动:2024到2026走势............................15 表1:各资产类型的核心运营字段一览...........................................3表2:REITs市场扩容节奏(2021-2026).........................................4表3:五大投研场景适用性评估.................................................6表4:高速公路REITs近3期车流量YoY分化....................................12 1.数据集整体特征 我们构建了一套完整、可持续更新的REITs数据集,覆盖87只REITs近五年的公开披露历史。5243份PDF原始材料经解析和结构化提取,产出3429个提取文件和24.9万个数据对象,实现了分散、格式各异、未经整理的披露信息的统一归集与标准化表达,具备跨主体比较、批量聚合、指标分析和持续跟踪的投研价值。 1.1.数据集内容概览 87只REITs按底层资产分9类,运营指标因资产特性差异较大。以下列出各类资产的核心运营字段及其披露频率: 此外,所有REITs的招募说明书和定期报告中均包含费率结构(管理费、托管费、外包服务费)和可供分配金额等分红相关字段,覆盖73只已有分红记录的REITs。财务数据(营业收入、EBITDA、净利润等)覆盖87只全部标的。 运营数据的披露频率由资产特性决定。高速公路因收入直接来自车流量,自2022年底监管建立月度运营数据披露制度以来,15只全部具备连续月度数据。其余资产类型以季度报告(季报、中报、年报)为主要披露节奏,出租率、发电量等指标每季度更新。自2021年首批REITs上市,数据时间跨度从不足1年(2026年新上市REITs)到超过5年(首批11只)不等。 字段体系的设计原则:财务数据统一字段名(便于跨主体比较),运营数据按资产类型保留各自披露口径(不强行统一为单一模板)。同类资产内部可横向对比,跨资产类型的运营指标直接对比意义有限。 1.2.规模与覆盖度 中国公募REITs自2021年6月启航,五年间公告文件量增长近十七倍,增速经历了三轮变化。2021年首批11只仅有72个文件。2022年同比+225%,首个完整运营年度披露集中爆发。此后增速逐步收敛,2023年+96%,2024年+81%。驱动力从新上市转向存量持续披露。2025年1209个文件为历史峰值,占总量的35.3%。 资料来源:国投证券研究所整理,上交所,深交所,WIND,THS 单只REIT文件量分布头重脚轻。全市场均值39.41个,中位数远低于均值,存续越久的REIT数据越厚,2025-2026年新上市REIT仅2-3个文件,扩容期的自然结果。 1.3.资产类型与公告结构 87只REITs按底层资产分9类,信息披露密度差异可达2.6倍。产业园(19只)、消费/商业(17只)、高速公路(15只)合计占58.6%,构成市场主力。能源/新能源(11只)、保障房/租赁住房(10只)、仓储物流(10只)为第二梯队。数据中心、水务、供热处于起步阶段,各自仅1-2只。 高速公路以不足两成数量贡献逾四分之一文件量,需月度披露运营数据。保障房单只文件量偏高,多为2022年上市早期产品。消费/商业数量第二但平均文件量最低,集中上市于2024-2026年。底层运营模式直接决定披露节奏和密度。 资料来源:国投证券研究所整理,上交所,深交所,WIND,THS 1285种原始文档名按含义归类合并为42个标准类别,归类准确率99.83%。同一文件在不同管理人以不同名称出现,例如"2025年第1季度报告"与"2025年第一季度报告",数据流水线在分类环节承担了事实上的标准化职能。 42个类别呈集中分布:前5大类占47.4%,前10大类占69.7%,季度报告652个(19.0%)居主力。运营数据公告在2021-2022年为零,2023年起步(47份),2024年114份,2025年163份,记录了2022年底监管建立月度运营数据披露制度的过程。 资料来源:国投证券研究所整理,上交所,深交所,WIND,THS 1.4.数据内容与质量 数据集密度:24.9万个结构化数据对象分布于各个披露文件,平均每文件约73个对象,覆盖从季度报告财务摘要到月度车流量、招募说明书费率结构的全维度定量信息。"数据对象"指从公告中提取出的每一个独立信息单元(一个表格行、一条键值对记录等),是数据集的基本粒度。 数据集面向AI使用场景设计,这是与传统金融数据库的主要差异。137926条文本数据中,83.67%采用"逐条记录"格式——每条为独立的字段名-字段值对,AI逐条检索如同翻阅字典,新增信息类型直接加记录即可。74.84%的文件同时含表格和文本,AI可交叉对照结构化数字与语义描述,同时读取出租率表格和经营讨论来理解产业园运营全貌。 资料来源:国投证券研究所整理,上交所,深交所,WIND,THS 提取质量经7轮迭代审计,评分96.51%(A级)。覆盖率均值0.9808、中位数1.00,86.07%的文件覆盖率≥95%。关键财务、运营、费率等字段已完整捕获。 最大短板在标准化层面。3651