核心观点
- 财报附注数据比传统合并报表中的总量数据更能反映经济实质,提供增量信息。
- 报告对资产负债表、利润表、现金流量表、表外特殊项目及管理层讨论与分析五大附注模块进行拆解,提取23个核心科目、79个细分数据列,覆盖资产质量、盈利结构、现金流、研发与供应链等维度。
- 报告实现了财报下载到数据提取的全流程自动化,采用高频时间切片轮询策略多进程并发下载财报PDF,并建立语义定位、结构清洗、文本提取的全流程自动化提取体系,实现批量财报的高效、精准数据提取。
- 报告引入LLM模型进行语义归纳,将管理层讨论与分析转化为结构化信息,其中gemma3:4b模型在信息完整度与运行效率间取得最优平衡。
- 报告落地投研工具与因子,验证增量Alpha能力,将财报爬虫、数据提取与LLM分析等内容封装为FN Portrait Toolkit,实现财报自动下载、数据解析与可视化画像生成,并基于提取数据构建了财报附注基本面因子,在科创板测试显示因子完整度高、相关性低,可有效提供传统报表外的增量信息。
关键数据
- 报告提取了23个核心科目、79个细分数据列,覆盖资产质量、盈利结构、现金流、研发与供应链等维度。
- 报告对科创板2025年半年报样本进行了批量处理耗时统计,完成全部587份半年报样本的提取累计耗时约为17分钟。
- 研发类财报附注因子在科创板范围内数据完整度均高于80%,其中半数以上因子数据完整度高于90%。
- 研发类财报附注因子整体相关度较低,表明财报附注数据可在合并报表之外,有效提供微观层面的增量信息。
研究结论
- 财报附注数据具有相关度低、可提供增量信息的优势,能够帮助我们挖掘未充分定价的差异化因子。
- 当前上市公司年报的披露日趋规范,财报附注数据完整度虽然不及合并报表数据,但总体缺失值较少,已达到可批量使用的水平。
- 未来将基于财报附注数据,对数据库进行补全,并从成本、盈利、研发、风险等多角度开发新的基本面因子,构建一个完善的银河金工基本面系列数据库与策略体系。