行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

BondClaw 固收投研系列二：人机协同的 REITs 公告批量搜集实践

2026-04-26 国投证券 Mascower

1. 背景与思路

固收投研中存在大量重复性数据采集工作，如批量下载公告、定期拉齐报告、跨平台比对数据等，这些工作耗时费力，效率低下。
传统方案存在两难：专业爬虫工具开发门槛高、维护成本大；纯手动操作效率低下，容易遗漏。
AI驱动的浏览器操作成为新范式，通过自然语言描述意图，AI自主理解网页内容、拆解操作步骤、执行并获取结果，效率远高于传统方式。
web-data-scraper工具模拟分析师操作方式，发现并解析隐藏的API接口，实现批量数据获取，具备无需预先配置、智能策略选择、自主异常处理、人人可用等特征。

2. 实战过程：23分钟下载50份REITs报告

目标：从巨潮资讯网批量下载全部27只公募REITs的2026年一季报和2025年房地产评估报告。
过程分为五个阶段：
- 第一阶段（约3分钟）：AI像人一样探索网页，识别搜索入口，输入关键词，初步了解网站结构。
- 第二阶段（约5分钟）：AI发现并利用隐藏的API接口，获取全部REITs产品清单，并学习查询公告列表和PDF下载地址的方法。
- 第三阶段（约5分钟）：AI编写脚本，首次批量下载一季报，但遇到编码格式和标签污染问题，经过修复后成功下载。
- 第四阶段（约7分钟）：AI尝试下载评估报告，但遇到标题命名不规范问题，调整策略为“先拉全量、再本地筛选”，人工反馈后，AI定位并修复了匹配逻辑错误。
- 第五阶段（约3分钟）：AI采用“双模式匹配”机制，最终正确下载所有评估报告，并进行成果校验。

3. 成果与数据验证

最终成果：下载50份PDF文件，覆盖26只REITs的一季报和24份评估报告，准确识别出2只未发布报告的产品和1只尚无任何报告的新产品。
异常情况处理：AI主动识别并处理了新上市产品无报告、评估报告与估价报告混淆等异常情况。
文件组织结构：下载的50份PDF文件按照产品维度进行组织，每只产品一个文件夹，文件命名清晰规范。

4. 两个值得关注的细节

突破视觉限制：AI通过发现隐藏的API接口，突破了人工操作的视觉限制，一次性获取了完整的REITs产品清单。
逻辑自愈与人机协作的必要性：AI通过文件大小自检发现异常，但需要人工反馈确认问题，并协助AI定位根因、修复代码，体现了人机协作的必要性。

5. 总结与展望

关键启示：
- AI数据采集已达到实用水平，可自主完成网站探索、API发现、脚本编写、异常处理等环节。
- 人机协作是当前有效模式，AI自主执行提供效率底座，人工在关键时刻提供质控作用。
- API优先策略显著提升效率，AI能发现并利用更优路径。
对固收应用的建议：
- 将重复性数据采集交由AI代理。
- AI结果仍需人工校验。
- 关注合规边界。
当前局限与观察：
- AI对复杂网页结构的理解准确率有待提升。
- 多步骤长链路操作的完成率和错误恢复能力需要更多场景验证。
- 大规模调用下的成本控制需要进一步测试。
下一步优化方向：多Agent并行，通过多个子Agent并行执行任务，大幅缩短整体耗时。

6. 风险提示

有限开源说明：仅开源了项目思路和工作流经验，需要根据实际业务场景进行定制化配置。
AI技术局限性：大语言模型存在幻觉风险，结构化提取结果可能存在遗漏或偏差。
数据采集合规风险：需遵守目标网站的使用条款及相关法律法规。

2026年04月26日 BondClaw固收投研系列二：人机协同的REITs公告批量搜集实践证券研究报告 AI自主完成复杂数据采集，已达实用水平：张亮分析师SAC执业证书编号：S1450526030001zhangliang1@sdicsc.com.cn 固收投研中有大量重复性的数据采集工作——批量下载公告、定期拉齐报告、跨平台比对数据。这些工作单次不难，但数量一上来，分析师的时间就被大量消耗在机械操作上。我们用一个实战案例验证了一条新路径：以巨潮资讯网全部27只REITs的一季报和评估报告为对象，AI在约23分钟内自主完成了50份PDF的下载，覆盖26只产品，人工介入总时长不超过两分钟。对于固收分析人员日常面临的高频数据采集需求，这条路径已经具备实用价值。叶青联系人SAC执业证书编号：S1450126040005yeqing2@sdicsc.com.cn 相关报告一季度经济数据点评：经济平稳开局，经济边际放缓和输入性通胀压力或于二季度集中显现2026-04-19AI辅助固收投研实务系列开篇：信用债复杂场景下，AI嵌入真实研究工作流的标杆案例2026-04-17大数据视角下的信用风险挖掘：以青岛上合控股为例2026-04-16债市周思考：钱多与物价担忧2026-04-133月物价数据点评：PPI转正，关注企业盈利改善情况2026-04-12 AI能突破人工操作的视觉边界，获取人眼看不到的完整数据：本次实战中有一个值得关注的细节：在巨潮资讯网搜索REITs产品时，人工操作只能看到下拉列表中弹出的几条结果，浏览器界面的显示区域严格限制了可见范围。AI在浏览页面的同时，发现了隐藏在背后的数据接口，直接拉取到了全部27只REITs产品的完整清单。这种能力来自我们开发的WebData Scraper工具（开源地址：https://github.com/timyefi/web-data-scraper），其设计思路是"分析师的操作方式+程序的批量处理能力"——先像人一样浏览网站，再通过发现数据接口实现批量获取。当前阶段的务实结论：人机协作是最佳模式： AI负责探索、编码和执行，分析师在关键时刻提供质控判断。案例中评估报告出现了一次误下载，AI通过自检发现了异常，但最终是人工打开文件确认了问题，AI据此快速定位根因并完成修复。这种"AI执行、人判断"的分工，效率远高于纯手工，可靠性也高于完全放权给AI。下一步的优化方向是引入多Agent并行机制——对于巨潮资讯等无需登录的公开数据源，多个AI代理可以同时执行不同任务，采集效率有望成倍提升。对于需要登录的平台（如CEIC、企业预警通），目前各代理的浏览器会话相互隔离，同一账号登录会导致彼此失效，需要通过会话共享等技术优化来解决。这一问题在工程上是可以攻克的，一旦突破，大规模模拟人工方式获取信息将成为可能。风险提示：有限开源说明，AI技术局限性，数据采集合规风险内容目录 1.背景与思路.................................................................31.1.投研中的数据采集痛点.................................................31.2. AI驱动的浏览器操作：一个新范式.......................................31.3. web-data-scraper：我们的解决方案.....................................31.4.本文要解决的问题.....................................................52.实战过程：23分钟下载50份REITs报告.......................................52.1.任务背景与目标.......................................................52.2.第一阶段：像人一样探索网页（约3分钟）...............................62.3.第二阶段：发现背后的API（约5分钟）..................................82.4.第三阶段：编写脚本并首次批量下载（约5分钟）........................122.5.第四阶段：问题诊断与人工反馈（约7分钟）............................132.6.第五阶段：最终修正与完成（约3分钟）................................153.成果与数据验证............................................................163.1.最终成果统计........................................................163.2.异常情况处理........................................................163.3.文件组织结构........................................................174.两个值得关注的细节........................................................174.1.突破视觉限制........................................................174.2.逻辑自愈与人机协作的必要性..........................................185.总结与展望................................................................195.1.本次实战的关键启示..................................................195.2.对固收应用的建议....................................................195.3.当前局限与观察......................................................195.4.下一步优化方向：多Agent并行........................................206.风险提示..................................................................20 图表目录图1.巨潮资讯网搜索REITS产品人工只能看到部分列表，实际背后有完整列表.........4图2.开始按照人浏览网页的方式进行页面学习....................................6图3.AI自己在输入框输入文本进行探索..........................................7图4.过程当中人工干预点击帮助快速进入正确页面................................8图5.开始通过编码方式识别背后的API信息......................................9图6.成功通过背后API解析获得全部REITS产品清单1............................10图7.成功通过背后API解析获得全部REITS产品清单2............................10图8.通过人一样探索具体产品页面来学习搜集机制...............................11图9.通过编码方式解析背后API，获得批量获取方法，并完成计划..................12图10.成功批量下载所有REITS一季报..........................................13图11.自我检查评估报告未全部下载，进一步探索................................14图12.人工反馈了评估报告问题之后开始处理并找到问题..........................15图13.23分钟左右解决问题，完成所有评估报告的正确下载........................16 表1：最终成果统计..........................................................16 1.背景与思路 1.1.投研中的数据采集痛点做过固收投研的人都知道，日常工作中有大量时间花在"找数据"上。写一篇信用资质跟踪报告，可能需要从巨潮资讯下载几十份公告；跟踪城投债的发行情况，要反复登录多个平台检索、比对；做REITs研究，需要把所有产品的季报和评估报告拉齐。这些工作有一个共同特点——单次操作不难，但数量一上来，重复劳动的负担就很重。面对这种需求，传统方案陷入了两个极端。一端是专业爬虫工具：Python+Selenium、Scrapy，功能强大，但开发门槛高、维护成本大，目标网站一改版脚本就可能失效。对大多数没有技术背景的分析师而言，这条路走不通。另一端是纯手动操作：打开网页、选条件、翻页、下载、整理。人人都能做，但效率低下，容易遗漏，而且每次重复任务都要从头来过。两难之间，需要一条中间路径：不要求分析师会写代码，同时能像程序一样高效、可重复地完成数据采集。这条路径的打开，得益于近期AI能力的一个重要突破——让AI自主操作浏览器。 1.2.AI驱动的浏览器操作：一个新范式浏览器自动化正在经历一次范式切换。过去做数据采集，本质上是程序员预先写好每一步精确指令——"点击第3个按钮、在第5个输入框填入关键词、等待2秒后提取表格数据"。这些指令依赖网页元素的代码地址（CSS选择器或XPath），网页一旦改版，地址变了，脚本就废了。借助Anthropic推出的Model ContextProtocol（MCP），AI助手可以直接调用浏览器自动化框架（如Playwright），用户只需要用自然语言描述意图——"打开巨潮资讯网，搜索某公司最近三年的年报并下载"——AI自主理解网页内容、拆解操作步骤、执行并获取结果。定位方式从"代码地址"转向"语义理解"，系统通过理解"找到标题中包含年度报告的链接"来完成任务。即使网页改版，AI也能重新理解页面并适应。对投研的实际帮助，体现在两个维度： ⚫数据采集环节：公告批量下载、行业数据定期采集、多平台信息比对等重复性工作，可交由AI按指令自动完成。分析人员从机械操作中释放出来，将更多时间投入数据解读与判断。⚫信息检索环节：撰写报告时需要从多个来源快速获取背景数据，AI可以按需访问指定网站、提取关键信息、汇总为结构化结果，缩短信息收集周期。当然，这个范式目前仍处于早期阶段。AI对复杂网页的理解准确率、多步骤操作的完成率和错误恢复能力、大规模调用下的成本——这些都还在持续改善中。单任务成功率尚未稳定达到人工操作水平，但收敛的速度很快，值得提前布局。 1.3.web-data-scraper：我们的解决方案 web-data-scraper是我们基于上述思路开发的一个数据采集工具。核心理念用一句话概括：分析师的思路，加程序员的技巧。所谓"分析师的思路"，是指它完全模拟真实用户的使用路径——先打开网页看看长什么样，找到搜索入口，输入筛选条件，查看结果。先像人一样"看"，再像程序一样"做"。所谓"程序员的技巧"，是指在浏览过程中，它会监听网页背后的网络请求，发现并解析隐藏的API接口。一旦找到数据接口，就把单次的人工操作转化为可

点击免费查看完整报告