您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国投证券]:BondClaw 固收投研系列二:人机协同的 REITs 公告批量搜集实践 - 发现报告

BondClaw 固收投研系列二:人机协同的 REITs 公告批量搜集实践

2026-04-26 国投证券 Mascower
报告封面

2026年04月26日 BondClaw固收投研系列二:人机协同的REITs公告批量搜集实践 证券研究报告 AI自主完成复杂数据采集,已达实用水平: 张亮分析师SAC执业证书编号:S1450526030001zhangliang1@sdicsc.com.cn 固收投研中有大量重复性的数据采集工作——批量下载公告、定期拉齐报告、跨平台比对数据。这些工作单次不难,但数量一上来,分析师的时间就被大量消耗在机械操作上。我们用一个实战案例验证了一条新路径:以巨潮资讯网全部27只REITs的一季报和评估报告为对象,AI在约23分钟内自主完成了50份PDF的下载,覆盖26只产品,人工介入总时长不超过两分钟。对于固收分析人员日常面临的高频数据采集需求,这条路径已经具备实用价值。 叶青联系人SAC执业证书编号:S1450126040005yeqing2@sdicsc.com.cn 相关报告 一季度经济数据点评:经济平稳开局,经济边际放缓和输入性通胀压力或于二季度集中显现2026-04-19AI辅助固收投研实务系列开篇:信用债复杂场景下,AI嵌入真实研究工作流的标杆案例2026-04-17大数据视角下的信用风险挖掘:以青岛上合控股为例2026-04-16债市周思考:钱多与物价担忧2026-04-133月物价数据点评:PPI转正,关注企业盈利改善情况2026-04-12 AI能突破人工操作的视觉边界,获取人眼看不到的完整数据: 本次实战中有一个值得关注的细节:在巨潮资讯网搜索REITs产品时,人工操作只能看到下拉列表中弹出的几条结果,浏览器界面的显示区域严格限制了可见范围。AI在浏览页面的同时,发现了隐藏在背后的数据接口,直接拉取到了全部27只REITs产品的完整清单。这种能力来自我们开发的WebData Scraper工具(开源地址:https://github.com/timyefi/web-data-scraper),其设计思路是"分析师的操作方式+程序的批量处理能力"——先像人一样浏览网站,再通过发现数据接口实现批量获取。 当前阶段的务实结论:人机协作是最佳模式: AI负责探索、编码和执行,分析师在关键时刻提供质控判断。案例中评估报告出现了一次误下载,AI通过自检发现了异常,但最终是人工打开文件确认了问题,AI据此快速定位根因并完成修复。这种"AI执行、人判断"的分工,效率远高于纯手工,可靠性也高于完全放权给AI。下一步的优化方向是引入多Agent并行机制——对于巨潮资讯等无需登录的公开数据源,多个AI代理可以同时执行不同任务,采集效率有望成倍提升。对于需要登录的平台(如CEIC、企业预警通),目前各代理的浏览器会话相互隔离,同一账号登录会导致彼此失效,需要通过会话共享等技术优化来解决。这一问题在工程上是可以攻克的,一旦突破,大规模模拟人工方式获取信息将成为可能。 风险提示:有限开源说明,AI技术局限性,数据采集合规风险 内容目录 1.背景与思路.................................................................31.1.投研中的数据采集痛点.................................................31.2. AI驱动的浏览器操作:一个新范式.......................................31.3. web-data-scraper:我们的解决方案.....................................31.4.本文要解决的问题.....................................................52.实战过程:23分钟下载50份REITs报告.......................................52.1.任务背景与目标.......................................................52.2.第一阶段:像人一样探索网页(约3分钟)...............................62.3.第二阶段:发现背后的API(约5分钟)..................................82.4.第三阶段:编写脚本并首次批量下载(约5分钟)........................122.5.第四阶段:问题诊断与人工反馈(约7分钟)............................132.6.第五阶段:最终修正与完成(约3分钟)................................153.成果与数据验证............................................................163.1.最终成果统计........................................................163.2.异常情况处理........................................................163.3.文件组织结构........................................................174.两个值得关注的细节........................................................174.1.突破视觉限制........................................................174.2.逻辑自愈与人机协作的必要性..........................................185.总结与展望................................................................195.1.本次实战的关键启示..................................................195.2.对固收应用的建议....................................................195.3.当前局限与观察......................................................195.4.下一步优化方向:多Agent并行........................................206.风险提示..................................................................20 图表目录 图1.巨潮资讯网搜索REITS产品人工只能看到部分列表,实际背后有完整列表.........4图2.开始按照人浏览网页的方式进行页面学习....................................6图3.AI自己在输入框输入文本进行探索..........................................7图4.过程当中人工干预点击帮助快速进入正确页面................................8图5.开始通过编码方式识别背后的API信息......................................9图6.成功通过背后API解析获得全部REITS产品清单1............................10图7.成功通过背后API解析获得全部REITS产品清单2............................10图8.通过人一样探索具体产品页面来学习搜集机制...............................11图9.通过编码方式解析背后API,获得批量获取方法,并完成计划..................12图10.成功批量下载所有REITS一季报..........................................13图11.自我检查评估报告未全部下载,进一步探索................................14图12.人工反馈了评估报告问题之后开始处理并找到问题..........................15图13.23分钟左右解决问题,完成所有评估报告的正确下载........................16 表1:最终成果统计..........................................................16 1.背景与思路 1.1.投研中的数据采集痛点 做过固收投研的人都知道,日常工作中有大量时间花在"找数据"上。写一篇信用资质跟踪报告,可能需要从巨潮资讯下载几十份公告;跟踪城投债的发行情况,要反复登录多个平台检索、比对;做REITs研究,需要把所有产品的季报和评估报告拉齐。这些工作有一个共同特点——单次操作不难,但数量一上来,重复劳动的负担就很重。 面对这种需求,传统方案陷入了两个极端。一端是专业爬虫工具:Python+Selenium、Scrapy,功能强大,但开发门槛高、维护成本大,目标网站一改版脚本就可能失效。对大多数没有技术背景的分析师而言,这条路走不通。另一端是纯手动操作:打开网页、选条件、翻页、下载、整理。人人都能做,但效率低下,容易遗漏,而且每次重复任务都要从头来过。 两难之间,需要一条中间路径:不要求分析师会写代码,同时能像程序一样高效、可重复地完成数据采集。这条路径的打开,得益于近期AI能力的一个重要突破——让AI自主操作浏览器。 1.2.AI驱动的浏览器操作:一个新范式 浏览器自动化正在经历一次范式切换。过去做数据采集,本质上是程序员预先写好每一步精确指令——"点击第3个按钮、在第5个输入框填入关键词、等待2秒后提取表格数据"。这些指令依赖网页元素的代码地址(CSS选择器或XPath),网页一旦改版,地址变了,脚本就废了。 借助Anthropic推出的Model ContextProtocol(MCP),AI助手可以直接调用浏览器自动化框架(如Playwright),用户只需要用自然语言描述意图——"打开巨潮资讯网,搜索某公司最近三年的年报并下载"——AI自主理解网页内容、拆解操作步骤、执行并获取结果。定位方式从"代码地址"转向"语义理解",系统通过理解"找到标题中包含年度报告的链接"来完成任务。即使网页改版,AI也能重新理解页面并适应。 对投研的实际帮助,体现在两个维度: ⚫数据采集环节:公告批量下载、行业数据定期采集、多平台信息比对等重复性工作,可交由AI按指令自动完成。分析人员从机械操作中释放出来,将更多时间投入数据解读与判断。⚫信息检索环节:撰写报告时需要从多个来源快速获取背景数据,AI可以按需访问指定网站、提取关键信息、汇总为结构化结果,缩短信息收集周期。 当然,这个范式目前仍处于早期阶段。AI对复杂网页的理解准确率、多步骤操作的完成率和错误恢复能力、大规模调用下的成本——这些都还在持续改善中。单任务成功率尚未稳定达到人工操作水平,但收敛的速度很快,值得提前布局。 1.3.web-data-scraper:我们的解决方案 web-data-scraper是我们基于上述思路开发的一个数据采集工具。核心理念用一句话概括:分析师的思路,加程序员的技巧。 所谓"分析师的思路",是指它完全模拟真实用户的使用路径——先打开网页看看长什么样,找到搜索入口,输入筛选条件,查看结果。先像人一样"看",再像程序一样"做"。 所谓"程序员的技巧",是指在浏览过程中,它会监听网页背后的网络请求,发现并解析隐藏的API接口。一旦找到数据接口,就把单次的人工操作转化为可