证券研究报告 20250315 金融工程深度研究报告 大语言模型在投研中的应用 DeepSeek、QwQ32B与Manus技术解析、投研场景与量化应用 证券分析师: 分析师登记编号: 证券分析师:分析师登记编号: 刘晓锋 S1190522090001 马自妍 S1190519070001 目录 1概述:AI赋能投研应用 2模型技术架构 3投研场景适配性分析 4量化研究中的技术适配 5本地部署 6大语言模型在投研中的应用未来演进方向 1、概述:AI赋能投研应用 11概述 传统投研面临两大核心瓶颈:非结构化数据处理效率低下与量化模型信号维度单一。 分析师花费大量时间处理财报、新闻、电话会议记录等文本数据,且人工提取关键指标存在一定误差率。 量化策略依赖结构化数据(如价格、财务指标),难以捕捉政策变化、市场情绪等文本隐 含信号。 DeepSeek、QwQ32B与Manus等大语言模型先后发布,为投研场景带来新的技术支持。 DeepSeekR1:6710亿参数的混合专家(MoE)模型,专注深度推理与跨模态分析; QwQ32B:阿里开源的320亿参数推理模型,以强化学习突破参数限制,性能比肩DeepSeek; Manus:Monica公司的多代理架构模型,通过任务分解与工具调用实现端到端流程自动化。 本报告将深入解析三者的技术差异,并结合投研与量化研究的核心需求,提出场景适配框架与 实施路径。 2、模型技术架构 21DeepSeekR1架构设计创新 DeepSeekR1采用稀疏混合专家(SparseMoE)架构,包含1个共享专家和256个领域专家,每次 推理仅激活6参数(约370亿)其核心技术突破体现在: 双流编码器:文本流(处理自然语言)与代码流(执行逻辑运算)通过跨模态注意力矩阵实现动态融合(如非结构化文本转化为估值模型处理速度提升)。 多头潜在注意力(MLA):通过低秩压缩技术将KV缓存占用降低至传统架构的513,支持12万字长文本处理(如完整上市公司年报分析)。 冷启动数据策略:引入数千条高质量数学代码样本进行预训练微调,解决纯强化学习导致的“语言混合”问题,提升模型稳定性。 22DeepSeekR1训练流程图 图表1:DeepSeekR1训练流程图 DeepSeekV3 强化学习:GRPO 准确性奖励:数学、逻辑、代码 格式奖励 DeepSeekR1Zero 数k个长CoT冷启动数据 第一次SFT 为RL提供稳定基础 结构化推理过程 DeepSeekV3的通用能力数据 人工标注示例 20w非推理数据 RL生成的多样化内容 第一次强化学习 增强推理能力 准确性奖励:数学、逻辑、代码 语言一致性奖励 60w推理数据 RL阶段的拒绝采样 全场景强化学习 有用性、无害性、精细推理、人类偏好 资料来源:太平洋证券整理 第二次SFT 第二次强化学习 通用能力 防止任务过拟合 DeepSeekR1 2、模型技术架构 23DeepSeekR1历代模型核心差异 图表2:DeepSeekR1演进过程中历代模型核心差异对比 模型 V3 R1Zero R1 R1Distill 架构重点 MLAMoE优化,通用多任务处理 纯MoE架构,无SFT阶段 V3基座冷启动SFT两阶段RL 基于QwenLlama架构的蒸馏模型 训练方法 预训练SFTDPO 纯强化学习(GRPO) SFT两阶段强化学习 知识蒸馏合成数据微调 数据依赖 148万亿通用数据 无标注数据,规则奖励驱动 冷启动数据RL生成混合数据 R1生成数据 应用场景 代码生成、多模态任务 科研推理、数学竞赛 复杂推理与通用任务平衡 轻量化推理、本地部署 硬件成本 需多GPU服务器(如8A100) 同V3,但生成效率低 同V3,优化后推理速度提升30 单卡GPU(如RTX3090) 资料来源:太平洋证券整理 2、模型技术架构 24QwQ32B架构设计创新 QwQ32B通过动态稀疏计算与混合精度量化实现轻量高效,其技术核心体现在: 动态门控网络:根据输入内容动态分配计算资源,在数学推理任务中激活参数量仅为同规 模模型的60。 FP8INT4混合量化:激活值采用FP8精度(保持数值稳定性),权重矩阵使用INT4量化(压 缩率41),单卡A100即可承载完整32B参数推理,提升推理速度的同时显著降低显存占用。 渐进式蒸馏框架:通过结构参数逻辑的三阶段渐进蒸馏,缩短训练周期。 双阶段强化学习训练策略 严格结果验证器阶段:直接通过代码执行结果和数学答案正确性提供奖励信号。 通用强化学习阶段:引入多维度奖励模型(包括格式规范性、逻辑连贯性),解决单一结果奖励导致的“奖励操纵”问题。 2、模型技术架构 25QwQ32B能力测试结果 QwQ32B在数学推理能力、代码生成与优化、开放问答与多任务处理、指令理解与执行、工具调用与函数交互等能力测试中获得不错的分数。 图表3:QwQ32B基准测试结果 资料来源:Qwen 26Manus架构设计创新 Manus用多代理架构实现任务闭环,其架构与核心技术体现在: 规划代理:通过思维树(ToT)算法将任务拆解为可执行步骤。 执行代理:支持调用Python解释器(数据处理)、内置浏览器(信息抓取)、文档处理器(PDF解析)等工具,生成报告等结果。 验证代理:通过规则引擎和动态学习机制实现结果校验。 核心技术创新 沙盒隔离技术:每个任务运行在独立虚拟机环境,支持调用工具链,确保任务隔离和数据安全。 异步云处理机制:支持用户提交任务后离线等待,系统自动分配算力资源并行处理。 工具链动态编排:内置工具链集成,根据任务复杂度自动选择本地执行或云端协同,提升效率。 2、模型技术架构 27Manus多代理系统工作流 图表4:Manus多代理系统工作流程图 任务输入 Manus接收 规划模块 执行模块 验证模块 输出结果 记录用户偏好 用户反馈 任务拆解调用工具 资料来源:太平洋证券整理 2、模型技术架构 28架构对比 图表5:架构对比 模型 DeepSeekR1 QwQ32B Manus 技术架构 混合专家(MoE)架构MLA注意力机制优化 两阶段强化学习(RL)训练 密集Transformer 分组查询注意力(GQA) 分阶段RL(数学通用任务优化) 多Agent架构虚拟机工具链集成 内置任务分解与异步处理 参数规模 6710亿(激活370亿)14 320亿26 未公开 核心优势 复杂推理(数学、代码生成) 长文本生成能力 高性价比 工具调用与指令遵循 自动化任务执行多工具协同 硬件需求 多块A100H100GPU(显存13TB)1 单块RTX4090(显存24GB)2 单块RTX3060(显存8GB)5 开源支持 部分蒸馏版开源(MIT协议)1 完全开源(Apache20协议)26 闭源(需商业授权)5 资料来源:太平洋证券整理 3、投研场景适配性分析 31文本生成类任务 自动化研报撰写 DeepSeekR1: 优势:跨模态分析能力突出 案例:1、整合财报文本与专利数据生成行业趋势预测 2、输入10份卖方报告,自动生成《光伏产业链2030年供需格局预测》 QwQ32B: 优势:低成本处理超长文本 案例:1、将50页政策文件生成摘要2、长篇文献生成概要 Manus: 优势:端到端流程自动化 案例:预设标准化模板,录音转文字,提取关键内容,生成会议纪要 3、投研场景适配性分析 31文本生成类任务 舆情监控与日报生成 DeepSeekR1: 适合深度分析舆情传导路径,如负面新闻对上下游企业的影响等; QwQ32B: 实时抓取500媒体源,识别负面情绪事件,生成风险提示摘要,覆盖效率提升优势明显; Manus: 可联动爬虫等工具更新重点关注名单,生成模板化日报。 3、投研场景适配性分析 32数据分析类任务 财务报表解读 DeepSeekR1: 优势:在关联非财务数据进行分析时具有优势 案例:管理层电话会议情绪指数与盈利预测修正 QwQ32B: 优势:定制财务术语库,精准提取ROE、现金流等指标准确率高; 案例:提取财务指标,识别“营收增长但预收账款下降”等异常信号,提示相关问题。 3、投研场景适配性分析 32数据分析类任务 另类因子挖掘 DeepSeekR1: 案例:1、对大量个股研究报告进行分析,生成个股情绪评分,构建Zscore因子 2、对大量电话会议记录进行分析,生成管理层信心评分,构建Zscore因子 QwQ32B: 案例:低成本处理高频文本,如新闻情感因子的日内更新 3、投研场景适配性分析 33决策支持类任务 组合优化辅助 Manus: 案例:规划代理设定风险约束执行代理调用Barra模型验证代理提示超配风险,辅助组合优化,提高组合表现; DeepSeekR1: 案例:多因子非线性关系建模,如宏观因子与行业轮动的动态关联等; 3、投研场景适配性分析 33决策支持类任务 事件驱动策略 QwQ32B: 案例:对政策文本解析,计算相关受益公司的营收空间,生成多空信号 Manus: 案例:人工预定义策略逻辑,自动化回测,并生成报告,如历史相似事件的对比分析 3、投研场景适配性分析 34模型选择决策树 图表6:模型选择决策树 任务类型 是否需要深度推理 是 否 数据规模 是否需要调用工具 大规模中小规模 是 否 DeepseekR1 QwQ32B Manus QwQ32B 资料来源:太平洋证券整理 4、量化研究中的技术适配 41高频交易中的实时信号生成 QwQ32B的低延迟响应 技术特性:通过GQA(分组查询注意力)和动态稀疏计算,QwQ32B在RTX3090上的推理速度可达 35tokens秒,满足毫秒级交易信号生成需求。 案例:基于实时新闻情感与盘口数据的日内波动率策略 通过毫秒级新闻情感解析与高频盘口数据融合,捕捉市场情绪与流动性变化的瞬时共振点。 信息不对称套利:利用新闻标题情感极性(正面负面)与市场反应速度的差异,在多数投资者尚 未消化信息时抢先交易; 情绪流动性双轮驱动:当新闻情感与盘口买卖压力方向一致时(如利好新闻大单主动买入),触发高置信度信号; 动态风险敞口控制:根据波动率水平和市场状态(牛市熊市)自动调整仓位,避免过度暴露于单一事件风险。 从新闻接收解析,情感模型推理,盘口指标计算,到信号生成,订单执行,整个过程延迟可50ms。 4、量化研究中的技术适配 41高频交易中的实时信号生成 DeepSeekR1的跨市场联动分析 技术特性:MoE架构支持并行处理多市场数据流(如美股期货A股行业轮动),通过跨模态编码器识别非对称套利机会。 案例:美联储议息会议期间,模型可捕捉到美债收益率曲线倒挂与A股消费板块的相关性,并进行历史回测寻找规律,如通过历史回测发现二者存在显著负相关性,可提前布局空头头寸,发出实时信号。 4、量化研究中的技术适配 42多因子模型的动态优化 Manus的自动化因子库管理 技术流程: 规划代理扫描学术论文提取新因子逻辑; 执行代理调用Python回测框架验证因子有效性; 验证代理对比历史回撤数据,剔除过拟合因子。 效果:加快因子库更新周期,降低IC衰减率。 4、量化研究中的技术适配 42多因子模型的动态优化 DeepSeekR1的非线性关系建模 技术特性:通过多头潜在注意力(MLA)捕捉因子间的隐性关联。 案例:宏观利率与行业估值溢价率的动态关系 1低秩键值联合压缩:MLA通过低维投影矩阵将宏观利率(时序数据)与行业估值(横截面数据)的异构特征压缩至同一潜在空间: 宏观利率处理:10年期美债收益率、联邦基金利率期货等30维指标被压缩为8维潜在向量,保留利率曲线的斜率、波动率等核心信息; 行业估值处理:消费科技板块的PE、PB溢价率及北向资金流向等20维数据被压缩为8维潜 在向量,提取估值偏离度与资金情绪因子。 这种压缩使显存占用减少92,支持同时处理200个跨市场因子,实时响应延