AI智能总结
发布时间:2025-08-26 研究所 金工周报 分析师:肖承志SAC登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC登记编号:S1340124100011Email:fengyuwen@cnpsec.com DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型——AI动态汇总20250825 ⚫DeepSeek线上模型升级至V3.1 DeepSeek-V3.1是DeepSeek于2025年8月21日正式发布的大语言模型升级版本,该版本被官方称为“迈向Agent(智能体)时代的第一步”。此次升级并非一次简单的参数优化或小范围调整,而是在模型架构、推理效率、长上下文支持、智能体能力及商业化应用等多个维度进行了系统性革新。 近期研究报告 《指数上行重返十年高位,涨幅超10%芯片相关ETF净流出较多——行业轮动周报20250824》-2025.08.25 ⚫字节开源360亿参数Seed-OSS系列模型 《成长风格显著,中盘表现占优——中邮因子周报20250817》-2025.08.18《融资余额新高,创新药光通信调整,指数预期仍将震荡上行挑战前高——行 业 轮 动 周 报20250810》-2025.08.11 字节跳动Seed团队于2025年8月21日开源的Seed-OSS系列模型,以其360亿参数规模与原生512K超长上下文窗口为核心突破,重新定义了开源大模型的技术边界。该系列模型采用Apache-2.0许可证,包含基础模型(含/不含合成数据)与指令微调版三个版本,通过12万亿tokens训练数据实现了参数效率与性能的平衡。其设计理念强调研究友好性与商业实用性,尤其在数学推理、代码生成和智能体任务中刷新了多项开源模型纪录。 《基本面因子表现不佳,小盘风格明显— —中 邮 因 子 周 报20250803》-2025.08.04 ⚫阿里推出开源多模态智能体WebWatcher 阿里巴巴于2025年8月15日正式发布的开源多模态深度研究智能体WebWatcher,代表了多模态AI研究领域的一次重大突破。该智能体在四大权威视觉问答基准测试中全面超越了包括GPT-4o在内的顶级闭源模型,展现出其在复杂推理、信息检索、知识整合以及聚合类信息寻优方面的卓越能力。 《小市值占优,低波反转显著——中邮因子周报20250727》-2025.07.28 《微盘股的流动性风险在哪?——微盘 股 指 数 周 报20250720》-2025.07.21 ⚫智谱发布全球首个手机Agent:AutoGLM2.0 《大金融表现居前助指数突破,GRU行业轮动调入非银行金融——行业轮动周报20250713》-2025.07.14 智谱AI于2025年8月20日正式发布的AutoGLM 2.0,被广泛认为是全球首个真正意义上的手机通用智能体(Agent),其通过创新的云端架构和“云手机+云电脑”技术范式,实现了人工智能从信息交互向行动执行的关键跨越。这一突破不仅重构了人机协作的边界,更预示着智能体技术从实验室走向大规模实用化的新阶段。 《低估值高盈利,基本面表现占优——中 邮 因 子 周 报20250706》-2025.07.07 ⚫风险提示: 《基于宏观经济状态划分的BL模型与ETF实践》-2025.07.01 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 《反转风格显著,小市值回撤——中邮因子周报20250622》-2025.06.23 《关注基本面支撑,高波风格占优——中邮因子周报20250615》-2025.06.16 目录 1 AI重点要闻..............................................................................41.1 DeepSeek线上模型升级至V3.1..........................................................41.2字节开源360亿参数Seed-OSS系列模型..................................................71.3阿里推出开源多模态智能体WebWatcher...................................................91.4智谱发布全球首个手机Agent:AutoGLM2.0...............................................112企业动态................................................................................122.1腾讯发布大模型训练库WeChat-YATT....................................................122.2通义千问推Qwen-Image-Edit图像编辑模型..............................................153 AI行业洞察.............................................................................173.1 Sierra AI创始人称AI市场分三赛道:前沿基础模型、AI工具链和应用型Agent...............174技术前沿................................................................................194.1 Evolving Prompts In-Context: LLM对语义的依赖比我们想象的少..........................195风险提示................................................................................21 图表目录 图表1:DeepSeek-V3.1在SWE/Terminal-Bench上表现优异...................................4图表2:推理效率显著提升...............................................................5图表3:针对复杂搜索任务的更强大的多步骤推理...........................................6图表4:Seed-OSS模型测评(加粗项为SOTA标记)..........................................8图表5:WebWatcher基准跑分...........................................................10图表6:WeChat-YATT架构概览..........................................................13图表7:图片编辑案例展示..............................................................16图表8:PROMPTQUINE框架概述..........................................................19图表9:PROMPTQUINE修剪后的ICL提示,标签词的存在百分比非常高.........................20 1AI重点要闻 1.1DeepSeek线上模型升级至V3.1 DeepSeek-V3.1是DeepSeek于2025年8月21日正式发布的大语言模型升级版本,该版本被官方称为“迈向Agent(智能体)时代的第一步”。此次升级并非一次简单的参数优化或小范围调整,而是在模型架构、推理效率、长上下文支持、智能体能力及商业化应用等多个维度进行了系统性革新。 DeepSeek-V3.1的核心创新在于其混合推理架构。该架构允许单一模型同时支持“思考模式”与“非思考模式”,用户可通过官方App或网页端的“深度思考”按钮自由切换。在非思考模式下,模型针对简单任务提供快速响应,适用于实时交互场景;而在思考模式下,模型会启动深度推理机制,适用于代码生成、复杂决策和多步逻辑推理等任务。这种设计不仅提升了模型在不同场景下的适应性,也显著优化了计算资源的分配效率。 在技术实现上,混合推理架构依赖于对Transformer结构的深度改造。模型通过动态激活不同的注意力头来实现模式切换,并采用了思维链压缩训练技术,以减少推理过程中的冗余token输出。官方测试数据显示,DeepSeek-V3.1-Think在输出token数量减少20%至50%的情况下,各项任务的平均表现与 前代推理模型DeepSeek-R1-0528持平。同时,在非思考模式下,模型的输出长度也得到有效控制,在保持性能的同时显著降低了响应时间。 资料来源:DeepSeek,中邮证券研究所 另一项重要升级是上下文窗口的扩展。DeepSeek-V31将上下文长度从64K扩展至128K,使其能够处理更长的文档、代码库和复杂对话上下文。这一改进基于全新的“两阶段长上下文扩展方法”,在原始V3模型检查点基础上新增了8400亿tokens的训练数据,其中32K上下文扩展阶段的训练量增加了10倍,128K扩展阶段增加了3.3倍。通过大规模长文本数据的训练,模型在长上下文理解、跨文档信息整合和语义连贯性方面均有显著提升。 在智能体能力方面,DeepSeek-V3.1通过后训练优化大幅增强了工具使用与任务自动化能力。在编程相关测试中,模型在代码修复测评SWE和命令行终端环境复杂任务测试Terminal-Bench中的表现显著优于前代模型。社区测试数据显示,其在AiderPolyglot多语言编程测试中取得了71.6%的得分,超越了Claude 4 Opus和DeepSeek-R1等模型。在搜索智能体能力上,DeepSeek-V3.1在需要多步推理的复杂搜索测试browsecomp与多学科专家级难题测试HLE中性能大幅领先R1-0528。 DeepSeek-V3.1还采用了新的参数精度格式UE8M0 FP8 Scale,该格式是针对下一代国产芯片设计的数值表示方案,旨在提升训练和推理过程中的计算效率, 同时降低硬件资源消耗。此外,模型升级了分词器并调整了chat template,因此在微调或API调用时需参考新版说明文档以适应这些变化。 在API服务与商业化落地方面,DeepSeek开放平台同步进行了升级。API接口现已区分非思考模式deepseek-chat和思考模式deepseek-reasoner,且均支持128K上下文。API Beta接口增加了strict模式的Function Calling,确保输出符合schema定义,同时支持Anthropic API格式,便于用户将DeepSeek-V3.1集成到Claude Code框架中。自2025年9月6日起,DeepSeek调整了API接口调用价格,取消夜间优惠,新价格调整为输入缓存命中0.5元/百万tokens、缓存未命中4元/百万tokens,输出12元/百万tokens。 尽管DeepSeek-V3.1在多项能力上取得显著进步,但社区反馈也指出其仍面临一些挑战,例如在数学推理、逻辑分析等复杂推理任务中进步有限,部分场景下甚至出现性能回退或中英文混杂输出的问题。此外,激进的模型更新策略导致旧版API直接停用,对部分商业应用的稳定性产生了影响。