AI智能总结
请仔细阅读在本报告尾部的重要法律声明2025年07月22日全球最大参数模型KimiK2发布2025年7月11日,月之暗面(MoonshotAI)发布采用MoE架构的大模型KimiK2,并同步开源。这款模型总参数量达1万亿,每次推理仅激活320亿参数,在代码能力和通用Agent任务处理上表现突出,同时凭借架构优化实现了性能与成本的平衡,输入月之暗面由杨植麟于2023年4月创立,聚焦探索能源转化为智能的最优路径,其产品迭代轨迹清晰。2023年10月推出首款智能助手Kimi,以Transformer-XL等算法实现20万汉字输入的长文本处理突破;2024年持续升级,先后实现200万字无损上下文能力、拓展多模态场景及工具调用功能,同年年底发布对标OpenAIo1的k0-math数学模型与k1视觉思考模型;2025年1月推出的k1.5多模态模型,在LongCoT模式下能力达o1水平,ShortCoT模式下领先GPT-4o和Claude3.5。2025年7月11KimiK2采用64头注意力+384专家MoE设计,相比DeepSeekV3/R1更具效能。这一设计减少了自注意力计算负担,在加快推理速度、提升128K长文本处理效率的同时,扩展了知识覆盖范围和多任务适配性。训练端,借助MuonClips优化器完成15.5万亿Tokens的高效训练,全程无峰值且持续提升Token利用效率;此外,为解决工具交互数据稀缺问题,它采用大规模Agentic数据合成策略,学习复杂工具调用能力。KimiK2是性能与成本平衡的大规模模型(总参数量达1万亿,每次推理仅激活320亿参数)。其训练成本覆盖算力(如GPU集群)、数据准备、算法调优等核心环节,相较于GPT-4.5、SparkDesk-v1.1、Llama-3.1等模型,KimiK2通过更精准的参数激活与架构优化控制成本,设计更聚焦实际落地效率。目前KimiK2输入、输出价格分别KimiK2在自主编程、工具调用、数学推理等复杂任务上表现突出,应用场景广泛。代码生成速度与软件开发效率显著提升,数学推理与科研计算精度加速研究进程,创意写作质量(文学评测SOTA)更是高居榜首。技术落地推动硬件升级,既拉动高性能GPU/TPU及边缘计算设备的需求与性能跃升,又优化电子供应链、降低中小企业AIKimiK2的发布标志着国产AI在全球竞争中的全新突破。KimiK2强大的代码能力、Agent任务处理能力和开源策略,为开发者与用户提供了无限可能。无论是科研人员、开发者还是普通用户,都可以通过KimiK2探索AI的更多潜力。风险提示:1)先进算力芯片限制加强2)下游应用需求不及预期3)国产模型迭代升级 ——人工智能月度跟踪投资要点:输出价格更具优势。日,公司发布KimiK2大模型并同步开源。为0.6$/MillionTokens、2.5$/MillionTokens。应用门槛。迟缓 请仔细阅读在本报告尾部的重要法律声明目录1.全球最大参数模型KimiK2发布..........................................................42.深入剖析KimiK2..................................................................................52.1KimiK2从框架到训练的技术突破...........................................................................................52.2KimiK2性能达到行业领先水平...............................................................................................62.3KimiK2的应用场景广泛...........................................................................................................73.风险提示..............................................................................................8 2 图表目录图表1:Kimi发展史梳理.............................................................................................................4图表2:KimiK2框架类似于DeepSeekV3/R1............................................................................5图表3:KimiK2实现百万亿参数模型高效训练........................................................................6图表4:KimiK2采用大规模Agentic数据合成策略..................................................................6图表5:KimiK2性能达到行业领先水平....................................................................................7图表6:KimiK2输入价格优势明显............................................................................................7图表7:KimiK2输出价格优势明显............................................................................................7图表8:KimiK2在创意性写作位列榜首....................................................................................8 3 请仔细阅读在本报告尾部的重要法律声明1.全球最大参数模型KimiK2发布2025年7月11日,月 之 暗 面(MoonshotAI)发 布 大 模型KimiK2,并 宣 布 同 步 开 源。KimiK2是 一 款 采 用MoE架 构 的 基 础 模 型,总 参 数 量高 达1万 亿Token,每 次 推 理 激 活320亿 参 数,尤 其 在 代 码 能 力 和 通用Agent任 务 处 理 方 面 表 现 出 色 。月 之 暗 面 由 杨 植 麟 于2023年4月 创 立,聚 焦 探 索 能 源 转 化 为 智 能的 最 优 路 径,其 产 品 迭 代 轨 迹 清 晰。2023年10月9日,公 司 推 出 首 款智 能 助 手Kimi。 该 产 品 基 于 自 研Moonshot大 模 型 架 构 , 采 用Transformer-XL、XLNet等 先 进 算 法,实 现 长 文 本 处 理 能 力 的 突 破 性 进展 , 是 全 球 首 个 支 持 输 入20万 汉 字 的 智 能 助 手 。图表1:Kimi发展史梳理资料来源:Kimi官网,36Kr,C114,爱建证券研究所2024年3月,Kimi推 出200万 字 无 损 上 下 文 能 力,巩 固 了 其 在 长文 本 处 理 领 域 的 优 势,显 著 提 升 学 术 文 献、法 律 卷 宗 等 超 长 文 本 的 解 析与 处 理 效 率。4月Kimi持 续 迭 代,新 增 常 用 语 及 内 置 提 示 词 提 升 交 互 效率;增 加 语 音 功 能 与 搜 索 溯 源,拓 展 多 模 态 场 景;API支 持ToolCalling,实 现 工 具 调 用 落 地 。2024年11-12月,公 司 先 后 发 布k0-math数 学 模 型 与k1视 觉 思考 模 型,两 者 均 对 标OpenAIo1。2025年1月20日,Kimi发 布k1.5多 模 态 模 型 。 在LongCoT( 长 思 维 链 ) 模 式 下 , 其 数 学 、 代 码 、 多 模态 推 理 能 力 达 到OpenAIo1水 平 ; 而 在ShortCoT(短思 维 链 ) 模 式下 ,k1.5领 先GPT-4o和Claude3.5。2025年7月11日,月 之 暗 面(MoonshotAI)发 布 大 模型KimiK2,并 宣 布 同 步 开 源 。 其开 源 版 本 包 括Kimi-K2-Base( 未 经 指 令 微 调 , 适配 科 研 及 自 定 义 场 景)与Kimi-K2-Instruct(通 用 指 令 微 调 版,面 向 对 4 请仔细阅读在本报告尾部的重要法律声明话 与 智 能 体 应 用)。2.深入剖析KimiK22.1KimiK2从框架到训练的技术突破KimiK2框 架 设 计 与DeepSeekV3/R1具 有 相 似 性 , 但 核 心 参 数配 置 差 异 显 著。K2配备64个attentionheads与384个 专 家(Experts),而DeepSeekV3/R1为128个attentionheads与256个 专 家 。 这 一设 计 的 优 势 体 现 在 两 方 面:减 少attentionheads数 量 降 低 了 自 注 意 力计 算 复 杂 度 , 加 快 推 理 速 度 的 同 时 提 升128K长 文 本 处 理 效 率 ; 增 加 专家 数 量 则 扩 展 知 识 覆 盖 范 围 , 强 化 多 任 务 适 配 能 力 。图表2:KimiK2框架类似于DeepSeekV3/R1资料来源:SebastianRaschka,爱建证券研究所在 有 限 预 训 练 数 据 集 与 固 定 模 型 配 置 约 束 下,Token的 优 化 器 对 提升 大 语 言 模 型(LLM)训 练 至 关 重 要。此 前,Moonlight已 验 证,Muon优 化 器 的 性 能 显 著 优 于 传 统 的AdamW, 成 为 更 高 效 的 训 练 工 具 。但 当 模 型 向 百 万 亿 参 数 级 规 模 扩 展 时,Muon优 化 器 难 以 应 对 新的挑 战 。伴随 参 数 与 训 练 数 据 量 增 加 , 注 意 力 机 制 中“查 询 (Quer y)”与“关 键 (Key)”的 计 算 结 果 (Logits) 易 出 现 数 值 失 控 飙 升 , 导 致训 练 剧 烈 波 动 甚 至 中 断。KimiK2借 助MuonClips优 化 器,实 现 了 万 亿参 数 模 型 的 高 效 训 练(15.5TrillionTokens), 全 程 无 训 练 峰 值 , 保 障 了模 型 稳 定 性 。 同 时 ,KimiK2通 过MuonClips技 术 显 著 提 高 了Token的 利 用 效 率 , 使 其 能 够 在 有 限 的 数 据 集 上 达 到 最 佳 性 能 。 5 请仔细阅读在本报告尾部的重要法律声明6为 了 解 决 真 实 工 具 交 互 数 据 稀 缺 的问 题,Kimi K2采 用 大 规 模Agentic数 据 合 成 策 略,并 让 模 型 学 习 复 杂 工 具 调 用(ToolUse)能 力。KimiK2目 前 提 供 两 个 版 本 :KimiK2Base用 于 研 究 与 微 调 ,KimiK2Ins