AI智能总结
事项: 2025年1月15日至1月20日,科大讯飞、月之暗面、MiniMax等五家大模型公司发布了最新一代模型,在语音交互、长文本理解、推理能力等方面取得突破性创新与成就。这些模型在不同功能上对标海外OpenAI系列,刷新SOTA,加入全球大模型前沿阵营,展现出国内大模型快速迭代的追赶态势,国内外模型水平差距正不断缩小。 评论: 豆包大模型1.5效果领先,性能表现卓越:全新Doubao-1.5-pro模型综合能力显著增强,综合得分优于GPT-4o、Claude 3.5 Sonnet等业界一流模型,模型效果达到全球领先水平。同时在知识、代码、推理、中文等多个权威测评基准上获得最佳成绩。 DeepSeek-R1性能显著上升,API成本更低:DeepSeek-R1模型推理能力得到了极大的提升,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。团队同步开源模型权重,模型开源License统一使用MIT,并且产品协议上明确可“模型蒸馏”。API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,对标OpenAI o1类推理模型,API性价比显著上升。 Kimi k1.5模型刷新SOTA,性能大幅增加:在基准测试中,k1.5多模态思考模型模型实现了SOTA级别的多模态推理和通用推理能力。short-CoT模式下,Kimi k1.5的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,领先达到550%。 讯飞星火大模型迎来全面升级:作为首个基于全国产算力平台训练的具备深度思考和推理能力的大模型,讯飞星火深度推理模型X1首次攻克国产算力训练深度推理模型难关,实现多学段数学能力的国内第一,率先落地教育、医疗等刚需场景。 MiniMax模型架构取得突破性创新:MiniMax开源的最新基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-0首次在业内大规模实现了新的线性注意力机制,大幅增长了输入的上下文窗口,一次可处理400万token,是其他模型的20-32倍。长文本能力和学术测试集表现强劲,整体可与其他SOTA模型媲美。 投资建议:AI大模型本质应落脚垂类应用,国内大模型正快速追赶美国先进水平,看好AI+应用产品力与商业化落地进程。建议关注以下标的:AI+应用侧:1)安全:永信至诚、深信服;2)办公:合合信息、金山办公、福昕软件; 3)法律:金桥信息、华宇软件、通达海;4)医疗:润达医疗;5)教育:佳发教育、欧玛软件、新开普;6)金融:同花顺、新致软件;7)邮箱:彩讯股份;8)传媒:掌阅科技、华策影视;9)数据:海天瑞声;10)电商:焦点科技;11)OA:致远互联、泛微网络;12)ERP:用友网络、金蝶国际、汉得信息。算力侧:1)算力基础:润泽科技、亚康股份、海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、神州数码、拓维信息。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、豆包大模型1.5效果领先,性能表现卓越 模型实现端到端语音对话,突破真人级语音对话能力限制。2025年1月20日豆包实时语音大模型正式推出,该模型是一款语音理解和生成一体化的模型,相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。外部真实众测结果表示,对标GPT-4o,豆包实时语音大模型整体满意度更高。 图表1豆包实时语音大模型与测试人员沟通 2025年1月22日豆包大模型1.5正式发布。全新Doubao-1.5-pro模型综合能力显著增强,综合得分优于GPT-4o、Claude 3.5 Sonnet等业界一流模型,模型效果达到全球领先水平。同时在知识、代码、推理、中文等多个权威测评基准上获得最佳成绩。 图表2 Doubao-1.5-pro综合性能评估 轻量版语言模型方面,Doubao-1.5-lite处于全球一流水平,在综合、推理、数学、专业知识权威测评指标持平或超越GPT-4omini、Cluade 3.5 Haiku。 图表3 Doubao-1.5-lite权威测评表现 视觉理解模型方面,Doubao-1.5-vision-pro在多个权威测评基准上取得全球领先表现,同样击败GPT-4o、Claude 3.5 Sonnet等一众模型。 图表4 Doubao-1.5-vision-pro视觉理解基准评估 二、DeepSeek-R1性能显著上升,API成本更低 2025年1月20日DeepSeek-R1正式发布。模型推理能力得到了极大的提升,在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。 图表5 DeepSeek-R1模型推理能力 DeepSeek-R1团队同步开源模型权重,模型开源License统一使用MIT,并且产品协议上明确可“模型蒸馏”。通过DeepSeek-R1输出的蒸馏小模型在多项能力上实现了对标OpenAI o1-mini的效果。 图表6蒸馏小模型基准测试 API输出输入成本降低,凸显性价比优势。DeepSeek-R1上线API,对用户开放思维链输出。API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,对标OpenAI o1类推理模型,API性价比显著上升。 图表7 OpenAIo1与DeepSeek-R1性价比优势 三、Kimi k1.5模型刷新SOTA,性能大幅增加 多模态思考模型推理能力显著增强。2025年1月20日k1.5多模态思考模型正式发布,在基准测试中,模型实现了SOTA级别的多模态推理和通用推理能力。short-CoT模式下,Kimi k1.5的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,领先达到550%。 图表8 Kimik1.5 short-CoT模式表现 long-CoT模式下,Kimi k1.5的数学、代码、多模态推理能力,也达到长思考SOTA模型OpenAI o1正式版的水平。 图表9 Kimik1.5 long-CoT模式表现 四、讯飞星火大模型迎来全面升级 发布首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。2025年1月15日科大讯飞正式发布讯飞星火深度推理模型X1,模型首次攻克国产算力训练深度推理模型难关,实现多学段数学能力的国内第一,率先落地教育、医疗等刚需场景。 图表10讯飞星火X1能力表现 讯飞星火底座能力持续提升。讯飞星火4.0 Turbo底座全新升级,七大核心能力全面上升,对标GPT-4o。讯飞星火4.0 Turbo致力于行业能力的提升,在文本长度、理解能力、图文识别等方面也得到强化。同时,行业首发混域知识搜索技术。 图表11讯飞星火4.0 Turbo七大能力表现 图表12科大讯飞首发混域知识搜索技术 星火语音同传大模型重磅发布,成为国内首个具有端到端语音同传能力的模型。在内容完整度、信息准确度以及语言质量等几个维度,效果都超过了国外的几个主流大模型,最快可实现5秒以内的同传时延。 图表13星火语音同传大模型效果对比评价 五、MiniMax模型架构取得突破性创新 首次实现新的线性注意力机制。2025年1月15日MiniMax开源了最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。新模型首次在业内大规模实现了新的线性注意力机制,大幅增长了输入的上下文窗口,一次可处理400万token,是其他模型的20-32倍。模型长文本能力和学术测试集表现强劲,整体可与其他SOTA模型媲美。 图表14 MiniMax-Text-01长文本学习能力表现