大模型年度评测| 2025/03 中国:人工智能系列 观点摘要——大语言篇 中国大模型与国际差距加速收敛 2025年大模型年度评测结果显示,中国头部大模型整体评分已接近国际均线,排名前八的中国大模型平均得分几乎与海外顶尖模型持平。中国大模型在核心能力上已进入全球领先梯队,技术差距正在快速缩小。 大模型已成为“知识百科专家” 本次评测结果显示,所有参评大模型在常识、科学等知识类问题上的表现几乎达到满分,覆盖从基础常识到高阶科学问题的各类测试。 这表明当前大模型在知识掌握方面已无明显短板,能够胜任“知识百科专家”的角色。 深度推理与数学是模型实力的重要分水岭 评测数据表明,大模型之间在逻辑推理与数学能力上的表现差距最为显著,在0-100的评分体系下,最大分差高达50分。这一现象凸显了推理与数学能力成为了衡量大模型实力的重要分水岭。 中国大模型的性价比远超国际大模型 本次评测数据显示,中国第一梯队大模型在整体得分超越国际大模型的情况下,其推理与生成成本却远低于海外竞争对手。中国领先大模型每100万token的平均价格仅38.2元,而国际大模型均价高达158.3元,形成近5倍的成本优势,展现出中国大模型在效率与性价比上的显著竞争力。 大模型年度评测| 2025/03 中国:人工智能系列 观点摘要——多模态篇 多模态理解能力整体尚处于发展阶段,识别准确率低于80% 在多模态理解能力的评测中,所有参评模型在各类图片和类型的整体识别准确率均未超过77%,其中最优模型的表现也未达到85%,显示出当前多模态理解在实际应用中的识别精度仍有较大提升空间。 多模态理解的核心挑战是物体定位 在多模态理解的九大细分维度中,物体定位维度的识别准确率最低,平均正确率仅为44.3%,物体精确定位依然是当前多模态理解技术的关键瓶颈。 模型的艺术创作能力显著优于商业创作能力 根据本次多模态生成的评测结果,所有模型在艺术性创作方面的均分为74.3,商业型创作的均分则为69.5,表明模型在满足美感和创造性等需求时表现较好,但在准确度和商业应用场景的适配性方面仍需进一步优化。 多模态生成的核心短板是指令遵循与文字生成 当前多模态生成面临两大主要问题:首先,模型在遵循指令方面存在频繁偏差,生成的图片与需求之间有一定程度的不符;其次,大部分模型无法准确生成文字。这些问题显著限制了多模态技术在更广泛应用场景中的可行性和发展潜力。 ———— 沙利文联合头豹研究院谨此发布中国人工智能系列报告之《2025年大模型年度评测》报告。本报告全面解析中国大模型在大语言能力与多模态理解方面的最新表现,系统梳理过去一年国内大模型的技术进展、核心突破、短板挑战及应用落地情况。通过详尽的数据分析与专业评测,本报告旨在为行业决策者、投资机构、技术研发团队等提供深度洞察,助力精准研判产业发展趋势,推动大模型技术在实际场景中的优化与创新。 沙利文及头豹研究院发布的《2025年中国大模型年度评测报告》旨在全方位评估大模型在语言与多模态能力上的技术实力与应用进展。报告在2024年大语言模型评测的基础上,新增了对多模态理解与生成能力的深入考量,聚焦大模型技术的前沿突破及其在各行业深度融合的广泛影响。 通过深入分析技术发展、市场竞争及创新趋势,报告为行业提供客观、专业的战略指导,助力各方把握未来技术变革的核心机遇。 本报告所有图、表、文字中的数据均源自弗若斯特沙利文咨询(中国)及头豹研究院调查。 报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系弗若斯特沙利文及头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。 未经弗若斯特沙利文及头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,弗若斯特沙利文及头豹研究院保留采取法律措施、追究相关人员责任的权利。弗若斯特沙利文及头豹研究院开展的所有商业活动均使用“弗若斯特沙利文”“沙利文”“头豹研究院”或“头豹”的商号、商标,弗若斯特沙利文及头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表弗若斯特沙利文或头豹研究院开展商业活动。 研究框架 中国大模型行业发展综述发展路径价值效益发展痛点技术成熟性 中国大模型评测背景介绍评测背景与参与者 大语言评测参与者介绍多模态评测参与者介绍中国大模型大语言评测评测方法论介绍评测维度介绍 评测结果核心洞察模型综合表现特征细分维度难易度表现评测总榜 通用基础能力表现专业应用能力表现大模型能力优势图谱模型综合能力雷达模型细分维度表现中国大模型多模态评测 67 多模态评测参与者背景信息评测方法论介绍 评测体系与维度 多模态理解综合评测总榜多模态理解细分维度表现多模态生成综合评测总榜多模态生成细分维度表现方法论 101 法律声明 章节一 中国大模型行业发展综述 大模型从文本向着多模态的发展历经三阶段:初期聚焦于模态理解与关联,中期扩展至模态生成能力,高级阶段实现任意模态转换与智能融合,逐步接近人类多模态智能水平。 人工智能技术的应用有效提高了工作效率,优化了工作流程,尤其在处理重复性工作和高脑力思考任务方面表现突出。目前,96.3%的人认为人工智能提升了工作效率,其中43%的人认为效率提升在20%-40%之间,23.9%的人认为提升幅度在40%-60%,21.2%的人认为提升幅度在60%-80%,而有4.8%的人认为效率提升超过80%。 AI技术在文本和图像生成及理解上虽取得进步,但在语言风格、创造力、连贯性、错误率、复杂场景处理及细节真实性等方面,与人工相比仍有差距,需进一步提升技术水平和加强伦理考量 目前,在多模态理解上,文本理解的技术最为成熟,广泛应用于搜索引擎、对话系统和内容推荐,市场渗透率高。而图像理解紧随其后,在医疗影像、自动驾驶、安防等领域已取得显著成果,但在通用场景中的性能仍待提升。其次音频理解和视频理解技术正在快速发展,音频理解在语音助手和客服领域应用成熟,但视频理解因计算复杂度高,应用多集中在短视频推荐和监控分析等特定场景,整体市场渗透度相对较低。 中国大模型行业发展综述——发展路径 关键发现 大模型从文本向着多模态的发展历经三阶段:初期聚焦于模态理解与关联,中期扩展至模态生成能力,高级阶段实现任意模态转换与智能融合,逐步接近人类多模态智能水平 大模型的发展历程 初始探索阶段 模态生成扩展 其智能水平逐渐接近人类,为更广泛的应用场景提供了可能。 多模态大模型性能的发展演变 高 与外部工具结合 音频-文本输出 内容数量与质量 接近人类的智能 音频-文本理解 视频-文本输出 视频-文本理解 图像-文本输出 图像-文本理解 低 初始探索阶段 模态生成扩展 任意模态转换与智能融合发展阶段 中国大模型行业发展综述——价值效益 关键发现 人工智能技术在文案写作、绘画、视频及音频生成等方面显著提升效率、降低成本,优化工作流程,同时保留手工创作的独特价值于高端定制领域,为各行业带来革命性变化 AIGC提升工作效率区间,2023年 AIGC辅助从事的具体工作内容,2023年 人工智能技术应用广泛,显著提高工作效率,优化工作流程,正逐步改变各行业的工作方式,提升整体效率 人工智能技术的应用有效提高了工作效率,优化了工作流程,尤其在处理重复性工作和高脑力思考任务方面表现突出。目前,96.3%的人认为人工智能提升了工作效率,其中43%的人认为效率提升在20%-40%之间,23.9%的人认为提升幅度在40%-60%,21.2%的人认为提升幅度在60%-80%,而有4.8%的人认为效率提升超过80%。 4% 15% 42% 16% 人工智能的应用领域涵盖了多种任务,其中文案写作是最为广泛的应用方向,占比高达41.77%。通过自然语言处理技术,人工智能能够帮助用户快速生成高质量的文案内容,这不仅减轻了员工的负担,也大大提高了工作效率。特别是在内容创作密集的行业,如广告、营销、媒体和教育等,人工智能的应用让文案写作从传统的人工创作模式转变为高效、智能化的过程,从而节省了大量时间并提高了内容创作的质量。翻译工作的应用占比为19.85%,这表明人工智能在帮助组织打破语言壁垒,促进国际化交流和合作方面发挥了重要作用。其高效且准确的翻译能力,使得全球化合作变得更加顺畅。 20% 文案写作翻译工作 综合辅助工作代码生成数据分析PPT制作 多媒体制作信息检索 此外,代码生成(14.8%)和综合辅助工作(16.39%)也是人工智能应用的重要领域。这些领域通常需要专业技能和大量时间投入,而人工智能化技术的应用使得这些工作变得更加轻松高效。尽管在数据分析(4.08%)、信息检索(0.6%)、PPT制作(1.45%)和多媒体制作(1.04%)等领域的应用占比较低,但这些领域的应用也证明了人工智能技术的广泛适用性。总之,人工智能的普及和应用正在改变工作方式,提高各行业的工作效率。 中国大模型行业发展综述——发展痛点 关键发现 AI技术在文本和图像生成及理解上虽取得进步,但在语言风格、创造力、连贯性、错误率、复杂场景处理及细节真实性等方面,与人工相比仍有差距,需进一步提升技术水平和加强伦理考量 人工智能识别与人工识别的差异 人工智能识别与人工识别红外相机动物影像准确率比较(简单场景) [单位:%] 100 80 60 40 AI识别人工识别 照片1 照片2 照片3 照片4 照片5 照片6 照片7 照片8 照片9 人工智能识别与人工识别红外相机动物影像准确率比较(复杂场景) [单位:%] 100 80 60 40 AI识别人工识别 照片1照片2照片3照片4照片5照片6照片7照片8照片9照片照片照片照片照片 人工智能识别虽取得进步,但在总体准确率和复杂场景应对上,目前仍无法超越人类的高水平识别能力 人工智能识别总准确率为69.0%,均值为68.2%。人工识别总准确率为99.0%,均值为99.1%。人工识别准确率显著高于人工智能识别准确率。具体来看,在简单场景中,AI识别准确率为77.3%,人工识别准确率为98.9%。在复杂场景中,AI识别准确率为62.31%,人工识别准确率为99.1%。 简单场景通常指的是那些背景信息较少、干扰因素较少、物体特征明显的情况,对于这类任务,AI已经能够达到一个相对较高的准确度,但仍难以匹敌人类几乎无误的表现。而在复杂场景中,AI识别的挑战进一步加大,其准确率下降至62.3%。复杂场景可能包含更多的变量,例如光照变化、遮挡、多角度视图、相似物体之间的区分等,这些都增加了识别的难度。然而,即便是在这样复杂的环境中,人工识别依然保持了极高的准确性,达到了99.1%。这反映了人类在处理不确定性和模糊信息方面的独特优势,以及在复杂环境下做出正确判断的能力。综上所述,尽管人工智能在特定领域的某些方面已经取得了令人瞩目的进步,但在总体识别准确率和应对复杂场景的能力上,目前还无法超越人类。 中国大模型行业发展综述——技术成熟性 关键发现 多模态技术中,文本理解与生成技术成熟度高;图像、音频技术快速发展;而视频技术因计算复杂度高,尚需突破。整体而言,多模态生成技术潜力巨大,但广泛应用前需解决计算成本和质量等瓶颈 AIGC各模态技术成熟度和市场渗透程度分析 强 文本辅助生成 弱 弱 技术成熟度 强 多模态技术中,文本理解与生成最为成熟,图像、音频技术快速发展,视频技术因复杂度高尚需突破 目前,在多模态理解上,文本理解的技术最为成熟,广泛应用于搜索引擎、对话系统和内容推荐,市场渗透率高。而图像理解紧随其后,在医疗影像、自动驾驶、安防等领域已取得显著成果,但在通用场景中的性能仍待提升。 其次音频理解和视频理解技术正在快速发展,音频理解在语音助手和客服领域应用成熟,但视频理解因计算复杂度高,应