中文大模型基准测评2024年4月报告 —2024年度中文大模型阶段性进展评估 2 0 2 4 . 4 . 3 0SuperCLUE团队 精准量化AGI进展,定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 一、国内大模型关键进展 •2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图 二、测评体系 •中文大模型基准SuperCLUE介绍•测评体系、方法及示例说明 三、大模型综合测评结果 •SuperCLUE模型象限•国内外大模型总体表现及竞争格局•大模型对战胜率、成熟度指数及开源格局•评测与人类一致性分析 四、通用维度测评详细分析及示例介绍 •十大能力详细测评分数•测评结果及示例 五、SuperCLUE2.0专项与行业基准测评 •各行业、专项、多模态测评基准•未来两个月基准发布计划 六、优秀模型案例介绍 •优秀模型案例介绍 第1部分 2024年4月大模型关键进展 1.2023-2024大模型关键进展2.中文大模型全景图 2023-2024大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 第2部分测评体系 1.SuperCLUE介绍2.测评体系3.测评方法及示例 SuperCLUE介绍 SuperCLUE三大特征 中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s e L a n g u a g eUnderstanding Evaluation)是致 力 于科 学、客 观、中 立 的语 言 模 型评 测 基 准,发 起 于2 0 1 9年 。陆 续 推 出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。 独立第三方测评,非大模型方主导 在人工智能大模型开发的竞争日益激烈的今天,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。通过这种方法,SuperCLUE帮助用户准确理解各种AI模型的真实性能,支持他们做出更明智的选择。 SuperCLUE是大模型时 代C L U E基 准 的 发 展 和 延 续 。 聚 焦 于 通 用 大 模 型的 综 合 性 测 评 。 传 统 语 言 模 型 测 评 往 往 局 限 于 学 术 范 围 的 单 轮 选 择 题 ,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 测评方式与真实用户体验目标一致 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。 同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。 不限于学术领域的测评,更为了服务产业界 不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。 测评方法 为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由十大基础任务组成,题目为多轮开放式简答题。评 测 集 共2194题,以下为评测集与测评方法简述。 测评方法 SuperCLUE多轮开放式通用十大数据集 理科 评测流程: 长文本-测评方法 模型答案 超级模型(裁判) 问题 (通义千问2.1) 问题背景全面数字化生存视域下“人工智能引擎电影”(AIEM) 的出现与发展2022年以来,人工智能生成内容(AIGC)迅速发展,2023年闯入大众视野。ChatGPT类的人工智能聊天工具一时激起全民试用风潮。Midjourney、StableDiffusion、DALL·E2等文生图工具更是引起广泛的创意试验,社交媒体平台上涌现大量用户创意生成的人工智能图像内容。工具的进步使创意得以解放,人们不再需要依托绘画技巧便可以制作、创造、实现脑海中的丰富意象。Gen-2为代表的文生影像工具虽不像前两者一样广为流传,但也因其便捷、快速、直观的运动影像生成能力而引起影视行业的惊叹和关注。这里提及的各种人工智能工具拥有一个普遍特点——在短时间内快速、频繁地更新、迭代,生成能力随着数据的丰富而无限向真人、真实世界、真实感官靠近。...<中间省略>... 随着全面数字化生存时代的来临,一种新型电影形态“人工智能引擎电影”(AIEM)应运而生。AIEM是数字电影发展的深化产物,其诞生与成长根植于信息的数字化与信息化进程。信息的数字化始于将传统非比特信息(如胶片电影)编码为数字信息,实现信息的传播;数字信息化则表现为在数字信息领域内完成信息的生成与传播,无需传统信息手段介入。电影产业中,从传输数字化到内容数字化、流程数字化的演进,为AIEM的孕育提供了土壤。 我的思考与答案:AIEM是一种在全面数字化时代背景下出现的电影制作新形 态,它涵盖了从信息数字化到数字信息化的全过程,以及电影制作中的传输、内容以及流程的数字化转型。AIEM利用人工智能和引擎技术,通过实时渲染和算法驱动等手段,降低了对现实物理世界的依赖,提高了创作自由度和生产效率。同时,三维影像数字资产、算法技术以及数字化分发平台的应用,都将成为AIEM发展的重要支撑点。 AIEM作为一种高度数字化、依赖比特信息交互构建并传播的电影形式,其核心特征体现在:(1)原子信息低依赖性,通过算法驱动实时渲染,显著降低了对现实世界物质材料的依赖,释放了创作自由度;(2)实时渲染技术使得导演能够即时观察和调整创作效果,极大提升了制作效率;(3)融合真人电影与动画电影的生产工艺,通过算法弥合了二者间的艺术界限,创造出更丰富多元的影像世界;(4)运转高效,流程再造,如引入实时渲染、非线性编辑等工具,简化并加速了电影制作过程;(5)分发渠道全数字化,AIEM内容能便捷地在各类数字化平台发行,且易于转化为VR版本,实现多维度分发。 问题及改进的反馈意见:模型的回答沿用了问题中的文字结构和术语,提供了一个精 确且连贯的AIEM的概念摘要,概述了其技术演进、行业应用和前景展望。模型的回答中虽然信息基本准确,但有少许内容的重复和例子的缺失,如在讲述AIEM技术特性时没有具体案例支持。 AIEM的出现与技术进步不仅革新了电影制作工艺,也对影视产业未来带来了深远影响与变革。首先,三维影像数字资产的重要性日益凸显,成为AIEM发展的重要支撑。加大对数字资产库的建设和管理力度,有利于在全面数字化时代抢占先机。其次,算法在AIEM制作中的主导地位愈发显著,掌握并研发先进的算法技术,以及培养能够驾驭算法进行影视创作的专业人才,将成为产业竞争的关键。最后,AIEM的全面数字化特性使其天然适配新兴的数字化内容分发渠道,如XR设备,有望重塑内容分发格局,催生新的盈利模式,提升传输效率,助力打击盗版现象。 回顾历史,每一次内容分发渠道的变革,都将引起整个影视产业布局的重塑。移动互联时代,影视产业虽然取得了突飞猛进的发展,但在分发渠道上,依然有很多问题——盈利模式缺陷,传输效率低下,盗版横行泛滥等等,难以解决。伴随全面数字化的时代的开启,可以乐观地说,下一场变革已经到来。 打分与评价开始: 1.基于“符合基本要求”:模型的回答以清晰的方式概括了AIEM的关键概念和重要性,并且紧紧围绕问题引导进行了答复,得4分;2.基于“推理准确性”:模型的回答在描述AIEM出现的原因 和其对行业的潜在影响和变革时推理正确,准确地涵盖了所有相关信息,得4分;3.基于“结论合理性”:模型的回答合理地综合了AIEM当前的技术和未来的发展潜力,结论性的陈述符合文章的主旨,得4分。综合以上,AI助手的回答的综合得分(平均分)为4分。 问题 综上所述,人工智能引擎电影(AIEM)作为全面数字化生存背景下电影发展的新形态,凭借其原子信息低依赖性、算法驱动、实时渲染、流程再造及全数字化分发等特性,正在深刻改变电影制作工艺,推动影视产业向更高效、多元、沉浸式的方向发展。同时,对三维影像数字资产的重视、算法技术的创新与人才培养,以及顺应数字化内容分发趋势,将是AIEM引领影视产业未来变革的重要着力点。 请针对所提供的文档《全面数字化生存视域下“人工智能引擎电影”(AIEM)的出现与发展_陈洪伟》,从文中抽取与“人工智能引擎电影”(AIEM)密切相关的信息,撰写一篇不超过500字的中文摘要。在摘要中,需阐明AIEM在全面数字化生存背景下的出现原因,该领域的技术进步和发展态势,以及其对影视产业未来可能带来的影响和变革。摘要应依据文章提供的论点和实例,按照逻辑顺序,先后介绍AIEM的概念基础、技术演进、行业应用和前景展望。 逻辑推理-测评方法(首问) 模型答案 超级模型(裁判) 首问 (gpt4-turbo-0125) 要确定W,X,Y和Z的类型(真实者或虚伪者),我们可以根据他们的说法以及给定的规则进行逻辑分析。1.首先考虑W说:"X和我是同一类型。"这句话有两种可能性: 我的思考与答案: -如果W是真实者,那么X也必须是真实者。-如果W是虚伪者,那么X实际上与W是不同类型。2.接着看X的话:"Y和我是不同类型。"-如果X是真实者,那么Y必须是虚伪者。-如果X是虚伪者,那么Y实际上与X是同一类型。3.然后是Y说:"Z是虚伪者。"-如果Y是真实者,那么Z确实是虚伪者。-如果Y是虚伪者,那么这句话是假的,所以Z是真实者。4.最后,Z说:"W是虚伪者。"-如果Z是真实者,那么W确实是虚伪者。-如果Z是虚伪者,那么这句话是假的,所以W是真实者。现在,我们尝试根据这些信息找出一致性:-如果假设W是真实者,那么X也是真实者(根据1)。X是真实者意味着Y必须是虚伪者(根据2),如果Y是虚伪者,Z必须是真实者(根据3),这时Z说W是虚伪者与W真实者的假设矛盾。-因此,W不能是真实者,W必须是虚伪者。那么X与W是不同类型,所以X是真实者。-既然X是真实者,Y和X必须是不同类型,所以Y是虚伪者。- Y是虚伪者说Z是虚伪者,这意味着Y说的是谎言,因此Z是真实者。-如果Z是真实者,那么他的话“W是虚伪者”是真的,这与我们的推导相符。综上所述: 依据给定的规则,可以通过对话和逻辑推断出每个居民的真实身份。W说X和他是同一类型,假设W是真实者,那么X也是真实者。X说Y与他不同类型,那么如果X是真实者,Y是虚伪者。Y说Z是虚伪者,假设Y是真实者,则Z是虚伪者,但Z说W是虚伪者,这就与假设W是真实者矛盾。因此,我们转换假设:W是虚伪者,则X是真实者,Y作为X的相反,是虚伪者,Y说Z是虚伪者,但因为Y是虚伪者,则Z为真实者,Z说W是虚伪者证实了我们的假设。所以得出W和Y是虚伪者,X和Z是真实者。 假设我们有一个神奇的村庄,村庄中的居民都遵守一定的规则。这些规则是:信息1:村庄