新华社国家⾼端智库分中⼼新华社研究院中国企业发展研究中心2023年08月 在2023年6月首次发布的《人工智能大模型体验报告》基础之上,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;在打分标准上,本次测评根据对产业、生活的实际价值,对四大测评维度进行了权重设计;在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他业界、学界专家全程参与。 通过本次测评发现,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,科大讯飞的星火在工作提效方面优势明显;百度文心一言地基深厚、基础能力仍处领军水准;商汤商量则在情商方面表现优秀;智谱AI的ChatGLM整体表现优秀。 在本次体验测评的基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究,欢迎持续关注。 大模型市场综述 01 目录 •大模型发展进程•大模型应用发展建议•大模型未来发展趋势•2.0版本大模型测评规则 大模型厂商整体测评2.0版本 02 •2.0版本大模型综合指数•2.0版本测评细分维度指数及评述 厂商优秀答案展示 03 •大模型2.0版本测评题目展示 01.大模型成为AI大规模落地拐点 中国大模型发展现状 大模型发展进程 通用大模型应用 垂直大模型应用 ----教育----子曰-有道 360智脑-360WAI-微盟WPS AI-金山办公超拟人大模型-聆心智能赤兔-容联运混元-腾讯九天-中国移动源-浪潮盘古-华为日日新-商汤天工-昆仑万维天书-云天励飞通义千问-阿里云文心一言-百度西湖-西湖心辰星河-中国电信星火-科大讯飞序列猴子-出门问问玉颜、丹青-网易伏羲知海图-知乎紫东太初-中科院 中国大模型发展热度依旧,天眼查数据显示,截至2023年上半年,与“大模型”直接相关的融资事件超20起,其中包含光年之外、面壁智能等明星级创业企业;从被投企业的地域分布来看,北京、上海以及杭州位居前列,特别是北京,融资事件数量超10起,凸显出北京在人工智能领域的领先地位。越来越多的企业和学术界开始关注如何将大模型与实际应用场景相结合,实现真正的商业化应用。具体来说探索主要围绕研究层面和应用层面: ----金融----ChatABC-中农行 ----媒体---- •研究层面,中国大模型在科研方面已形成涵盖理论、方法、软硬件的体系化能力,学术界和产业界共同参与,形成更加完善的理论框架。 •应用层面,目前大模型已开始渗透到各行各业,实现商业化应用。超过半数的大模型实现开源。 大模型进程过半,如何让AI真正走进千家万户成关注重点 AI技术发展的重点已经从大模型的盲目追求转向了实用性和可持续性的发展,AI大规模落地需要更多时间来验证。通过降低成本、提高易用性、增强可靠性、保护隐私和安全等方面的措施,可以进一步提高大模型的可用性,让更多的人受益于AI技术的发展,实现更加智能化和便捷化的生活。 安全可解释 降低成本 提高易用性 数据安全 •用户界面设计:设计直观、易用的用户界面,利用自然语言交互等技术,降低使用门槛。 •开发工具和平台:提供简单易用的开发工具和平台,例如智能代码生成、自动化模型训练等工具,使非专业人士也能够轻松上手。•服务支持:提供相关的培训和教育资源,帮助用户了解AI技术的原理和应用场景,加强运营和推广,形成数据-技术-用户-数据反馈的正向闭环。 •提升数据质量:提高数据的质量和多样性,加强对数据的清洗、处理和扩充,以提高训练数据的质量和完整性。 •鲁棒性增强:提高模型的鲁棒性,使其更好地应对各种异常情况和边缘情况,减少错误和漏洞。包括数据增强、引入噪声、使用防御性编程等技术。•持续监控和升级:及时发现和修复模型的问题和缺陷。建立监控系统、进行性能测试等技术。 •数据加密:对用户个人数据进行匿名化处理,利用哈希算法、公钥加密等技术加密技术保护数据的传输和存储。•访问控制和身份认证:建立严格的访问控制机制和身份认证体系,确保只有经过授权的用户才能访问和使用数据。使用角色分配、权限控制等技术实现访问控制。•安全审计和监控:建立健全机制,使用安全日志对AI应用的安全性进行定期检查和评估。 •优化算法:通过改进和优化算法,可以降低模型的计算复杂度,减少所需的计算资源和时间。 •分布式训练:分布式训练是一种技术,可以将训练任务分配到多个计算节点上并行处理,从而加速训练过程。•模型压缩:通过减少模型的参数数量、裁剪模型的结构或使用低精度计算等方法,来减小模型的存储空间和计算复杂度。 未来已来,大模型概念红利逐渐消失,回归到实际应用 持续加强算力基础设施建设 构建完整的数据中心,扩大算力设施规模,提升算力使用效率,实现算力的集中化、高效化供给 跨领域知识、多模态数据融合 打造综合性的知识体系,打通多模态数据之间的沟通壁垒。多技术、多数据融合,一体化的解决方案逐渐产生化学效应 安全可靠的大模型产品应用正成为深耕方向 安全可解释的大模型是AI大规模落地的必要条件之一,通过AI算法模型进行行为分析等提前预警风险,提高模型鲁棒性等需要持续深耕 大模型走向实体经济,商业化路径逐渐明晰 从技术概念到实际落地,已有部分大模型应用出现,以产品或服务的方式进行商业化的路径已经逐渐开始试点 大模型更加注重在线学习和增量学习 探索模型无监督学习,在不断接收新数据的过程中进行自主学习和升级,从而提高模型的学习效率和适应能力以及迁移性 2.0版本评测规则(1/2) 经过对大模型评测1.0版本的打磨和沉淀,新华社研究院中国企业发展研究中心推出大模型评测2.0版本。主要升级方向包括:1.引入Benchmark-人类答案做对比(组建专家团队,利用开卷考试的方式进行问答),更加直观观测AI模型与人之间的差异;2.题目数量由300道扩充到500道,在题库中随机筛选题目,使结果更加客观;3.根据目前市场情况,增加二级分类权重,并细化二级分类,侧重考察产品的基础能力和智商部分,更符合市场进程;4.专家团队升级,专家团队成员涵盖高校教授、行业专家、企业CEO、自媒体创始人等,在打分过程中打乱问题,采用背靠背的打分形式,进一步增强打分结果权威性。 本次测评大模型评测维度: •基础能力(共150题):考察产品的语言能力、跨模态能力以及AI向善的引导能力,新增多轮对话能力。•智商测试(共125题):涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等10+项细分,逻辑能力则包括推理能力、归纳能力以及总结等6项维度。逻辑推理能力权重增高,并明确封闭式问题打分规则。•情商测试(共75题):衡量产品个体情感能力。包括自我认知、自我调节、社交意识、人际关系管理等方面,本次情商测试围绕不同场景下的突发状况、沟通技巧、情绪管理等展开,并引入专家帮助评估答案。•工具提效能力(共150题):将二级维度总结归纳为工具和创新两大类型,考察产品能否有效帮助相关人员的工作效率提升,并为创新提供思路。 本次评测规则(2/2) 打分规则 评测大模型产品 02.大模型厂商整体测评 主流大模型综合指数2.0 主流大模型综合指数2.0解析 本次引入Benchmark结果对比更加明确。首先,在基础能力方面,人类与AI之间的差距并不显著。这是因为AI算法模型的开发受到人类编程思维的影响,并且在其开发过程中充分利用了人类的智慧和知识。在政策的积极引导下,AI在向善和语言能力上表现出色,逐渐接近人类专家的水平。值得关注的是,大模型的安全可解释性需要持续投入,避免不受控制的现象出现。 尽管AI在某些方面能够达到或超过人类的水平,但在整体上,人类在智商方面仍然具有明显优势。人类的智商不仅体现在学习能力上,更表现在善用工具和解决问题的能力上。尽管一个人不可能在所有领域都精通,但通过互联网等渠道获取各方面的信息,进行总结、积累和归纳,从而形成个人知识体系,这是人类智商的一个重要表现。因此,在智商评估中,人类的分数达到最高。 在情商方面,AI与人类之间的差距最为明显。目前尚未观察到AI具备情绪感知能力的明显迹象。相比之下,人类在情绪理解和处理方面通常具有更强的优势和更灵活的处理能力。人类的情感智慧是人类智能的重要组成部分,它涉及到人类的高级认知和社交能力,AI需要进一步发展感知智能。 最后,在工具效率提升方面,AI对人类提供了有力的支持,AI的处理速度远远超过人类。然而,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。 整体上看,AI大模型的发展为人类工作和生活的提质增效均带来了正向的积极影响。 基础能力指数及述评 在基础能力部分,百度文心一言表现最为抢眼;商汤商量、智谱AIChatGLM、360智脑表现优良;讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工表现尚佳。 大模型的基础能力包括多个方面,其中最重要的是语言能力。语言是人类智慧的体现,也是人工智能系统需要理解和模仿的重要领域。大模型通过学习和训练,可以理解和生成自然语言文本,并且可以进行多语言翻译和多语言对话。这些语言能力可以帮助大模型在自然语言处理、人机交互、智能客服等领域发挥重要作用。 除了语言能力,大模型还具有AI向善的能力。AI向善是指人工智能系统在运行过程中,能够遵循道德和伦理原则,保障人类的利益和安全。大模型在设计和训练时已经融入了这些原则,因此可以保障在应用时遵循AI向善的理念。 大模型还具有跨模态和多轮对话能力。跨模态是指在不同模态之间进行转换和迁移,例如将图像转换为文字描述,或者将语音转换为文字。这些能力可以帮助大模型在自动驾驶、智能家居等领域应用时更好地理解和处理不同模态的信息。多轮对话能力则是指大模型可以在多个对话回合中保持连续性和逻辑性,从而完成更复杂的任务和问题解答。 权重占比:语言能力(35%)、AI向善(10%)、跨模态(20%)、多轮对话(35%) 注1:基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果注2:分数四舍五入取整 智商指数及述评 在智商部分,讯飞星火、智谱AI-ChatGLM并列第一;百度文心一言、昆仑万维天工表现优良;商汤商量、360智脑、阿里通义千问、澜舟科技MChat表现尚佳。 智商指标描述 课题组认为,大模型的智商考察可以从三个方面进行评估,包括常识知识、逻辑能力和专业知识。 常识知识是指大模型需要具备对世界、人类社会和文化的基本信息认知。具备这些常识知识,大模型可以更好地理解人类语言和行为,并且在各种场景下做出正确的推理和决策。 其次,逻辑能力是大模型不可或缺的能力之一。它使大模型在处理复杂问题时能够提供更严谨的思维逻辑和更强大的分析决策能力,从而推动人工智能从认知走向感知。 最后,专业知识是指大模型需要具备特定领域的专业知识和技能。例如,在医疗领域,大模型需要了解医学知识和诊断技能;在法律领域,需要了解法律知识和法律推理能力。这些专业知识有助于大模型在特定领域中进行更准确、高效的问题处理。 权重占比:常识知识(20%)、逻辑能力(50%)、专业知识(30%) 注1:基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果注2:分数四舍五入取整 情商指数及述评 情商部分,商汤商量、百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM表现优良;360智脑、讯飞星火、阿里通义千问、昆仑万维天工表现尚佳。 情商指标描述 大模型的情商