精简版 前言 数学化时代,人工智能技术正以前所未有的速度发展,其中天模型技术作为AI领域的核心技术之一,己经成为推动社会进步和产业创新的重要力量。大模型,以其强大的效据处理能力和深度学习能力,正在多个领域展现出其独特的价值和潜力,从自然语言处理到图像识别,从智能推荐到自动驾驶,天模型正在不断拓宽人工智能的能力边界。 伴随着大模型技术的快速发展,越来越多应用在军事情报、指挥控制、智能武器、无人系统等领域的车事大模型应运而生,助推车事智能化转型。其中,对大模型的真实质量的掌握,对指导研究方向、优化能力设计、提升应用效能有著重要意义。全面、客观、准确的评估特定大模型针对场景的实际能力,需要有一个完善的模型评估方法论,科学、客观的对大模型的各项能力进行定性、定量评估。 近年来,渊亨科技积极参与行业内大模型的各项能力评估建设,取得了突出成果。作为国内最早从事军事大模型建设的企业之一,渊亨科技凭借在军事智能化领域的深厚积累,编撰完成《军事大模型评估体系白皮书》。白皮书全面的整理了军事大模型能力评估方向的主流观点、关键要素,并重点闸述了针对典型维度进行系统化评估的最佳实践。预期能为行业内开展军事大模型的能力评估提供体系化的参考。 目录 1背景2总体架构3评估框架43. 1架构能力..53. 2基础能力,.63. 2. 1通用基础能力.63. 2. 2军丰基础能力7平台能力.大模型数据生成能力3. 3. 13. 3. 2大模型开发训练能力大模型军事应用编排能力93. 3. 4其他支撑能力.3. 4军事大模型的应用能力. 103. 4. 1强敌研究领域...103. 4. 2作战指挥领域..103. 4. 3装备研制领域..113. 4. 4训练管理领域...113. 4. 5联勤保障领域.123. 5军事大模型的安全能力3. 5. 1军事偏见。123. 5. 2合法合规。123. 5. 3军事保密133. 5. 4对抗攻击.133. 5. 5算法加固,133. 5. 6伪造检测133. 5. 7数据防泄露134评估标准4. 1评分标准... 144. 2评估方法,154. 3成熟度分级标准 5评估手段165. 1基础能力评估.175. 2架构能力评估..5. 3平台能力评估...5. 4应用能力评估..185. 5安全能力评估。196评估数据196. 1评估数据类型,6. 2评估数据样例.7评估工具237. 1验证方法,7. 2通用能力评估工具7. 3智能体评估工具258评估平台.268. 1产品功能介绍..8. 1. 1测评集管理,278. 1. 2模型管理...288. 1. 3模型评估机制管理288. 1. 4评估过程管理..298. 1. 5评估报告管理...8. 1. 6服务资源管理...318. 2产品优势..318. 3应用场景329结语32 1背景 2022年11月,OpenAI发布了名为ChatGPT的人工智能应用其以预训练大语言模型GPT3.5为基础,惊艳的自然语言交互效果,使得公众、行业对人工智能的能力预期大大提升,在国内外掀起了一股新的人工智能能力建设和应用浪潮。2024年2月,OpenAI公布了文生视频大模型Sora、并提供者干样例视频,在行业内再一次引起巨大反响,以预训练大模型为核心的生成式人工智能技术,应用边界进一步拓宽。 在过去的几年中,中国的大模型技术和行业经历了快速的创新与发展。在通用大模型层面,百度、华为、阿里、讯飞、智谱、百川、月之暗面等企业根据自身的特点,采取开源、闭源等路线,持续聚焦底座模型效果和生态圈建设:在领域大模型层面,诸多传统企业和初创企业围绕Al-Native、Al-Copilot等概念各展所长,或基于自身业务引入大模型巩固和强化竞争优势,或针对新的方向进行细分市场探索尝试创造新的商业模式:在场景应用层面,越来越多的大模型目标用户尝试整合私域数据,结合自身的战略布局,探索大模型技术的赋能方法,提升企业运营、生产制造、能力营销等方面的效率、质量。 能力被认可和推广的一项重要前提,是合理、可行的能力评估。通用大模型层面,目前评估以“榜单为主要的体现形态,例如MMLU、CEval、SuperCLUE、GSM8K、Humaneval等,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,且存在无意(例如训练数据集被污架)、恶意(例如主动将测试数据集纳入训练微调过程)的"刷榜"现象。领域大模型层面,和通用大模型的能力评估现状和比,存在的问题更多,例如难以组织有效的领域测试数据集、使得大模型领域能力无从测起,没有系统的领域大模型生成和效果的测试方法、导致测试效果难被取信。自前国内已经有一些行业组织正在开展领域人模型相关的行标、国标建设。场景应用层 面的能力评估,由于需和上下游应用环境和信息系统深度对接,也有-些新的问题,例如模型生产和推理平台对企业既有基础设施的影响,模型和现场数据、系统之间的协同,模型在复杂使用环境下的安全保障等。 随着国防智能化建设的深入,军内很多机构都对大模型能力产生了浓厚的兴趣,军事大模型应用场景也非常丰富,如车事情报、指择控制、智能武器、无人系统等领域。军事大模型作为一类特殊的领域大模型,也有一些自身的能力评估特点。 军事领域的数据的机密性和敏感性众所周知。一方面,基础大模型很难在预训练/微调阶段注入足够的军事知识,军事认知必须在领域或大模型构建过程中形成,使得领域大模型的车事常识能力评估显得愈发重要:另一方面,常识能力评估所需的数据集,也因为军事数据的特点,领域大模型的评测数据集构建更为困难,因此更难展开有效的领域大模型评估工作。 军事领域高对抗性的特点,使得军事大模型和常规领域大模型相比面临者更为严的安全挑战。例如,通用大模型面临的偏见,在军事领域可能升级为“认知战”手段、对方刻意对大模型能力进行干扰:叉例如传统人工智能模型面临的对抗攻击、内容伪造、数据泄露问题,在军事大模型应用场景中需要得到更多的评估。 现代智能化战争一定是体系对抗,信息手段之问也需要有效配合军事大模型的应用成效极大的体现在和平时、战时既有系统的协同。而军事信息化系统的特殊性,使得领域大模型的能力评估,只能在特定的区域、特定的时刻结合特定的数据开展,这就对能力评估的方法论和手段集提出了新的要求。例如如何快速的结合现场提供的数据构造测试数据集、如何快速的结合业务目标完成领域测试项准备等。 退导科技长期放事认知和决策智能领域创究和项自年设,参辅!多项人工智能相关标准。近年来,也和一些行业主导标准化机构进行合作,推进围绕大模型的各项能力评估,例如人模型驱动的知识图谱,大模型运营能力等。基于以上背景,渊亭科技结合多年服务军事智能 化领域的行业认知,以及在军事大模型能力应用上的产品研发和项目实践经验,编撰完成本白皮书,希望研究成果能为社会各界参与军事大模型建设提供借鉴和参考。 2总体架构 军事大模型评估体系围绕大模型在军事场景智能化能力表现进行科学合理的评估评价,实现大模型评估全流程,支撑军事大模型的部署应用、模型改进和决策制定,确保军事大模型在车事业务场景的应用价值。军事大模型评估体系如下图: 车事大模型评估体系主要包括车事大模型评估数据、军事大模型评估手段、军事大模型评估工具以及军事大模型评估指标等内容。 (1)军事大模型评估数据:军事大模型评估数据包括外部开源。主流评估以及用户领域等方面的评估数据集。 (2)军事大模型评估手段:军事大模型评估手段与评估场景及环境相适应,即满足人工评估模式,也支持基于规则、模型的首动化评估模式。 (3)军事大模型评估工具:军事大模型评估工具负责内外部数据管理、评估手段实现、军事大模型兼容以及融合评估指标标准等能力。 (4)军事大模型评估标准:军事大模型评估标准提供大模型的基础、架构、平台、应用以及安全能力多层次的评估,结合评估需求,灵活定义评估指标,实现评估标准场景自定义。 3 评估框架 评估指标体系是军事大模型基准测评体系框架的核心组成部分,围绕强敌研究、作战指挥、装备研制、训练管理和联勤保障等5类军事业务场景,针对军事信息系统高风险、高动态、强对抗的任务特点构建一整套科学、客观、量化的评估指标,全面评估军事人模型在不同维度、领域和场景中的性能表现,为用户开展大模型选型提供标准化的测评参考,为大模型系统的上线运行提供可信的衡量标准,并为大模型的优化改进提供明确方向。 评估指标体系由架构能力、基础能力、平台能力、应用能力和安 全能力5个维度的评估指标构成。 (1)架构能力指标设计主要考核大模型体系化支撑军事应用的架淘成熟程度:(2)平台能力指标设计主要考量大模型系统的数据生成、开发训练、应用编排和具他支撑能力:(3)基础能力指标设计主要覆盖大模型的通用基础能力和军事基础能力;(4)应用能力指标设计侧重于从五大军事业务领域,评估大模型在实际军事业务场景中的表现:(5)安全能力指标设计重点评价模型在军事偏见、合法合规和数据保密等方面的性能。 3.1架构能力 军事大模型的架构能力是军事大模型系统整体性能的重要基石及确保大模型在军事领域准确高效处理数据、稳定可靠承载业务、安全可信落地应用的关键。主要体现在如下方面: 准确性:是衡量模型性能的美键因素,通常包括查准率(Precision)、查全率(Recall)、简活性(Brevity)和结果置信度(ConfidenceScore)等指标项。 健壮性:是评估模型在面对复杂挑战时稳定性和可靠性的重要标准。旨在衡量模型在面对对抗样本时,能够保持正确预测的能力。 兼容性:是评估大模型对不同技术环境和组件的适应能力。包含对基座大模型接口和功能的适配性、对国产自主可控软硬件系统的兼容性以皮第三方专业小模型,领域知识库和工具插性的兼容性 可评估:涉及架构能力评估、基础能力评估和场景应用能力评估三个层面。架构能力评估关注模型设计和内部机制的合理性:基础能方评估则涉及模型在标准任务上的表现:场景应用能力评估考量模型在特定应用场景中的实用性和效果。 可解释:是确保模型的决策过程和结果对人类用户透明和可理解 的关键要素。主要包括推理过程可解释、推理结果可解释、数据来源可解释、推理流程可视等指标项。 可仲缩:衔量的是模型在不同规模硬件部署环境下的适应性和灵活性。包括模型部著运行尺寸的可伸缩性,即模型能够在不同计算能力和资源条件下运行:不同参数量的部署可伸缩性,意味着大模型能根据实际需求调整参数模等。 高扩展:用于衡量大模型能否适应未来技术发展和应用需求的变化,包括对基座大模型版本升级、专业小模型、领域知识库和工具插件的扩展升级及系统功能扩展和二次开发能力的支持。 高可用:是衡量大模型系统在实际应用中的稳定性和响应能力的重要标准。包括系统的可靠性、平均无故障时间、平均响应时间、内容生成速度等指标项。 高运维:体现了模型在运维管理方面的高效性和便捷性。该指标主要考核大模型是否配备了专门的运维平台,该平台能否支持大模型的部署、监控、权限管理、版本管理、故障排查和目志管理等运维活动。 3.2基础能力 军事大模型基础能力的测评包括通用基础能力、军事基础能力两部分指标体系,前者面向通用基座大模型的基础能力的测试,后者面向军事业务领域大模型需要具备的共性能力的测试。 3.2.1通用基础能力 语言理解与抽取:是衡量大模型处理自然语言的核心能力,包括对支本进行语义分析,识别出关键的实体和它们之间的关系,以及对文本进行情感倾向的判断。 上下文对话:重点评估大模型在对话系统中的表现,特别是在理解用户意图和维持对话连贯性方面,能够跟踪对话的上下文,确保多轮对话的内容一致。 生成与创作:重点评估大模型在创造性写作方面的潜力,包括生成新闻文章、故事、诗歌等。 常识与知识:是大模型理解世界的基础,涉及对广泛常识的掌握以及对特定领域知识的深入理解。大模型需具备进行基于常识的推理,回答知识库中的问题的能力。 多模态:是大模型处理和理解多种类型数据的能