AI智能总结
版 权 声 明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 编制说明 本指南由云计算开源产业联盟可信开源合规计划开源人工智能治理工作组撰写,限于撰写组时间、知识局限以及技术、社会发展迭代等因素,内容恐有疏漏,烦请各位读者不吝指正。 在编写过程中得到多家单位的大力支持,在此特别致谢中国信息通信研究院、中兴通讯股份有限公司、中国平安人寿保险股份有限公司、东方证券股份有限公司、中国光大银行股份有限公司、北京抖音信息服务有限公司、百度在线网络技术(北京)有限公司、天翼数字生活科技有限公司、亚信科技(中国)有限公司、深圳开源互联网安全技术有限公司、鼎道智联(北京)科技有限公司、北京大学人工智能研究院AI安全与治理中心、北京大学武汉人工智能研究院、OpenSDV汽车软件开源联盟、开源社、重庆中科汽车软件创新中心、上海市锦天城律师事务所等单位的各位专家,感谢各位秉承开源精神,协同共创,最终完成本指南的撰写工作。 主要撰稿人:张燕、郭雪、俊哲、孟伟、辜凌云、赵云虎、丁华、陈岱源、王帅、张小丰、陶冶、刘东威、孙珊珊、李梦欢、马红伟、严雪伦、周飞、李炫、张庆、成思敏、柴丹、李晓丽、李响、李欣博、沈杨、洪烨、梁尧。 前言 近年来,开源模式与人工智能技术加速融合,有力地打破了闭源人工智能技术垄断、加速人工智能大模型技术持续创新、拓展大模型应用路径、重塑人工智能产业生态,同时开源大模型的创新发展和应用还为个人、企业和国家的发展提供更为广阔的发展天地。然而,大模型技术在给人类带来生活方式转变和生产方式革新的同时,也引入了安全、合规等多方面风险挑战,甚至可能对人类社会的可持续发展带来负面影响。大模型开源增加了人工智能系统风险暴露和被恶意利用的可能性,开源许可模式的应用也使得人工智能技术利用的合规风险更加复杂,开源大模型的可得性亦可能加剧开源大模型滥用风险。 为保障开源大模型技术健康有序发展,充分释放人工智能技术效能,相关政策或法规纷纷出台,除人工智能治理宏观监管要求外,越来越多的国家政府开始关注开源大模型的针对性、包容性监管。在具体风险治理层面,企业也开始探索构建开源大模型综合性治理体系,并建立开源大模型风险防控机制,以最大化开源大模型应用实效。 本指南结合中国信通院开源研究工作,分析总结开源大模型发展态势,重点围绕开源大模型应用风险及治理动态、治理措施展开研究,为企业安全、合规、高效应用开源大模型提供参考。 目录 版权声明............................................................I一、开源大模型发展态势............................................1(一)从软件到大模型,开源的变”与不变”........................1(二)从垄断到开放,开源重塑AI生态.................................3(三)从个人到国家,开源释放AI效能.................................6二、开源大模型创新趋势............................................8(一)开源语言大模型开启百家争鸣新纪元.............................8(二)开源多模态大模型注入AI生态新活力...........................11(三)开源AGENT引领人工智能发展新方向............................14三、开源大模型风险挑战...........................................16(一)开源大模型应用或导致安全风险升级............................17(二)开源大模型应用或面临多重规制要求............................20(三)开源模式或加剧大模型技术滥用风险............................28四、开源大模型治理全球动态.......................................29(一)国际组织高度重视开源大模型发展,积极探索全球人工智能治理方案..............................................................30(二)欧盟立法谋求人工智能监管主导权,开源大模型得有条件义务豁免................................................................31(三)美国人工智能监管增强化趋势明显,国防领域率先探索开源大模型影响............................................................33(四)中国人工智能治理规则由软”及硬”,开源大模型或得包容性监管............................................................34五、企业应用开源大模型风险治理实操要点...........................46(一)开源大模型治理体系构建......................................47(二)开源大模型风险防控建议......................................49六、国内开源大模型应用生态完善方向...............................77 图目录 图1大模型的开放访问等级.................................................................................................3图2人工智能大模型许可协议合规流程...........................................................................53图3 Hugging Face Model格式Markdown截图.................................................................71图4 Hugging Face LLaMA-3.1 README.md截图............................................................72图5 LLaMA-3.1 CycloneDX模型组件转换信息截图........................................................73图6 CycloneDX LLaMA-3.1模型卡片信息截图...............................................................74图7 CycloneDX LLaMA-3.1数据集信息演示截图...........................................................74图8LLaMA-3.1 CycloneDX文件子组件表示信息截图....................................................76 表目录 表1经典开源语言大模型解析.............................................................................................9表2经典开源多模态大模型解析.......................................................................................12表3经典开源Agent解析....................................................................................................15表4国内外典型大模型许可协议类型表...........................................................................21表5地方政府开源人工智能相关规范文件.......................................................................35表6常见人工智能开源许可协议合规要点解读...............................................................54表7AI/ML BOM示例..........................................................................................................70 一、开源大模型发展态势 开源作为一种开放、无边界的新型协作模式,从开源软件到开源硬件,再到开放数据、开源大模型,开源的应用范畴不断拓展,但开放和可复制的核心原则始终未变。较之于闭源大模型,开源不仅重塑了人工智能产业生态,开源大模型的发展和应用更为个人、企业、国家提供了更为广阔的发展天地。 (一)从软件到大模型,开源的“变”与“不变” 开源思想兴起于软件开发领域,软件开源核心在于源代码开放。开源”(Open Source)概念根植于上世纪五十年代以来自由开放的计 算 机 文 化 ,并随 着 开 源 软 件 促 进 会 (Open Source InitiativeAssociation,OSI)经典开源定义的确立,逐渐形成共识。在传统软件行业,源代码凝结了创作者的设计思想、实现方法和具体表达,因此软件开源的核心集中体现在源代码的开放、可获取。历经数十年的发展,开源已成为现代软件产业的主流开发模式。目前,全球96%的商业代码库中包含开源软件,并且商业代码库中77%的代码直接源自开源软件。1 开源模式应用场景不断拓展,大模型开源形式多元。随着数字时代的到来和全球互联的加深,开源模式在不同场景的应用过程中逐渐衍生出开放数据、开源大模型等多种概念形态,成为人工智能技术创 新、开放、共享、可持续发展的源头活水。不同于传统软件的源代码开源,实践中围绕大模型相关技术,形成了开源模型框架、开源模型代码、开源参数权重、开源工具库以及开源训练数据等多种开源形式,但单一元素的公开和可获取可能并不足以支持使用者复现模型效果,实现开源授之以渔”的根本目的。 开源大模型定义逐渐清晰,开放性和可复制性的基本原则一以贯之。为促进开源思想在人工智能技术领域的贯彻和落实,避免部分开发者假借开源之名,行限制技术共享之实,OSI组织凝聚各方共识,探索开源AI定义,为用户和开发者提供判定AI模型是否开源的概念框架。根据当前定义,2开源人工智能系统需满足以下四个条件:一是允许公众出于任何目的使用系统,无需征得许可;二是允许公众研究系统的工作原理并检查其组件;三是允许公众出于任何目的修改系统,包括更改其输出;四是允许公众出于任何目的共享系统供他人使用,无论是否经过修改。与开源软件定义的基本原则一致,该定义明确了开源大模型框架、权重、代码以及训练数据等核心元素的开放性和可复制性,以确保开源大模型能够获得持续更新和改进。 开放性是开源大模型获取社区贡献的前提。开源大模型的开放性是指将大模型开发和训练的方法论、进展和技术成果向社会开放,而不对公众的访问、复制、检查加以限制。3开源大