行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

可信开源人工智能大模型案例汇编（第一期）

2024-01-30 - 云计算开源产业联盟张兵

可信开源人工智能大模型案例汇编版权及免责声明本报告版权归中国信通院云计算开源产业联盟所有。本报告所包含的内容、资料与信息，仅供您参考之用，并不构成意见或建议。中国信通院云计算开源产业联盟不保证或担保本报告内容、资料与信息的准确性，完整性，充分性或及时性。中国信通院云计算开源产业联盟明确不承担因基于本报告的任何内容、资料与信息，而采取的作为或不作为所产生的一切责任。前言随着开源技术占据各大新兴领域的技术路线，其不断丰富人工智能领域的应用场景。2023年，Meta 相继发布 Llama 和 Llama2，很快成为广受欢迎的开源大模型，也成为许多模型的基座模型。开源大模型可以促进技术的共享和交流，加速人工智能的发展，但也存在数据隐私安全风险、许可协议尚未形成共识、产业生态不健全、商业模式不清晰等问题。为进一步引导开源大模型产业规范发展，中国信通院云计算开源产业联盟联合超神经编制《可信开源大模型案例汇编（第一期）》案例，旨在洞察开源人工智能大模型应用场景，梳理开源人工智能大模型的开源成熟度，提升开源人工智能大模型的创新发展。案例通过调研国内开源大模型的技术细节、应用场景、商业模式、应用治理、发展趋势等，并关注开源大模型技术生态及产业链上下游，全面展现开源大模型及其工具链的发展全貌，为下一代技术浪潮的发展助力。可信开源人工智能大模型案例汇编目录开源人工智能大模型发展历程1开源正成为推动人工智能大模型创新发展的关键引擎1 开源人工智能大模型发展背景和发展现状开源正成为推动人工智能大模型创新发展的关键引擎1 在人工智能大模型领域，开源能够激发技术创新活力，推动数字时代科技创新。开源汇聚众智、促进多方协同，有效实现了优势互补，激发技术创新活力。开源开放的创新模式相比于工业时代封闭专利的创新模式，更顺应数字时代技术迭代快、应用范围广的发展规律，解决单一主体创新成本过高问题，通过去中心化的异步协作激发各类主体的创新创造活力，以开放协作实现智慧累积，对创新效率和创新质量带来巨大提升。Meta 在 Llama 基础上开源 Llama2并允许免费用于商业用途。Llama2 为初创企业和科研机构等主体提供了一个强大的免费选择，可以作为 OpenAI 和谷歌出售的专有模型的补充，有效激发了人工智能大模型共创浪潮。仅Llama2 开源几日后，在其基础上衍生的大模型 FreeWilly2 便实现对 Llama2 的性能超越。与此同时，Llama2 凭借其开放可拓展的优势，衍生出 lawyer-llama、EduChat 等垂直领域的模型产品，加速推动人工智能大模型场景化应用创新。开源人工智能大模型发展历程2 大语言模型的开源推动了深度学习和人工智能的持续发展，也催生了一系列前沿探索和落地应用。2017 年，Google 发表论文“Attention is All You Need”，首次提出了Transformer 架构，该架构成为后续人工智能大模型构建的基础。2018 年 11 月，Google 提出 SOTA NLP 预训练模型 BERT 并将其源代码开源，BERT 在 SQuAD v1.1 和 GLUE Benchmark上得到最高水平评分。2020 年 2 月，Google 发布 T5 模型，通过 text-to-text 格式训练，可以学习通用语言表征，并通过微调适应特定任务。2022 年 5 月，Meta AI 发布 OPT-175B 并开源了预训练模型及源代码，OPT-175B 禁止商用但允许学术单位及科研机构使用。2022 年 6 月，BigScience 社区发布 BLOOM，具备 1760 亿个参数，支持 59 种语言，旨在为公众提供 GPT-3 的开源替代品。2022 年 8 月，清华大学开源中英双语预训练模型 GLM-130B，使用通用语言模型算法进行预训练。2023 年 2 月，Meta AI 开源 SOTA 基座大语言模型 LLaMA，训练数据全部来源于公开数据集，参数范围 7B-65B。2023 年 6 月，百川智能发布开源可商用大规模预训练语言模型 Baichuan-7B，支持中英双语，上下文窗口长度 4096。2023 年 10 月，智谱AI 开源 ChatGLM3 系列模型，包括 ChatGLM3-6B（32k）、多模态 CogVLM-17B、以及智能体 AgentLM。 2023 年 12 月，阿里云在通义千问发布会上开源 Qwen-72B、Qwen-1.8B 和Qwen-AudioQwen 3 个大模型。可信开源人工智能大模型案例汇编随着开源人工智能大模型不断发展，由 BLOOM、LLaMA 等主流开源大模型逐渐衍生出其他开源人工智能大模型。 LLaMA 2023 年 2 月，Meta AI 开源 SOTA 基座大语言模型，同年 7 月，Meta AI 再次发布 LLaMA 2，训练数据相较于 LLaMA 1 提升了 40%，上下文长度翻倍。同时， LLaMA 2 还允许商用，由此衍生了众多开源大模型。2023 年 3 月，斯坦福大学微调 LLaMA-7B 推出 Alpaca-7B，Alpaca仅供学术研究使用，禁止商用。2023 年 3 月，哈工大 - 科大讯飞联合实验室发布了基于中文LLaMA 模型和指令精调的 Alpaca 大模型 Chinese-LLaMA-Alpaca，进一步促进大模型在中文 NLP 社区的开放研究。2023 年 3 月，LMSYS Org 发布基于 LLaMA 的开源大模型 Vicuna-13B，它是一个用 ShareGPT 收集的用户对话训练的开源聊天机器人。2023 年 6 月，清华大学联合面壁智能等企业推出基于 LLaMA-13B 的大模型 UltraLM-13B。2023 年 8 月，度小满研究团队开源了基于 LLaMA2-70B 进行中文增强的一系列金融大模型 XuanYuan-70B。 BLOOM 2022 年 6 月，BigScience 社区发布 BLOOM。2023 年 5 月，度小满基于 BLOOM-176B 开源千亿级中文金融大模型轩辕 (XuanYuan)。2023 年 5 月，链家科技基于 BLOOM 和LLaMA 开源了中文对话大模型 BELLE。2023 年 6 月，虎博科技基于 GPT 和 BLOOM 两个开源模型，发布自研多模态大模型 TigerBot。大数据系统计算技术国家工程实验室团队正在研发基于 BLOOM 中文增量训练的中文基础模型 Linly-Chinese-BLOOM，包含 7B 和 175B 模型量级，可用于商业场景。全球开源人工智能大模型发展关键问题开源人工智能大模型开源成熟度1 人工智能大模型的部署应用需要经历数据准备、模型设计、模型训练、模型优化等多个环节，落地后仍需要根据实际需求以及应用反馈进行调整与维护。其中，模型框架、模型代码、模型参数、训练数据四个方面是衡量其开源成熟度的重要评定等级。可信开源人工智能大模型案例汇编全球开源人工智能大模型商业模式基本形态开源人工智能大模型的商业模式基本分为两类：类 open-core 商业软件模式 open-core 商业软件模式是指核心代码开源，但是部分功能代码是闭源，最终形成了闭源的代码软件进行售卖。在开源人工智能大模型企业中，企业开源较低参数规模的大模型，并提供较大参数规模的付费版本。企业根据自身场景和业务需求，为客户定制专属大模型，并针对部署的定制化版本提供更全面的支持、咨询、培训和托管服务。专业服务模式专业服务模式由传统商业软件的以“产品”为卖点转向以“服务”为卖点，是开源商业公司采用的一种全新的商业模式。由于开源人工智能大模型一种技术密集型产品，需要对大模型进行持续维护、优化、迭代升级才能发挥软件的最大价值。专业服务模式下的开源商业公司针对免费的开源项目提供收费服务，如技术文档、二次开发支持、用户培训等技术服务实现盈利。开源人工智能大模型治理开源人工智能大模型的治理分为数据治理与模型治理两部分。在数据治理中，开源人工智能大模型关注数据隐私与数据安全质量。开源人工智能大模型训练数据的非法泄露可能会导致敏感信息的暴露，因此确保数据隐私的安全成为治理的重要环节之一。在开发和使用过程中，需确保数据采集、存储和处理符合相关法规。数据的安全质量对于开源人工智能大模型同样重要。为确保数据安全质量，需关注数据的准确性、完整性、代表性等，并关注数据偏差和数据集的平衡性，避免模型在特定群体或场景下产生不公平偏见。高质量的数据能为模型提供更好的基础，从而使其在实际应用中发挥更大的价值。在模型治理中，应注重开源协议使用与模型伦理道德问题。开源协议通过明确规定开源项目的使用、修改和分发方式，为企业和用户提供了一定程度的保障。开源许可证保障了开源大模型的自由使用和共享，促进了创新和协作，同时也为开源大模型的作者和用户提供了一定的法律保护。目前，部分开源人工智能大模型使用常用的许可协议如 Apache 许可证等，同时部分模型采用自己定义的许可证。开源人工智能大模型的开发和应用还需关注伦理道德问题。这包括确保模型的公平性、透明度和可解释性，避免歧视性结果，评估和管理模型可能带来的社会影响。此外，还需关注模型在特定领域的合规性和符合道德标准的使用，以确保技术的正面推动作用。可信开源人工智能大模型案例汇编我国开源人工智能大模型发展洞察开源人工智能大模型开源程度统计在入选本次案例集的大模型中，模型框架开源的企业占比为 100%，模型代码开源的企业占比为 100%，模型参数开源的企业占比达到 100%。在本次调研的所有开源大模型中，用户均可以实现本地部署并针对实际使用情况进行微调。另有 22% 的大模型对其训练数据进行开源，方便用户对模型进行微调和二次开发。同时，部分大模型对外公布其训练细节，方便用户研究大模型训练过程以及进行模型继续训练。开源人工智能大模型商业落地情况目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。在金融领域中，部分开源大模型已经应用于智能客服、智能运营、智能办公等场景，通过智能客服与用户进行多轮对话，提出具体的、可行的解决方案，同时通过开源人工智能大模型生成广告和营销内容，提升营销效率，运用开源人工智能大模型了解国内外的宏观政策、行业信息、产品信息，自动生成文章、报告，提供专业建议和方案辅助交流。在法律领域中，应用开源大模型提供全流程智能辅助办案应用，对法律案件进行拆解、提取关键事件，构建智能审查、量刑预测、文书生成、自动编目、笔录生成等业务能力，通过智能技术辅助办案人员的常规工作，实现案件分析速度的提升。在企业服务中，开源人工智能大模型实现智能化业务运营。通过数据分析和预测能力，洞察企业运营、识别潜在的业务风险和机会，可信开源人工智能大模型案例汇编并提供智能化的解决方案，从而提高经营决策水平和业务运营效率，赋能企业构建高度自动化与智能化的企业知识库，并进行企业相关文档的摘要、总结、溯源。在制造业领域，开源人工智能大模型已应用于产线运营效率环节，如产品设计研发、质量控制检测、供应链管理、安全生产等。开源人工智能大模型基础配套设施建设情况伴随开源人工智能大模型的发展，数据平台、大模型开发工具、大模型训练部署平台与向量数据库等基础配套设施的开源生态不断完善。开源数据平台使用门槛较低，相比传统数据服务，具有显著的成本优势。开源训练平台用户能够最大限度地提高人工智能部署的效率，同时大幅降低成本。开源向量数据库由于其开源开放特性，在性能、扩展能力和功能方面具有优势，开源向量数据库具有较快的数据查询速度和更高的压缩比率，同时具有更强大的扩展能力。大模型开源开发工具降低

点击免费查看完整报告

可信开源人工智能大模型案例汇编（第一期）

你可能感兴趣

大模型领航者AIGC 实践案例集锦（第一期）

生成式人工智能用例汇编-政府服务与科技传媒和电信行业高影响力应用案例

生成式人工智能行业用例汇编：能源工业与医疗行业高影响力应用案例

互联网行业人工智能周报（24年第25周）：华为云首发AI原生应用引擎，Qwen2成斯坦福大模型榜单最强开源模型

2024人工智能开源大模型生态体系研究

资本市场政策法规汇编（2025年第一期）

2022-2023数据要素可信流通案例集

2025可信时间戳20件司法典型案例

可信工业数据流通应用案例集（2023）

基于物理条件约束的可信视觉生成大模型