您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[甲子光年]:2024人工智能开源大模型生态体系研究 - 发现报告

2024人工智能开源大模型生态体系研究

信息技术2024-06-21努尔麦麦提·买合木提甲子光年机构上传
AI智能总结
查看更多
2024人工智能开源大模型生态体系研究

开源为先场景突破 出品机构:甲子光年智库研究指导:宋涛报告撰写:努尔麦麦提·买合木提(小麦)发布时间:2024.06(初版)更新时间:2024年6月 发展人工智能产业的重要性与新机遇Part01 目录 Part 02人工智能大模型的开源生态体系分析 CONTENTS Part03人工智能开源大模型的创投情况分析 Part04开源大模型生态建设的成功经验与典型案例 Part05人工智能大模型典型商业化案例及未来展望 1.1人工智能发展进入应用落地阶段 人工智能技术经历70年的发展已经进入成熟期,即将进入大规模应用落地阶段 1.2数据、算力、算法作为人工智能发展的核心三要素已经具备基础条件 人工智能三要素:数据(data)、算法(algorithm)和算力(computing power); 人工智能(A)的快速发展依赖于三个核心要素:数据,算法,算力。这个观点已经得到了业界的高度认可。只有这三个要素同时满足了才能加速人工智能的大发展。随着人工智能大模型规模变大以及普及应用,人工智能对能源的需求也在不断加大,逐渐成为人工智能发展关键因素之一。 1.3大数据+大算力+通用大模型成为新的发展范式 大数据+大算力+通用大模型成为新的发展范式,将推动AI能力提升逼近通用人工智能 1.4人工智能将推动人类文明生产力跃迁和生产效率的飞跃 工智能智能将推动人类文明生产力的跃迁,标志着人类生产效率出现了第二次脑力效率飞跃 AI2.0时代将开启社会生产力新变革,首先体现在对于人类生产效率的颠覆式提升。 人类文明演进依次走过了原始时代、农业时代、工业时代、信息时代、数字时代,到今天的数智时代,每个时代的代表性生产工具都不同。所有生产工具反映的都是生产效率的提升能力。数字时代的云、网、端、芯、链等数字工具,除了体力效率的提升之外,还有脑力效率的辅助作用,ChatGPT所代表的AIGC工具的出现,标志着人类生产效率出现了第二次脑力效率飞跃,是新一轮生产力的跃迁,真正实现从体力效率提升向脑力效率提升的转变,这将推动人类社会发生深远变革,其意义不亚于新时代的蒸汽机。 1.5人工智能进入时代拐点,大模型开源生态成为推动AI产业发展的重要模式 大模型开源生态成为推动人工智能产业从技术走向应用的重要模式 开源大模型是指基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源大模型的特点是开放性、共享性和可扩展性,这使得开源大模型在全球范围内得到了广泛的应用和推广。目前,开源大模型已经成为全球人工智能领域的重要发展趋势。 模型开源生态不仅加速了人工智能技术的创新,而且推动了其在各个行业的广泛应用。通过开源大模型,企业能够更快地实现任务部署和技术落地,这对于人工智能产业的发展起到了关键作用。随着更多的开源大模型案例和应用的发布,我们可以预见人工智能将在未来的经济社会发展中扮演更加重要的角色。 开源生态的加速形成是大模型时代“安卓时刻”的来临 •开源系统的优势在于影响力的迅速扩散,加快垂直场景应用;•开源生态参与者、开发者众多,反应速度快,商业化探索更具潜力;•大模型开源,有助于企业/开发者加快实现任务部署和技术落地应用,促进产业发展成熟与生态形成。 平台:模型部署 Part01发展人工智能产业的重要性与新机遇 目录 人工智能大模型的开源生态体系分析Part02 CONTENTS Part03人工智能开源大模型的创投情况分析 Part04开源大模型生态建设的成功经验与典型案例 Part05人工智能开源大模型典型商业化案例及未来展望 2.1人工智能技术架构的演变与新趋势 人工智能技术进化出七大核心能力,实现从“解放四肢”到“解放大脑”的升级 第一阶段AI以逻辑推理为主,AI能力主要聚焦决策和认知;第二阶段AI注重概率统计的建模、学习和计算,AI能力开始聚焦感知、认知和决策;第三阶段AI聚焦学习环节,注重大模型的建设,AI能力覆盖学习和执行;第四阶段则聚焦执行与社会协作环节,开始注重人机交互协作,注重人类对人工智能的反馈训练。 当下正处于第四阶段,这一阶段从2020年开始,代表性事件是GPT-3的发布,突破了以往模型在自然语言处理领域的限制,为语言模型的进一步发展提供了强有力的基础,也为实现智能化的语言交互和人机对话打开了全新的可能性,是人工智能发展的一个关键节点。 2.2基于新一代人工智能开源技术架构的大模型开源生态体系 基础设施、大模型、行业应用构成大模型开源生态体系 2.3大模型开源生态体系的创新主体与创新机制 开源是大模型未来,开源生态体系持续演进 开源大模型是基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源由开源规则、开源对象、开源基础设施、参与主体组成。是参与主体在基础设施之上针对对象在遵循一定规则下的一种开放式协作模式,其目的是为了能产生公开复用的产出物。 开源的优势,在于降低商业软件采购成本、增强可定制性、保障软件高质量更新、维持技术创新等。 建设自有平台 技术流派 通过Github等平台发布 baichuan-7B大模型已在HuggingFace、Github以及ModelScope平台发布 ➢Decoder-only、encoder-decoder为主流架构➢LLaMa系列单卡版本成为社区热点 千帆大模型平台不仅提供了包括文心一言底层模型和第三方开源大模型,还提供了各种AI开发工具和整套开发环境 ChatGLM开 源 大 模 型 在Huggingface、GitHub发布 所用数据 腾讯云TI平台接入LLama2、Falcon等超20个主流模型,支持大模型直接部署调用且可全程低代码操作 天工Skywork-13B系列模型在GitHub开源 ➢基于Chatbot生成的问答数据集➢合规高质量数据集 2.4.1中国大模型开源生态体系的竞争格局 大模型开源生态体系由算力层、基础层、平台层、应用层、安全层构成 2.4.2中国大模型开源生态体系代表性厂商——华为 鹏程·盘古——大规模自回归中文预训练语言模型 鹏程·盘古模型是全球首个全开源2000亿参数的自回归中文预训练语言大模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领 域表现突出。鹏程·盘古模型的规模和参数 ➢模型文件迁移、模型代码对齐、并行训练实现 2.4.2中国大模型开源生态体系的代表性厂商——百度 文心大模型——AI应用场景全覆盖 文心大模型ERNIE是百度发布的产业级知识增强大模型,涵盖了NLP大模型和跨模态大模型。2019年3月,百度开源了国内首个开源预训练模型文心ERNIE 1.0,此后在语言与跨模态的理解和生成等领域取得一系列技术突破,并对外开源与开放了系列模型,助力大模型研究与产业化应用发展。 百度智能云千帆大模型平台 2.4.2中国大模型开源生态体系的代表性厂商——阿里云 通义千问——持续进化的AI大模型 通义千问的大语言模型已经实现全尺寸开源——包括18亿、70亿、140亿、720亿7个参数,不同规模和尺寸的模型,可拓宽应用场景。 2.5大模型企业发展面临的问题与困境(1) 大模型训练和应用面临着算力和能耗算力方面的挑战 大模型需要大量计算资源,导致全球算力需求指数级增长,对全社会信息基础设施和众多企业、科研机构的大模型研发带来巨大压力。 能耗方面,大模型对能源的巨大需求导致人工智能能源消耗占全球能源消耗的3%左右,到2025年将消耗全球15%的电能,给全球环境治理带来挑战。我国大模型发展带来的高能耗可能增加碳达峰、碳中和压力。 算力短缺 能耗巨大 •大模型对算力的巨大需求,带来了对能源的巨大消耗。人工智能服务器的功率较普通服务器高6至8倍,训练大模型所需的能耗是常规云工作的3倍。据估计,目前人工智能的能源消耗占全球能源消耗的3%左右,到2025年,人工智能将消耗全球15%的电能。人工智能的快速发展将对能源消耗和环境产生巨大影响。•据估计,GPT-4一次训练的耗电量相当于1200个中国人一年的用电量,仅占模型实际使用时的40%,实际运行阶段将消耗更多能源。一些大型模型运行时的碳排放量巨大,给全球环境治理带来挑战。我国大模型发展的高能耗可能增加碳达峰和碳中和的压力。 •大模型通常需要具有数十亿乃至上万亿个参数,训练时用到数万亿个Token,这就需要消耗巨大的算力。算力需求随着大模型的发展而呈指数级增长,对全球算力规模提出了巨大的要求。大型预训练模型的训练和调优过程需要消耗巨大的算力资源。例如,训练ChatGPT所需的算力相当于64个英伟达A100 GPU训练1年的时间。此外,大模型的日常运营和优化也需要大量的算力投入。预计到2030年,全球算力总规模将达到56ZFlops,其中智能算力成为推动算力增长的主要动力。这对于社会的信息基础设施建设和企业、科研机构的大模型研发都带来了巨大的挑战。•根据工信部的数据,2022年全球智能算力中,美国占45%的份额,中国占28%的份额,美国智能算力规模为我国的1.6倍,在中美算力竞争中,我国仍然处于相对劣势的一方。 2.5大模型企业发展面临的问题与困境(2) 大模型在数据和资金方面也面临着挑战 大模型面临的挑战包括数据获取便利性、数据来源合法性、数据质量可靠性、数据使用安全性、资金投入等方面的挑战。 资金投入方面,大模型成本高昂,包括模型开发成本、训练成本、算力成本、数据成本、运维成本等,对普通企业和科研机构而言,资金成为难以逾越的“门槛”。 数据规模与质量待提高 资金紧缺 •数据获取方面,专用类大模型需要专业数据,而这些数据往往属于企业、研究机构等实体,增加了训练难度。•数据来源合法性方面,个人信息保护意识的提高使得数据合法使用成为问题。•数据质量可靠性方面,开源数据集虽然数量巨大,但质量良莠不齐,从中提取符合预训练要求的高质量数据面临很大挑战。•数据使用安全性方面,如何保证使用的数据不带偏见,以及如何保证人工智能制造的数据本身的安全性,都是需要解决的问题。 •大模型训练开发成高昂,其成本主要由模型开发成本、训练成本、算力成本、数据成本、运维成本等构成,仅训练成本便动辄高达数百万美元。以Meta大语音模型LLaMA为例,在多达1.4万亿的数据集上,使用2000多个英伟达A100 GPU,训练了21天,花费或高达1000万美元。根据华为公布的消息,开发和训练一次人工智能大模型的成本高达1200万美元。•大模型巨大的资金投入,更是将很多小型研究机构和中小型企业拒之门外,导致大模型研发都集中在头部企业和研发机构,加剧了不平等现象。•在大模型的投资方面,根据美国斯坦福大学2022年的报告,美国和中国位列全球投资总额的前两位,但美国的投资是中国的3倍,中国在资金投入方面还有较大差距。 2.5大模型企业发展面临的问题与困境(3) 大模型发展在技术和人才方面也面临着挑战 针对大模型技术,国内企业与欧美国家存在差距,主要体现在底层架构设计和硬件技术方面。在底层架构设计方面,国内尚无类似的底层架构,大模型的预训练方面只能“在别人的地基上盖房子”;在硬件技术方面,美国占据绝对领先地位,我国自研能力不足,对美国进口依赖程度高,存在“卡脖子”风险。 在人才方面,国内大模型人才数量严重不足,与美国相比顶尖人才数量少,制约了大模型研发的快速发展。具体表现为人才数量不足、人才质量不够高和人才外流严重。针对以上挑战,需要加强国内大模型技术的研发,提高自研能力,降低对美国进口的依赖程度;同时,需要加强人才培养,提高人才质量,减少顶尖人才的流失。 顶尖人才严重不足 技术存在差距 国内大模型人才数量严重不足,与美国相比顶尖人才数量少,制约了大模型研发发展。 大模型技术涉及软件和硬件两方面: •从软件技术看,国内企业与欧美国家存在差距。底层架构设计方面,国内尚无类似谷歌的Transformer模型,