您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[甲子光年]:中国AIGC产业算力发展报告 - 发现报告
当前位置:首页/行业研究/报告详情/

中国AIGC产业算力发展报告

信息技术2023-08-30甲子光年机构上传
中国AIGC产业算力发展报告

出品机构:甲子光年智库报告指导:宋涛报告撰写:刘瑶发布时间:2023.08 前言•伴随着ChatGPT的爆红,AIGC产业链受到广泛关注,大模型的发展正推动AI算力市场进入新的发展阶段,强大的AIGC算力基础设施正在构建当中。大模型训练是复杂系统工程,AIGC产业的算力也对应是系统化的建设,基于此,甲子光年智库特此展开AIGC的算力研究,输出《中国AIGC产业算力发展报告》,在瞬息万变的AIGC产业发展过程中,试图捕捉到AIGC产业算力的发展变化。AIGC的爆发会重新改变负载AI技术的算力发展本次报告探讨的问题•明晰概念:从需求出发,探究决定AIGC产业基础设施(infrastructure)——算力,包括哪些关键决定因素?•产业分析:AIGC的算力产业链剖析,从芯片发展到云服务方案,”云边端“算力供应商的角色作用是什么?•需求探讨:中国AIGC产业发展是否缺乏算力,还是缺乏针对企业的“高性价比”及“可落地”的AIGC算力解决方案?•实践指南:针对当下国内的“百模大战”与企业对于AIGC应用落地的需求,目前AI算力领域有哪些解决路径及方案?•趋势可能:AIGC的算力爆发是否可持续?未来对AIGC的算力提出哪些层面的要求?www.jazzyear.comAIGC时代已来,算力作为推动产业发展的关键资源,决定了产业的发展速度及AI算力不止于训练,同时支持AI多场景应用,在多细分场景上具有潜力AI技术(算法、模型)与算力的融合催生更多产品及服务模式 甲子光年重点关注企业——AIGC产业算力领域的领航者“基于大模型自身实践与服务客户的专业经验,浪潮信息发布大模型智算软件栈OGAI(Open GenAI Infra)‘元脑生智’,OGAI以大模型为核心技术的生成式AI开发与应用场景,提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。”“应用产生数据、数据训练算法、算法定义芯片、芯片赋能应用”是云天励飞一直坚持的人工智能发展之路。基于此,云天励飞构建了业界领先的算法、芯片、大数据全栈式AI能力,同时拥有大量创新应用和落地场景,横跨人工智能基础层、技术层和应用层。”“UCloud优刻得是中立、安全的云厂商,拥有超10年的公有云技术沉淀并积累了全面的系统工程能力,具备从数据中心、计算平台,到管理平台、网络服务、应用服务、生态接口等一站式产品和解决方案。凭借技术及工程能力沉淀,UCloud优刻得可在AIGC领域构筑强大的算力底座,通过优化网络和存储带宽提升大模型训练效率,并持续提供快速、高效、可控及安全的AI推理环境。”“凭借存储与计算物理融合的架构优势,存内计算能够为神经网络模型指数级增长的算力需求提供强大基石。知存科技凭借率先量产商用存内计算芯片的产业积累,将继续推进存内计算架构创新,由3D存内计算架构向高速互联存内计算架构演进,实现产品“端-边-云”侧算力全面覆盖。”“BoCloud博云形成了系列产品以创新云技术支撑企业核心业务,构建数字化高效IT系统。公司自主研发的多项软件产品,包括边缘计算平台、企业级容器平台、统一云管平台、虚拟化产品等,已在金融、电力、石油、政务、IDC、航空等行业领域的生产系统中落地实施,为国有电力公司、股份制银行、大型支付机构等标杆行业客户的重要生产系统提供服务。”“亿铸科技在全球率先利用ReRAM(RRAM)的特性着手使用先进异构封装的方式来实现系统级的芯片优化方案,并且在2023年3月,亿铸科技正式公布了存算一体超异构芯片的创新理念——以存算一体(CIM)AI加速计算单元为核心,同时将不同的计算单元进行异构集成,以实现更大的AI算力以及更高的能效比,同时提供更为通用的软件生态,开创大模型时代的AI算力发展新方向。 目录Part 01产业基石,算力是AIGC产业的催化剂Part 02软硬兼得,AI新世代呼唤工程化导向的算力支撑Part 04实践真知,AIGC产业算力实践的新范式Part 05来日正长,AI技术的翻涌带来无限可能Part 03层见叠出,商业浪潮下的算力选择思考 AI的新时代,生成式AI技术重新塑造AI技术的开发及应用AIGCAI的新时代:更关注如何利用生成式AI技术在涉及数字内容的诸多领域实现改变及突破,生成式AI实际上扩大了“内容”的含义,凡是可以数字化的内容形式均为生成对象,而非传统意义下媒体环境的内容。•随着2023年大模型的热潮,AIGC早已超越内容生产的概念,而突出生成式AI(Generative AI)的概念,即如何通过生成式AI的技术思路解决以往决策式AI难以完成的问题,尤其在数据或者内容生成上实现“质的突破”。•新的AI时代则是AIGC产业全面进击的时代,随着生成式对抗网络(Generative Adversarial Network,GAN)等的演进及迭代,生成式AI可以延展到流程、策略、代码、蛋白质结构等多种形式,即意味着凡是可以使用数字内容形式的产业,生成式AI均可以涉及。www.jazzyear.com递归神经网络(RNN)蒙特卡洛树搜索(MCTS)卷积神经网络(CNN)受限玻尔兹曼机(RBM)多层感知机(MLP)反向传播(BP)概率模型高维词向量长短期记忆(LSTM)非线性激活深度玻尔兹曼机(DBM)生成对抗网络(GAN)注意力机制(Attention)RNN改进AlexNet& Dropout深度强化学习(DQN)Attention & Transformer生成预训练变压器(GPT)双向编码表示(BERT)GPT3残差网络(ResNet)AlphaFold2AlphaFoldchatGPT(GPT3.5)MT-NLG代表具有里程碑的关键创新1900年-1980年1980年-1990年1990年-2000年2000年-2010年2010-2020年2020年-至今AIGC产业:新一代AI技术和理念,以“生成式AI”为代表技术的开发及应用产业,即如何利用资源发挥新的AI技术的应用,通过商业价值推动AI第三次浪潮的发展。第二次浪潮第三次浪潮第一次浪潮技术资源应用“应用”&“技术”&“资源”实现飞轮增长 纵观AI发展,算法的发展及迭代极大地拉动了算力的需求训练算力(FLOPS)需求与人工智能发展关系图(1952-2022年)N=121训练算力需求FLOPS2010前深度学习时期之前,训练计算算力需求缓慢增长,算力翻倍需要21.3个月2010-2022深度学习不断取得进展,算力翻倍仅需要5.7个月,所需算力量级由TFLOPs增至EFLOPs训练算力需求FLOPS训练算力(FLOPS)需求与深度学习发展关系图(2000-2022年)2016-20222015年开始逐渐出现大规模(更大参数量)模型,算力需求直接提升约两个数量级。大模型•机器学习的训练计算大概可以分为三个时期,2015-2016 年左右开启了大模型时代,整体的训练计算量较之前的时期大2到3个数量级。•从2022年底,随着ChatGPT成功带来大规模参数通用大模型相继发布。这些大模型的训练需要千亿、甚至万亿级参数,以及上千GB的高质量数据,大模型的训练迭代将极大地拉动了智能算力的需求。 深究AI开发,“量变”的算法、数据可以带来“质变”算力:提供底层动力源泉调参过程实际上类似于“实验”:“调参”的结果与以往人工智能方式相比,具有更多的不确定性,需要进行多次的反复训练,模型训练中,模型即是训练结果,中间的过程则无法完全复制。参数规模数据质量数学理论......分布式计算效率充足的能耗模型训练涉及的基础资源提升在方向上(理论上)能够决定模型训练的效率和结果实际上可以看作“必要不充分条件”:难以明确的直接因果关系训练的过程呈现“黑盒”性质“量变”www.jazzyear.com收集数据及数据准备特征工程模型选择模型训练模型评估模型调优模型部署和应用模型封装后,导入环境进行推理包括数据收集、预处理、存储;数据的质量和梳理对算法效果至关重要从原始数据提取有代表性、可解释的特征自开发实现模型使用现成的框架无监督学习监督学习强化学习......根据分类、回归、聚类等各种问题有相应评估指标网络搜索、随机搜索、贝叶斯优化、梯度优化、集成方法等选取最优参数组合,提高模型性能API部署边缘部署集成部署批处理部署容器化部署模型调参“质变” 资源“三剑客”中,算力承接算法及数据,成为AIGC产业发展基石AIGC数据数据巨量化跨模态融合算法算力内容创造力数据层面核心技术突破多模态认知计算数字孪生虚拟现实全息立体应用场景算法层面感知+交互大数据语料库高精度训练集标注训练计算任务投喂算力层面硬件算力智能交互实时算力边缘计算云计算本地化当下的时代机遇:大规模模型的摩尔定律-单模型参数量每年增长10倍www.jazzyear.com“海洋之光”超级计算机(国产超算)512块GPU大算力腾讯太极机器学习平台昇腾AI基础软硬件平台16块GPU大数据量1.9TB 图像292GB 文本中文多模态数据集M6-Corpus五大跨模态视频检索数据集基于万条小规模数据集数百G 级别不同领域的高质量语料模型类型多模态预训练模型图、文、音三模态“八卦炉”(脑级AI模型)M6大模型“混元”HunYuan_tvr紫东太初孟子大参数174万亿(与人脑中突触数量媲美)10 万亿万亿千亿10亿商汤AIDC,峰值算力3740Petaflops3--计算机视觉模型计算机视觉模型书生(INTERN+)某视觉模型100亿300亿商汤科技商汤科技等企业清华大学等1阿里腾讯280 块GPU鹏城云脑II(2048 块CPU)和百度飞桨4095(Pflops-day)/2128 张GPU3390 亿条文本数据纯文本和知识图谱的4TB 语料库5000GB 高质量中文数据集NLP 大模型NLP 大模型NLP 大模型Megatron-TuringERNIW 3.0 Titan源1.05300亿2600 亿2457 亿微软和英伟达百度和鹏程实验室浪潮信息鹏城云脑II和全场景AI 计算框架MindSpore,2048 块GPU40TB 训练数据盘古系列大模型千亿3640(Pflops-day3)/上万块V100 GPU 组成gao 带宽集群算力超过万亿单词的人类语言数据集GPT3.51750 亿OpenAI华为云中科院自动化所澜舟多模态预训练模型结合人类参与强化学习复旦大学超算中心--对话式大型语言模型MOSS百亿复旦大学•在现代人工智能领域,算力扮演着推动创新、实现突破的核心驱动力。算力、算法、数据和系统架构等多个方面的综合优化对于大规模模型训练的成功至关重要。从技术层面看,在大模型的研发过程中,预训练、微调和模型推理等环节是核心关键因素和主要计算特征。 AIGC的突破依赖于算力的“暴力美学”,应用依赖于算力在场景中的释放•AI技术在实际应用中包括两个环节:训练(Training)和推理(Inference),AIGC的算力需要考虑训练及推理两个方面。•训练是指通过数据开发出AI模型,使其能够满足相应的需求,一般为AI技术的研发。因此参数量的升级对算力的需求影响大。•推理是指利用训练好的模型进行计算,利用输入的数据获得正确结论的过程,一般为AI技术的应用。推理部署的算力主要在于每个应用场景日数据的吞吐量。www.jazzyear.com训练推理算力模型数量参数量训练数据量训练算力核心影响因素训练次数微调阶段训练阶段模型数量应用场景单用户数据量推理算力核心影响因素用户日活应用时间当下模型参数量大规模提升,同时影响训练数据量及训练次数,推动训练阶段算力及对应的微调阶段算力提升模型参数数值基本确定,随着应用场景、适用人群数量增加,导致推理数据量及模型数量增多,进而使推理算力需求井喷发展训练完的模型参数量也会影响推理端算力 AIGC算力具备软硬件的复杂性,并且以不同产品/服务/方案为应用赋能从模型到应用闭源闭源模型应用基于公共网络平台的应用,单一平台应用网络平台应用提供基于本地边缘或端侧