AI智能总结
腾讯云运营商⾏业吴炳⽂ 寒武纪时期物种⼤爆发 ⼤模型时代智慧涌现 从⼈⼯“智障”到⼈⼯“智能”算法 + 算⼒+ 数据 ⼤量⽣物类群集中的、短时间内出现⽣存环境 + 有性繁殖 + ⽣态多样化 01 ⼈⼯智能的发展历程 ⽬录CONTENTS 02 ⼈⼯智能的灵魂—算法和模型 03 ⼈⼯智能的基⽯—算⼒ 04 新态势下如何进⾏智算投建 ⼈⼯智能的发展历程 从提出图灵测试,到ChatGPT通过图灵测试,经历了70多年的发展 ⼈⼯智能的发展历程从“计算→感知→认知→创造”层层递进 ⼈⼯智能(Artificial Intelligence)研究⽬的是通过探索智慧的实质,扩展⼈类智能,促使智能主体: 计算:数据的基础逻辑计算和统计分析; 感知:指基于视觉、听觉的信号,对⽬标进⾏模式识 别与分类; 认知:指实现对信息的认知、理解、推理和决策,并实现⼈、物、企业等智慧实体的认知与协同; 创造:指利⽤⼈⼯智能技术进⾏⽂学、艺术等⽅⾯的 创造性创作以及⼯业领域的智能制造。它的出现不仅改 变了传统的创作⽅式、思维⽅式和⼯业模式,也为拓宽 ⼈类的能⼒边界增添了新的可能性。 以⼤模型为基础的AIGC,是⼈⼯智能发展到⼀定阶段的必然产物 智慧涌现:如何从“⼈⼯智障”到“⼈⼯智能”? 很长时间内,由于语⾔和表达的贫乏,⼈⼯智能被戏称为“⼈⼯智障”。然⽽,ChatGPT在全⽹的⽕爆,带来了出乎意料的惊喜。 强算法 — 深度学习算法的成熟 ⼈⼯智能的灵魂。 机器学习、深度学习、⾃然语⾔处理等算法的成熟,提升了AI的⽣产效率和准确性。 ⼤算⼒ — 算⼒密度和集群规模⼤幅提升 ⼈⼯智能的基⽯,⼤模型时代,计算的复杂度指数级增长,需要有强⼤的算⼒⽀撑。 ⼤数据 — ⾼质量、⼤规模、多样性的数据集 优质的算法、算⼒、数据,推动⼤模型落地和智慧涌现 ⼈⼯智能发展的“原料”。⼤数据的⼴度和深度可以帮助模型更好地理解复杂的现象和问题,并提升其泛化能⼒。 01 ⼈⼯智能的发展历程 ⽬录CONTENTS 02 ⼈⼯智能的灵魂—算法和模型 03 ⼈⼯智能的基⽯—算⼒ 04 新态势下如何进⾏智算投建 如何让计算机像⼈⼀样思考 要解决⼈类的各类任务,先要让计算机模拟⼈类的学习机制 ⼈类⼀眼能辨别猫或狗 婴⼉在电视中、现实中等获得⼤量信息,然后⼤脑将接受的信息进⾏学习、归纳、整理、总结,最后形成我们的知识与经验。 计算机的能⼒源于计算,如何将计算转化成感知、认知、创造能⼒? 如何让计算机像⼈⼀样思考 “联结主义”(Connectionism),⼜叫仿⽣学派,笃信⼤脑的逆向⼯程,主张是利⽤数学模型来研究⼈类认知的⽅法,⽤神经元的连接机制实现⼈⼯智能。 GPT3.5的参数为1750亿,当“神经元”达到这个数量级时,AI涌现出了智慧 如何让计算机像⼈⼀样思考 u多层神经⽹络:通过数学⽅法,对复杂函数的逼近和优化。 u反向传播算法:在训练过程中,如输出结果发⽣错误,采⽤反向传播算法调整参数。 u卷积神经⽹络 、循环神经⽹络、⽣成对抗⽹络、深度强化学习。 ⼤模型是深度学习的重要成果,AIGC兴起背后是⼤模型的重⼤进步 ⼤模型本质上也是基于深度学习领域的算法和庞⼤复杂的神经⽹络,需要通过更⼤的参数来增加模型的深度和宽度,从⽽提升模型的表现能⼒,基础⼤模型的参数从百亿起步,对海量数据进⾏训练并产⽣⾼质量的预测结果。 模型 模型的本质是对现实世界中数 据和规律的⼀种抽象和描述。模型的⽬的是为了从数据中找出⼀些规律和模式,并⽤这些规律和模式来预测未来的结果。在科学应⽤中模型⽆处不在。 ⼤模型 ⼤模型是指具有⾮常⼤的参数数量的深度学习模型,通常具有数亿到数万亿参数。这些模型通常需要在⼤规模数据集上进⾏训练,并且需要使⽤⼤量的计算资源进⾏优化和调整。 ⽣成式⼈⼯智能(AIGC) ⽣成式⼈⼯智能指基于⼈⼯智能通过已有数据训练,并⾃动⽣成内容的⽣产⽅式。在⼤模型技术推动下,AIGC有了飞速发展,我们熟知ChatGPT就是基于GPT⼤模型的 AIGC。 AIGC有望成为主流内容⽣产模式 u内容⽣产的⽅式:专业⽣产内容(PGC)、⽤户⽣成内容(UGC)、AI⽣产内容(AIGC) uAIGC能克服传统PGC与UGC存在的质量、产量⽆法兼具的缺点,有望成为未来主流的内容⽣产模式。 ü由专业团队⽣产,内容质量⾼ ü✗⽣产周期长, 内容⽣产门槛⾼,垄断严重 UGC AIGC ü实现完全⾃主性 腾讯⼤模型AIGC如何应⽤ 01 ⼈⼯智能的发展历程 ⽬录CONTENTS 02 ⼈⼯智能的灵魂—算法和模型 03 ⼈⼯智能的基⽯—算⼒ 04 新态势下如何进⾏智算投建 算⼒是AI产业发展的基⽯ 算⼒是承载⼈⼯智能应⽤发展的基⽯,是当前制约⼈⼯智能发展最核⼼的要素 ü数据的⽣产已经不再是难题,如何有效地处理、分析和利⽤这些数据成为了关键所在。经过数⼗年的演进,算法在深度学习和加速计算等技术的推动下,取得了显著的进步和优化。这使得我们能够更加⾼效地挖掘数据中的价值,从⽽推动各个领域的创新和发展。 ü算⼒、算法和数据是⼈⼯智能产业发展的三个核⼼要素,在三⼤要素中,算⼒是当前制约发展最核⼼的要素 ü算法模型的复杂化和巨量化需要更强算⼒的⽀撑。近些年,算法模型的参数量和复杂程度都在呈现指数级增长态势,尤其是⾃然语⾔处理等新兴认知智能领域对算⼒的要求远超图像识别和语⾳识别等传统AI领域,模型参数成亿级飙升到万亿级别,对算⼒性能提出了更⾼的要求。 ü数据的爆发式增长对算⼒提出更⾼要求。随着信息化的加速和数字化的深⼊,全球数据量呈现迅猛增长的趋势。根据IDC的统计,2022年,全球新增数据量接近100ZB,⽽预计到2026年,这⼀数字将飙升⾄200多ZB。从2022年到2026年,全球数据量的年复合增长率超过20%。这种快速的数据增长对计算能⼒的发展提出了更⾼的要求和挑战。 ü算⼒是承载和推动⼈⼯智能⾛向实际应⽤的决定性⼒量 ⼤模型的出现,推动AI 算⼒需求快速放量 uChatGPT的总算⼒消耗约为每天3640P,ChatGPT3.5训练的单次成本就⾼达460万美元,整体运⾏所需的投⼊更是以百亿计。 u对算⼒的需求,推动了新的处理器架构、⾼速⽹络、存储技术、调度技术,更⾼效的冷却和能源管理系统等技术的发展,更⾼效的智算中⼼的性能和效率,成为重⼤的研究课题。 u⼤模型的出现对算⼒需求带来了指数级的增长。 u在产业迅猛发展和现有国际竞争态势下,国产化GPU进⼊发展的快车道。 u OpenAI发布的 GPT-3模型包含 1750 亿个参数,需要进⾏数千万次的计算操作来完成⼀次推理任务。 ⼤模型的出现,推动AI 算⼒需求快速放量 AI⼤模型训练需要⾼性能计算集群 ⼤规模,⾼带宽:集群规模⼏K~⼏万卡,单卡接⼊速率400G。⽀持不同训练任务混跑、不同GPU卡的混部。传统DCN 100G接⼊,单POD规模1.5k。 •训练模型参数的增长,带来模型训练消耗的算⼒提升,算⼒集群GPU卡达到万卡级别,预计GPT-5达到5万卡。 ⾼性能,90%负载下零丢包:GPU训练是瞬时吞吐90%,且通信对丢包敏感,0.1%丢包损失50%算⼒,需要⽹络做到传输⽆损。传统DCN利⽤率<40%,丢包率0.1%~1%。 ⾼可⽤,零中断:⼀旦⽹络中断,任务重启需要约1.5⼩时,需要减少⽹络中断。 •训练中的GPU需要严格同步,任何通信的阻滞,均会造成训练性能损失。混元GPT-3测算,通信占⽐提升10%,训练时间增加3%~4% 智算服务的产出:关键是提升算⼒的利⽤率、⽣产率提升服务化⽔平 2023年腾讯全球数字⽣态⼤会腾讯云携⼿中国信通院正式发布《智算赋能算⽹新应⽤⽩⽪书》: l建设⼀站式⼯具箱,加速智算应⽤落地 ⼤模型算⼒集群 借助AI构建相关应⽤,涉及到包括数据处理、特征⼯程在内的多个步骤及各类⼯具,⼀站式加速⼯具箱将有效加速开发效率、简化开发流程。 •软硬⼀体的⾼性能智算集群•⾯向AIGC场景进⾏定制优化•⾃研⽹络、存储架构、服务器•⽀持分布式云、私有云部署 l发展⾼性能通信⽹络,加速算⼒集群适配 ⾼性能⽹络架构保障算⼒性能增长,是有效发挥算⼒集群性能的关键因素。 万亿参数⼤模型训练时间 如:腾讯新⼀代⾼性能计算集群,可实现单 GPU 服务器之间 3.2T的⼤带宽,⾼效⽀撑⼤规模智算运⾏。 l单节点计算能⼒提升,向分布式、混合式并⾏模式演进 计算领域,两⼤技术⽀撑算⽹应⽤发展。⼀是单卡训练转变为分布式训练;⼆是数据并⾏训练升级到数据+模型多维并⾏训练。 01 ⼈⼯智能的发展历程 ⽬录CONTENTS 02 ⼈⼯智能的灵魂—算法和模型 03 ⼈⼯智能的基⽯—算⼒ 04 新态势下如何进⾏智算投建 智算产业布局提速,多维度促进智算服务发展 政策⽀撑上,国家与地⽅均出台相应政策激励智算服务发展;研发投⼊上,通过增加专⽤投⼊或设⽴专项基⾦的⽅式加速推进智算服务建设。 Ø《“⼗四五”数字经济发展规划》指出要推动智能计算中⼼有序发展,打造智能算⼒、通⽤算法和开发平台⼀体化的新型智能基础设施,提供体系化的⼈⼯智能服务 Ø《北京市促进通⽤⼈⼯智能创新发展的若⼲措施(2023-2025年)》针对推动通⽤⼈⼯智能技术创新场景应⽤提出具体⽀撑措施 Ø《上海市推进算⼒资源统⼀调度指导意见)》提出到2025年,市⼈⼯智能公共算⼒服务平台能级跃升,完善算⼒交易机制,实现跨地域算⼒智能调度,通过⾼效算⼒调度,推动算⼒供需均衡 2⽉19⽇,国务院国资委召开中央企业⼈⼯智能专题推进会 扎实推动AI赋能产业焕新 Ø中央企业要把发展⼈⼯智能放到全局⼯作中统筹谋划 Ø加快建设⼀批智能算⼒中⼼,更好发挥跨央企协同创新平台作⽤。 Ø开展AI+专项⾏动,加快重点⾏业赋能 Ø10家中央企业签订倡议书,表⽰将主动向社会开放⼈⼯智能应⽤场景。 智算成功需要回答的⼏个关键问题? 万亿⼤模型训练从50天缩短到4天 •专有云平台•⾼性能计算•RDMA⽹络•⾼性能存储 •GPU虚拟化•在离线混部•AI推理计算加速•智算⽣产平台 如何增强智算效率 如何构建⾼性能集群 腾讯HCC集群的极速进化 国产卡、英伟达、Intel&AMD,如何选型,能否快速商业变现? u⽣态成不成熟,需要多长时间沉淀? u市场需求在哪⾥? u供给情况如何? u我们的优势在哪⾥? u如何在正确的时间做正确的事情? 如何将⼤模型训练从50天缩短到4天? 0.1%的丢包,⼤模型训练效率降低30%——如何⼤幅提升⽹络性能? 读写关键点数据时,计算资源处于等待状态——如何⼤幅提升存储性能? 简单堆机器会导致分布式性能不升反降——如何⼤幅减少训练内耗成本? 数据中⼼⽹络架构演进趋势 打造⾼性能⽹络:让⼤模型训练的⽹络通信“交通顺畅” ⾃研⾼性能通信库TCCL——业务流量的“导航仪” ⾃研端⽹协同协议TiTa——新⼀代的“车路系统” ⾃研⾼性能⽹络架构——3.2Tb的“超宽车道” 腾讯云⾼性能⽹络星脉实践—⽀持不同品牌、不同型号 与友商对⽐(使⽤昇腾910B):腾讯云⾼性能⽹络性能在Allreduce总体⽐友商⾼50%以上,规模越⼤,优势越明显 打造⾼性能存储:既要快、⼜要省 快:超⼤带宽存储 数据集相对固定 省:⾃动分层存储 数据集频繁更新 •性能:100GBps存储带宽、单客户端性能达5GB/s带宽、百us级延迟 性能:GooseFS将数据缓存⾄GPU内存和本地盘,单请求低⾄百μs级延迟,整集群提供100万级IOPS,TB级别吞吐 •成本:⽀持⾃动冷热分层技术,⾃动沉降低频访问的Checkpoint和样本⽂件,最⼤降低80%成本 成本:全量数据持久化在对象存储上,提供海量低成本分布式存储 •适⽤场景:适合数据持久化存储在CFS中,数据集相对固定