您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:OpenCOCA白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

OpenCOCA白皮书

信息技术2023-12-05中国移动黄***
OpenCOCA白皮书

OpenCOCA白皮书(2023) 主编单位中国移动云能力中心参编单位(排名不分先后)云计算开源产业联盟、深圳云豹智能有限公司、上海燧原科技有限公司、上海云脉芯联科技有限公司、昆仑芯(北京)科技有限公司、锐捷网络股份有限公司、中科驭数(北京)科技有限公司、上海壁仞科技股份有限公司、中兴通讯股份有限公司、华为技术有限公司、新华三技术有限公司、珠海星云智联科技有限公司、瀚博半导体(上海)有限公司 目录1.算力基础设施发展现状与挑战............................................................................11.1发展现状与趋势....................................................................................................11.2应对机遇与挑战....................................................................................................32.COCA软硬一体片上计算架构打造国家级自主可控算力基础设施................52.1COCA-DPU重构计算架构....................................................................................62.2COCA-GPU融通算力生态..................................................................................122.3COCA-HPN提供海量AI算力............................................................................153.从COCA走向OpenCOCA,业内首个开放式的软硬一体片上计算平台....213.1能力共享,激发行业活力..................................................................................213.2行业共治,规范行业标准..................................................................................223.3协作共赢,创造行业价值..................................................................................234.展望与倡议..........................................................................................................234.1布局开放式智算生态,带动国内智算产业成熟发展......................................234.2共建产业联盟,自主掌握云计算技术标准......................................................234.3联创高精尖技术,引领云计算市场下一个黄金十年......................................24缩略语列表.................................................................................................................25参考文献.....................................................................................................................28 OpenCOCA白皮书(2023)11.算力基础设施发展现状与挑战1.1发展现状与趋势当前,以云计算、人工智能、大数据为代表的新一代信息技术蓬勃发展,传统产业与新兴技术加速融合,推动数字经济的快速增长。算力基础设施作为各行业信息系统运行所依赖的核心能力,在经济社会运行中不可或缺。近年来,我国对算力基础设施的重视程度不断提升,国家发展和改革委员会在2020年4月明确定义"新基建",即基于新一代信息技术演化而成的基础设施,其中包括以数据中心和智能计算中心为代表的算力基础设施。在狭义上算力基础设施指以算力资源为主体的基础设施,自下而上包括底层设施、算力资源、管理平台和应用服务等,覆盖超算中心、智算中心等多样化算力体系。在广义上算力基础设施指一体化ICT服务,包含融算力生产、算力传输和IT能力服务。作为新基建的核心组成部分,算力基础设施在我国数字经济发展过程中扮演着重大支撑角色。一方面,通过互联网、大数据、人工智能等新兴技术的深度应用,传统基础设施转型升级形成融合基础设施;另一方面,通过对科学研究、技术开发和产品研制的持续支持,算力基础设施驱动技术革新和产业应用创新。超算智算成为算力规模增长主驱动算力作为一种新型生产力,主要包含信息计算力、数据存储力等要素,通过算力基础设施向社会提供服务。在数据存储力方面,根据IDC数据统计,最近5年全球数据每年以两位数速度持续快速增长。同时,国家互联网信息办公室发布的数据显示,我国数据资源规模快速增长,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%,位居世界第二,预计到2025年数据总量将跃居世界首位,占比达到全球总量的三分之一。在信息计算力方面,随着云计算服务的日趋成熟,算力发展呈现单要素向多要素融合转变。随着“十四五”规划持续推进,截止到2022年底,我国算力总规模达到180EFLOPS,排名全球第二,其中,通用算力规模为137EFLOPS,智能算力规模为41EFLOPS,超算算力规模为2EFLOPS,近五年来,我国整体算 OpenCOCA白皮书(2023)2力规模保持近30%的增长速度。随着算力规模持续扩大,智算和超算逐渐成为新的算力增长引擎。智算方面,根据ICPA智算联盟统计,截至2022年底,全国已投运的人工智能计算中心有20余家,在建的也超过20家。地市企业依托智能计算中心的算力服务,结合本地产业特色,加快人工智能应用创新,聚合人工智能新业态。例如武汉人工智能计算中心陆续孵化出紫东太初、武汉LuoJia等大模型[1]。超算方面,2023年6月发布的最新全球超级计算机TOP500榜单中,中国以134套上榜数量位居全球第二,占26.8%。应用创新促进数据中心融合升级近年来随着HPC(HighPerformanceComputing)、人工智能和大数据等应用的蓬勃发展,原来的传统数据中心已无法满足新型应用的承载需要,新型应用以集群式服务为载体,具有超大规模并行计算的特征,往往依赖数十TB的高质量数据集、数十万CPU核和上万块GPU,以及节点间高效率的集合通讯,需要算力、算法、数据多要素的融通协同,迫使传统数据中心向新型数据中心演变。新型数据中心不仅是某些设备的集合,而且是包含计算、存储、通信能力以及环境、安全等配套能力,可通过内部设备传递、处理、展示数据信息,最终服务于客户的数据服务系统,具备高技术、高算力、高能效、高安全的特点,具体表现在算力规模与密度的逐步提高、“绿色低碳”新技术应用逐步扩大、本地或跨域智慧化运维管理逐步升级、信息技术与运营技术的一体化安全得到保障。从我国总体算力供需格局来看,东西部算力供需失衡,东部地区算力应用需求大且资源紧张,而西部地区算力资源相对宽裕,通过国家“东数西算”战略构建布局合理的新型数据中心将成为推动未来社会数字化发展、促进社会产业化变革乃至重构全球竞争格局的关键举措。随着人工智能和物联网技术的发展,新型数据中心算力整体需求结构逐渐发生变化,基础算力所占比重逐步降低,智能算力与超算算力比重正快步攀升。(1)智能计算中心智能计算中心是指基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。智能算力主要是基于GPU(GraphicsProcessingUnit)、FPGA(FieldProgrammableGateArray)、ASIC(ApplicationSpecificIntegratedCircuit)或其他加速器支撑的高 OpenCOCA白皮书(2023)3并行、高密集计算能力的异构算力。近年新推出的大语言模型(LLM,LargeLanguageModule)所使用的数据量和参数规模呈现“指数级”增长,带来智能算力需求的爆炸式增加。智能计算中心主要应用于多模态数据挖掘、智能化业务高性能计算、海量数据分布式存储调度、人工智能模型开发、模型训练和推理服务等场景,所产生的大规模生产算力将为智慧医疗、智慧城市、智慧交通等领域的应用提供基础支撑。(2)超级计算中心超级计算中心是指配备高性能计算设备和软件,拥有超级数据存储和处理能力,且能够提供超级计算服务的综合产业化基地。超级计算指利用超级计算机的集中式计算资源来处理极端复杂和数据密集型的问题。超算芯片以CPU为主,可含部分GPU加速器,主要提供双精度浮点数(64位)计算能力,其中每秒千万亿次的运算被称为“P级”超算,每秒百亿亿次的运算被称为“E级”超算。近年来,我国超算中心发展迅猛,目前已拥有14所国家级超级计算中心。超算中心主要运用于尖端科研、国防军工、产业升级和重大社会问题等大科学、大工程、大系统中,是国家科研实力的体现,也是国家科技发展水平和综合国力的重要标志。超算中心所提供的算力将广泛应用于石油气勘探、生物医药、海洋工程、气象预测和智慧城市等众多领域,深刻影响着国家产业和人民生活。新算力和新技术相互促进协同发展一方面,基础设施计算技术加速演进,异构计算成为智算/超算中心的主流架构。在摩尔定律放缓、颠覆技术尚未成熟的背景下,以AI大模型为代表的多元应用创新驱动算力技术加速进入智能计算新周期,进一步带动计算产业的发展。智能计算时代,搭载各类计算加速芯片的AI服务器将成为智能算力的主要来源。另一方面,先进计算体系化创新活跃,创新模式和重点发生了转变,呈现出软硬融合、系统架构创新的特征。技术创新持续覆盖基础工艺、硬件、软件、整机不同层次,互联持续高速化、跨平台化演进,异构融合加速超级计算和智能计算协同发展。1.2应对机遇与挑战2023年10月8日,六部委重磅发布《算力基础设施高质量发展行动计划》,从计算力等四个方面提出了到2025年发展量化指标,提出到2025年算力规模超 OpenCOCA白皮书(2023)4过300EFLOPS,智能算力占比达到35%[2],算力基础设施的高质量发展面临如下挑战。随着摩尔定律的放缓,传统以CPU为中心的数据中心体系存在性能瓶颈、成本压力等问题,一方面,带宽性能增速比失调,通用CPU的性能增长已无法满足新型算力基础设施的数据增长需求;另一方面,云服务商的TCO(TotalCostofOwnership)急剧增加,百Gbps的高性能网络就需要12颗以上XeonCPU的核。因此,数据中心的体系架构需要从“以计算为中心”转向“以数据为中心”,即将“CPU处理效率低下、GPU处理不了”的虚拟化计算、网络、存储等负载卸载到专用DPU(DataProcessingUnit),提升整个计算系统的性能、降低系统的TCO。AI(ArtificialIntelligence)场景各厂家GPU芯片技术碎片化[3]、大模型需要激发AI芯片性能,AI推理场景下GPU资源的利用率较低。多样化的GPU生态导致用户使用不同GPU芯片

你可能感兴趣

hot

2021中国企业培训直播应用白皮书

休闲服务
保利威2021-11-04
hot

5G确定性网络+工业互联网融合白皮书

信息技术
中国通信工业协会2020-11-15
hot

2021抖音财经内容生态白皮书

文化传媒
巨量算数2022-01-06
hot

2021美妆行业白皮书:鸣镝出击

商贸零售
巨量引擎2021-11-27