您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:存算一体助力算力网络创新发展 - 发现报告
当前位置:首页/其他报告/报告详情/

存算一体助力算力网络创新发展

2023-08-15李小涛中国移动研究院严***
存算一体助力算力网络创新发展

0 中国移动研究院/C h i n a M o b i l e R e s e a r c h I n s t i t u t e 李小涛/ X i a o t a o L i 算力是数字经济的核心生产力 数字经济已成为继农业经济、工业经济之后的主要经济形态和引领增长的重要引擎。数据是数字经济的核心生产要素,算力是核心生产力,直接影响数字经济发展的质量与速度,决定社会智能的发展高度。 网 算 水 电 过去十年,数据中心用电量占比以每年超10%速度递增,2020年约占全社会用电量的2.71% 1.47% 1.76% 1.86% 1.96% 2.16% 2.42% 2.71% 0.00%0.50%1.00%1.50%2.00%2.50%3.00%010000200003000040000500006000070000800002014201520162017201820192020数据中心耗电量 全社会用电量 数据中心耗电量占比 我国算力规模平均每增长一个百分点,带动数字经济和GDP将分别增长1.6‰和0.8‰ 00.511.52环境和公共设施管理 文教卫生与社会服务 住宿餐饮业 科研和技术服务 能源供应 金融业 互联网、软件和信息服务 批发零售业 其他制造业 计算机等设备制造 直接带动产出 间接带动产出 资料来源: 国家统计局 中国信息通信研究院 中国数据中心耗电量及占全社会电量比 ①事关核心生产要素升级 ②事关数字经济增速 ③事关双碳目标实现 1 存算一体是算力网络关键使能技术 •中国移动积极推进“算力网络”创新发展,推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务。 •存算一体是算力网络关键使能技术,是算力基础设施持续增强算力能力、释放算力价值的革命性技术。 2 算力基础设施 网络基础设施 编排管理层 服务运营层 算网一体 算 网 基 础 设 施 层 构建灵活敏捷的算力底座 打造立体泛在的算力分布 打造云边端全连接的智能IP网络 构筑光电联动的全光网络底座 算网大脑 绿色安全 算力交易 多量纲 算力并网 算力封装 意图感知 一体编排 算力解构 泛在调度 算网自智 数字孪生 意图网络 算力标识 算力感知 算力路由 在网计算 云原生 异构计算/多样性算力 算力原生 算力卸载 无服务器计算 存算一体 边缘计算 超边缘计算 端计算 全光高速互联 全光灵活调度 SRv6/G-SRv6 确定性网络 新一代SD-WAN 应用感知 无损网络 芯片节能 数据中心节能 液冷 数据标记 隐私计算 全程可信 审计溯源 内生安全 算力度量 新一代SD-WAN 应用感知 3 传统计算架构瓶颈:“存储墙”和“功耗墙” 时延高:CPU Cache访问远大于内存访问速度 4 个时钟周期 167 个时钟周期 一次L1随机访问 一次内存访问 多核共用内存总线和内存,CPU单核带宽较低 带宽低:CPU与内存间总线带宽紧张 内存访问功耗是运算的上千倍 注:单次运算功耗,nJ = 1000*p J 功耗大:CPU与内存间数据搬运功耗大 整形运算:0.03pJ ~3 pJ 浮点运算:0.4pJ ~ 4pJ 内存访问:1.3nJ ~2.6nJ •冯·诺依曼架构是现在计算机系统的主流架构 •分为控制单元、计算单元、存储单元、输入和输出设备5大组成部分 控制单元 存储单元 计算单元 输入设备 输出设备 存储墙 功耗墙 冯·诺伊曼架构图 控制单元 硬盘 计算单元 输入设备 输出设备 Cache 内存 CPU 现代计算机系统实例图 •以CPU为中心,计算和存储分离 •CPU根据指令从内存取数据并将结果写回,存在频繁的数据交换 冯·诺依曼架构是目前计算系统的主流架构,其主要特点为存储与计算分离,存在“存储墙”和“功耗墙”问题,访存越密集,“墙”的问题越严重。CPU、GPU和AI等专用芯片均为遵循冯·诺依曼架构设计的产品。 存算一体可在存储单元中直接完成计算功能,实现存算零距离,大幅降低计算时延与能耗,突破冯·诺依曼算力瓶颈,解决“存储墙”与“功耗墙”问题。 存算一体技术颠覆冯·诺依曼架构,提供更强劲算力 •计算和存储分离,频繁的数据搬运导致“存储墙”与“功耗墙”,严重制约了系统算力和能效的提升 存 算 冯诺依曼架构的存算分离模式 存算一体技术利用存储单元实现计算功能,在算力、能耗、面积等方面优势显著,有望成为数字经济时代以数据为生产要素的先进生产力 存算一体计算架构 存&算 存&算 存&算 存&算 存&算 存&算 存&算 存&算 存&算 计算架构演进 110100100010000100000CPUGPUFPGAASIC存算一体 能效(GOPs/W) TT25-2475-2-3-062-136 0 -3 -2 -5 7 算力提升 用模拟域计算替代传统数字电路的乘累加计算,极大提升效率 × = 能耗优化 相比传统GPU能效比大幅提升 4 发展历程:存算一体近年来受到全球产业广泛关注 存算一体最早由学术界于20世纪70年代提出。随着摩尔定律放缓,AI等大数据应用兴起,智能数据处理挑战和冯氏架构瓶颈成为电子信息领域的关键矛盾之一,存算一体受到业界广泛关注。 2000 1969 存算差距加大:摩尔定律依然有效,但存算分道扬镳,存算速度失配逐年递增50% 2010 2015 2020 2030 1969-2000:概念提出,受限于成本且缺少应用驱动,一直不温不火 学术界提出直接利用内存实现简单的计算功能,减少数据在处理器与存储器之间的搬移 2000-2014:存算一体学术届持续探索,但需求不旺盛,仅停留在科研阶段 2010年,学术界验证忆阻器实现简单布尔逻辑 2007年,登纳德缩放定律放缓,存算一体架构优势显现 2015-2020:AI等应用兴起,存算一体进入产业界视野 2021-2030:一个新的存储计算时代将要来临 国家“十四五”规划纲要,“先进存储技术升级”被列为”科技前沿技术攻关”重点领域 中国移动提出《如何实现存算一体芯片工程化与产业化》问题,入选中国科协“信息科技领域2022重大产业技术问题” 国内涌现大批存算一体技术公司,获得大量融资 概念期 放缓期 积累期 关键期 2017年,微处理器年会,英伟达、英特尔、微软等均推出存算一体系统原型 2016年,UCSB发布第一个基于Nor Flash的存算一体芯片 5 技术路线:存算一体存在多条技术路线及方向 存算一体目前有多种技术路线,传统器件相对成熟,已有少量应用,但存在密度受限、功耗等局限;新型材料在时延、密度、功耗等多个维度上性能较均衡,应用场景更加广泛,更具潜力,但成熟度较低。 存储器 传统存储器 SRAM NOR FLASH RRAM MRAM PCM •适用于面积、功耗、成本等不敏感的场景,如推理、训练 •适用于成本、功耗敏感的推理场景 •适用于功耗敏感的推理场景 存储介质 主要特性 企业 高校 应用领域 合作情况 产业关注度高 优点:工艺成熟、无擦写次数限制(寿命久)、计算速度快、兼容先进工艺 缺点:计算密度低、功耗高、微缩减缓(已5nm) 优点:工艺成熟、功耗低 缺点:近工艺极限(40nm)、先进工艺兼容性差、耐久性较差、 产业关注度高 优点:制备简单、功耗低、兼容先进工艺 缺点:耐久性较差、一致性需优化 当前产业关注度低 优点:擦写次数近无限、计算速度快 缺点:工艺兼容性较差、计算密度较低 当前产业关注度低 优点:工艺较成熟、兼容先进工艺; 缺点:写入功耗高、写入速度慢、耐久性较差 •清华 •中科院 •复旦 •北大 •华科 •台积电 •阿里、中兴、华为 •苹芯、后摩智能、九天睿芯 •Mythic •知存科技 •合肥恒烁 •加州大学、斯坦福 •北大、清华 •中科院、浙大、复旦、国立清华 •台积电 •苹芯、后摩智能、新忆科技 •华为 •IBM •华为 •三星 •台积电 •亘存 •北航 •中科院 •上海微系统所 •华科 •中科院 •北大 •中兴 •清华 •中科院 •华为 •适用于端侧推理场景 •适用于功耗、成本等不敏感的场景,如推理、训练 •中科大 •知存科技 (半导体) (新型介质) 新型存储器 应用场景:存算一体未来可广泛应用于端-边-云侧的AI等计算密集型场景 数据中心 端 在相同功耗下可以为端侧设备提供更高算力,支持AI模型的本地化部署,满足轻薄化需求,有效保护终端隐私。 边 解决复杂边缘计算场景散热需求,提升边缘系统的智能化程度。 云 自动驾驶 边缘网关/5G云小站 智能摄像机 <100Tops 500~1000Tops >1024Tops 可穿戴 <1Tops ~5Tops 移动终端 10~50Tops 低算力 高算力 基于存算一体技术,有望实现数据中心AI运算能效提高1~2个数量级,大幅降低电力成本。 随着实时数据的爆发,计算也将无所不在。存算一体芯片实现了算力瓶颈的突破,有望覆盖端、边、云,构建低成本、高能效、自主可控的的立体泛在算力。 AR/VR 10-64Tops 7 中国移动研发进展:完成RRAM中算力SoC芯片的端到端技术验证 联合清华大学完成业界首次忆阻器存算一体芯片的端到端技术验证,实现图像分类模型和语义分割模型在芯片的部署及推理,成功打通芯片、软件、算法、应用全流程。 8 芯片测试 软件工具链 AI适配算法 应用原型 忆阻器集成规模突破300万 算力15TOPS,能效2Tops/W 完成软件工具链架构设计 完成软件工具链1.0开发 适配阵列规模的模型压缩算法 适配器件特性的误差补偿算法 面向存算一体芯片的计算板卡存算芯片与5G工业网关集成 支持图像分类模型部署推理,算力能效符合设计要求 研发软件编译器和运行环境,适配存算一体计算架构 研究存算一体AI适配算法,补偿存算一体硬件缺陷 搭建存算一体应用原型, 打通芯片、软件、算法、应用 研究实践(1/5):存算一体高端智库 9 提出《如何实现存算一体芯片工程化和产业化》问题,入选中国科协“信息科技领域2022重大产业技术问题” ,形成2篇央办专报和5篇部委级专报,有力提升中国移动在先进计算领域的影响力,加速中国移动在存算一体领域的战略布局。 提交中办 提交中办 提交国资委 提交国资委 中国科协“信息科技领域2022重大产业技术问题“及相关媒体报道 中科协报告 中科协报告 中科协报告 研究实践(2/5):基于忆阻器的存算一体SoC芯片 10 联合清华大学研发基于忆阻器的存算一体SoC芯片,突破冯诺依曼架构“存储墙”与“功耗墙”,忆阻器集成规模突破300万,支持多核并行计算。 基于忆阻器的存算一体SoC芯片 基于忆阻器的存算一体SoC芯片,忆阻器集成规模300万,全球领先。 支持并行计算; 多XB联合计算 矩阵乘结果具有较好的线性度 打通关键数据通路,实现片上部署两层全连接网络FC1,FC2,准确率为98.6%±0.9 矩阵乘测试 图像识别演示 1.完成多XB与Tile的联合计算 2.完成双层全连接10分类任务,识别精度~99% A111芯片测试 研究实践(3/5):面向异构存算一体芯片的通用软件工具链 11 联合产业合作伙伴研发面向异构存算一体芯片的通用软件工具链,向上兼容不同AI框架模型,向下配存算一体芯片的硬件特性,软硬协同发挥芯片性能,有效降低用户开发和部署门槛。 软件管理 模型信息管理(名称、加载时间等) 芯片基础信息(数量、型号、ID) 芯片存算阵列状态管理 模型生命周期管理(部署、卸载) 操作系统与驱动 模型推理 存算一体主从设备协议封装与解析 主从设备协议封装与解析 权重加载读取 推理计算