中 国 移 动 研 究 院/C h i n a M o b i l e R e s e a r c h I n s t i t u t e李 小 涛/ X i a o t a o L i 算力是数字经济的核心生产力 数字经济已成为继农业经济、工业经济之后的主要经济形态和引领增长的重要引擎。数据是数字经济的核心生产要素,算力是核心生产力,直接影响数字经济发展的质量与速度,决定社会智能的发展高度。 ①事关核心生产要素升级 过去十年,数据中心用电量占比以每年超10%速度递增,2020年约占全社会用电量的2.71% 我国算力规模平均每增长一个百分点,带动数字经济和GDP将分别增长1.6‰和0.8‰ 存算一体是算力网络关键使能技术 •中国移动积极推进“算力网络”创新发展,推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务。•存算一体是算力网络关键使能技术,是算力基础设施持续增强算力能力、释放算力价值的革命性技术。 传统计算架构瓶颈:“存储墙”和“功耗墙” 冯·诺依曼架构是目前计算系统的主流架构,其主要特点为存储与计算分离,存在“存储墙”和“功耗墙”问题,访存越密集,“墙”的问题越严重。CPU、GPU和AI等专用芯片均为遵循冯·诺依曼架构设计的产品。 •冯·诺依曼架构是现在计算机系统的主流架构 •分为控制单元、计算单元、存储单元、输入和输出设备5大组成部分 •以CPU为中心,计算和存储分离•CPU根据指令从内存取数据并将结果写回,存在频繁的数据交换 功耗大:CPU与内存间数据搬运功耗大 整形运算:0.03pJ ~3 pJ浮点运算:0.4pJ ~ 4pJ内存访问:1.3nJ ~2.6nJ 内存访问功耗是运算的上千倍注:单次运算功耗,nJ = 1000*pJ 多核共用内存总线和内存,CPU单核带宽较低 存算一体技术颠覆冯·诺依曼架构,提供更强劲算力 存算一体可在存储单元中直接完成计算功能,实现存算零距离,大幅降低计算时延与能耗,突破冯·诺依曼算力瓶颈,解决“存储墙”与“功耗墙”问题。 冯诺依曼架构的存算分离模式 •计算和存储分离,频繁的数据搬运导致“存储墙”与“功耗墙”,严重制约了系统算力和能效的提升 计算架构演进 存&算 存&算 存&算 存&算 存算一体技术利用存储单元实现计算功能,在算力、能耗、面积等方面优势显著,有望成为数字经济时代以数据为生产要素的先进生产力 发展历程:存算一体近年来受到全球产业广泛关注 存算一体最早由学术界于20世纪70年代提出。随着摩尔定律放缓,AI等大数据应用兴起,智能数据处理挑战和冯氏架构瓶颈成为电子信息领域的关键矛盾之一,存算一体受到业界广泛关注。 概念期 放缓期 1969-2000:概念提出,受限于成本且缺少应用驱动,一直不温不火 2000-2014:存算一体学术届持续探索,但需求不旺盛,仅停留在科研阶段 学术界提出直接利用内存实现简单的计算功能,减少数据在处理器与存储器之间的搬移 2010年,学术界验证忆阻器实现简单布尔逻辑2007年,登纳德缩放定律放缓,存算一体架构优势显现 国家“十四五”规划纲要,“先进存储技术升级”被列为”科技前沿技术攻关”重点领域中国移动提出《如何实现存算一体芯片工程化与产业化》问题,入选中国科协“信息科技领域2022重大产业技术问题”国内涌现大批存算一体技术公司,获得大量融资 技术路线:存算一体存在多条技术路线及方向 存算一体目前有多种技术路线,传统器件相对成熟,已有少量应用,但存在密度受限、功耗等局限;新型材料在时延、密度、功耗等多个维度上性能较均衡,应用场景更加广泛,更具潜力,但成熟度较低。 应用场景:存算一体未来可广泛应用于端-边-云侧的AI等计算密集型场景 随着实时数据的爆发,计算也将无所不在。存算一体芯片实现了算力瓶颈的突破,有望覆盖端、边、云,构建低成本、高能效、自主可控的的立体泛在算力。 中国移动研发进展:完成RRAM中算力SoC芯片的端到端技术验证 联合清华大学完成业界首次忆阻器存算一体芯片的端到端技术验证,实现图像分类模型和语义分割模型在芯片的部署及推理,成功打通芯片、软件、算法、应用全流程。 应用原型 搭建存算一体应用原型,打通芯片、软件、算法、应用 研究实践(1/5):存算一体高端智库 提出《如何实现存算一体芯片工程化和产业化》问题,入选中国科协“信息科技领域2022重大产业技术问题”,形成2篇央办专报和5篇部委级专报,有力提升中国移动在先进计算领域的影响力,加速中国移动在存算一体领域的战略布局。 中国科协“信息科技领域2022重大产业技术问题“及相关媒体报道 提交中办 研究实践(2/5):基于忆阻器的存算一体SoC芯片 联合清华大学研发基于忆阻器的存算一体SoC芯片,突破冯诺依曼架构“存储墙”与“功耗墙”,忆阻器集成规模突破300万,支持多核并行计算。 基于忆阻器的存算一体SoC芯片 基于忆阻器的存算一体SoC芯片,忆阻器集成规模300万,全球领先。 1.完成多XB与Tile的联合计算2.完成双层全连接10分类任务,识别精度~99% 打通关键数据通路,实现片上部署两层全连接网络FC1,FC2,准确率为98.6%±0.9 研究实践(3/5):面向异构存算一体芯片的通用软件工具链 联合产业合作伙伴研发面向异构存算一体芯片的通用软件工具链,向上兼容不同AI框架模型,向下配存算一体芯片的硬件特性,软硬协同发挥芯片性能,有效降低用户开发和部署门槛。 兼容多种AI框架 屏蔽芯片硬件差异 发挥芯片性能 降低开发门槛 研究实践(4/5):面向存算一体的AI适配算法 针对存算一体器件规模受限、模拟计算误差问题,提出面向存算一体的模型压缩和误差补偿算法,提升AI算法在芯片的计算性能。 误差补偿 模型压缩 在模型训练中考虑忆阻器器件误差影响,通过加噪训练和权重复制技术,提升模拟计算精度(同数字电路相比精度损失在3%以内)。 网络裁剪 在保证模型性能的前提下,可以剔除30~50%的冗余权值。 权值量化 将AI模型权重从Float32位量化至低比特甚至是1bit,模型尺寸可缩小为原来的1/32。 论文发表:[1]Memristors-based Dendritic Neuron for High-Efficiency Spatial-Temporal Information Processing(Advanced Materials,影响因子32) [2]Hybrid Precoding with a Fully-Parallel Large-Scale Analog RRAM Array for 5G/6G MIMO Communication System(IEDM 2022)[3]First Demonstration of Homomorphic Encryption using Multi-Functional RRAM Arrays with a Novel Noise-Modulation Scheme(IEDM 2022) 研究实践(5/5):基于存算一体芯片的边缘智能示范演示平台 完成业界首次忆阻器存算一体芯片的端到端技术验证,实现存算一体芯片与5G工业网关的硬件系统集成,并通过软件工具链实现了语义分割模型的自动部署和推理,成功打通芯片、软件、算法、应用全流程。 问题挑战:产业链各环节积累较少,缺乏应用牵引是核心 存算一体芯片产业化的核心卡点是缺乏规模化应用牵引,且在新型器件、芯片设计、软件算法等方面,均存在一定的技术挑战。 下一阶段工作(1/2):拓展存算一体应用场景,加速相关技术成熟 联合产业伙伴开展存算一体技术验证,推进存算一体芯片在工业视觉、视频超分、智能推荐等场景应用加速存算一体技术成熟。 存算一体应用场景尚未规模化形成:目前基于存算一体技术的应用主要集中在小算力的端侧AI识别(如语音识别、降噪),在工业视觉、视频推荐等主流AI场景下的应用尚未成熟。 下一步阶段工作(2/2):联合产业链上下游,推动存算一体生态构建 面向存算一体芯片工程化与产业化目标,勇担链长责任,联合产业链上下游组建联合攻关组,打通存算一体芯片设计、制造、集成、应用的产业链,攻关各环节关键技术,构建国产化的算力技术新生态。