AI智能总结
钱柱中 qzz@nju.edu.cn 计算机软件新技术全国重点实验室南京大学计算机学院2025.12.8 电算融合:新型电力系统+智能计算任务 新能源高比例接入 影响:发电成本显著下降、有望实现双碳目标问题:新能源波动难以持续保证廉价电力供应 基于GPU/NPU的智算 影响:人工智能技术革新引领新一轮技术革命问题:海量算力基础设施,巨大运行能源消耗 电算融合:智能计算任务与新能源电力的动态适配 动机:计算任务执行的时空可变性适配新能源出力的时空动态性 新能源顶峰出力时,调入算力任务满负荷运行新能源比例较低时,延迟或调出部分算力任务 “荷”随“源”动面向电算融合的任务调度: 计算视角:算力任务与算力设备的多样性与复杂性 实现算力需求与电力供给的动态最优匹配难度很大! 传统电器工作有额定功率,挡位有限,用电曲线平稳算力设施用电量取决于算力任务,算力任务依赖于计算内容不同算法:计算强度不同,用电功率与耗时不同相同算法:输入内容不同,用电功率与耗时不同 能源视角:新能源出力的波动性难以预测气象、地理等多源因素综合作用,预测难度大 规模化应用的前提:算力网络与电力市场 算力网络实现“算力并网”,任务漫游支持负荷的迁移 电算融合实时任务调度:量最佳任务执行方式 自标:基于算力网络,对实时提交的智算任务调度最合适资源执行 用户侧:满足智算任务的服务质量,时延、精度..供给侧:实现整体系统的最佳性能,最小化时延/电价/碳排、绿电消纳 算力度量:算力任务在特定算力设备上的功率与时间 理解算力任务对资源的消耗,包括算力设备及运行能耗任务适配:调整算力任务的资源配置改变功率与时间增加、减少资源对任务总体完成时间与资源消耗的影响动态调度:为优化某些指标动态设定任务的资源配置最小化时延、最小化碳排、最小化成本、绿电消纳. 任务提交时(度量+调度):为任务确定最佳运行节点、最佳执行方式与最佳资源配置 任务执行中(适配+调度):根据新能源(电价)波动,对任务迁移、启停或改变配置 1.算力度量:关键难点与主要工作 面向CPU的通算 ():完成相同指令,频率与最大频率fmox下的能耗之比 通过建立计算模型估算任务的总体计算量 批处理:总计算量,O(n2)、O(nlgn)...流处理:单位时间最小计算量 面向智能计算的算力度量关键难点 难点1:深度学习框架隐藏了智算任务的底层实现,难以进行准确的建模与预测 基于模型结构将智算任务计算流程建模为有向无环图,并基于该计算图通过深度学习方法进行预测难点2:智算任务与算力设备的种类丰富,导致算力度量的问题特征空间规模庞大N种任务M种设备问题,将其分解为N任务1设备的N:1问题和1任务M设备的1:M问题分别进行解决主要工作 基于图神经网络的智算任务时间预测:解决难点1及难点2的N:1问题异构算力卡上的算力资源状态预测:解决难点2的1:M问题 (电价)2.任务适配:新能源波动的视角 电价波动时,是否可以调整算力任务执行模式?如何调整? 推理类实时处理任务有严格的时延要求,执行模式的调整幅度有限训练类批量处理任务可调整计算强度,需深入理解资源与收益关系 并行增加资源,提升单位计算能力,但边际效益明显 并行化需要进行同步增加了单位计算成本并行化均摊静态能耗减少了单位计算成本 计算成本与GPU数量与运行时间相关给定计算环境与任务存在最佳井行量 训练类任务在不同阶段,算力资源量对训练效率有不同的影响 单批样本量(batchsize)增大,用更多GPU并行执行,可以增加吞吐量,但降低统计效率Pollux(OSDI21):初期batchsize增大对效率产生更大负面影响>最佳并行量随阶段漂移 多目标优化3.动态调度: 电算融合资源调度特征 外部动态性:跨地域算力集群(数据中心)电价Pd.t与碳强度Φd.t随时间波动。内部动态性:训练任务的最优资源配置x*随阶段漂移。思路:构建在线任务调整机制,基于电能波动情况调整任务执行 任务迁移:模型、数据迁移可行性与代价动态启停:算力任务时延与服务质量要求更新配置:算力集群的可用算力基础设施决策变量: zj,d,k,tE(0,1)(任务j在时隙t是否部署于节点d并采用配置k优化目标 映射基于有效算力效用的“算-电/碳” 有效算力效用(EffectiveComputeUtility) 定义:在特定环境和配置下,计算任务运行1秒对模型收敛的有效贡献ECU=Phase(y)×Throughput(x,Net)×Efficiency(o)阶段敏感性因子Phase(Y):反映任务在不同训练阶段的学习率敏感度异构扩展性项Throughput(x,Net):表示并行度对吞吐量的影响统计效率Efficiency():量化全局批量大小对模型收敛贡献的非线性折损 计算的电能消耗 任务j在数据中心d采用配置k时的单位能耗eid,t,k(kWh/slot)由三部分组成ejid,t,k = eidle,d + ad,1 k + ad,2 - ECUj,d,t,k电力成本为实时电价与能耗乘积 基于Lyapunov的在线协同调度算法与理论保证 长期约束解耦 算法执行流程 虚拟队列构建Rj.t:剩余进度队列→保证任务最终完成Zdt:虚拟碳积压队列→限制长期碳排放自标转化:将长期问题转化为单时隙净 Step1:在线感知与参数估计 利用梯度噪声探测实时更新β(t)。使用指数移动平均(EMA)平滑更新ECU模型参数(t)。 收益最大化问题maxNetCoefj.d.ktZjd,kt(其中NetCoef权衡了进度收益与资源成本) Step2:全局离散优化 构建混合整数线性规划(MILP)模型。利用Gurobi高效求解离散变量z,确定任务位置d与GPU规模k。 在离线最优解的0(1/V)邻域内稳定性: Step3:局部连续微调 针对被选中的任务,在连续域内微调批量大小m。利用ECU的单峰性质进行一维搜索,进一步挖掘弹性收益。 虚拟队列积压(即任务延迟与碳超额)的上界为0(V) 系统架构面向电算融合的任务调度平台: 任务驱动的电算映射与融合调度,消纳绿电、降低成本 用户侧提交算力需求(智算任务)并进行标准化度量调度系统将用户提交的智算任务路由至最佳算力节点运行,并将结果返回用户系统实现各级计算集群及其异构设备的度量转换,并进行资源调度 多自标自适应的任务动态调整方法 触发式任务迁移机制 基于算力网络一体化平台实现跟踪任务状态,实时评估任务成本在电碳成本或算力负载出现较大波动时触发任务迁移,动态调整负载 时空调度决策方法 ·时间调度:建立电价预测及任务频率模型,自适应启停任务,避峰填谷降成本。·空间调度:建模网络拓扑结构,量化迁移时延成本,结合区域电碳差异动态迁移任务,优化全局收益。·算力效用:结合ECU模型与批量效率评估,动态调整算力投入。 电算碳协同运营系统 与南方电网、紫金山实验室联合研制,2025年8月贵阳数博会初次亮相 原型系统验证 原型上线测试验证 2025年7-8月粤黔苏三地跨域调度测试验证系统提前测算任务对应的电力负荷,实时对比南方区域电价,通过价格引导约500kWh智算任务从广州转移到贵州、苏州,从高峰时段转移到低谷时段,整体电费降低36%预计每年可降低算力运营成本超10% 总结与展望 人工智能需算力、算力运行靠电力、电力发展看碳排 双向赋能:以算促电、以电强算 AI任务平滑新能源波动,AI技术优化电网韧性提供高可靠、低成本的稳定持续电力供给 电算融合:人工智能可持续发展的基石 算力度量:理解计算的执行特征任务适配:计算负荷的按需调整动态调度:任务的实时执行方式发展规划:算力中心、电力网络 谢谢 钱柱中qzz@nju.edu. cn 计算机软件新技术全国重点实验室南京大学计算机学院2025.12