您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院&华为]:人工智能促进数据中心绿色节能研究 - 发现报告

人工智能促进数据中心绿色节能研究

2024-11-03-中国信通院&华为~***
AI智能总结
查看更多
人工智能促进数据中心绿色节能研究

陈晓朋1许可欣2梁宇栋1 (1.华为技术有限公司,深圳518129;2.中国信息通信研究院云计算与大数据研究所,北京100191) 摘要:为应对全球气候变化和实现绿色发展,我国提出碳达峰碳中和发展目标,绿色发展已成为数据中心建设运营的主旋律。基于人工智能等新一代信息技术促进数据中心节能的理论与实践,分析了多种人工智能技术在数据中心节能方面的应用。在此基础上,提出了数据中心人工智能节能系统的部署趋势,并给出了以创新技术推动行业绿色节能发展的思考与建议。 关键词:人工智能节能;绿色创新发展;机器学习;神经网络;物理机理模型 文献标志码:A 引用格式:陈晓朋,许可欣,梁宇栋.人工智能促进数据中心绿色节能研究[J].信息通信技术与政策,2024,50(2) :33-39. DOI:10. 12267/ j.issn. 2096-5931. 2024. 02. 006 统运行能效,尚未考虑到多系统协同与联动。通过AI技术应用,可以保障数据中心能效优化由数据驱动,更加有章可循,从而规范和促进我国数据中心节能提效。 0引言 随着新一轮科技革命和产业变革的兴起,以数据为核心的生产要素、以数字技术为驱动力的新型生产方式蓬勃发展,社会正快速步入数字经济时代。数据中心是发展数字经济的算力底座,也是数字化产业链的关键一环。截至2023年6月,全国在用数据中心机架总规 模 超 过760万 标 准 机 架,算 力 总 规 模 达 到197EFLOPS,位 居 全 球 第 二,比2022年 同 期 增 长30%[1]。与此同时,数据中心能耗问题日益凸显,在传统数据中心,产品级节能技术应用已接近天花板,且系统复杂、设备多,各设备间能耗影响关系错综复杂,难以用传统工程学公式模拟,加之传统控制方式各自为政,作用已到极限。在此背景下,数字化及人工 智 能(ArtificialIntelligence,AI)技术是推动数据中心电 能利用效率(PowerUsageEffectiveness,PUE)预 测 和 指标优化实践的重要基础工作。基于专家经验的传统人工PUE预测和能效优化基本着眼于单设备或者单系 1绿色数据中心发展趋势 随着产业的规模发展,数据中心能耗成为社会广泛关注的话题。对于从业者而言,实现数据中心的绿色化发展也是体现技术水平的重要方面[2]。数据中心是技术密集型产业,设备和系统技术复杂,对性能、安全要求较高,能耗也涉及多个方面。因此,节能降碳是一项系统工程,涉及规划、设计、建设、运维等方面,任一环节出现问题都会影响最终能效水平。据统计,数据中心IT及 网 络 设 备 在 数 据 中 心 总 耗 电 占 比 约 为45%~ 50%,制冷设备占比约为30%~ 45%,制冷系统耗电与选址地点、系统方案以及运行要求相关,并与当地全年 气 候 变 化 息 息 相 关;供 配 电 设 备 约 占10%~15%,供配电系统耗电通常以供电效率损失和配电损耗为主,供配电架构确定后供电效率和损耗即确定,只 E0 要其他系统用电就会有一定的损失[3]。故PUE数值计算结果受多种因素影响,当单一系统节能潜力充分挖掘后,下 一 个 阶 段 能 效 管 理 的 核 心 命 题 则 是“集成” ,需考察具体项目全生命周期、系统规划节能方案能力,打造全栈节能能力是节能减碳未来主要创新发展趋势。 个PUE为1. 59的典型传统数据中心能耗分布比例示意。其中,IT设备能耗占比最高。案例中数据中心配电设备效率已接近或达到90%以上,配电损耗也难以大幅降低,因此降低冷却系统能耗对提升该数据中心能效非常重要。 《新型数据中 心 发 展 三 年 行 动 计 划(2021—2023年) 》提出新建大型及以上数据中心PUE降低到1. 3以下,严寒和寒冷地区力争降低到1. 25以下。此外,我国工业和信息化部通过创建国家绿色数据中心、国家新型数据中心典型案例名单,引导企业建设发展绿色集约型数据中心。2023年,我国新建大型及以上数据中心PUE降至1. 3以下,全国最优水平达到1. 08,能效水平逐步提升。绿色低碳技术广泛应用,我国有120多个数 据 中 心 绿 色 低 碳 等 级 达 到4A级 以 上[4]。虽然新建大规模数据中心PUE设计及运行水平稳中向好,但目前我国老、旧数据中心绿色技术应用及PUE发展与欧洲、美国等国家和地区相比还存在一定的差距。数据显示,我国中、小规模数据中心PUE值普遍偏高,各地政府及数据中心企业已经开始关注到这一发展问题,主动探寻“老、旧、小、散”数据中心的节能改造路径,相信未来在生产制造、通信、互联网、公共机构、金融、能源等重点领域将迎来老、旧数据中心改造浪潮[4]。 随着大数据、云计算技术不断演进,AI、物联网技术的成熟,绿色数据中心对新一代信息技术应用进入快速发展阶段。数据中心冷却系统是典型的多变量耦合非线性时变系统,各部件相互影响、制约。针对冷却系统末端负荷和室外环境变化,基于AI节能技术通过监测运行参数(如温度、压力、流量、能耗等) ,获得全面的温度场、速度场、压力场等参数,同时建立系统能耗模型(如冷机、水泵、空调机等) ,可据此确定冷却系统不同运行工况下各部件的功率消耗。大 量 数 据 通过智能化运维平台进行聚合、分析,调整冷却系统运行状态,为 冷 却 系 统 运 行 适 配 提 供 建 议。最 终 根 据需求侧负荷变化,优化各部件运行状态(如压缩机转速、水泵转速、风机转速等)到系统最佳运行状态,从而降低系统能耗。 2AI在数据中心节能方面的应用 鼓励数据中心应用绿色先进技术。一方面应在应用上鼓励数据中心采用高效系统,优先采购先进绿色技术产品,建设数据中心能源消耗在线监测平台,开展数据中心能耗监测评估,从数据中心应用上实现节能;另一方面应在源头上引导数据中心高效利用清洁能源和可再生能源,深化数据中心绿色设计、施工、采购与运营管理,全面提高资源利用效率,从源头上实现减碳[5]。除此之外,近年来也涌现出一批基于AI、大数据、物联网、仿真模拟的数字化新技术,可以优化机房的冷/热气流布局,实现精确送风、热源快速冷却、冷源设备精准自动调节,目前已在华为、阿里巴巴、百度、腾讯等企业大量应用,并取得了显著的节能效果。 2.1技术应用及发展 国际领先企业早在数年前就采用AI与数据中心运维相结合来优化能效、降低成本。例如,谷歌数据中心打造了专门的AI能力来自动管理其数据中心复杂的冷却设备。该项目以谷歌DeepMindAI部门在2016年首次发布的工作成果为基础,开发的机器学习系统可以收集有关冷却设备的运行数据,为工程师提供关 在数据中心运行过程中,能耗主要由IT设备、配电设备(配电损耗)和冷却系统构成[6],图1给出了一 于如何优化电力使用的建议。该系统每5min会对数据中心内冷却设备运行参数进行“快照” ,根据包括设施温度、热泵运行状态等信息来决定采取哪些措施优化电力消耗。目前,共有8种机制可以确保该系统按预期工作,如果出现问题,系统将快速回退到用于管理冷却系统的预定义自动化模式。随着时间的推移,系统收集并处理的数据越来越多,实现的节能效果也会不断提高。 (1)深度神经网络算法 近年来,数据中心相关设备厂商、大型数据中心企业开始探索 将 大 数 据、AI等 技 术 运 用 于 运 维 管 理 中(如提高数据采集的实时性和准确性,研究训练节能、告警等数据模型,开展故障预测等) ,进一步提升运维管理系统的服务能力和智能化水平[7]。国内产业界在数据中心AI节能技术上也有多项研究:中国电信与华为联合发布《PUE数字化技术白皮书》 ,以仿真与监测多数据交互为冷却系统提供更优建议切入,论述了数字化技术优化PUE的相关企业实践进展;开放数据中心委员会(OpenDataCenterCommittee,ODCC)发布的《2023数据中心自适应AI节能白皮书》聚焦利用AI进行空调群控节能,从数据、算力、算法等方面进行了分析;ODCC发布的《数据中心制冷系统AI节能技术及其应用白皮书》介绍了数据中心制冷系统AI节能技术及其应用前景。 运用深度神经网络算法,可以有效描述一个包含冷通道的数据中心气流和温度模式,将区域模型转换为状态空间模型并实时运行,因此该模型具有实时预测能力,可以控制和优化数据中心的能源利用。 以华为构建的从冷源到末端的AI能效优化能力为例,使用工况模拟仿真,模拟现网数据实现数据集的扩充、数据密度的增加,补足由于现网数据不足、质量不佳的普遍缺陷,加强模型的适应能力与可靠性。依靠大数据,采用深度神经网络算法,自动匹配精度最高的算法,并实现无码化建模。通过计算机模拟训练出冷却系统运行参数与能耗和机房温度之间的数学关系,从而指导数据中心冷却系统的运维,最终可实现PUE降低8%~ 12%的优化效果。 将AI建模所涉及的参数分为控制参数、环境参数和过程参数三大类,模型训练算法原理如图3所示。 控制参数:指系统所有可以直 接 设 置、下 发 的 参数,如设备运行台数、冷机出水温度设定、供回水压差设定、冷却水出水温度设定、冷却塔逼近度等。 2. 1. 1基于机器学习的AI节能技术 基于机器学习的智慧运维算法是依靠大数据,采用深度神经网络或深度机器学习等AI算法,通过计算机模拟训练出冷却系统运行参数与能耗和机房温度 之 间 的 数 学 关 系,从 而 指 导 数 据 中 心 冷 却 系 统 的运维。 环境参数:指对系统能耗有强烈影响,但不受系统影响的客观参数,如室外温湿度、业务负载等。 过程参数:指系统内部的一些观察参数,不能被直接控制,但环境参数和控制参数变化时,会因这些参数的改变而明显发生变化的参数,如水泵频率、水流量、压力等。 如图2所示,基于大数据分析步骤包括:业务模型(基于业务的分析,获取相关的业务参数,并对参数进行降维、降噪、清洗等处理) ;数学模型(选择适合业务的数据模型) ;领域算法(根据输入的参数选择可收敛的算法) ;实现模型(求出满足输出条件解,该解包括对于制冷能耗的预测模型以及对应业务最优的决策模型) ;发布模型(将预测以及决策模型发布到节能优化的平台系统中,以在线给出可以调优的决策模型) ;数据应用(决策模型给出系统最优调优建议,并与控制系统对接,执行调优建议) 。 建模(构建训练) :收集所有X(控制参数、环境参数、过程参数)和能耗值y,灌入神经网络,计算所有参数对能耗的系数矩阵,从而完成模型训练(主模型) ,同时还需要找出过程参数受哪些参数影响,使用拟合算法获取系数矩阵(子模型) 。子模型不仅可以帮助提高主模型精度,还可以承载专家经验牵引,如冷却流量在什么范围内安全、节能等。 E0 此外,可以根据项目的特点和要求,由具有专业知识背景的业务专家通过模型生成服务平台进行控制参数、环境参数和过程参数的选择,以及配置这些参数与能耗之间的连接关系用于进行模型生成和训练。 应的一组控制参数作为调优策略进行下发。推理决策步骤如图4所示。推理决策过程如图5所示。 基于制冷能耗预测模型,获取与制冷能耗敏感的特征值,利用特征值进行业务训练、给出业务预测模型。主要是保障业务运行服务等级协议(Service-LevelAgreement,SLA) ,如冷量保障等[8]。 在线推理阶段,使用遗传算法或者贪婪算法根据当前时刻环境变量同时将所有控制变量组合代入训练生成的能耗-变量模型计算能耗值,选取能耗最低值对 最后,利用系统可调整参数作为输入,将制冷能耗 预测模型、业务预测模型作为约束,利用寻优算法,获取调优参数组,然后下发到控制系统,实现制冷系统的能耗调优。 统的传热和能耗模型,再依靠智能寻优算法以运维目标求解出各设备运行参数,从而实现对系统的调优。 腾讯在数据中心冷源系统AI调优上进行了实践应用。基于深度神经网络和支持向量回归算法构建设备模型,通过选择合适的激活函数、调整损失函数以及限制权重参数范围等方式增强模型的可解释性,使得构建出来的模型满足暖通物理原理。例如,