您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心标准推进委员会ODCC]:面向 800G/1.6T 光模块的液冷关键技术白皮书 - 发现报告

面向 800G/1.6T 光模块的液冷关键技术白皮书

AI智能总结
查看更多
面向 800G/1.6T 光模块的液冷关键技术白皮书

版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《中华人民共和国著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其他方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写组 项目经理: 蔡岳霖锐捷网络股份有限公司 陈炜深圳市腾讯计算机系统有限公司贡献专家:陈国峰京东云计算有限公司陶春雷京东云计算有限公司王贵林京东云计算有限公司刘帅京东云计算有限公司张兴龙京东云计算有限公司高盛涛锐捷网络股份有限公司吴鑫锐捷网络股份有限公司陈炜深圳市腾讯计算机系统有限公司张骏安擎计算机信息股份有限公司吕文清上海曦智科技有限公司陈羿函英特尔易明英特尔吴佳鸿英特尔郭利文电子科技大学、深圳富联富桂精密工业有限公司陈亮深圳富联富桂精密工业有限公司杜阿未深圳富联富桂精密工业有限公司曾伟铨柏斯托(马石油集团全资子公司) 戴荣锋柏斯托(马石油集团全资子公司)吴美希中国信息通信研究院周曼中国信息通信研究院阮迪中国信息通信研究院张一星中国信息通信研究院 前言 随着智算中心算力需求的持续增长,高算力与低时延已成为其核心诉求。这一趋势不仅推动了交换机传输性能的提升,也对其散热系统提出了更高要求,进而加速了液冷技术在交换机领域的应用。其中,光模块的液冷方案因其系统级复杂性而成为关键技术挑战。 为应对这一技术挑战,锐捷网络与京东云等合作伙伴组成联合团队,展开了系统性的研究与开发。团队从实际应用场景出发,深入剖析了现有光模块的技术架构与散热瓶颈,成功开发出多种原型样品。本文从光模块向高速率高密度发展的趋势,探讨光模块的散热路线选择,用系统性的方式梳理光模块在液冷环境下的整体需求与实现难点,并归纳当前行业在相关技术路径上的探索与特点。在此基础上,团队明确了液冷光模块原型的关键性能指标,进而与合作厂商共同开发出四种不同的液冷设计方案,并完成实测验证,最终提出面向未来的光模块液冷技术发展路径。 目录 一、概述...............................................................................................1二、术语、定义和略缩语....................................................................1三、现有光模块液冷技术....................................................................1四、光模块液冷规格分析....................................................................6五、原型样品成果.............................................................................10六、未来方向.....................................................................................15七、参考资料.....................................................................................17 图目录 图1.光模块功耗趋势.........................................................................2图2.光模块冷板系统拆解...................................................................2图3.光模块公差部件..........................................................................3图4.双层光模块鼠笼示意图...............................................................4图5.光模块导热材料损坏实体图.......................................................5图6.光模块干接触温升趋势...............................................................5图7.Nvidia光模块液冷方案[2]...........................................................6图8.HPE光模块液冷方案[3].................................................................7图9.热传导路径示意图......................................................................7图10.Molex光模块液冷方案[4]...........................................................8图11.Ciena光模块液冷方案-1[5].......................................................9图12.Ciena光模块液冷方案-2[5].......................................................9图13.文轩热能光模块原型样品.......................................................11图14.苏州大图光模块原型样品.......................................................11图15.万亨达光模块原型样品...........................................................12图16.同裕科技光模块原型样品.......................................................13图17.宝森金属波纹管......................................................................13图18.原型样品流量对应热阻图.......................................................14图19.原型样品流量对应流阻图.......................................................14图20.焊料溢吸..................................................................................15 表目录 表1.MSA光模块插拔力规范...............................................................3表2.光模块冷板关键需求满足度.....................................................10 一、概述 在智算中心架构中,GPU服务器是核心基础设施,但要确保整体算力传输效率,交换机以及光模块同样是关键环节。随着传输速率不断飙升,光模块功耗也持续攀升,这让散热设计面临严峻挑战,散热方案从传统风冷转向液冷技术。基于此挑战,本课题重点分析光模块的功耗发展趋势,详细梳理其散热技术的演进路径,探究液冷设计的关键技术方向,进而归纳出原型样品的设计规格、阶段性成果,并探讨未来技术的改善方向。 二、术语、定义和略缩语 术语 MSA:Multi-SourceAgreementOSFP:OctalSmallForm-factorPluggableRU–RackUnitTIM–ThermalInterfaceMaterialQD–QuickDisconnectPoC–ProductofConcept 三、现有光模块液冷技术 在交换机设备中,光模块是不可或缺的部件,但随着智算需求提升,带动光模块的速率也跟着提升,接踵而来的便是光模块的功耗也提升,可参考下图1,预测当速率达到3.2T时,光模块功耗可达40W以上,下图为光模块速率对应功耗趋势,并评估从风冷(绿色)切换至液冷(蓝色)的过程. 光模块的散热,不仅仅是单纯的散热问题,还涉及到结构设计、材料制程,属于系统级的问题,下图2是相关分析: 结构设计: A.由于光模块属于动件,且周围的部件皆存在一定的公差,如光模块、鼠笼、冷板等,使得冷板需要具备灵活性,可支持所有部件所产生的浮动公差,如下图3所示. B.浮动公差也就意味着,当出现极限公差时,有可能造成光模块与冷板的连接过紧,造成运维时需要施加较大的力才可拔出光模块进行维护,在MSA标准里,也有列出插拔力的要求,如下表1所示: C.现有的光模块鼠笼有单层及双层两种,如下图4所示.为保证智算中心的高密度,从结构空间来看,保守评估需要控制冷板高度在9mm,而较为可靠的高度为7mm. 材料:由于光模块属于动件,而冷板、鼠笼皆固定在交换机内,而在实际机房运维中,无法控制光模块的插入方向、位置是否正确,因此,如果在冷板与光模块接触的位置,贴上导热材料,在插入光模块时,很有可能就会出现使导热材料出现破损现象,如下图5所示: 因此,导热材料需要具备耐磨擦的特性,否则冷板与光模块之间,仅能采用干接触,热阻可达到1in2C/W,依照现有主要发热区域分析,在光模块32W时,部分热点的功耗在干接触热阻条件下出现的温差,可达到25.6C,如下图6所示. 液冷设计:光模块冷板所能使用的空间较小,在散热特性上需要考虑克服干接触的影响,考虑光模块的工作温度,光模块表面温度需要低于70C以下,才可保障正常工作,因此,在冷板内部需要做微 结构特征,微结构表面温度与工质仍需有温差来保证传热效果,并且需考虑流阻大小.另外由于空间狭小,且需要保证液冷的承压要求,冷板内部也需额外预留支撑设计,避免压力过大时,出现冷板变形的问题. 四、光模块液冷规格分析 现有公开信息对于光模块液冷有以下几种,针对这些方案提供分析观点: Nvidia&HPE–如下图7&8所示,Nvidia及HPE皆采用热管方式将光模块的热导至冷板. 此技术方案属于高可靠性,液冷的冷板不直接与光模块接触,而采用热管将热导出后,再传导致冷板上,但导热路径较长,散热性能较为有限,下图9是传导路径分析图: 光模块=>铜块=>TIM(可选用焊接)=>热管=>TIM(可选用焊接)=>冷板,此技术路线在低功耗发热元件可支持,但在高功耗发热元件的状况下,效能较差. Molex–如下图10所示,Molex采用一体式冷板方案,在各个光模块位置处,设计浮动装置来克服浮动公差问题,冷板直接贴合光模块,散热路径比热管方案少,散热性能较佳.但需对浮动装置可靠性进行验证,确保长期可靠性.如一体式冷板的底部,未有独立的浮动装置,则无法有效支持光模块的浮动问题. Ciena–如下图11所示,Ciena采用软管连接光模块冷板,利用软管特性解决浮动公差问题,冷板直接与光模块发热源接触可提高散热性能.但由于各个支路采用软管,需要用卡箍连接,也就代表泄漏风险是倍数的提高. Ciena–如下图12所示,Ciena还提出在光模块直接做液