您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:王豪杰:PHYSec安全加密技术及在智算中心的应用 - 发现报告
当前位置:首页/行业研究/报告详情/

王豪杰:PHYSec安全加密技术及在智算中心的应用

王豪杰:PHYSec安全加密技术及在智算中心的应用

演讲人:王豪杰演讲单位:中国移动研究院 目 录01场景与安全需求02现有技术分析03PHYSec技术思路04总结与展望 场景与安全需求01Chapter one 网络攻击日渐频繁,无处不在! 在Internet上每天有超过1亿次的网络攻击,每秒超1000次以上的攻击发生。攻击者企图访问用户个人或组织的信息数据,没有一家公司能幸免中国数据安全法中国网络安全法中国个人信息保护法 中国密码法网络安全审查办法关键信息基础设施保护条例网络安全等级保护条例(征求意见)网络安全审查办法(修订)商用密码管理条例(修订征求意见)网络产品安全漏洞管理规定网络数据安全管理条例(征求意见)201620182019202020212022德国电信安全法2.0德国安全要求目录欧盟网络安全法GDPR工业和信息化部关于工业大数据发展的指导意见工业和信息化领域数据安全管理办法(试行) (征见)英国电信安全业务守则草案PCI-DSS v4.0全球100多个国家已对数据安全提出要求;中国、英国、德国、欧盟相继颁布网络安全法案,要求通信网络确保数据传输安全 用户入算上载样本数据、算内及算间训练生成模型及参数、下载训练后的模型及参数,涉及敏感数据的频繁交互,存在泄露、窃听的风险智算中心A远端用户入算网络①数据上传:端到端安全加密,确保样本数据安全⑥模型下载:端到端安全加密,确保模型框架、参数安全算间网络⑦参数传递:端到端安全加密,确保模型框架、参数安全算内网络②数据转移:存储节点直接(对象文件),需确保样本数据安全③数据读取:计算节点访问文件存储节点(读),需确保样本数据安全④归档写回:计算节点访问文件存储节点(写),需确保模型与参数安全⑤模型复制:存储节点直接(文件对象),需确保模型与参数安全承载网络智算中心B 入算网络入算关键诉求:•用户访问以及用户数据的安全关键能力:•高安全、低开销算内关键诉求:•AI模型架构、参数核心资产的存储、使用安全关键能力:•低时延、高吞吐、低开销安全,不占用算力,不影响算效算间关键诉求:•数据与协议安全,防窃听关键能力:•高安全、高吞吐、低开销智算中心内实现网络安全机制的从无到有,入算网络和算间网络实现安全防护能力的由低到高;面向算内、入算和算间的不同诉求,研究合适的安全加密机制用户智算中心BEthernet智算中心AEthernet算间网络上述智算中心网络场景的底层承载网络主流技术是以太网,为了应对上述日益严峻的数据安全挑战,须对以太网提供安全认证、密钥管理以及数据加解密能力,构筑以太网安全机制,为新型智算中心提供安全数据传输能力 现有技术分析02Chapter one 智算中心采用CLOS组网来满足日益增长的转发规模需求,通用性有明显优势。智算中心的AI典型Leaf-Spine组网,ALL-TO-ALL通讯,100GE/400GE/800GE接口,1K计算节点(32×32)训练和推理**:** 2023 usenix, Accelerating Distributed MoE Training and Inference with Lina,HKU•模型:Mixture of Experts (MoE)•通讯方案:all-to-all800GE......spine交换机spine交换机spine交换机spine交换机core交换机core交换机TORTORTORTOR...400GE100GERack1×32×32×32256×16×8128Rack32 优势•可以实现计算节点与计算节点,计算节点与存储节点,存储节点与存储节点之间的安全加密•管控复杂 O:N台Serverü全网需维护安全连接(SA会话)ü每连接1对密钥,全网管理维护2×个密钥•静态时延增加超30%:ü以4 Hops为例,server-to-server典型静态链路时延 ≈.ü考虑TLS/RDMASec/IPSec加解密时延最优性能1μs,静态时延增加=/.≈%劣势•带宽开销增加至少21字节:•TLS逐包增加21B开销,RDMASec逐包增加40B开销,IPSec逐包增加48B开销•须升级硬件支持:•在AI计算场景下,将TLS/IPSec/PSP安全加密功能卸载到硬件,需要Server硬件支持* RFC5042提出RDMASec基于IPSec改进,Google在2022年发布基于IPSec ESP的改进方案PSPTLS/RDMASec*/IPSec等端到端安全加密方案,服务器间实施典型的ALL-TO-ALL通讯方案;但没有网络的参与,计算节点之间部署端到端方案成本、难度和算力代价较大......spine交换机spine交换机spine交换机spine交换机core交换机core交换机TORTORTORTOR... 优势•管控复杂度低 :ü Server-TOR, TOR-Spine, Spine-Core部署MACSec,全网维护= 44N安全连接(SA会话)•静态时延增加32%:4 Hopsü以4 Hops为例,Server-to-server典型静态时延 ≈.üServer-to-server使能MACSec时典型静态时延 ≈3.77 ü静态时延增加=3.77−2.85/2.85≈32%劣势•带宽开销增加至少32字节:•对64B包而言,逐包开销增加超30%•须升级硬件支持:•在AI计算场景下,须将MACSec安全加密功能卸载到硬件,需要Server升级硬件支持,需要交换机升级硬件支持*MACSec2017版本, IEEE802.1AEcg支持VLAN in clear端到端加密方案,此方案优劣势同 TLS/RDMASec/IPSec智算中心内采用MACSec链路级安全加密方案*,服务器间实施典型的ALL-TO-ALL通讯方案;MACSec在管控复杂度有改进,但10多年前主要面向传统园区设计,时延开销无法满足智算时代需求......spine交换机spine交换机spine交换机spine交换机core交换机core交换机TORTORTORTOR... 比较项RDMASecMACsec? Sec加密层级应用层/传输层链路层新层次 ?加密开销带宽开销增加36%带宽开销增加30%接近0 ?加密时延静态时延增加35%静态时延增加32%静态时延增加< 10% ?加密配置相对复杂O简单O简单O ?加载难度Server升级硬件支持Server升级硬件支持,交换机升级硬件支持易升级易部署? 最佳 最差 一般•竞争分析:智算中心最关注算效,通讯时延*对算效影响大üServer-to-Server端到端时延每降低1us,有效算力线性度提升3%üIB控标静态时延 <1.2TOR ServerServer<1.2 * AI训练和推理,对每一次迭代通讯的尾时延敏感;HPC小包通讯,对RTT时延敏感•各项性能指标对比分析设定新安全性能目标,兼顾成本、代价方面,探索智算时代的以太网安全新机制 PHYSec技术思路03Chapter one 199419952006NowL2PHYL3L4L5TimeTLS/DTLSIPSecMACSecPHYSecsoftwareSoftware + hardwareHardwareHardwareMACIPTCPMACIPMACMACCipher textCipher textCipher textCipher textRDMASecHardware2022MACUDPCipher textIP PacketMACPCSPMAPMAPMDMACSec/RDMASecxAUIPMAPCSMACMACPCSPMAxAUIMACSec/RDMASec PHY•探索新层次:网络安全的思想是把密码学技术应用到网络的不同层次;在智算时代,是完善传统安全机制还是探索“更底层的加解密技术”,解决现有技术方案的安全漏洞与性能瓶颈?•RDMASec在IPSec和TLS基础上优化,基于硬件实现,优势是能够降低部分时延,但功耗、成本较高,时延仍然影响算效;PHYSec在以太网物理层实现加解密,避免两次背靠背转换,具有极低时延、更低功耗和成本等优势?PacketMACPCSPMAPMAPMDxAUIPHYSec光模块加密接口芯片加密PacketMACPCSPMAPMAPMDxAUIPHYSecor 可以在多个参考点实现PHYSec越往下,不同速率PHY实现的方案区别越大1G/2.5GBASE-X5G/10GBASE-R50G/100GBASE-R25GBASE-R200G/400GBASE-R800GBASE-R以太网物理层可实现PHYSec参考点:64B/66B码块和virtual lane是两种比较可行的实现位置;不同层次位置实现加解密具有不同的数据防护特点MAC(Preamble+Padding+FCS)RSMAC(Preamble+Padding+FCS)RSPMDPMAPMDPMAMAC(Preamble+Padding+FCS)RSPMDPMAAMDeskewAM LockBlock SyncMAC(Preamble+Padding+FCS)RSPMDPMACWMCWM LockRS-FECRS-FECSymboldistributionReorderPMAPMAPMAPMAMAC(Preamble+Padding+FCS)RSPMDPMAAMDeskewAM LockRS-FECSymboldistributionReorderPMAEn/Decode(8B/10B)En/Decode(64B/66B)(De)ScrambleEn/Decode(64B/66B)(De)ScrambleEn/Decode(64B/66B)(De)Scramble256B/257B256B/257BEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble+Padding+FCS)RSPMDPMAAMDeskewAM LockRS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMAAMDeskewAM LockRS-FECSymboldistributionReorderPMADistribution/InterleaveL1.5L1 基于“码块”加密的L1.5层PHYsec在PHY芯片内实现Encryption/Decryption功能MAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/Interleave