您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球计算联盟]:2024全球计算产业应用案例汇编 - 发现报告

2024全球计算产业应用案例汇编

2025-01-22-全球计算联盟L***
AI智能总结
查看更多
2024全球计算产业应用案例汇编

Case Collection of 2024 Global Most Valuable Practice Solutions Foreword序 言 当时代的列车全速驶入数字化的轨道,计算产业正以前所未有的速度深刻改变着世界的运行方式与发展格局。从现代化都市高效运转的智能交通体系,到充满活力的智慧城市建设实践;从高深莫测的科研攻坚前沿,到与每个人息息相关的医疗健康保障领域,计算力如同无处不在的智慧引擎,驱动着创新与发展的巨轮滚滚向前。 为全方位呈现计算产业年度发展风貌,全球计算联盟(GCC)于今年9月重磅发起“2024年度全球计算产业应用案例汇编征集2024 Global Most Valuable Practice Solutions(GMVPS)”活动,得到了飞腾开发者平台、极术社区、鲲鹏创新中心、昇腾社区的鼎力支持。 案例征集锚定三大核心方向,深度覆盖产业生态关键构建要素——年度技术创新类、智慧行业应用类、可持续发展类,共收集到来自会员单位及产业伙伴累计近50份案例的积极申报。经由全球计算联盟理事会以及来自通信、政务、制造业、分析机构、媒体等领域权威专家组成的编委会编审,最终集结成册。 本册《2024年度全球计算产业应用案例汇编》汇集年度众多极具代表性的应用实例而成。这些实例融合了云计算、边缘计算、机密计算等一系列计算技术,展现了在智慧金融、智能制造、智慧交通等多个关键行业的开创性实践和绿色可持续发展的应用经验,为产业提供极具价值的参考与借鉴。 随着技术的不断进步和创新的持续涌现,计算产业也势必将在更多领域发挥关键作用。未来,全球计算联盟GCC将持续搭建全球产业应用案例展示与交流的平台,让我们以案例汇编为指引,不断探索计算产业的无限可能,共同推动全球计算产业的繁荣发展! 全球计算联盟2024年12月 年度技术创新类(前沿技术突破) |中国电信股份有限公司研究院|分布式智算中心无损网络方案…………………………………………… 1|中国科学院计算机网络信息中心|面向国产超算系统跨平台可移植的并行框架软件方案……………… 7|中国科学院沈阳自动化研究所|基于AI Agent的工业物联网关方案……………………………………10|中移在线服务有限公司|中移在线基于云原生化的数据仓库平台方案…………………………………17|北京万里开源软件有限公司|高性能数据库全场景适配与优化解决方案………………………………21|四川华鲲振宇智能科技有限公司|训推一体AI服务器方案………………………………………………25|合肥大唐存储科技有限公司|高安全超聚合存储控制器芯片及应用方案………………………………29|河南昆仑技术有限公司|国家管网机器视觉AI中台技术突破方案………………………………………33|南湖实验室|基于机密计算的数据可信流通平台方案……………………………………………………37 智慧行业应用类 ●智慧通信 |中国电信集团有限公司|机房智慧节能系统方案…………………………………………………………42|北京东方通网信科技有限公司|基于AI大模型技术的多维化数据安全综合管控平台方案……………47|北京海量数据技术股份有限公司|运营商商城App数据库自主创新方案………………………………52|恒安嘉新(北京)科技股份公司|创新安全采集分析平台方案…………………………………………56|深圳天源迪科信息技术股份有限公司|基于鲲鹏原生开发的5G融合计费系统方案…………………60 ●智慧金融 |云宏信息科技股份有限公司|基于双Kit深度优化的WinSphere虚拟化解决方案……………………63|北京数字认证股份有限公司|基于“鲲密”一体机的数据安全传输应用方案…………………………70 |深圳市长亮科技股份有限公司|鲲鹏原生开发APStack技术平台方案…………………………………74 ●智慧政务 |北京市太极华青信息系统有限公司|预算管理一体化系统V2.0方案……………………………………79|南威软件股份有限公司|基于大模型赋能的城市运行管理服务平台方案………………………………83|星环信息科技(上海)股份有限公司|基于鲲鹏原生的大数据平台创新方案…………………………88 ●智能制造 |北京云锦汇智信息技术有限公司|数智化生产管控系统解决方案………………………………………91|深圳市华灏机电有限公司|AI视觉部署方案………………………………………………………………95 ●智慧能源 |北明软件有限公司|AI智能供热:基于先进技术融合的创新解决方案…………………………………99|国能信控技术股份有限公司|新能源计算平台:鲲鹏原生驱动的智能能源创新方案………………… 103 ●智慧城市 |中国联合网络通信有限公司网络运营事业部|基于5G边缘计算“边 - 端”一体化运维提升方案…… 107|中国铁塔股份有限公司|分布式边缘计算创新应用方案………………………………………………… 112 ●智慧交通 |麒麟软件有限公司|深圳地铁四期AFC行业智慧化升级方案…………………………………………… 119 ●智慧医疗 |大连红旗自由软件有限公司|基于立马昆仑大模型的疾病预测及医疗服务智慧升级方案…………… 123 绿色可持续发展类(绿色节能技术) |北京神州数码云科信息技术有限公司|新一代绿色融合智算中心解决方案…………………………… 128|苏州华旃航天电器有限公司|应用于数据中心液冷散热系统的流体连接器方案……………………… 131 年度技术创新类(前沿技术突破) 案例名称:分布式智算中心无损网络方案牵头申报单位:中国电信股份有限公司研究院联合申报单位:中国电信股份有限公司北京分公司华为技术有限公司 案例简介 随着人工智能的浪潮来袭,以大模型为代表的智算中心解决方案逐步深入千行百业,算力需求日益攀升,智算基础设施的重要性进一步凸显,但同时也面临组网、通信、能耗、成本等多重挑战。为解决智算中心单点算力规模建设受限的问题,中国电信提出“以网强算”的技术路线,通过将IP技术与光传输技术的协同创新,将相距百公里的多个智算中心连成一个更大规模的智算集群,补齐单点算力规模不足的差距。针对跨智算中心构建超大规模智算集群过程中遇到的问题和挑战,中国电信成立攻关项目组,聚焦研究长距无损智算网络技术。 本方案依托中国电信的全光运力网,基于800G C+L技术、异构网络集合通信优化技术、全局负载均衡技术等,为1024卡规模的分布式集群提供大容量带宽,实现120公里千亿参数大模型分布式训练,性能达到集中训练的95%以上,证实了分布式无损智算网技术方向的可行性,为智算互联构建坚实技术底座。 案例亮点 1本方案可实现跨百公里数据中心协同训练,为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础。2根据实时网络状况动态调整流控策略,实现流量峰值速率的流级别的独立控制和精准反压,实现网络无损传输。3提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率;采用WSON重路由恢复技术,快速地定位和解决问题,提高故障定位的准确率。 1. 技术创新突破概述 本方案积极探索ROCE(RDMA over Converged Ethernet,基于融合以太网的远程直接内存访问技术)组网的全局负载均衡及拥塞控制协议的优化创新,融合800G、C+L、WSON(Wavelength SwitchedOptical Network,波长交换光网络)、空芯光纤、精准流控等多项前沿技术,构建了百T大带宽、毫秒低时延、高可靠能力领先全光底座,实现智算中心的高速互联,实现超地理空间的环京算力资源统筹和调度。在技术方面主要有3项创新突破。 (1)异构网络集合通信优化技术 在长距拉远场景下,网络不再同构,跨长距的GPU通信时延要显著高于DC内的GPU通信时延,因此传统算法将不再最优。下表总结了Ring算法和HD算法在拉远场景下的跨长距通信次数和通信量。其中S是集合通信数据量,N是参与集合通信的GPU数量。 理想情况下跨长距只需要进行一次通信,并且传输的数据量为S即可。基于该思路,本项目设计出针对长距异构组网的集合通信算法框架,如图1所示。新算法具体步骤如下: (1)将拉远DC当做两个独立的子系统,在每个DC内先进行集合通信操作,集合通信算法可选用Ring或者HD。 (2)DC内同步后,在每个DC中选取一个或者多个代表主机,然后对应的代表主机之间同步数据。例如选取K个代表主机(K < N/2),则每个主机需传输S/K的数据。这一步的通信在网络上就是K个点对点双向通信。 (3)每个代表主机接收到对方的数据后,进行本地加和,再将加和后的结果在本DC内广播/AllGather分发出去。实现了两个DC之间的AllReduce操作。在每次执行集合通信时,根据拓扑图得到每个源端和目的端的距离,随之运行搜索算法,找到效率最高的集合通信方式。 (2)网络级负载均衡技术 智算业务流具有同步性高、流量大、周期性出现等特点。同一时刻,网络里每条等价路径上都有流经过,传统基于ECMP哈希的负载均衡技术无法做到所有路径的完美均衡。 本方案采用网络级负载均衡技术可以通过统一规划整网流量,如图2所示,让所有路径之间完美均衡无冲突,避免拥塞丢包。具体来说,首先网络设备会收集业务的流量信息,并将其发给网络控制器。控制器根据拓扑、流量信息,运行全局选路算法,给每条流都选择合适的路径,做到整网完美均衡无拥塞。最后,控制器将路径信息再下发给网络设备,由网络设备作出路径调节。 (3)高性能WSON技术 传统的WSON重路由时间为秒级到分钟级,现网测试中容易发生概率性训练中断事件,影响智算业务。因此,需要进一步提升WSON的重路由能力,实现确定性的光层恢复能力。 针对智算百公里级互联场景,本方案利用WSON 50ms技术可以在提供相同保护能力的情况下降低对资源的消耗。其关键技术包括转控分离机制、资源共享选路算法、高速报文转发技术、WSS快速切波技术等。 年度技术创新类(前沿技术突破) 2. 创新技术实际应用效果 本项目利用OTN网络零丢包、低时延、大带宽的承载特点,通过全局负载均衡、长距无损流控等技术,使RDMA传输协议应用于广域网。目前,方案已在现网开展了百公里拉远对大模型训练的影响及稳定性测试,并在全国率先完成基于高带宽、低时延的全光800G超高带宽传输。项目组从多拓扑、多模型、多故障等维度积极开展主流方案摸底测试,并对仿真验证结果进行分析,积极探索优化创新。 项 目 组 先 后 开 展 了 现 网 机 房 的 6 4 卡 以 及 1 0 2 4 卡 组 网 验 证 。 一 阶 段 在 京 津 冀 智 算 机 房 进 行80km/120km绕行拉远验证,模拟了两个数据中心组网,组网拓扑如图3所示。二阶段在武清、瀛海、永丰三机房开展百公里分布式大模型训练,验证当前分布式智算中心无损网络解决方案在真实业务场景下的效果,并探索分布式智算集群对大模型训练性能影响的关键因素,组网拓扑如图4所示。在前期百卡、百公里拉远验证基础上,三阶段在京津冀智算机房开展了千亿参数、千卡规模120km两点拉远验证,组网拓扑如图5所示,本阶段探索长距链路带宽收敛情况下模型训练的性能,目标是推动无损智算互联网络的技术进一步突破。系列试验均验证了在不同拓扑中分布式智算中心无损网络方案的有效性和稳定性。此外,模拟了多种试验中可能出现的故障情况,以验证方案在面对线路路障、服务器端口故障及其他异常情况时的韧性和恢复能力。 模型选取方面,在百卡组网规模下开展了LLAMA2-7B、LLAMA2-13B、LLAMA2-34B、中国电信启明网络大模型-14B、Bloom-7B、Baichuan2-13B四类百亿参数模型的分布训练验证;在千卡组网规模下进行了Qwen-70B、GPT-175B等模型的验证测试。通过多模型验证可以确保智算拉远方案能适应不同硬件和软件配置,提高方案