登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
介绍云原生超级计算裸机、安全的超级计算架构
信息技术
2022-06-24
2021 OCP Global Summit 会议
~ JIAN
Cloud-Native 超级计算简介
超级计算架构
超级计算架构
:裸金属、安全架构
网络特性
:
高吞吐量、低延迟、高消息速率
InfiniBand 网络
数据处理单位(DPUs)支持可编程数据路径加速
自愈网络、数据安全/租户隔离、自适应路由选择、智能拓扑结构
云原生超级计算基础设施
基础设施特点
:
裸机固定基础设施
多租户隔离(零信任架构)
安全的网络基础设施和配置
存储虚拟化
租户服务水平协议(SLA)
单个子网上的 32K 并发隔离用户
应用性能提升
:
并行应用程序
集体卸载
智能 MPI 进程
数据压缩
用户定义的算法
下一代 MPI 库的要求
MPI 库需求
:
低延迟通信
高带宽通信
最小化对主机 CPU 资源的竞争
计算与通信的高度重叠
MPI 原语网络卸载
:
目前仍处于起步阶段
BlueField DPU 提供额外计算能力
利用 DPU 提升纯通信性能和通信与计算重叠
BlueField-2 DPU 概述
硬件配置
:
ConnectX-6 网络适配器(200Gbps InfiniBand)
片上系统包含八个 64 位 ARMv8 A72 内核(2.75 GHz 每核)
16 GB 内存用于 ARM 内核
软件架构
:
重新设计 MPI 库以利用 DPU 加速科学应用程序
带有 DPU 的 MVAPICH2 软件架构
拟议卸载框架
:
非阻塞集体操作卸载到 DPU 工作进程
BlueField 设置为分离主机模式
工作进程在 DPU ARM 核心上启动
主机进程准备元数据并传递给工作进程
工作进程通过 RDMA 访问主机内存并推进集体操作
拟议的无阻塞 Alltoall 设计
设计细节
:
Worker 进程执行 RDMA 读取接收数据块
数据在 ARM 内存后执行 RDMA 写入远程主机内存
示例:散射目标算法
消息分块和流水线减少分期开销
性能评估实验设置
实验环境
:
HPC 咨询委员会高性能计算中心
32 个计算节点,Broadwell 系列的 Xeon dual-插槽(16 核处理器,2.60 GHz,128 GB RAM)
NVIDIA BlueField-2 适配器(8 个 ARM 内核,2.0 GHz,16 GB RAM)
基于 MVAPICH2-DPU MPI 库
OSU 适用于非阻塞 Alltoall 和 P3DFFT 应用的微型基准
OSU Micro 基准测试
基准测试指标
:
osu_ialltoall 基准:
纯通信时间(MPI_Ialltoall + MPI_Wait)
总执行时间(计算+通信)
重叠操作(计算与通信重叠)
标准部分 OSU 微基准
性能结果
:
osu_ialltoall 通信和计算重叠(32 个节点)
使用 osu_ialltoall 的总执行时间(32 个节点)
P3DFFT 应用程序执行时间(16 个节点)
使用 osu_iallgather 的总执行时间(16 个节点)
使用 osu_ibcast 的总执行时间(16 个节点)
NVIDIA DOCA SDK
SDK 特点
:
基于 CUDA 的软件应用框架
保护 DPU 开发者投资
认证参考应用程序、API 和合作伙伴解决方案
跨行业和工作负载的丰富合作伙伴生态系统
官网:https://developer.nvidia.com/networking/doca
行动号召
更多信息链接
:
技术概述:https://nvdam.widen.net/s/plhzlwmtrg/tech-overview-infiniband-cloud-native-supercomputing-web
开源软件开发:https://ucfconsortium.org/projects/opensnapi/
MVAPICH2-DPU MPI 库:https://x-scalesolutions.com/mvapich2-dpu/
新闻公告和更多链接:https://www.hpcwire.com/2021/04/14/gtc21-dell-building-cloud-native-supercomputer-u-cambridge-and-durham/
你可能感兴趣
TMT周报:阿里云拟全资收购长亭科技,云原生安全将构筑新一代企业安全架构
商贸零售
莫尼塔
2019-10-13
风河,英特尔解决方案以更少的计算支持更多的云原生RAN服务
商贸零售
风河
2023-08-01
云原生数据湖存储的架构发展和数据治理-程力
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生数据库的架构演进-章颖强
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
PingCAP-孙晓光-TiDB Serverless 的云原生架构进化:从0到2万+集群的极速狂奔
商贸零售
2023第十二届全球TOP100软件案例研究峰会
2024-08-21