您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:国产智算云方案与实践 - 发现报告

国产智算云方案与实践

2024-08-19腾讯王***
AI智能总结
查看更多
国产智算云方案与实践

方天戟腾讯专有云首席架构师 个人简介 方天戟 •腾讯专有云专家工程师,《云鉴》编写组成员•18年行业经验,曾服务于华为、新华三、Juniper等业界著名企业•为宝马、航天科技、中国建筑、新加坡HBO Asia等业界头部客户设计过企业上云整体方案并落地; 目录 01趋势与挑战02腾讯国产智算云解决方案03最佳实践案例 国内:复杂国际形势加速国产替代,平台开放性面对新挑战 信息技术融合创新生态具有全技术栈属性,PaaS与操作系统作为基础平台,需要满足最严苛的兼容性需求 企业部署自主创新的国产智算云平台已成为必然趋势 2014:试探 2008:萌芽 我们需要什么样的国产云原生平台? 目录 01趋势与挑战02腾讯国产智算云解决方案03最佳实践案例 自主创新,面向应用,开放兼容的国产智算云平台 Ecosystem Technology 技术引领 生态共赢 •支撑应用生态,帮助企业数字化转型•融合信息技术融合创新生态,建设自主创新平台•赋能产业生态,实现对外运营服务 •全栈IaaS+PaaS+DaaS+TBaaS平台•持续技术创新,促进开源共建•业界领先的性能、高可用与安全能力 •软件硬件协同,性能与安全性领先•云端边缘协同,实现企业数字化治理•研发运维协同,建设敏捷组织与流程 腾讯国产智算云方案总体架构 充分复用公有云能力,和公有云统一架构、统一代码,覆盖计算、存储、网络、安全、数据库、中间件、云原生等近百个产品,可以在安全合规的前提下,满足政府/企业私有环境中自用及行业云等多种需求提供运营、运维、高可用等管理端能力,比公有云拥有更丰富的可运营、可运维性,同时提供完善的文档、工具助力客户 技术引领:全栈自主创新,引领行业标准 40+项专利,20+软著 全面协同:创新的软硬件协同技术提升云平台性能与安全性 针对硬件的优化 优化NUMA分配,提升国产平台计算与网络性能独创qGPU技术,实现高性能计算灵活调度大规模应用MCA Recovery技术,提升40%可靠性 操作系统内核级深度优化 针对内核底层机制,特定产品提升3倍性能修改内核实现离在线混部,提升100%集群利用率虚拟机批量迁移,运维效率提升200% 引入专用硬件,优化关键路径 专用密码机,云平台应用国产密码算法,安全加固自研智能网卡实现系统资源利用率的进一步提升自研星星海服务器,现网部署10万+ 全面协同:云与边缘协同,数字化直达末梢 云与边缘计算的融合协同,打通中枢与末梢,避免信息扭曲失真 生态共赢:真一云多芯,引领信息技术融合创新生态长期演进 优势 价值 极致的一云多芯能力,全类云产品支持集群级一云多芯支持客户多种多样的建设需求,存量改造、新建扩容皆可提供全栈信息技术融合创新云服务,数十款云服务均进入信息技术融合创新图谱全面兼容信息技术融合创新芯片、服务器、操作系统;业界其他信息技术融合创新中间件、数据库等软件也可运行在TCE 全类云产品支持一云多芯帮助客户大大降低信息技术融合创新建设成本、缩短建设周期开放兼容的一云多芯能力,支持客户选择多设备供应商、多技术路线建设信息技术融合创新环境 生态共赢:开放兼容全球软件生态 优势 价值 被集成能力开放全量云产品的云API提供标准的产品化的API能力集成能力提供成熟规范的第三方产品集成方案和流程 统一入口管理&使用云产品对于管理人员,可在运营端统一管理腾讯云产品和第三方产品对于云用户,可在租户端统一入口访问腾讯云产品和第三方产品统一云产品使用体验对于云用户,在使用第三方产品时,拥有与腾讯云产品一致的使用体验 目录 01趋势与挑战02腾讯国产智算云解决方案03最佳实践案例 最佳实践案例(1)某全国垂直系统 项目情况: 某全国垂直系统在全国建设金x四期配套工程——FP云,决策基于ARM平台建设,在总局建设双中心,每省建设省中心; 交付成果: •已交付总局及全国各省级单位(不含港、澳、台)共70+个AZ;•共计20000+节点,包括飞腾、海光和鲲鹏三种处理器架构;•全国首个飞腾S5000C作为云生产节点的局点;•首创1周交付完3个AZ的纪录; 最佳实践案例(2)南网广东调度云 解决方案 客户简介/项目背景 客户:南方电网属国务院国有资产监督管理委员会监管的中央企业,是关系国家安全和国民经济命脉的特大型国有重点骨干企业。供电区域为广东、广西、云南、贵州、海南五省及港澳地区,负责投资、建设和经营管理南方区域电网,经营相关的输配电业务和联网工程;从事电力购销业务,负责电力交易与调度。 硬件:H3C海光三号服务器+ H3C网络设备产品:CVM,TKE,CBS,CSP,TDSQL,Redis,TSF,TDMQ等 背景:南网调度业务逐步向云边协同架构演进,支持省地局部弹性接入与自治运行,支持云边协作运行,打造全网统一的云边协同智能调度运行平台。 业务挑战 异构云边协同建设:南网总调为AL云,要实现总调和中调的云边协同,意味着要打通与阿里云的数据互通、统一规范及应用协同等能力,在业务落地方面对TCE的开放兼容和技术灵活性提出重大挑战。新一代OMS系统上线:新一代OMS系统上线,新增了新能源业务范畴,在调度业务领域做出了众多调整和新增功能,系统整体运行的性能需求大幅提高,对首次承载南网核心生产系统的TCE的性能和可靠性提出一定挑战。 客户价值 完成云边协同综合示范平台建设:助力调度云完成云边协同智能调度运行平台示范建设,为新型电力系统“可观、可测、可控”提供综合示范。。 助力新一代OMS系统上线:基于云边协同架构建设新一代OMS系统基础底座,依据调度域“两图”重构两级调度运行管理业务模式,进一步完善调度域与公司各业务域实现业务协同、数据共享机制。 最佳实践案例(3)某股份制银行 •TCE智算方案为招行大模型提供了高性能计算集群(HCC)、并行文件存储(TurboFS)、高性能网络控制器(IHN)等智算基础设施服务,实现了NV和昇腾GPU的一云多芯混部,为上层AI平台提供了云原生容器服务TKE和算力共享调度组件qGPU。 提供完备的账号、权限、计量计费、监控、日志等运营运维及平台管理能力,打造算力云平台 多元算力 提供训练、推理等场景的多元算力,包括单机单卡、单机多卡、多机多卡,并可通过qGPU技术为智算算力进行精准划分和调度 卓越性能 自研高性能网络IHN:多轨道聚合流量架构,自适应通信优化。分布式训练/推理加速框架TACO Thanks