您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[紫金山实验室]:2023算网操作系统白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023算网操作系统白皮书

2023算网操作系统白皮书

版权声明 本白皮书版权属于网络通信与安全紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:网络通信与安全紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此网络通信与安全紫金山实验室有权追究侵权者的相关法律责任。 编写说明 主要编写单位: 网络通信与安全紫金山实验室、北京邮电大学 参与编写单位: 江苏省未来网络创新研究院 主要编写人员: 张晨、黄韬、周俊、谢人超、汪硕、霍如、刘韵洁 参与编写人员(排名不分先后): 罗曙晖、汪年、张玉军、夏令明、潘凤薇、孙蝉娟、高新平、肖玉明、高松、李伟、赵芷晴、吴海乔 I 前 言 如果把数字经济比作一个有机体,把数据比作它的血液,那么算力就好比是心脏,应能够源源不断地迸发出数据,而网络就好比是血管,应能够无阻畅通地传输数据。只有算力和网络形成有机的协同,才能保障数字经济有机体的高效、健康运转。然而在传统技术体系中,算力和网络的管理与控制体系相互独立,难以实现协同。 在此背景下,业界开始广泛探讨如何实现算力和网络两个技术体系的相互融汇。在相关的技术路线中,无论是“算融网”或者“网融算”都往往会出现“貌合神离”、“融而不通”的内伤性问题,这些问题不仅仅来自于技术,更来自于各种非技术层面的客观约束。 为破解上述问题,需要跳出“算融网”或者“网融算”的惯性思维:把算力和网络都视为等同的资源,站在用户视角来实现算力和网络的协同。对于这种思路的实践,以近年来的多云管理平台为典型代表,它能够代表用户分别开通多个云上的虚拟机和多个云间的虚拟网络,以减化用户复杂的配置流程。多云管理平台在一定程度可实现算力和网络的协同,不过其技术本质是自动化的环境配置,并不关注应用的实际运行和应用间通信的流量传输,因此也无法实现有机协同。 算网操作系统的提出,可进一步实现算力和网络的有机协同。算网操作系统从分布式系统的概念逐步推演而来,原生面向国家东数西算工程进行了针对性地构架与设计,并已通过长期的探索与实践中建立起了一套相对完整的理论体系与工程方法。 II 本白皮书的撰写与发布,以东数西算二期工程建设为锚,值第七届未来网络发展大会为机,希望后续能够与行业同仁多多碰撞,为实现“全国一台超级计算机”的宏伟愿景共同前行! III 目 录 前 言 ..................................................................................................... I 目 录 .................................................................................................. III 一、 业务侧资源侧发展趋势 ................................................................. 1 1.1 云原生/Serverless ....................................................................... 1 1.2 分布式云/算力网 ....................................................................... 3 二、 算网操作系统总体架构 ................................................................. 7 2.1 定义推演 .................................................................................... 7 2.2 物理结构 .................................................................................. 10 2.3 逻辑功能 .................................................................................. 12 三、 算网操作系统基础理论 ............................................................... 15 3.1 资源抽象与建模 ...................................................................... 15 3.2 业务抽象与建模 ...................................................................... 19 3.3 调度框架与建模 ...................................................................... 23 四、 算网操作系统工作原理 ............................................................... 28 4.1 资源统一管控 .......................................................................... 28 4.2 需求联合声明 .......................................................................... 31 4.3 算网协同调度 .......................................................................... 33 五、 算网操作系统调度机制 ............................................................... 38 5.1 算网协同调度模式 .................................................................. 38 5.2 分级跨域拓扑结构 .................................................................. 42 IV 5.3 分级跨域调度流程 .................................................................. 47 六、 东数西算与算网操作系统 ........................................................... 55 6.1 东数西算愿景与挑战 .............................................................. 55 6.2 算网操作系统核心能力 .......................................................... 56 6.3 业务场景分析 .......................................................................... 61 6.4 典型用例介绍 .......................................................................... 67 6.5 运营模式分析 .......................................................................... 70 6.6 产业政策建议 .......................................................................... 73 七、 未来发展与展望 ........................................................................... 76 7.1 后续演进 .................................................................................. 76 7.2 长期挑战 .................................................................................. 79 附录A:术语与缩略语 .......................................................................... 83 参考文献 .................................................................................................. 85 1 一、 业务侧资源侧发展趋势 1.1 云原生/Serverless 云原生(Cloud Native)通过容器、微服务、服务网格等技术,可帮助企业在跨越公有云、私有云和混合云等新型动态环境中,一致性地构建和运行可弹性扩展的应用[1]。云原生的雏形早在2008年就已形成[2],不过由于当时用户对于云计算的认知尚处于早期阶段,因此以虚拟化为主的产品形态[3]最先得到了市场的接受。随着云计算的大规模普及,云原生正逐步成为业界共识。 目前,云原生已经成为应用部署的行业标准。云原生技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统做出频繁和可预测的重大变更。因此,云原生能够大幅度地降低应用更新、上线和运维的成本,并凭借这一优势在互联网、金融等行业得到了广泛的落地应用。 当下,云原生正发展为软件研发的新型理念。云原生的最佳实践不仅仅是将已有应用迁移到云上,而是需要重新设计软件的系统架构,以充分发挥出可弹性扩展的优势。以此为基础,传统软件工程的立项、设计、开发、测试等全生命周期都可以在云上进行,实现从On Cloud到In Cloud的转变。同时,云原生的CI/CD能力可进一步与低代码/无代码结合,进一步降低研发门槛。 2 未来,云原生将演进为无服务器的理想形态。云原生的主流使用方式是用户在已购买的服务器(物理机或虚拟机)上构建云原生环境。这种方式虽然可以发挥云原生应用部署的优势,但用户仍然需要提前支付服务器的费用,无法实现真正的按实际用量付费。而Serverless则无需用户提前购买服务器即可随需随用、用后付费,是云原生尤其是公有云云原生未来演进的必然方向与理想形态。 Serverless起源于2014年AWS Lambda[4]的发布,通过云函数用户可直接在云上编写代码片段,并可在未购买任何服务器的情况下快速地进行函数发布与在线运行,并首次提出了FaaS(Function as a Service,函数即服务)的模式。2019年UC伯克利对Serverless进行了全面解读与未来展望[5],并认为Serverless