登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
中央经济工作会议
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
阿里巴巴面向大规模部署和运营的 SONiC 开发
信息技术
2021-06-15
2019 OCP全球峰会
棋***
AI智能总结
查看更多
阿里巴巴集团工程总监王国辉面向大规模运营的 SONiC 开发经验分享
阿里巴巴与 SONiC 社区
阿里巴巴于 2017 年加入 SONiC 社区,积极参与贡献,包括 TACACS、VLAN 中继、声波遥测、SWSS 热重启、SysDB 和路由性能优化等。
在生产中采用 SONiC 的实践包括遥测双上行链路支持、AliCLI 授权、RDMABGP 增强,以及通过开放平台进行配置、监控、维护、故障恢复、软件升级和迭代。
使用结构化 API 进行配置管理
传统基于 CLI 的配置难以解析、编程和验证,而结构化 API(gRPC)易于建模、编程和验证,显著降低 BGP 邻居 AS 号更新操作的时间(API 延迟从秒级降至毫秒级)。
配置管理架构包括:
使用结构化 API 进行配置更新,轮询检查 VLAN、端口、ACL、开关、BGP、RPS、Syslog、FEC、MTU 等。
配置模型检查、身份验证、白名单键、虚拟数据库路径、gNMI 服务器、NonDB 客户端、DB 客户端等。
传统设备监控与基于事件的设备监控
传统设备监控存在长延迟、结构不灵活、遗留代码等问题,包括:
每 5 分钟进行一次 SNMP 轮询检查。
Syslog 数据嘈杂,难以分析。
黑盒监控,无内部软件状态。
基于事件的设备监控优势:
实时推送通知,通过 Event 收集器/分析器、MonitorD、gRPC 拨号客户端、syslog 过滤器等实现。
结构化事件,应用容器化,SysMonDB 提供更详细的软件状态。
SONiC 多 DB 优化
单实例 RedisDB 是系统瓶颈,SONiC 通过多数据库实例重构:
构建时支持多实例数据库配置。
数据库客户端和实例动态绑定。
独立数据库实例用于路由/监控/管理,路由安装性能提升 50% 以上。
维护示例:设备隔离
破坏性设备隔离:
链路关闭后大量数据包丢失,无交换机和服务器的协调。
优雅的设备隔离:
平稳的流量故障转移和设备维护。
通过自定义协议协调交换机和服务器事件。
软件升级
通过 Docker 和系统热重启实现无中断软件升级。
从热修复/冷修复到模块化软件升级,基于 Debian 包和 Docker。
使用 AliNOS 仿真器实现更快的迭代
仿真前面板端口和应用场景:
QEMU-kvm + ONIE x86_64-kvm。
SONiC + VM 特定平台模块,SDK/SAI + vASIC 仿真模型。
完全虚拟化的 SONiC 设备用于开发和集成测试、操作演练、软件验证和故障排除。
经验教训
故障监测和实时检测是关键。
危险在灰色地带,自动化测试和操作演练加速迭代。
棘手问题来自平台/固件/硬件-软件互操作性问题。
呼吁采取行动
构建具有强大操作支持的 SONiC:
操作工装:故障处理、故障排除。
软件驱动的管理界面。
系统和网络可见性。
版本控制和软件迭代。
你可能感兴趣
Istio多集群流量管理加速汽车公司的新业务开发、部署和运营 - 张朝猛 & 刘克星
交运设备
IstioCon 2022:Istio 社区第二届全球峰会
2022-05-26
通信运营行业跟踪周报:通信行业迎来变革机遇,关注联通混改和移动大规模部署NB-Iot网络
信息技术
东吴证券
2017-08-06
征集建议 : 在东盟和东亚大规模部署带有电池存储的太阳能光伏的经济分析
东盟与东亚经济研究所
2022-03-07
欧洲经委会执行秘书呼吁加大开发、展示和部署 CCS 技术的力度
信息技术
全球碳捕集与封存研究院
2015-12-07
北交所定期报告:国常会部署加快场景培育和开放推动新场景大规模应用有关举措,北证50回调0.98%
东吴证券
2025-11-03