行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

游望秋-火山引擎veRTC场景下高可用云边通信实践

信息技术2024-07-05ArchSummit深圳2024|全球架构师峰会棋***

AI智能总结

veRTC云边协同架构分析

veRTC业务场景

业务类型：实时音视频（视频会议、直播连麦、云游戏）、物联网、互动课堂、全球实时音视频云
特点：全球实时互动、边缘全球下沉就近接入、全球实时流媒体/信令传输网、边缘计算云边协同

veRTC云边协同的特点与挑战

特点

可靠性：高要求，信令依赖中心，边缘失联影响用户体验（通话失败、卡顿黑屏、媒体网络避障异常）
实时性：高要求，消息延迟上升100ms导致3s/5s进房成功率下降3%，首帧延迟上升600ms
成本：带宽消耗小，仅传输控制信令，每100w PCU带宽2Gbps

挑战

基建：边缘节点分布广故障率高（无专线、公网可靠性低）、云机房故障不可避免
延迟/容灾/容量：多云机房下边缘连接方案（公网VPN隧道OpenYurt/Raven）存在链路单一、延迟高、流量调度问题

veRTC云边通信架构演进

v1：长连接自行实现

问题：服务单独运维配置、冗余开发、高可用能力缺失

v2：中心化网关版本

架构：边缘集成SDK接入，云端云网关服务管理长连接及数据转发
传输通道：MultiPath Transport（多链路长连接实现高可用）
- 高可用保障：
  - 异构链路（10+类型）：故障时链路切换，日常选择延迟最低链路
  - 多径冗余：单链路故障无损，多链路故障秒级恢复
  - 协议支持：类似TCP的ACK重传、保序、自动重传
- 高效去重方案：
  - v1：Redis实现（增加延迟、强依赖）
  - v2：TLB一致性Hash（扩容升级时出现重复）
  - v3：Converge Routing（短链分配地址+长链指定实例+内存去重）
- 长连接保活优化：
  - 短链探测分离
  - 链路分级按需保活（降低80%开销）
  - 活跃/非活跃链路实时转化

v3：去中心化网格架构

控制转发分离：
- 控制面：分配服务实例、长连接管理、边缘流量调度
- 数据面：链路质量探测、长连接保活、云边数据传输
- 优势：业务资源隔离、无状态服务实现平滑升级、去除单点强依赖、减少调用开销
云端故障容错：
- 单实例故障：控制面自动切换，数据面秒级切换至新实例/机房
- 机房大规模故障：控制面下发多机房切流操作
- 异地多活流量调度：综合延迟+容量信息（容量不对等情况优先考虑延迟）

核心数据与结论

稳定性数据（2023年）：避障次数月均减少，故障时延减少75%，年事故0次，MTTR<5s
结论：veRTC通过多链路冗余、协议优化、去中心化架构实现高可靠、低延迟的云边协同通信，有效解决公网环境下的容灾、扩容挑战

字节跳动 / 游望秋⼤纲 •veRTC云边协同场景•veRTC云边协同的特点和挑战•veRTC⾼可⽤云边通信架构介绍 veRTC业务场景 veRTCReal Time Communication实时⾳视频视频会议直播连⻨云游戏特点全球范围内的实时⾳视频互动物联⽹互动课堂全球实时⾳视频云 1.边缘全球下沉，⽤户就近接⼊2.全球实时流媒体传输⽹3.全球实时信令传输⽹4.边缘计算，云边协同云边协同场景⼤纲 •veRTC云边协同场景•veRTC云边协同的特点和挑战•veRTC⾼可⽤云边通信架构介绍 veRTC云边协同的特点-可靠性可靠性要求⾼ •信令系统依赖中⼼作为超级⼤脑，边缘⽆法⾃治•媒体⽹络依赖云边通信做带外控制•下线边缘会对⽤户体验产⽣严重影响云边通信异常可能会导致 •⽤户通话⽆法建⽴•边缘失联导致⽤户断开重连，导致卡顿⿊屏•媒体⽹络避障异常，导致通话失败 veRTC云边协同的特点-实时性实时性要求⾼ •各类实时互动的业务场景对控制信令的实时性要求⾼云边消息延迟上升100ms会导致•3s/5s进房成功率下降3%•⾸帧延迟上升600ms veRTC云边协同的特点-成本带宽消耗⼩ •只⽤来传输控制信令、不传输媒体流•每100w PCU云边通信带宽2Gbps veRTC云边通信的挑战-基建 1.边缘分布⼴⽽下沉，故障率⾼•⼤部分节点⽆法建设专线•公⽹的可靠性不⾼2.云机房故障⽆法避免，影响⾯⼤ veRTC云边通信的挑战 - 延迟、容灾与容量当有多个云机房存在，边缘该如何连接？业界常⻅的云边通信⽅案基于公⽹构建VPN隧道OpenYurt/Raven 业界常⻅的云边通信⽅案业界⽅案提供了 1.基于公⽹构建对业务透明的云边⽹络通信能⼒2.⽀持通过QUIC等协议提⾼云边通道的可靠性3.提供了云原⽣管理能⼒应⽤到veRTC的场景，没有解决的问题： 1.云边链路单⼀，故障时如何容灾容错2.如何尽可能降低云边通信延迟3.多中⼼架构中边缘到中⼼的流量调度⼤纲 •veRTC云边协同场景•veRTC云边协同的特点和挑战•veRTC⾼可⽤云边通信架构介绍 v1 各服务基于⻓连接⾃⾏实现的云边通道各个服务通过grpc/ws⻓连接实现云边双向通信存在的问题： 1.每个服务需要单独做运维配置2.⼤量冗余开发⼯作3.⾼可⽤能⼒⽋缺，且各个服务不⼀致 v2 中⼼化⽹关版本边缘端 •边缘服务集成SDK接⼊云端 •中⼼化⽹关服务cloud gateway，⽤于管理⻓连接以及转发云到边和边到云的数据传输通道•MultiPath Transport：基于边缘和中⼼保活⼀组异构链路的⻓连接实现的⾼可⽤通道 Multipath Transport 如何保证⾼可⽤引⼊多种类型（10+）的异构链路各种故障场景下，总能够保证有链路可以连到中⼼ •我们曾经遇到的故障 •云端⽹关服务故障•云端⼊⼝LB硬件故障•云端⼊⼝运营商线路故障•云边专线故障•域名DNS故障，⽆法解析•域名配置变更时误配置，导致域名不可⽤•区域性⽹络故障，如新疆/内蒙古区域到北京故障，但是从深圳绕⾏可以连通•边缘机房出⼝故障，三线机房，单个运营商出⼝故障 Multipath Transport 如何保证⾼可⽤ - 异构链路如何将可靠性做到更加极致？异构链路带来的优势 •当链路故障发⽣时，可以进⾏链路切换，及时避障•⽇常发送消息时，可以选择延迟最低的链路进⾏发送，降低延迟•边缘⽆论是否有专线覆盖都能充分利⽤链路资源问题 •故障发⽣后进⾏链路切换，仍然导致云边通信短暂受损。中⼼LB、区域汇聚点出现故障时可能会导致短暂的⼤⾯积受损 Multipath Transport 如何保证⾼可⽤ - 多径 veRTC云边消息的特点主要是控制信令，带宽消耗⼩，优先级⾼，天然适合多径冗余发送多径发送流程 •对所有链路进⾏探测，选择最好的两条链路发送消息•中⼼⽹关收到消息后进⾏去重，去重后转发到下游业务•单链路故障业务⽆感知，多链路故障秒级恢复 Multipath Transport 如何保证⾼可⽤ - 协议 MultiPathTransport在多个链路的冗余发送的基础上实现了类似TCP的ACK重传机制。⽀持保序、⾃动重传如何⾼效去重异构链路的情况下，每个链路LB都有⾃⼰的负载均衡策略，LB可能会将⻓连接路由到不同的中⼼⽹关实例，增加去重难度如何⾼效去重 - v1 基于Redis实现去重问题： 1.增加消息处理延迟，降低并发2.引⼊强依赖，降低可靠性如何⾼效去重 - v2 TLB⼀致性Hash去重 LB是否可以直接将消息投递到同⼀个云端⽹关实例？Yes！通过对于同⼀个边缘的⻓连接，配置相同的hash策略问题：扩容、云⽹关升级场景，hash环会发⽣变化，各个LB实例的感知速度不⼀样，会出现结果不⼀致，导致消息重复如何⾼效去重 - v3 Converge Routing 最终⽅案：定制LB⽹关，将连接过程拆分成短链和⻓链两步 •边缘启动时通过短链请求中⼼控制⾯分配⽹关实例地址，控制⾯引⼊redis保证⼀致性①•边缘创建⻓连接时带上①中分配的地址，LB根据地址将⻓连接打到指定地址的⽹关实例上②•cloud gateway在内存中完成消息去重③，最后转发到下游业务实例如何降低⻓连接保活的开销？每1000个边缘节点->750K个保活的⻓连接1000个边缘* 5个边缘服务* 15个链路* 10个连接解决⽅案： •短链探测，探测通道与消息通道分离•链路分级，按需保活，降低80%的保活开销•活跃链路和⾮活跃链路实时转化，保证容灾能⼒中⼼化架构存在的问题 1.多个service共⽤cloud gateway集群，资源⽆法隔离2.cloud gateway本身是有状态服务，实现平滑升级依赖裸机部署，运维复杂度⾼3.cloud gateway成为业务核⼼链路上的强依赖，出问题时影响⾯很⼤能否去掉cloud gateway服务？ v3 去中⼼化⽹格架构 - 控制转发分离控制⾯数据⾯•链路质量探测•⻓连接保活•云边数据传输 •分配服务实例地址•⻓连接信息管理•边缘流量调度 1.业务资源完全隔离2.⽆需单独考虑⽹关的平滑升级3.去除单点强依赖4.减少⽹关<->业务实例的调⽤开销 v3 去中⼼化⽹格架构 — 云端故障容错单实例故障 •控制⾯：⽆状态服务，⾃动切换实例•数据⾯•边缘上报故障到控制⾯，控制⾯重新分配实例，秒级切换—②•如⻓时间⽆法恢复，⾃动切换到其他互备云上机房—③ 云端机房⼤规模故障 •控制⾯下发切流操作，⽀持从多个云端机房下发操作，保证操作⼀定能够成功—④ 云端异地多活场景挑战：云端机房容量不对等，容灾时需要综合考虑延迟+容量，否则云端机房容量被打满策略：控制⾯感知云端机房容量信息，综合云边延迟进⾏流量调度云边通道稳定性数据（2023年）避障次数25次⽉均减少故障时⻓75分钟年事故数量0次MTTR<5s

点击免费查看完整报告