您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:网易传媒架构演进之路 - 发现报告
当前位置:首页/其他报告/报告详情/

网易传媒架构演进之路

2023-03-09网易土***
网易传媒架构演进之路

网易传媒架构演进之路柴克斌网易数字+云原生论坛 基础架构面临的挑战及升级目标架构演进踩过的坑目录CONTENTS未来规划网易数字+云原生论坛 基础架构面临的挑战与升级目标挑战升级目标优化成本提升效率加固安全保障稳定资源利用率在20%,波谷资源无法有效利用资源使用流程繁琐,人工介入步骤多DDos攻击和数据扒取严重突发流量、发布、变更等导致线上故障资源使用率提升到50%~60%资源池按需随时使用,监控资源使用率并优化构建安全网关,进一步防止攻击及反扒弹性扩缩容,快速应对突发流量服务依赖关系梳理,变更影响性分析网易数字+云原生论坛 基础架构面临的挑战及升级目标架构演进踩过的坑目录CONTENTS未来规划网易数字+云原生论坛 传媒所有业务都迁移到了传媒专属云传媒虚拟化•弹性调度•资源精细管理•建设Service Mesh•容量管理•其他离线业务混部容器云升级•传媒核心业务进入容器•建设容器网关•Kafka和Redis容器化•离线业务混部传媒容器化所有业务运行在物理机传媒物理机架构演进之路网易数字+云原生论坛 基于网易轻舟建设传媒容器化环境基于云原生1组件全面2性能优越3稳定性强4网易数字+云原生论坛 使用到的轻舟组件NCS1N S F2容器网关5NCR O p e r a t o r6K a f k aO p e r a t o r7C I / C D3混部4网易数字+云原生论坛 资源池容器云资源池云主机资源池物理机资源池VPCDGWDGW/NLB•分为容器云、专属云和物理机三种资源池•容器云和专属云在一个VPC内,和物理机互通通过DGW/NLB•无状态服务优先使用容器云,无法迁移到容器云和专属云的沿用物理机资源池网易数字+云原生论坛 容器内外互访容器云云外公网SA服务消费方NLBConsul服务提供方入口网关服务提供方Envoy服务消费方Envoypilotk8s API serverETCDXSD云外调用ndsf://provider云内调用service://provider云外调云内service://provider云内调云外ndsf://provider注册lookuplookup网易数字+云原生论坛 目前状态大数据+基础技术公开课销售支持内容广告推荐+红彩客户端后台+测试2019.122020.612月中12月底12月底1月初12月底1月初2月底1月底2月初3月初6月中6月底6月初6月中3月初3月中4月初4月中部署+测试+灰度切库窗口1月初2月中2月底2月底6月底机器下线迁移数据库容器改造容器部署测试灰度100%切量,切库观察2周下线机器•核心业务都已经迁移到容器内•运行了数万个POD,数千个Service•80%物理机进入容器资源池网易数字+云原生论坛 基础架构面临的挑战及升级目标架构演进踩过的坑目录CONTENTS未来规划网易数字+云原生论坛 NDSF服务A业务逻辑服务B业务逻辑SDKDataSourceESKafkaJedis......SDKDataSourceESKafkaJedis......服务调用ThriftHTTP1.0HTTP2C服务注册服务发现负载均衡服务治理gRPCFameworkMetricsEventHealthStatus拓扑online/offlineTracerAPI DocFameworkMetricsEventHealthStatus拓扑online/offlineTracerAPI Doc网易数字+云原生论坛 NDSF-服务调用Jar包方式Proxy方式网易数字+云原生论坛 NDSF-存在的问题与升级目标存在的问题•服务治理框架尚未完全统一•服务治理框架与业务存在耦合•服务治理组件升级/运维困难•缺少统一的服务治理管控平台•针对异构系统服务治理能力不足升级目标•统一的服务治理体系•解耦业务逻辑与服务治理组件•降低服务治理框架的接入成本•降低服务治理组件的运维成本•提供统一的服务治理管控平台•提供异构系统服务治理能力•基础服务能力下沉•对业务无感知,业务方无需重新发布,无需接入SDK•动态调整,动态生效网易数字+云原生论坛 基于轻舟NSF建设Service Mesh基于云原生支持D u b b o,T h r i f t协议S i d e C a r热升级完善的服务治理能力业务无感知,流量动态拦截S i d e C a r懒加载123456网易数字+云原生论坛 Dubbo协议支持•Dubbo的调用方式修改为直接使用域名的方式调用•通过iptable 方式对指定端口的流量进行拦截,重定向到envoy•保留zk 注册中心,扩展galley 组件从zk 拉取dubbo 服务的注册信息•galley 组件通过mcp 上报service entry 资源给pilot,扩展字段里包含了dubbo 服务的依赖关系•pilot 在同步xds 配置的时候根据service entry 上的依赖关系,按需下发所需的配置网易数字+云原生论坛 CRD扩展VirtualServiceDestinationRule网易数字+云原生论坛 服务治理能力OutboundInbound能力超时重试白名单熔断降级限流自定义负载均衡细粒度路由细粒度路由SideCar热升级SideCar热升级流量动态拦截流量动态拦截协议HTTPHTTPgRPCgRPCDubboDubboThriftThrift网易数字+云原生论坛 基础架构面临的挑战及升级目标架构演进踩过的坑目录CONTENTS未来规划网易数字+云原生论坛 传媒资源使用状况•资源平均利用率在20%左右•一些非敏感性业务,需要很多算力,有独立的资源池,占用了大量物理资源(转码、相似度、旧闻识别、假新闻识别、内容识别等)•在线业务申请资源很多,但实际使用很少,导致大量资源浪费•业务不能接受混部后互相干扰•一些业务在资源使用上有波峰和波谷,波谷资源浪费严重idleusr网易数字+云原生论坛 资源利用率提升目标•CPU使用率提升到50%~60%•保证不能影响服务的QoS网易数字+云原生论坛 基于轻舟zeus构建混部环境能保证在线业务Q o s1灵活的混部策略2支持弹性扩缩容3网易数字+云原生论坛 在线服务/离线服务在线服务(Service)离线任务(Job)分类推荐、跟贴、用户、NC、PUSH等面向C端的服务转码、相似度、旧闻识别、假新闻识别、内容识别、定时任务等时延敏感不敏感优先级高低负载模型白天负载高,夜间负载低只要运行,负载就会很高错误容忍错误容忍度低,高可用允许失败重试网易数字+云原生论坛 在线/离线混部架构•离线业务不能影响在线业务•优先在线服务可用的资源保证•在线服务资源使用率低的情况下,离线服务使用资源,保证整体资源使用率在一定水位资源池•在线资源池:只能调度在线业务上来•离线资源池:只能调度离线业务上来•混部资源池:可以混合调度在线、离线业务上来业务类型•Job:离线任务,会调度到离线资源池•Serivce:在线任务,会调度到在线资源池•Colocation-job:允许混部的Job,会调度到混部资源池网易数字+云原生论坛 混部资源池APPNCRPUSH•APP:在线应用资源使用率较高,有可能存在突增现象•NCR:在线应用资源使用率很低,但比较敏感,离线不能占用太多资源,防止抖动•PUSH:在线应用有明显的波峰波谷,波谷资源利用率需要提高网易数字+云原生论坛 可分配资源公式Capacity = 节点可分配资源总量* 节点目标利用率-在线业务使用量-在线业务使用量* 资源预留百分比网易数字+云原生论坛 混部后资源利用率资源池混部前CPU利用率混部后CPU利用率CPU提升百分比混部时间点app14.79%42.19%185.26%全天ncr6.78%20.13%196.90%全天push1.10%37.81%3337%0~6点•混部后,节省30%的资源网易数字+云原生论坛 混部后资源利用率usrniceAppPushNCR网易数字+云原生论坛 基础架构面临的挑战及升级目标架构演进踩过的坑目录CONTENTS未来规划网易数字+云原生论坛 踩过的坑必须对业务进行容量评估网易数字+云原生论坛 踩过的坑节点标签不宜打太多网易数字+云原生论坛 踩过的坑合理创建Service网易数字+云原生论坛 基础架构面临的挑战及升级目标架构演进踩过的坑目录CONTENTS未来规划网易数字+云原生论坛 容量管理•资源精细化管理•缩小资源申请量和实际使用量的差别•区分计算型资源、内存型资源、GPU资源、存储型资源,让业务方合理申请资源网易数字+云原生论坛 弹性调度•扩大混部范围•无状态服务使用HPA•缩小业务方启动应用的时间网易数字+云原生论坛 THANK YOU网易数字+云原生论坛