登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
8-2 网易日志采集传输服务建设与优化
文化传媒
2022-07-19
DataFunSummit2022:大数据存储架构峰会
墨
网易日志采集传输服务建设与优化
网易日志采集传输服务发展
业务特点
:数据量大、数据链路长、数量波动大
系统设计目标
:高吞吐、低成本、高可用、高可运维
支持海量日志采集,低延迟
链路中部分节点异常无影响
用户自助式监控与报警服务
降低网络带宽、计算&存储成本
Datastream-ng总体设计
分层架构
:未详细展开,但提及分层设计
数据流图
:未详细展开,但提及数据流图
整体设计原则
:
快流转
:
自定义传输数据包与协议
数据包拆分为管控信息+数据信息
支持协议升级,兼容多版本数据格式
数据包支持批量压缩
无状态
:
Back Pressure模型 & 基于信用的流量控制 & 可靠传输
ACK点位信号由目的端发送给源端
Checkpoint由源端记录最近的从目的端收到ACK点位
下游异常时,源端回溯到上次Checkpoint位点重试
保证At Least Once
自适应
:
内存池化管理 & 流量自动迁移 & 实时水位监控
DS Router内存池化管理,kafka producer group共享容量
流量可在kafka producer group内迁移、也可在DS Router实例间转移
依据DS Router水位实时监控,动态调整流量转移策略
DS Router支持多种写分区策略,且对下游kafka分区容错
核心组件与流程优化
DS Agent
:
文件状态迁移流程图
CPU优化:作业(文件)分类,作业线程配置化
内存优化:内存预分配、空闲回收再利用
磁盘IO保护: 采集限流
DS HDFS Sink
:
基于Flink作业,保证Exactly once
利用日志数据的时间/空间连续性特征,增强batch sink效果
Sink任务故障转移:
YARN故障
目的端HDFS故障
根据任务级别进行不同的资源调配
链路监控与报警
:
关键节点输入输出监控埋点,NTSDB(网易时序数据库)+Redis组合存储
支持多维度实时/历史监控查询
丰富的用户自定义报警
应用效果与未来规划
应用效果
:
Agent数量:2w+
任务数量:4.8k+
日均处理日志条数:5000亿+
入仓数据量:600TB+
人效提升:200%
未来规划
:
弹性伸缩:DS Router实例自动扩缩容,Flink Sink任务自动调整并行度
智能诊断:异常根因快速定位
压缩提升:
日志校对服务
入仓时更有效的压缩策略
提升专线流量压缩比
你可能感兴趣
尤夕多 -网易基于 Spark + Kyuubi 内核优化与服务化实践
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
工信部发布2019年1-7月运营商数据,关注5G建设与4G传输扩容升级
商贸零售
华金证券
2019-09-01
【财联社早知道】华为申请AI模型处理专利,以提高AI模型在存储和传输方面的机密性,这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商;这家公司已获得腾讯新“游 元梦之星 IP授权
商贸零售
未知机构
2023-12-13
8-2 中原银行敏捷 BI 平台建设实践
商贸零售
DataFunSummit2022:现代数据栈技术峰会
2022-11-02