登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
刘石伟- 字节跳动埋点数据流建设与治理实践
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
dede
字节跳动埋点数据流实践总结
01 埋点数据流简介
埋点数据流规模
:字节跳动业务场景多样,对埋点数据流提出高要求。
业务场景
:
UserActionETL
:需求包括延迟敏感、ETL规则动态更新。
数据分流
:需求包括高SLA、动态分流规则、低延迟。
容灾降级
:需求包括多机房容灾、快速切流、服务降级。
挑战
:流量大、业务多、稳定性治理成本高。
02 埋点数据流建设实践
ETL链路建设-发展历程
:
2018年:PyJStorm → PyFlink(Python规则引擎,流式任务托管平台)
2020年:PyFlink → JavaFlink(Groovy规则引擎,JSON→Protobuf,大数据开发平台)
2021年:JavaFlink(Janino规则引擎,稳定性治理,成本治理,埋点治理)
ETL链路建设-基于规则引擎的FlinkETL
:
规则引擎演进:Python→Groovy→Janino,性能提升显著。
ETL链路建设-Flink拆分任务
:
灰度发布、Fail-over影响小、灵活部署。
容灾与降级能力建设
:
容灾能力
:多机房容灾部署(Flink/MQ/Yarn/HDFS),多种切流预案。
服务降级能力
:服务端降级、客户端降级。
03 埋点数据流治理实践
治理方向
:稳定性治理、成本治理、埋点治理。
稳定性治理
:
单机问题优化
:FlinkBacklogRescale(队列CPU利用率提升10%,延迟减少80%)。
Yarn优化
:独立Label队列、DN限速、反调度策略、黑名单调度。
MQ优化
:
Databus应用:降低MQ集群写入压力,Batch大小动态配置,Zstd压缩(写入带宽降低37%)。
Kafka迁移BMQ:存储计算分离,多机房容灾,成本下降50%。
成本治理
:
埋点治理
:埋点设计、注册、验证、上报、分级、下线、采样、管控。
埋点管控
:所有埋点先注册后上报,动态封禁异常埋点。
埋点分级
:不同等级埋点设置不同TTL,保障高优埋点离线下游就绪时间。
04 未来规划
计算和存储的流批一体
。
探索云原生架构,动态资源rescale
。
高优链路保障更高的SLA,端到端exactly-once
。
扩展介绍
火山引擎数据中台产品
:
湖仓一体分析服务LAS:Serverless数据处理分析服务,兼容Spark、Presto、Flink生态。
E-MapReduce:Stateless云原生数仓,100%开源兼容,企业级增强。
你可能感兴趣
7-2 字节跳动埋点成本治理实践 - 肖茜文
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15
知乎埋点体系建设与治理
商贸零售
DataFunSummit2023:数据治理在线峰会
2023-07-13
刘征-APM分布式追踪实践不只是埋点
商贸零售
2023中国DevOps社区峰会·武汉站
2023-04-14
字节跳动一站式数据治理架构与实践_王慧祥
商贸零售
ArchSummit深圳2023|全球架构师峰会
2023-08-02
2-5 字节跳动大数据平台安全与权限治理实践 - 许从余
商贸零售
DataFunSummit2022:数据治理在线峰会
2022-09-15