字节跳动数据平台的实践与演进
字节跳动业务概况
字节跳动旗下拥有今日头条、抖音、西瓜视频、懂车帝、飞书、剪映等多个亿级DAU产品,业务从2012年今日头条上线至今经历了快速迭代和多元化发展,抖音日活在2021年突破6亿。
字节跳动数据平台
数据平台为字节跳动各业务提供中台能力解决方案,服务对象包括内部业务和外部行业客户,产品解决方案涵盖增长营销、A/B实验、行为分析、智能洞察、用户数据平台、OLAP引擎、大数据研发治理套件等。
数据平台发展历程
- 原始阶段(~2014):以今日头条为起点,通过A/B测试快速迭代,采用Hive+邮件报表进行数据支持。
- 建设阶段(2015~2017):数据量膨胀,面临时效和质量挑战,开始构建产品引擎加速数据建设。
- 平台阶段(2018~2019):多元业务爆发,多个亿级DAU产品涌现,平台需敏捷支持AB测试和业务上线。
- 赋能阶段(2020~):技术底层持续升级,产品矩阵扩大,BP模式面向业务提供方案,并开始面向外部企业输出能力。
不同阶段面临的挑战
- 原始阶段:业务迭代快,如何快速验证?
- 建设阶段:数据量膨胀,如何保障时效和质量?
- 平台阶段:多元业务爆发,如何敏捷支持?
- ToB服务:字节跳动沉淀的经验如何被外部企业应用?
“今日头条”的迭代速度
2014年,今日头条通过高频版本更新优化用户体验,如V3.5.1至V3.6.3版本持续改进界面、搜索和推荐算法。
A/B测试的三段演进
- 初期(2012):用A/B测试协助决策,支撑推荐算法迭代,构建第一个A/B测试平台。
- 中期(2016):完成客户端实验能力建设,分流服务重构,测试总数从1万升到10万。
- 后期(2021):广告、推送、互娱、搜索等场景接入,测试总数达150万,日新增实验2000+,并上线自动调参平台和MAB能力。
指数级膨胀的数据量
2021年,字节跳动数据平台日处理1500PB,2016年日处理200TB,数据量呈指数级增长。
发力引擎层建设
- 技术选型:OLAP引擎对比Kylin、Spark、ClickHouse,最终选择ClickHouse因其高性能和灵活性。
- 演进路线:ClickHouse在字节跳动的演进分为三个阶段:
- 2018~2019:高性能引擎,重点在高可用和强性能。
- 2019~2020:统一数据分析架构,复用基础设施,提升资源利用率。
- 2020~2021:云原生版本ByteHouse,快速搭建面向场景的应用,降低运维成本。
ByteHouse的核心能力
- 真·实时分析:支持实时数据写入和更新。
- 存储-计算分离:计算层弹性伸缩,分布式存储。
- 多级资源隔离:针对不同租户支持数据、资源、权限隔离。
- OLAPaaS:云上全托管服务,即付即用。
业务多元与数据异构问题
字节跳动业务多元,数据异构,面临敏捷支持和污染治理两大挑战。
数据BP+中台:“中央厨房”式的协作
通过数据BP和中台体系,实现数据接入快速(三周完成Case)、产品即插即用,从专人开发报表到产品化支持。
数据BP的价值评估体系
- 数据事故减少90%。
- 需求满足率80%。
- 分析覆盖70%。
- NPS(净推荐值)70%。
数据治理实践总结
- 要点:业务第一、成本优化、稳定建设、数据质量、数据安全。
- 发展路径:从分布式治理到运动式治理,再到Top-Down集中统一治理,最终实现业务自治。
分布式治理的核心
- 组织模式:高效的专家知识传承和协同。
- 业务打扰:最小化业务打扰。
- 执行效率:最高执行效率。
- 治理委员会:轻量治理委员会,自下而上参与。
以稳定性SLA为例
按需申报、高效对齐、全链路保障,从签署到复盘形成闭环。
企业常见问题
- 数据量小是否用得上高要求工具?
- 人才密度不足是否无法使用产品?
- 业务单一是否需要中台?
- 产品贵是否不如直接招程序员?
- 如何应用字节跳动的经验?
正在努力的解法
- 统一化:统一工具和平台。
- 平民化:降低使用门槛。
- 场景化:提供场景化解决方案。
场景化Case:A/B测试
- 个性化推送实验:可视化建站实验、多链接网页实验、客户端/服务端编程实验。
- 促活提留的push推送策略实验:提升活动收益率。
- 广告营销实验:投放多素材对比实验,提升广告ROI和ARPU。
- 前端UI交互优化:支持iOS、Android、Web等多端,多语言支持。
未来方向
开放兼容、智能应用。