行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

01Hudi _ Presto 在 News Break 数为平台的品尝 -- 关立获胜

信息技术2023-06-06ArchSummit北京2023|全球架构师峰会徐***

AI智能总结

NewsBreak 数据架构与 Hudi 应用实践

数据管道与架构演进

NewsBreak 采用现代数据平台架构，实现快速数据摄取与查询。其数据管道从旧版 CDH 迁至 AWS，通过 Hudi 实现统一数据架构。关键指标包括：

管道延迟：9s p95 < 15min
数据写入量：每月 50 BN 写入，最高 30 TB
同步间隔：3-10 分钟
源限制：10GB 数据源限制

Hudi 详细配置与性能优化

NewsBreak 的 Hudi 配置要点：

MultiSink 与 frst 水槽集成
HudiRefinement 支持后期数据 Extra upsert
HudiMetrics 显示每月写入量、同步间隔等
DeltaStreamer 低代码支持，支持 Protobuf 架构自定义
FileBasedSchemaProvider 与 JsonKafkaSource 等源配置
Presto 版本 0.275（私有代码库），支持 Hudi 优化
显式设置 record.size.estimate（尤其 < 1KB 数据）
每小时分区使用 TimestampBasedKeyGenerator

Presto 查询性能与优化

Presto 在 NewsBreak 的应用：

核心集群：1600 个节点，9s P95
查询量：每月 50k 查询
数据读取：每月 6PB S3 字节，160 Tri 读取行数
Presto 版本 0.275（Twilio 开源，优化 Hudi 支持）
CTAS 查询受数据分析欢迎
排序列优化集群性能
精细计划调度对性能、资源、存储至关重要

Schema 管理与演变策略

NewsBreak 的 Schema 管理实践：

采用 PB3（Avro）作为 Kafka 方案描述语言
模式演变最佳实践：
- 保留 Json 内容在 Kafka/DFS 中
- 使用二进制日志记录变更
- UseProtoNames: true, Emitated: true
Hive 注册表广泛访问，Spark SQL 需 yyyy/MM/dd/HH 分区格式

模式训练管道设计

模式训练管道配置：

3 分钟延迟，每日 500GB+ 数据
时间窗口与固定大小窗口结合
管道逻辑在开始或结束执行
Hive 注册表支持分区格式 yyyy/MM/dd/HH

Hudi 与 Presto 协同优化

hoodie.cleaner.commit.retained 参数配置：
- hoodie.cleaner.commit.retained = hoodie.keep_min_commit_times - 1
- hoodie.cleaner.commit_retained_num * time_interval >= max_query_execution_time
Appcache 在 EMR 中通过 Cronjob 清理
Spark SQL 使用 / 分隔符，Presto 支持 yyyy-MM-dd-HH 格式

统一架构与事件流

统一架构注册表整合数据
Presto 事件流插件将查询事件发送至 Kafka
Alluxio 本地缓存支持（2.9.2）
GDA 跳过，优化跨分区查询性能

01Hudi _ Presto 在 News Break 数为平台的品尝 -- 关立获胜

点击免费查看完整报告

你可能感兴趣

hot

8-1 Presto on Alluxio 在翼支付 BI 平台的应用实践

信息技术

DataFunSummit2022：现代数据栈技术峰会2022-11-02

hot

在绿色市场中获胜：为净零世界扩展产品

公用事业

世界经济论坛2023-01-01

hot

【电报解读】全球进展最快的AI药物又有新突破，机构称完全由AI研发的新药有望在1-2年内成功上市，这家公司平台已累计为80个新药项目提供技术支持

未知机构2025-06-04

hot

新兴市场的政治风险迫在眉睫；现有者声称在厄瓜多尔获胜

公用事业

德意志银行2017-04-02

hot

如何解锁您的住宅销售策略以在明天的市场中获胜

普华永道2025-06-20