行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

爱奇艺在 Iceberg 落地相关性能优化与实践

文化传媒2023-07-12DataFunSummit2023：数据湖架构峰会c***

AI智能总结

数据湖平台建设与优化

为什么要建设数据湖

加速数据流通：数据湖技术能够加速数据在不同计算平台之间的流通。
低成本：相比传统存储方式，数据湖成本更低，支持PB级容量，且只需存储最近几小时的数据。
实时性和灵活性：数据湖支持近实时数据处理，成本效益高，适合需要快速响应的场景。

数据湖平台概述

平台架构：包括数据湖平台、权限管理、元数据管理、生命周期管理、流式入湖和出湖查询等功能模块。
主要组件：HDFS、Kafka、Iceberg、Pilot、Trino、SparkSQL等。

表格式对比

Hive vs Iceberg：
- Hive：支持分区级过滤，但元数据容易成为瓶颈。
- Iceberg：支持文件级过滤，操作原子性好，适用于大规模数据集分析。

性能优化

小文件问题：
- 生命周期配置：通过配置策略优化小文件。
- 智能合并：自动选择待合并分区，减少文件数量。
- 合并性能优化：修复合并过程中存在的问题，如DeleteFile合并后的处理。
- 写入参数控制：通过调整参数减少小文件生成。

查询优化

BloomFilter：引入BloomFilter优化查询性能，提升订单ID查询速度。
Alluxio缓存：通过Alluxio缓存加速查询，显著降低查询耗时。

业务落地

广告流批一体：通过统一写入Iceberg表，实现离线和实时数据的一体化处理。
Venus日志入湖：成本降低，稳定性提升，减少写入失败。
审核效率提升：通过即席分析减少人工审核时间，提高人效。
CDC订单入湖：降低成本，提高数据处理效率，实现秒级延迟。

未来规划

业务：进一步推广流批一体应用，提升广告处理效率。
技术：调研并应用Puffin统计信息、Branch和Tag技术，进一步优化查询加速。

通过以上优化和应用，爱奇艺成功构建了一个高效、灵活的数据湖平台，提升了数据处理的效率和质量。

演讲人：林豪-爱奇艺-助理研究员爱奇艺OLAP团队目录为什么要数据湖数据湖技术加速数据流通适用场景优缺点 Iceberg定义–新型表格式 Iceberg：一种新设计的开源表格式用于大规模数据集分析 -不是存储引擎：支持HDFS、对象存储-不是文件格式：使用Parquet存储数据-不是查询引擎：支持Spark/Flink/Presto/Hive 表格式–Hive及其缺陷设计核心 SELECTcount(1)FROMhuge_tableWHEREdt>='2021-11-01’ANS dt<='2021-11-07’ANDmetric ='metric-name’; ●用目录树组织数据●Metastore记录元数据优点：分区级过滤如每天240分区，100文件/分区，7天命中24K个分区缺点 ●元数据库容易成为瓶颈，与HDFS不一致 ●元信息不包含文件信息 ●执行计划需列举目录●O(N)次调用，N为命中的分区数●无法用文件级统计进行过滤 ●原子操作：仅添加分区是原子操作，且依赖文件系统移动为原子性 ●不支持修改：分区覆盖、分区重算表格式–Iceberg 核心：记录表的所有文件 -快照：表文件的完整列表-写入：每次写入创建并提交一个新的快照快照概念优点 ●读写分离：写不影响读行为●操作原子：跨分区修改，合并/重写文件表格式–HiveVSIceberg 数据湖平台建设平台总览流式入湖三步即可入湖 1.配置读取Kafka2.配置处理逻辑3.配置写Iceberg 出湖查询查询入口 ●Pilot：智能SQL引擎提供统一入口●魔镜：交互式查询平台查询引擎 ●Trino：支持V1格式●SparkSQL：支持V2格式指标 ●每天34K查询，耗时P9042秒性能优化小文件–生命周期配置策略 ●建表时分区表必须指定清理策略清理优化 ●Sp a rk常驻模式：避免申请Ya rn耗时●天级目录删除：递归删除孤儿文件慢/分区目录不被清理●回收站：添加回收机制、避免误操作●对于大表接入TTL：原先为一次性删除所有过期的分区，遇到任务执行过久一直失败，改为每次删除固定数量的分区清理效果 ●每个表：4文件/commi t*1 co mmi t/1分钟*6 0*2 4*7分钟=4 0 K文件●日志库从2亿Inode稳定在4千万小文件–智能合并定时合并 ●合并任务参数复杂，配置困难●合并时机、合并范围：譬如3小时后合并小时分区，一天后合并天分区●如合并范围过小：则小文件过多，查询性能下降●如合并范围过大：则有重复合并，写放大智能合并 ●基于分区下文件大小均方差自动选择待合并分区●𝑀𝑆𝐸=∑!"#$𝑇𝑎𝑟𝑔𝑒𝑡𝑖−𝐴𝑐𝑡𝑢𝑎𝑙𝑖2÷𝑁●微调：业务设置权重、执行失败权重降级●业务无需任何配置参考：Netfilx-Optimizing data warehouse storage 小文件–智能合并定时合并 ●合并任务参数复杂，配置困难●合并时机、合并范围：譬如3小时后合并小时分区，一天后合并天分区●如合并范围过小：则小文件过多，查询性能下降●如合并范围过大：则有重复合并，写放大智能合并 ●基于分区下文件大小均方差自动选择待合并分区●𝑀𝑆𝐸=∑!"#$𝑇𝑎𝑟𝑔𝑒𝑡𝑖−𝐴𝑐𝑡𝑢𝑎𝑙𝑖2÷𝑁●微调：业务设置权重、执行失败权重降级●业务无需任何配置参考：Netfilx-Optimizing data warehouse storage 小文件–合并性能优化 D e l e teF i l e合并后没有被删除 ●背景：I S S U E 1 0 2 8，最终在I S S U E 2 2 9 4修复如果D e l e te之后紧跟Re w r i te D a t a F i l e，相应的D e l e teF i l e不会被删除 ●背景：I S S U E 4 1 2 7，目前仍未修复，I S S U E 6 1 2 6在跟进大表合并任务经常失败 ●B u c ke t分区：减少单次合并的数据量●B i n Pa c k合并：控制合并文件大小范围小文件合并任务经常因冲突而失败现象：Cannot commit, found new position delete for replaced data file原因：ISSUE5404：判断待合并的DataFile没有新的DeleteFile时，Upper和Lower被截取了16bit，从而错误的判定datafile被引用修复：alter tableiceberg_tablesettblproperties( 'write.metadata.metrics.default'='full’ ); 小文件–写入参数控制假设：任务并行度=100，hour分区跨度=1默认策略：100个文件，小文件过多Hash策略：1个文件，容易写入阻塞 Hash策略+bucket分区： ●通过bucket数量控制文件数●建议文件大小在百MB 查询优化–ID查询慢示例：指定订单ID查询明细指定ID明细查询慢 ●Impala+Kudu：3秒●Spark+Iceberg：948秒 SELECT*FROMorder_tableWHEREorder_id='555'; 原因 ●Kudu对列有构建索引●IcebergMinMax、字典等索引对此不生效，几乎是全表扫描思考 ●能否为Iceberg引入BloomFilter过滤能力？●背景：Parquet Support Bloom Filter Since 1.12 查询优化–开启BloomFilter SELECT*FROMorder_tableWHEREorder_id='555'; Iceberg表参数开启 ●write.parquet.bloom-filter-enabled.column.col1 Spark/Trino读取应用 ●可过滤：equals、in●不可过滤：notequals、notin、lessthan等贡献给社区 ISSUE-4831:Add Parquet Row Group Bloom FilterSupport 查询优化-BloomFilter效果查询速度提升 ●SparkSQL：订单ID查询由948秒降低到10秒，整体性能接近于Impala查询Kudu●Trino：开启BF之后，文件过滤98.5%，总执行时间为40%，峰值内存为25%，CPU时间为5% 存储空间增加 ●原先884G，开启BF后913G，3%额外空间查询优化–Alluxio缓存查询加速-混布Alluxio ●目的：屏蔽底层HDFS性能抖动●成本：混布复用SSD，0成本查询提速落地效果 ●Venus日志查询P90从18秒降低到1秒查询优化–Trino元数据读取背景：Trino读取5MB元数据近3秒排查：火焰图+Arthas定位代码片段异常：read方法被调用百万次 ●父类：默认实现read(byte[], int off, intlen)批量读取会循环调用read()，即逐字节读取●Trino未实现read(byte[], int off, intlen) 修复：实现对应方法，批量读取效果：由3秒缩短至0.5秒业务落地业务落地–广告流批一体流批一体 •原先：离线：HDFS、实时：Kudu•现在：统一写入Iceberg表任务统一 •原先：离线HiveSQL，实时SparkJar包开发•现在：统一为SQL开发查询统一 •原先：基于进度拆分查询并UNION•现在：统一查询Iceberg表时效提升 •全链路由35分钟缩短到7-10分钟，减少超成本赔付业务落地–Venus日志入湖成本下降 •无需独立ES集群•复用HDFS和Trino集群•大幅节省成本稳定提升 •ES因成本仅1副本，经常写入失败，日志缺失•HDFS3副本，单磁盘/结点故障无影响•写入带宽近乎无限，无需考虑容量规划•入湖后Venus报障降低80% 业务落地–审核实时报表提高人效 •审核团队人效统计•风险监控实时报警 •导数更快减少0.25人力降低风险查询统一 •数据导出原先需MongoDB导出为CSV，Shell脚本处理•统一为SQL查询 •降低漏审/误审带来的内容安全风险业务落地–CDC订单入湖提升时效实时入湖：分钟级延迟离线导出：需天级延迟降低成本机器成本：无需Kudu独立节点运维成本：消费BinlogMySQL压力低；写入带宽大，不会因写入压力阻塞MySQLIO同步业务落地会员订单：已导入数据，用于近实时报表广告：同步由全量改为增量，延时从20分钟降低到秒级未来规划 ●业务 ●流批一体：更多场景应用，如广告全面使用，BIPingback场景●特征生产：分钟级延迟、支持晚到数据、支持样本修正 ●技术 ●Puffin统计信息，用于查询加速●Branch和Tag调研与应用感谢观看！

点击免费查看完整报告