行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

Hudi 数据湖在顺丰的应用实践

信息技术 2023-07-12 DataFunSummit2023：数据湖架构峰会 carry~强

顺丰科技数据湖技术应用与实践总结

Part 01 数据湖在顺丰的应用

顺丰集团业务概览：涵盖物流、科技服务等领域，数字化全流程涉及数据湖的深度应用。
数据湖Hudi能力：
- 离线批计算：技术成熟稳定，可应对复杂逻辑，但时效性低（天级/小时级）。
- 实时流计算：时效性高（分钟级），支持流批写入、增量查询、局部更新、ACID、多版本，但开发成本高、稳定性低、复杂度有限。
应用场景：
- 中转/流向预测：件量预测参考，支持场地人力和资源安排。
- 可视化监控与分析：经营热力图、件量、客户、产品、收派比可视化分析。
- 运单/运力异常监控：实时/准实时监控，快速识别运力异常，降低损失。
- 异常风险识别：近实时识别航空资源动态缺口，调整资源分配。

Part 02 数据湖在顺丰的实践和优化

实时数据入湖实践：
- 顺丰实时数据接入发展历程：从Flink + Canal实现数据入湖，但存在数据一致性难保障、架构复杂等问题。
- 实时数据入湖的需求和技术选型：核心需求包括低影响、数据一致、高性能、分布式采集、稳定性。
- 基于开源Flink CDC实现数据入湖步骤：存在接入门槛高、维护难度大等问题。
- 解决方案：通过产品化降低数据入湖门槛，实现安全可控、易维护、高效接入。
- 实时接入产品应用架构：包括数据源授权、作业创建、元数据同步、数据使用等步骤。
- 稳定性问题及解决方案：
  - 采集阶段全/增量读取性能优化：完善Snapshot阶段切分逻辑，优化Binlog同步阶段Task分配算法。
  - 提高全增量同步稳定性：增加重连机制，避免下游反压导致的异常。
  - 采集阶段读取限流和任务合并：通过任务合并、限流降低源库负载。
  - 数据入湖阶段Bucket策略优化：优化Bucket算法分配策略，完善Bucket适用场景，提升写入性能。
- 达成效果：亿级表数据实时入湖。
离线数据开发实践：
- 数据湖开发痛点：更新效率低下，HBase索引维护工作量大。
- 解决方案：支持数据水位识别，记录级别索引加速更新效率。
- 达成效果：千万级数据更新提效40分钟。

Part 04 未来展望

未来展望方向：查询优化、更新能力、稳定性提升。

演讲人：唐尚文-顺丰科技-数据湖技术负责人目录实践与优化应用场景 Par t 01 数据湖在顺丰的应用顺丰集团业务概览顺丰科技业务全景数字化全流程科技服务数据湖Hudi具备怎样的能力？离线批计算近实时计算在某些场景下，兼顾时效性和数据复杂度，对原有数仓架构进行能力补充优势：技术成熟稳定、可应对复杂逻辑缺点：时效性低（天级/小时级）优势实时流计算 •时效性高（分钟级）•支持流批写入，增量查询等能力•优秀的局部更新能力•支持ACID•支持多版本•.... 优势：时效性高（秒级）缺点：开发成本、稳定性低，复杂度有限数据湖在顺丰的应用中转/流向预测可视化监控与分析经营热力图件量预测参考件量、客户、产品、收派比可视化分析对件量进行预测将结果给到场地进行参考，对人力和资源进行安排运单/运力异常监控异常风险识别航空资源动态调整资源缺口识别对运力进行实时/准实时监控，快速识别运力异常，干预并降低损失近实时识别航空资源的动态缺口，调整资源分配 Par t 02 数据湖在顺丰的实践和优化数据湖在顺丰的实践和优化 01实时数据入湖实践 02离线数据开发实践顺丰实时数据接入发展历程 Flink + Canal实现数据入湖存在的问题数据一致性难保障架构复杂、加工链路长采用不锁表的方式进行数据采集，容易导致数据状态的变化时序无法和数据库保持一致数据需要经过多个组件才能实现数据入湖、维护起来复杂、稳定性难保障实时数据入湖的需求和技术选型核心需求对源数据库影响最低能够保障数据一致具有较好的同步性能全量增量数据同步自动切换，并能够保障数据的一致能够支持分布式采集，具有很好的稳定性去保障数据的同步效率尽量不使用锁，同时避免一个表一个同步任务，尽量降低对源数据库造成影响技术选型基于开源的Flink CDC实现数据入湖步骤易用性问题：开源方式接入门槛高、难度大接入门槛高接入用户需要了解较多的Flink、Hudi等使用方法、数据库等配置信息，对于小白用户或者数据接入放来说，使用门槛较高维护难度大数据库连接信息维护难、没有统一的数据源管理、权限控制等，数据源管理员工作量大，并且这种管理方式也存在一定的安全问题解决方案：通过产品化降低数据入湖门槛安全可控、易维护通过数据源管理授权用户访问、避免密码泄漏，方便用户进行数据管理和数据共享高效接入、零门槛用户只需勾选待同步的表及相关信息，就能自动生成对应的数据同步任务，完成敏感字段数据自动加密等工作，无需了解Flink、Hudi相关配置就能够实现数据快速数据入湖实时接入产品应用架构简要步骤 •数据源授权：用户申请数据源读取权限并获得管理员授权•作业创建：直通车根据用户勾选的相关信息生成对应的同步作业•元数据同步：直通车根据待同步的表信息在数据资产创建对应的元数据•数据使用：用户根据数据资产上面的信息，通过查询引擎使用同步后的数据稳定性问题：实时数据入湖链路稳定性差解决方案：采集阶段全/增量读取性能优化解决方案：提高全增量同步稳定性完善Snapshot阶段切分逻辑在进行chunk切分时，同时判断返回的数据条数，如果符合预设条件，证明后续可能还存在数据，这样可以避免因为数据库的设置导致切分倾斜的问题优化Binlog同步阶段Task分配算法将Task打散到不支持随机分发采集任务策略，避免所有binlog采集任务分配到Subtask-0 原因分析 Snapshot阶段切分逻辑缺陷在生成snapshot任务时，在字符串为主键的大表场景下，因为不同字符集存在大小写不区分的情况，导致split过早结束，造成某个split过大，同步效率低，任务不稳定的问题增加重连机制，提高任务的稳定性通过增加重连机制，避免任务因为下游反压导致的异常问题，提高任务的稳定性 Binlog同步阶段Task分配倾斜在分库分表场景下Binlog阶段同步Task默认都分配到SubTask-0，导致采集倾斜，内存消耗大，容易造成长时间的GC停顿和效率低的问题缺乏重连机制，影响作业稳定性在写入造成任务存在反压的情况下容易导致链接数据库出现异常，影响作业稳定性解决方案：采集阶段读取限流和任务合并优化后对源端系统影响大解决方案：任务合并、限流，降低源库负载 Binlog被反复拉取多次任务合并多个任务同时采集相同数据库实例，导致数据源的binlog数据被反复拉取，容易造成源数据库压力过高通过对满足合并条件的数据同步任务，由实时计算平台发起合并任务请求，将任务进行合并后重新拉起，降低重复同步Binlog数据对源数据库带来的性能开销无流量限制读取突发的采集高峰可能会导致源数据库流量过大，增加服务的负载容易造成系统不稳定读取限流通过全量、增量阶段限流降低对原数据库的影响解决方案：数据入湖阶段Bucket策略优化解决方案：完善Bucket适用场景、提升写入性能原因分析原生Bucket算法存在一定的缺陷优化Bucket算法分配策略原生的Bucket分配算法存在一定的缺陷，会导致Databucket在Task分配不均的问题，很多Task存在空跑的情况，实际的资源利用率较低对Bucket算法进行优化，让DataBucket能够相对均匀的分布到不同的Task上，提高任务的内存利用率，详情参考：HUDI-5671 Bucket数量无法按需指定分区级别Bucket数量设置 Bucket数量为全局配置选项，无法适应实际业务中，某些分区数据倾斜的场景，设置过大容易造成小文件过多，设置过小在倾斜的分区写入也会到写入性能针对业务数据倾斜的场景，允许用户按照分区数据量等方式设置bucket数量，提高数据入湖的效率 inline compaction容易导致作业不稳定异步Compaction配置 flink内部进行compaction需要合理设置overhead参数，否则会容易造成物理内存超过YARN的限制被KILL，影响作业的稳定性异步compaction能够避免overhead设置不合理导致内存的任务不稳定的问题，还能预留内存长期占用，降低资源消耗达成效果：亿级表数据实时入湖数据湖在顺丰的实践和优化 01实时数据入湖实践 02离线数据开发实践数据湖开发当前存在的一些痛点痛点2：全局索引模式下更新很慢，无法满足业务时效需求解决方案：支持数据水位识别，支持流转批场景解决方案：记录级别索引加速更新效率更新效率低下解决方案：通过记录级别索引提高更新效率支持记录级别索引大数据集Bloomfilter假阳性问题由于bloomfilter的误判特性，需要将这些纪录在文件中进行精准匹配查找以得到实际需要更新的纪录及其对应的location，且在大数据集的情况下定位Record的性能非常差在Hudimetadata表上新增一种类型RecordLevelIndex用来记录主键和文件的位置，并用HFile文件格式进行存储加速文件定位的效率，提高大表场景下的更新性能，同时能够避免维护第三方组件，做到轻量级同时易维护 HBase索引维护工作量大、成本高由于HBase索引也支持类似全局索引的能力，但是需要维护第三方服务成本较大，可能还会引入别的问题，不够轻量级达成效果：千万级数据更新提效 •记录级别索引，完成该场景数据更新在同样的资源耗时40min Par t 04 未来展望未来展望查询优化更新能力稳定性感谢观看！

点击免费查看完整报告