行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

Flink Forward Asia 2025：城市巡回：深圳站

信息技术 2025-12-05 - Flink Forward Asia 大表哥

Fluss介绍

Apache Fluss是一款面向分析型场景设计的实时流存储系统，其架构和功能旨在构建湖流一体的实时数仓架构。

Apache Fluss核心应用场景

Fluss的核心应用场景包括湖流一体和实时数仓，其中Fluss + Flink可以替代Kafka构建实时数仓新标准，而Fluss + Paimon则可以构建湖流一体秒级湖仓架构。

Fluss + Flink实时数仓场景：核心特性

Fluss + Flink实时数仓场景的核心特性包括：

MergeEngine合并机制：实现毫秒级读写和实时更新。
流式查询下推：优化查询性能。
实时数仓分层化：支持毫秒级读写、实时更新、CDC订阅等。
实时宽表构建新范式：包括RoaringBitmap用户画像、Aggregate长周期聚合指标、Versioned事件时间去重等。
列裁剪、分区裁剪、条件下推：进一步优化查询性能。
DeltaJoin、PartialUpdate、异步维表Join：支持多种JOIN操作。

湖流一体架构解析

Fluss + Paimon的湖流一体架构可以无缝融合Kafka与湖仓系统，其优势包括：

流存储成本降低10倍：Fluss只需维护超短周期实时数据，大幅降低成本。
流读高效数据回追：支持Union Read，提高数据回溯效率。
批查秒级新鲜度：支持Union Read，保证批查数据的秒级新鲜度。
湖仓分层新鲜度不受层级影响：Fluss实时入湖与Checkpoint解耦，可稳定保证湖仓分层新鲜度。
更高效的CDC数据生成：直接从Fluss Changelog生成Paimon Changelog，兼顾时效性和性能。
湖仓数据的实时接入层：提供高性能实时数据接入层，简化湖仓数据接入。

Fluss:面向实时分析场景的流表存储引擎

Fluss是一款面向实时分析场景的流表存储引擎，基于Fluss + Paimon的湖流一体数据底座，可以构建面向AI时代的全模态数据统一存储、管控、开放平台DLF。

DLF：智能全模态湖仓管理平台

DLF是一款面向AI时代构建全模态数据统一存储、管控、开放平台，其功能包括：

存储管理与优化：支持存储自适应compaction、自适应分bucket、自动冷热分层，生命周期管理，存储成本优化30%。
元数据管理与开放：支持Paimon、Iceberg、Lance、各类File等湖表件格式，元数据访问性能提升10倍，基于开源社区开放Tables与Files两层接口。
企业级安全与管控：具备Catalog/Database/Table/列四级细粒度权限管控，一次授权、跨引擎共用，具备审计、日志、告警等企业级管控能力。
多引擎计算与加速：同时支持开源大数据引擎、阿里云自研大数据引擎、AI搜索引擎，统一存储管理实现引擎平权数据计算，查询性能提升50%。

Future Plan

Fluss的未来规划包括：

支持更多查询引擎：如StarRocks、Spark、Trino等。
Paimon表原地一键升级成实时表。
Union Read支持deleZon vector，大幅提升主键表性能。

集群落地与稳定性

Fluss已在阿里集团内淘天（含通天塔、阿里妈妈等）、集团数据公共层、饿了么、淘宝闪购、高德、阿里影业等多个业务上线，核心场景主要集中在搜索、推荐、流量等。

湖流一体业务实践与收益

Fluss在淘宝数据平台、淘宝闪购场景、AB实验分析平台-通天塔场景等均有成功应用，带来了显著的业务收益，如降低实时数据使用门槛、降低成本、提升开发运维效率等。

未来展望

Fluss的未来展望包括：

进一步提升数据时效性。
OLAP查询性能持续优化。
探索AI场景。

多场景赋能

Fluss在运维与优化方面提供了高效运维和内核优化，同时在多场景赋能方面提供了质变的时效提升，如消息组平替场景、湖仓行权合规等。

核心策略

Fluss的核心策略是通过湖流一体的架构和高效的实时分析能力，解决传统数据架构的痛点，提升数据时效性和查询性能，赋能业务发展。

Fluss介绍 Apache Fluss是什么？面向分析型场景设计的实时流存储 Apache Fluss架构 Apache Fluss核心应用场景湖流一体实时数仓 Fluss + Flink，替代Kafka构建实时数仓新标准 Fluss + Paimon构建湖流一体秒级湖仓架构 Fluss + Flink实时数仓场景：核心特性 MergeEngine合并机制流式查询下推实时数仓分层化实时宽表构建新范式 •毫秒级读写•实时更新•CDC订阅 •RoaringBitmap用户画像•Aggregate长周期聚合指标•Versioned事件时间去重 •列裁剪•分区裁剪•条件下推* •DeltaJoin•PartialUpdate•异步维表Join 湖流一体架构解析 Fluss + Paimon实时湖仓底座：湖流一体湖流融合的业界趋势为什么不是Tableflow？为什么不基于Kafka? Kafka是为消息设计的，不是为分析设计的不支持更新数据模型不匹配 Fluss/Paimon/Kafka数据概念对比 Fluss数据概念与湖仓完全对齐，无缝融合Kafka与湖仓系统割裂湖流同步/湖流一体开启方式对比 ALTER TABLE customersSET ('table.datalake.enabled'='true') Fluss如何构建湖原生的流存储？ •FromTopics->Tables•Schemaas first-class ci8zen•Primary Key&Updatesupport•Data format fromAvro→The Columnar Stream(10x if 10% columns read) Fluss Lake Tiering Service 湖流一体：实时湖仓数据底座 Fluss + Paimon湖流一体优势湖流一体优势(1)：对比Lambda架构，流存储成本降低10倍 •Fluss只需维护超短周期实时数据，大幅降低成本（7day-> 6hour）•流批存储统一，一份视图，提升开发效率湖流一体优势(2)：流读高效数据回追（Union Read）湖流一体优势(3)：批查秒级新鲜度（Union Read）湖流一体优势(4)：湖仓分层新鲜度不受层级影响 •Paimon新鲜度依赖Flink Checkpoint，级联作业可导致新鲜度累加•Fluss实时入湖与Checkpoint解耦，可稳定保证湖仓分层新鲜度湖流一体优势(5)：更高效的CDC数据生成 •Lookup:时效好，但是耗费更多资源•Full Compaction:等待N * checkpoint，时效性差 •直接从Fluss Changelog生成PaimonChangelog•轻量的Arrow-> Parquet转换•兼顾时效性和性能湖流一体优势(6)：湖仓数据的实时接入层 •高性能实时数据接入层•轻客户端、多语言•简化湖仓数据接入•写缓冲，削峰填谷 Streaming + Lakehouse = Real-Time Lakehouse Fluss:面向实时分析场景的流表存储引擎基于Fluss +Paimon的湖流一体数据底座 DLF：智能全模态湖仓管理平台面向AI时代构建全模态数据统一存储、管控、开放平台 DLF钉钉交流群号：106575000021 存储管理与优化数据一键入湖存储，支持存储自适应compaction，自适应分bucket，自动冷热分层，生命周期管理，存储成本优化30% D L F智能全模态湖仓管理平台元数据管理与开放支持Paimon、Iceberg、Lance、各类Flie等湖表件格式，元数访问性能提升10倍，基于开源社区开放Tables与Files两层接口企业级安全与管控 Catalog/Database/Table/列四级细粒度权限管控，一次授权、跨引擎共用，具备审计、日志、告警等企业级管控能力。多引擎计算与加速同时支持开源大数据引擎、阿里云自研大数据引擎、AI搜索引擎，统一存储管理实现引擎平权数据计算，查询性能提升50% Future Plan 查询引擎支持更多查询引擎：StarRocks, Spark, Trino Paimon表原地一键升级成实时表 Union Read支持deleZon vector，大幅提升主键表性能 The End Goal of “Bringbetter analyticstodata streamsandbetterdata freshnesstodataLakehouses.” THANK YOU 谢谢观看 THANK YOU 谢谢观看集群落地与稳定性流存储的机遇和挑战实际收费：3*「完整数据」费用+3*「Flink作业」费用Fluss：多级分区、过滤下推、列式存储（消费部分字段）降低读取数据量、降低读取字段、降低FlinkCU消耗集群落地与稳定性双11落地情况稳定性建设集群部署湖流一体 Fluss首次双11落地情况阿里集团内淘天（含通天塔、阿里妈妈等）、集团数据公共层、饿了么、淘宝闪购、高德、阿里影业等多个业务已开始线上使用，核心场景主要集中在搜索、推荐、流量等。集群部署-监控体系稳定性建设-RebalanceFeature-集群扩缩容 ALTERTABLEcustomersSET('bucket.num'=‘1024’);稳定性建设-表扩缩容稳定性建设-无感升级 K8s侧•支持灰度升级/滚动升级 Fluss Tablet Server无感升级：对业务正在运行的作业没有明显影响，读写延迟波动小于1minControlled Shutdown：支持升级过程中优雅切换Leader：容器收到升级命令后，先优雅迁移自身的Bucket Leader，然后再进行关闭，保证Leader持续在线。 •支持原地升级：升级镜像或者修改配置时，不需要kill和重建pod，只需要kill容器并秒级拉起稳定性建设-Coordinator HA 稳定性建设-压缩率，网络传输稳定性建设-上线前故障演练计划 CoordinatorServer l随机宕机l反复切换leaderl大量建表和分区 TableServer l随机宕机lRemote存储堆积lBuckect的Replica宕机 Client l读写流量压测l一致性测试l冷数据，追数据延迟湖流一体业务实践与收益案例-淘宝数据平台核心收益•降低实时数据使用门槛，搭建面向业务团队的数仓 •替代行式消息队列，降低成本40%以上•通过Fluss+Paimon搭建的湖仓系统支持流批一体的开发模式，降低开发运维成本•基于列更新特性，离线和实时数据更新回刷成本大大降低案例-淘宝闪购场景将流量实时DWD公共层写入Fluss，通过Fluss的Tiering Service，持久化到湖仓存储Paimon中，既保障了实时的时效性，又能及时提供OLAP分析。灰度监控产出效率上，新的架构真正实现了实时监控，产出效率远远高于上一个版本的物化视图定时调度。案例-AB实验分析平台-通天塔场景通天塔是目前淘天集团的AB实验分析平台，主要专注于淘天内C端算法的AB数据，期望能用通天塔的AB数据能力建设，来促进科学决策活动解决⽅案：•Fluss列裁剪能⼒，减少Flink算⼦消耗，同时降痛点：•行式流存储不支持列裁剪，整行消费，资源消耗低⽆⽤列的IO流量；（读FlussCPU占用减少59%，内存占用减少73%，IO减少20%）高，以曝光表为例44个字段，平台仅需13个字段 •数据落地Paimon，通过StarRocks⾼效查询 •数据探查困难，随机抽样难以定位，导入MaxCompute查询延迟高、成本高 •KV表的Merge引擎完成数据的排序，通过Delta Join，解耦作业与状态，修改作业不需要重跑State，并将状态数据可查，提⾼灵活性 •大State作业运维困难，庞大的State，成本高，作业不稳定，Checkpoint超时，重启恢复慢显著降低下游消费数据量下游FlinkCU消耗降低约35% 未来规划未来规划更高的性能构建业界领先的Agent采集与评测一体化平台，用于支撑AIAgent在代码、电商、数据、内容生成等多场景下的效果评估、优化与产品化。需要多端SDK研发、评测平台架构师，P6~P7 THANK YOU 谢谢观看实时AI推理 Flink Agents AI Function SQL流中实时调用LLM 结合Fluss构建端到端低延迟AI推理管道用于构建事件驱动型智能体的开源框架 AIFunction SQL流中实时调用LLM 基于LLM的实时数据分析 AI Func(on⽀持在SQL流处理中直接调⽤⼤语⾔模型服务实时RAG 智能分析 LLM实时调用支持OpenAI兼容接口的大模型服务阿里云百炼人工智能平台PAI Embedding向量检索实时流 AI推理智能分类情感分析 AIFunctions Vector_Search向量搜索 ML_Predict智能推理 Create Model设置模型企业级引擎VVR-11.3 CREATE MODELai_analyze_sentimentINPUT (`input` STRING)OUTPUT (`content` STRING)WITH ('provider'='bailian','endpoint'='','apiKey' = '','model'='qwen-turbo'); SELECTuser_keyword, topicFROMquery_table,LATERAL TABLE (VECTOR_SEARCH(TABLEvector_table,DESCRIPTOR(vector_index),query_table.embedding, 2))； SELECT id,movie_name, commentasbox_officeFROMML_PREDICT(TABLEmovie_comment,MODELai_analyze_sentiment,DESCRIPTOR(user_comment)); AI_Sentiment情感分析 AI_Classify智能分类 AI_Translate实时翻译企业级引擎VVR-11.4 企业级引擎VVR-11.4 企业级引擎VVR-11.4 SELECTorder_id,complaint_text,category, confidenceFROMorder_complaints,LATERAL TABLE(AI_CLASSIFY(‘text_classifier’,complaint_text,‘商品质量,物流问题,客服态度,价格问题‘)); SELECTmessage_id,original_text,translated_text,detected_languageFROMcustomer_messages,LATERAL TABLE(AI_TRANSLATE('translator',original_text,'auto', 'zh’)); SELECTproduct_id,review_text,score, label, confidenceFROMproduct_reviews,LATERAL TABLE(AI_SENTIMENT('sentiment_analyzer’,review_text))WHERE score <-0.5

点击免费查看完整报告