行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

Apache Flink 在AI时代的探索与发展

信息技术2025-08-16-宋辛童c***

AI智能总结

实时AI智能体与数据分析

实时AI数据分析：涵盖情感分析、信息提取、VOC标注、标签挖掘等，应用于舆情监控、活动介绍、售后维修等场景。
项目需求与痛点：传统方式效率低、效果不足、成本高。
方案价值与成果：高吞吐（240万条/小时）、低成本、高精确度，通过Flink+百炼+Kafka架构实现。

事件驱动型AI智能体

FlinkAgents：由阿里云主导发起的开源社区项目，计划9月底发布MVP版本。
特点与需求：事件驱动，支持流批一体化处理。

Hive数仓到Lakehouse的升级

Lakehouse架构：融合结构化与非结构化数据，统一管理、开放、可扩展。
LakehouseCatalog：提供数据与AI的统一治理，支持Paimon表管理。
PaimonRESTAPI：基于REST体系，提供湖表和文件管理，支持多模态数据存储和高性能查询。
PaimonRESTServer：新一代REST网关，接口访问时延提升10倍以上，支持用户管理、权限控制、审计和治理。

实时数仓演进之路

实时数仓1.0：烟囱式开发，数据孤岛，一致性差。
实时数仓2.0：伪流批一体，成本高、性能瓶颈。
Lakehouse探索选型：基于Flink+Paimon架构，实现湖仓协同、统一存储、流批一体。
应用实践：淘宝闪购近实时需求，监控预警、业务决策、库存监控等场景。

未来畅想

流批一体：数据流动自然，无批处理和流处理界限。
智能化数据服务：数据工程师成为“智囊团”。
湖仓与AI深度融合：数据主动“思考”和“预测”。
开放生态体系：不同技术和谐共存。

FlinkCDC实现企业级实时数据同步

传统数据集成：全量和增量同步，组件复杂，维护困难。
FlinkCDC方案：统一增量和全量数据实时集成。

流批一体LakeHouse架构实践

企业挑战：数据孤岛、流批分离、运维复杂。
解决方案：DLF+Paimon+计算引擎，统一存储、口径一致、生态开放。
收益：整体提效20%以上。

零售场景下的实时湖仓构建与实践

传统困境：设备老旧、软件版本滞后、业务稳定性要求高、数据处理能力瓶颈。
湖仓1.0问题：技术陈旧、慢且不稳、运维复杂。
架构选型：Flink+Paimon，技术前瞻、化繁为简、稳稳当先。
收益：数仓2.0提效明显，整体提效20%以上。

淘天搜推AB实验分析平台—通天塔

业务痛点：MQ数据消费冗余、数据探查困难。
Fluss核心能力：列裁剪、Merge引擎、DeltaJoin、湖流一体UnionReads。
架构演进：一份数据存储一份，Fluss（10min）、Paimon（1year）。
场景落地：淘天搜推核心场景、搜推成交归因场景。
未来规划：多模态数据管道、Agent、模型预训练，逐步扩展到淘天搜推C端AB场景。

实时计算Flink版解决方案动手实践

FlinkCDC方案：实现企业级实时数据同步。
流批一体LakeHouse架构实践：构建统一存储、口径一致、生态开放的云原生Lakehouse。

实时AI智能体实时AI数据分析实时AI数据分析实时AI数据分析智能推荐及时个性化推荐情感分析实时内容分类打标、温度感知 RAG实时知识更新引擎能力（阿里云实时计算Flink版）场景介绍实际案例某头部车企客户之声实时市场舆情分析项目简介 VOC（VoiceofCustomer）应用场景，涵盖高层战略、产品介绍、试乘试驾、售后维修、召回、APP使用、论坛、车友会、会员体系、线上线下活动、权益使用等各种场景下，使用大模型进行语音和文字数据的结构化打标和处理工作，提供情感分析、信息提取、VOC标注、标签挖掘能力，用于舆情监控、活动介绍、售后维修等场景。项目需求与痛点 •效率：传统的方式依靠靠人工抽检或者针对每个场景训练NLP小模型来应对，并发和吞吐较低，客户要求达到百万条推理/小时•效果：常见NLP小模型应对多数据源、多目标场景的泛化能力不足，无法满足所有需求•成本：要求在控制成本、不依靠堆积资源的前提下，满足生成效率的需求方案价值与成果 •高吞吐:依托Flink+百炼+Kafka的流式推理架构，在Kafka分区数1200个、Flink并发度100时，可实现240万条数据/小时的处理效率，远超客户百万条每小时的预期。 •低成本：整条链路未大幅增加Kafka分区或Flink并发度，仅优化超时参数与异步吞吐•高精确度：借助FlinkAIFunction调用大模型能力，调用百炼做到高质量标签生成，提升后续标签挖掘、舆情分析等场景的准确度 •多种源端数据（评价文本）清洗后以Json格式推送至消息通道Kafka•Flink流式消费Kafka中数据，使用AIFunction异步httpcall形式调用百炼大模型服务，结果返回异步队列，将生成的三级标签数据回写至Kafka•Kafka中数据推送给下游业务消费，做进一步分析实时AI智能体事件驱动型AI智能体特点与需求 WhyFlink? ApacheFlinkAgents https://github.com/apache/flink-agents FlinkAgents FlinkAgents 开源社区 FlinkAgents由阿里云主导发起，Ververica、Confluent、LinkedIn基于ApacheFlink开源社区合作共建。 Github仓库：https://github.com/apache/flink-agents 首个MVP版本计划与9月底发布，设计文档与开发计划，详见GithubDiscussion：https://github.com/apache/flink-agents/discussions 期待更多社区开发者的加入~！ THANK YOU 谢谢观看 WeAreHiring!北京/上海/杭州xintong.sxt@alibaba-inc.com Hive数仓到Lakehouse的升级从Hive离线数仓到Lakehouse架构对象存储OSS(无限存储、高密度、冷热分层) Lakehouse：结构化与非结构化的融合 Lakehouse架构:Unify your Data, Analytics and AI 消除复杂化孤岛，简化数据资产 •Unified：管理结构化与非结构化数据，统一权限、存储、治理、共享。 •Open：开放元数据协议、开放表格式与文件格式、多引擎生态、不受专有格式和封闭生态系统的限制。 •Scalable：计算性能和存储成本的极致优化确保最低TCO，更好的Native计算，更优的冷热分层。 LakehouseCatalog：Data &AI的统一与开放的治理 PaimonRESTAPI的设计 HiveMetastore+Ranger是时候从深坑中出来了 PaimonRESTCatalog不仅仅是Paimon表 PaimonRESTCatalogUUID路径 •在开放数据湖仓架构中，多个计算引擎需共享元数据。UUID作为全局唯一标识符，可消除因自增ID导致的跨系统冲突风险，确保不同服务生成的目录对象（如表、分区）唯一可识别。 •比如简单的例子是删表再重建，如果这个时候用的文件名，可能会导致老的流作业写入错误的文件到新的表里面。 •UUID目录的设计，也可以用于异步延迟删除，比如删除表可以逻辑删除即可，文件可以在一天以后再删，加速且给个后悔药。基于PaimonREST的多层API设计 PaimonVirtualFileSystem:访问Catalog内所有文件 •文件视图访问所有文件，使用真实对象名称。•统一权限管控，管理结构化与非结构化文件。•统一访问接口，使用VFS屏蔽底层存储介质。•丰富生态，Hadoop、Python、Rust、Fuse。 PaimonRESTAPI目标与愿景 REST体系的核心目标是结合全托管计算引擎提供Lakehouse架构，打破数据孤岛，提供一个统一的数据平台，既能像数据湖一样低成本存储多模态数据（如文本、视频、时序数据），又能像数据仓库一样支持高性能查询、ACID事务和严格的数据治理。通过开放生态和分层架构，实现“One Data, All Analytics”。 RESTServer：以DLF为例 PaimonRESTServer的架构：以DLF为例 •开源开放，基于标准REST+标准OSSSDK，适配湖表和文件管理场景•新一代REST网关，接口访问时延比起DLF1提升10倍以上 RESTServer企业级安全权限用户管理 •原生支持阿里云RAM用户•基于用户和角色权限控制 •支持对湖表设置ACL细粒度权限控制•计算产品对接DLF通过STSRam体系•列级权限，行级权限&列Masking 审计和治理 •全面记录操作日志，满足生产合规•支持漏洞发现和安全治理 RESTServer湖表数据治理冷热分层元数据存储概览存储信息与趋势文件访问时间开源SDK元数据变更日志元数据访问日志智能分层分区级访问冷热分层 THANK YOU 谢谢观看实时数仓演进之路饿了么大数据架构简介实时数仓架构演进实时数仓1.0 实时数仓2.0 烟囱式重复开发数据孤岛->一致性差成本压力:计存&运维新兴业务难以提效“伪”流批一体：DWD两份存储成本&性能:TT带宽/性能,Holo内表研发效率:TT无法检索分析,调试成本成熟CDM资产复用数据一致性提升计存运维成本下降 Lakehouse探索选型 Lakehouse架构-ALake 阿里从Data Warehouse转变到LakeHouse再演变到Data+AI大数据平台架构关键载体淘天、阿里数据、饿了么（淘宝闪购）、高德、优酷、大麦、CBU及云智能 •湖仓协同•统一存储•标准格式•集中管控•Data+AI•单一入口•资源统一饿了么湖仓Pipeline 传统实时数仓VSLakehouse架构实时湖仓应用实践湖仓应用-淘宝闪购强数据驱动&业务快速变化=> T+1时效无法满足需求=>近实时需求💥 监控预警&补偿在线应用用户投放搜索推荐营销定价商物流实时联动…… 业务决策实时决策大屏运营效率诊断商家生意参谋流量效率分析AB实验体系…… 库存监控商户营业预警业务风险监控实时数据订正…. 解决方案-交付策略 Func(重要程度,查询频率,时效性,复杂度)=>数据方案典型案例-UV统计典型案例-近实时AB 应用实践-小结规划与展望规划与展望未来畅想 •实现真正的流批一体：让数据流动像血液一样自然，不再有批处理和流处理的界限•构建智能化的数据服务：让数据工程师不再是“数据搬运工”而是“智囊团"•推动湖仓与AI的深度融合：让数据不仅被分析，更能主动"思考"和"预测"•拥抱更加开放的生态体系：让不同的技术能够和谐共存，发挥各自优势 THANK YOU 谢谢观看 FlinkCDC实现企业级实时数据同步传统的数据集成通常由全量和增量同步两套系统构成，在全量同步完成后，还需要进一步将增量表和全量表进行合并操作，这种架构的组件构成较为复杂，系统维护困难。本方案提供FlinkCDC技术实现了统一的增量和全量数据的实时集成。流批一体LakeHouse架构实践企业面临数据孤岛、流批分离致运维复杂与口径不一。阿里云数据湖构建（DLF）提供统一元数据与存储管理，Paimon实现湖上流批一体，通过DLF+Paimon+计算引擎集成，构建统一存储、口径一致、生态开放的云原生Lakehouse，加速数据价值释放。钉钉扫码进群，获取专业技术服务群号：66255057436 完成体验及填写调研问卷，即可领取精美定制好礼！国内最大的运动零售运营商关于滔搏企业荣誉 •2020年荣获称号，代表行业质量最高水平。 •入选胡润研究院•入选。•2022年获得，表彰在零售创新领域的卓越成就。•拥有，涵盖智能货架、库存管理系统等创新领域。•多次被评为，吸引和留住优秀人才。•2024年获得《财富》杂志。•连续4年，被《机构投资者》评为。 •滔搏是中国颇具规模的，与二十余个领先的运动品牌建立了长期合作关系，是在国内最大的零售运营合作伙伴。•滔搏目前在全国拥有约，并前瞻性地建立了的全域经营生态。•滔搏创立于1999年，并于2019年以滔搏国际控股有限公司为主体在香港主板上市。•2024/2025财年，滔搏实现营业收入，净利润。(滔搏国际年报)•MSCI ESG评级为，为中国运动鞋服行业上市企业的领先水平。挑战和收益并存零售的技术痛点实时湖仓架构实践零售场景下的实时湖仓构建与实践从传统困境到战略抉择从技术价值到社区共建零售的技术痛点传统线下零售都会面临的战略抉择大数据上云不是一个可选题业务连续性保障压力设备与软件版本老旧数据处理能力达到瓶颈痛点①：设备老旧，软件版本滞后 02开源软件版本滞后带来的问题 01老旧硬件带来的挑战 ➢性能瓶颈：CPU、内存和存储IO性能低下，难以支持现代高并发业务。 ➢功能落后：缺少新特性和技术支持，限制了业务创新和效率提升。 ➢高故障率：设备运行时间长，元件老化，故障频发，导致业务中断。 ➢安全隐患：社区活跃度低，安全漏洞无法及时修复，存在高风险。 ➢维护成本高：维护旧设备需要投入大量人力物力，成本高昂且不经济。 ➢升级困难：版本跨度大导致升级复杂、耗时且风险高，可能影响现有业务。痛点②：业务稳定性保障要求高 ➢资源浪费：资源配置按业务峰值需求，但实际利用率低，尤其是在零售业务等有明显波谷的场景，平均利用率甚至不足30%。 ➢人力投入大：日常运维需要专人值守，故障排查过程复杂，消耗大量人力资源。 ➢应急响应慢：告警系统通道单一，夜间等非工作时间应急响应效率低，可能导致故障处理不及时。 ➢扩展困难：当业务快速增长时，传统架构的扩容周期长，无法及时响应，容易成为业务发展的瓶颈。痛点③：数据处理能力达到瓶颈数据质量与一致性业务数据整合困难实时性缺失传统批处理模式无法满足日益增长的实时业务需求。传统ETL工具（如Informatica）每日凌晨跑批，导致库存、价格等关键数据无法实时同步。不同系统间数据难以高效整合与共享。由于系统分散，经常存在数据合并刷新的需求，造成大量的增删改查操作，对数仓带来很大的压力。缺乏统一管理和ACID特性支持。数据冗余与冲突同一商品在不同系统（ERP、POS、电商平台）中编码、价格、库存不一致，导致超卖或订单纠纷。大数据升级迭代诉求强烈满足技术稳定性要求满足技术先进性要求满足业务时效性要求实时湖仓架构实践零售场景下的实时湖仓构建与实践湖仓1.0的主要问题技术陈旧慢且不稳运维复杂 Kudu、Impala等大数据组件

点击免费查看完整报告