行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

阿里云实时计算Flink AI能力解读

信息技术 2025-09-17 阿里巴巴光影

阿里云实时计算Flink版产品研报总结

01 AI实时化浪潮

企业面临数据处理挑战升级，实时数据分析需求持续增长。
生成式AI技术迅速改变应用场景，行业向融合AI与大数据实时处理演化。
企业寻求在数据产生第一时间获取智能洞察并采取行动。
采用实时数据分析的企业收入增长率达2.5倍，实时AI决策效率提升72%，企业通过实时智能分析降低运营成本35%。

02 产品能力解读

基于大语言模型的实时数据分析能力覆盖情感分析、智能推荐、异常检测、语义搜索、智能客服等多样化AI场景。
情感分析：毫秒级流数据相似性搜索，与Apache Flink SQL生态无缝集成。
智能推荐：强大的AIFuncion函数支持SQL流处理中直接调用大语言模型服务，支持ChatModel实时调用，完全兼容OpenAI API。
实时RAG：支持Embedding Model调用实现文本向量化，内置Milvus连接器支持高性能写入向量数据。
事件驱动型AI多智能体框架Flink Agents。

03 应用场景与落地案例

AI问答应用的引擎能力场景介绍。
具体应用场景：直播评论实时智能情感分析。
落地案例：某头部车企客户之声实时市场舆情分析。
- 项目简介：VOC应用场景，涵盖多种场景下语音和文字数据的结构化打标和处理。
- 项目需求与痛点：效率低、效果不足、成本高。
- 方案价值与成果：高吞吐（240万条/小时）、低成本、高精确度。
- 架构方案：数据清洗后推送至Kafka，Flink流式消费并调用百炼大模型服务，结果回写Kafka并推送给下游业务。

04 阿里云账号权限体系

企业上云安全驱动及挑战：合规监管、安全事件、业务刚需。
阿里云身份权限体系：RAM鉴权体系。
企业级安全能力：Flink平台系统安全、Flink基础设施安全。
- 项目空间权限—租户隔离。
- 开发空间权限—细粒度授权。
- 用户管理：支持阿里云RAM身份体系，基于RAM用户/角色/云SSO方式鉴权。
- 权限控制：资源级、空间级、操作级。
场景化权限管理方案：多租户资源隔离、云SSO/LDAP企业统一登录、多团队分权协作。

05 阿里云实时计算Flink被集成能力介绍

开放被集成能力全景：从控制面到计算面，全面开放兼容。
被集成能力介绍：
- Open API：提供丰富的Open API支持企业调用Flink平台原子的能力，深度集成企业自有系统。
  - 售卖控制台Open API：支持工作空间、项目空间下的各项主要管理操作。
  - 开发控制台Open API：在数据开发、调试、启停、运维、元数据管理各环节开放。
  - 三方监控告警Open API：支持作业诊断详情、变量管理、已部署作业、作业定时计划等。
- Git集成：FlinkServerlessCI/CD研发新范式实现代码版本管理、协作开发与持续集成。
  - 核心功能：无缝Git仓库对接、自动化代码同步、无缝集成CI/CD流水线。
  - 产品价值：高效协作、版本安全、简化流程、规范管理。
客户成功案例：头部互联网招聘平台。
- 挑战：多团队协作混乱、开发流程不规范、作业质量风险高。
- 解法：Git集成设计核心，平台不再保存代码主副本，任何发布必须先过MR → CI → Merge → 平台只拉取合并后的分支。
- 业务收益：极速同步、合规无损、效率提升。

06 自动调优功能介绍与未来发展剖析

资源配置：Flink用户的核心痛点。
自动调优架构：监控模式、定时调优、可视化配置调优条件。
自动调优功能介绍：智能调优、全程默认开启、内置规则库和决策机制。
自动调优功能未来规划：深入AI化、引入非结构化数据源分析、成本可视化、建立大模型分析能力。

07 阿里云全托管流存储服务ApacheFluss预览

业务痛点：Kafka不适合做流存储（IO成本昂贵、不支持更新、数据无法探查）。
阿里云流存储Fluss产品架构图。
特色能力：
- Flink+Fluss实时宽表新范式：支持主键点查、支持LIMIT,COUNT等查询、实时维表Join。
- 湖流一体：Fluss+Paimon构建统一存储，内置湖流通道服务，流存储数据直接入湖。
- 流查询下推：全链路秒级。
Flink+Fluss：高性能低成本流处理方案。
- 支持部分列更新，且更新后仍能生成binlog。
- 支持基于主键的多流实时拼接。
- 独有deltajoin能力，避免大状态造成Flink作业高成本和稳定性问题。
业务收益：
- 无需冗余存储，流存数据大大减少。
- 延迟更低，储存开放，可配置湖上数据可见时间。
- 链路简化，开发运维成本更低。

黄鹏程阿里云智能集团高级产品专家阿里云实时计算Flink版产品负责人 01AI实时化浪潮 02产品能力解读 Contents 03应用场景与落地案例 01AI实时化浪潮 AI开辟实时化分析新纪元 •当今企业面临的数据处理挑战不断升级，实时数据分析需求持续增长。与此同时，生成式AI技术正迅速改变各行各业的应用场景与可能性。 •行业正快速向融合AI与大数据实时处理的方向演化，企业寻求在数据产生的第一时间获取智能洞察并采取行动。 2.5倍 72% 35% 企业增长效率提升采用实时数据分析的企业收入增长率实时AI决策相比传统分析方法的效率提升企业通过实时智能分析降低运营成本 02产品能力解读基于大语言模型的实时数据分析能力覆盖实时情感分析、智能推荐、异常检测、语义搜索、智能客服等多样化AI场景情感分析智能推荐实时RAG •毫秒级流数据相似性搜索•与Apache Flink SQL生态系统无缝集成，让非结构化与结构化数据综合分析成为可能 •强大的AIFuncion函数支持在SQL流处理中直接调用大语言模型服务•支持ChatModel实时调用，实现文本理解•完全兼容OpenAI API，各种模型可无缝接入，全面支持阿里云百炼、PAI等大模型服务。 •丰富的上游生态，对数据库实时变化、对象存储文件变化实时捕捉•内置提供多种数据、文本函数方便数据切分•支持Embedding Model调用，实现文本向量化，•内置Milvus连接器，支持高性能写入向量数据事件驱动型AI多智能体框架Flink Agents 03应用场景与落地案例 AI问答应用的引擎能力场景介绍具体应用场景:直播评论实时智能情感分析落地案例：某头部车企客户之声实时市场舆情分析架构方案&架构图项目简介 VOC（VoiceofCustomer）应用场景，涵盖高层战略、产品介绍、试乘试驾、售后维修、召回、APP使用、论坛、车友会、会员体系、线上线下活动、权益使用等各种场景下，使用大模型进行语音和文字数据的结构化打标和处理工作，提供情感分析、信息提取、VOC标注、标签挖掘能力，用于舆情监控、活动介绍、售后维修等场景。项目需求与痛点 •效率：传统的方式依靠靠人工抽检或者针对每个场景训练NLP小模型来应对，并发和吞吐较低，客户要求达到百万条推理/小时 •效果：常见NLP小模型应对多数据源、多目标场景的泛化能力不足，无法满足所有需求•成本：要求在控制成本、不依靠堆积资源的前提下，满足生成效率的需求方案价值与成果 •高吞吐:依托Flink+百炼+Kafka的流式推理架构，在Kafka分区数1200个、Flink并发度100时，可实现240万条数据/小时的处理效率，远超客户百万条每小时的预期。•低成本：整条链路未大幅增加Kafka分区或Flink并发度，仅优化超时参数与异步吞吐•高精确度：借助FlinkAIFunction调用大模型能力，调用百炼做到高质量标签生成，提升后续标签挖掘、舆情分析等场景的准确度 •多种源端数据（评价文本）清洗后以Json格式推送至消息通道Kafka •Flink流式消费Kafka中数据，使用AIFunction异步httpcall形式调用百炼大模型服务，结果返回异步队列，将生成的三级标签数据回写至Kafka•Kafka中数据推送给下游业务消费，做进一步分析*以上为客户 THANKS 阿里云实时计算Flink安全架构&权限体系李昊哲阿里云智能集团实时计算Flink版产品经理 01 企业上云安全驱动及挑战 02阿里云账号权限体系 Contents 03 企业级产品安全能力 04场景化权限管理方案 01企业上云安全驱动及挑战大数据安全建设的三大驱动力合规监管安全事件业务刚需 n国家法律 Ø《网络安全法》Ø《数据安全法》Ø《个人信息保护法》Ø《密码法》n监管规范Ø《《促进和规范数据跨境流动规定》》Ø《烟草行业数据安全管理办法》Ø《汽车数据安全若干若干规定》Ø…… n外部数据窃取n内部数据泄漏n个人数据滥用 n企业核心资产保护n数据分级治理n数据安全成熟度认证企业上云面临的安全挑战随着⼈员、⽹络、⾝份、应⽤的多样化，⾝份权限管理难以统⼀⽆统⼀认证——“账号⿊洞” •使用默认JobManagerWebUI，无登录鉴权•通过Nginx做简单Basic Auth，账号密码明文存储•存在未授权访问风险，易被扫描器发现并攻击权限粗放——“全有或全⽆” •多租户场景下，团队间资源互相可见、可操作•所有用户拥有相同权限：可提交、修改、停止任意作业•无“只读”、“开发”、“运维”角色区分操作⽆审计——“⿊盒操作，⽆法追溯” •无操作日志记录，难以进行和人追踪•审计合规无法满足（如等保、GDPR） 02阿里云账号权限体系阿里云身份权限体系 RAM鉴权体系 03企业级安全能力企业级安全能力概览 Flink平台系统安全数据泄露权限控制不足安全攻击 Flink基础设施安全业务中断项目空间权限—租户隔离简化购买、分配、使⽤流程，⾼效完成实现计算资源、成员⽤户的可管可控开发空间权限—细粒度授权企业组织架构下的⼈员、⻆⾊、权限、组织关系等管理；⽀持关键操作的审计，满⾜企业监管需求⽤户管理 •原⽣⽀持阿⾥云RAM⾝份体系 •基于RAM⽤户/⻆⾊/云SSO⽅式鉴权权限控制⻆⾊权限管理资源级 •⽀持RAMPolicy系统权限•⽀持RAMPolicy⾃定义权限空间级 •⼯作空间访问隔离•项⽬空间级租户隔离操作级 •平台内置⻆⾊ •⽤户⾃定定义⻆⾊ 04场景化权限管理方案场景一：多租户资源隔离场景二：云SSO / LDAP企业统一登录场景三：多团队分权协作 THANKS 阿里云实时计算Flink被集成能力介绍李昊哲阿里云智能集团实时计算Flink版产品经理 01 开放被集成能力全景 02被集成能力介绍 Contents 03客户成功案例 01开放被集成能力全景开放被集成能⼒全景从控制⾯到计算⾯，全⾯开放兼容 02被集成能力介绍被集成能⼒——Open API 提供丰富的Open API，⽀持企业调⽤Flink平台原⼦能⼒，深度集成企业⾃有系统售卖控制台Open API •⽀持⼯作空间、项⽬空间下的各项主要管理操作 •覆盖空间创建/释放、修改计费模式、资源动态升降、资源标签管理配等场景 Workspace 开发控制台Open API•在数据开发、调试、启停、运维、元数据管理各环节开放 OpenAPI服务 •⽀撑深度集成，企业⽤户可⾃由构建⾃⼰的平台三⽅监控告警Open API 作业诊断详情变量管理已部署作业 •⽀持⼯作空间下的各项主要管理操作 •覆盖数据集管理、模型管理、镜像管理、任务管理、训练任务管理、代码配置管理等场景作业定时计划被集成能⼒——Git集成 FlinkServerlessCI/CD研发新范式实现代码版本管理、协作开发与持续集成核⼼功能⽆缝Git仓库对接 Ø⽀持GitHub/GitLab/Bitbucket等主流平台 Ø⼀键授权绑定，⽆需⼿动下载上传代码⾃动化代码同步⾃动触发代码更新与同步⽆缝集成CI/CD流⽔线 Ø通过FlinkOpenapi与Jenkins、GitLab CI/CD等三⽅CI/CD⼯具集成产品价值 •⾼效协作—团队成员实时同步开发进度，减少沟通成本•版本安全—完整保留代码变更历史，⽀持快速回溯和问题定位•简化流程—⽆缝整合开发与部署流程，提升DevOps效率•规范管理—促进代码审查和标准化流程，提升代码质量客户成功案例数据开发进⼊“⼯程化治理”时代 ❌痛点2：开发流程不规范 ❌痛点1：多团队协作混乱 ❌痛点3：作业质量⻛险⾼ Ø数据、算法、运维等多团队并⾏开发同⼀套数据链路Ø缺乏统⼀的分⽀管理机制Ø没有代码审查（CodeReview）流程 Ø“改完就上线”成为常态Ø没有统⼀的开发-测试-⽣产流程Ø缺乏⾃动化校验机制（语法、权限、依赖） Ø没有版本快照，作业被覆盖后⽆法找回历史逻辑Ø审计追溯困难，⽆法将线上事故与具体代码commit关联，责任边界模糊客户成功案例：头部互联⽹招聘平台挑战（核心痛点）解法（Git集成设计核心） ü平台不再保存代码主副本——Git仓库即Single Sourceof Truthü任何发布必须先过MR → CI → Merge →平台只拉取合并后的分支ü把Flink作业当作一种特殊‘语言’接入企业现有Sonar、Owner审批、签名扫描链路 Ø巨型代码仓：单仓19GB，654个文件夹、3673个作业Ø流程割裂：团队已建立GitLab CI+Code Owner审核，但开发者仍需手动拷贝SQL到控制台，绕过MR流程，合规风险高Ø发布低效：人工上传→手动建作业→配参数，平均30分钟/次；回滚时需翻找历史文件，定位难、耗时长 “不是Git没有流程，⽽是Flink平台缺少对企业既有Git审核流程的‘原⽣对接’能⼒。” ü极速同步：首次fetch2分钟，后续增量pull/push秒级完成ü合规无损：沿用既有GitLab审核链路，审计日志与commit SHA一一对应，满足内部合规要求ü效率提升：发布时长从小时级别→分钟级，回滚粒度到commit 业务收益 THANKS 自动调优功能介绍与未来发展剖析黄睿阿里云智能集团产品专家资源配置：Flink用户的核心痛点到底该如何设置Flink作业的资源？自动调优架构自动调优功能介绍智能调优监控模式定时调优可视化配置调优条件全程默认开启内置规则库和决策机制周期分析，提供建议从性能工具到成本工具同样都是一个月：30CU包月=花费5400元，10CU包月+20CU每天使用8小时=花费1800+1,824元如果没有混合计费，成本提升5400/3624=49% 自动调优功能未来规划深入AI化引入非结构化数据源分析成本可视化建立大模型分析能力 THANKS 阿里云全托管流存储服务ApacheFluss预览黄睿阿里云智能集团产品专家阿里云流存储Fluss产品架构图 Kafka做流存储是无奈之举最近数据流量增加的很快，这张订单表被DWS层多个Flink作业消费，kafka集群IO不够，又要扩容了物流表的状态需要被持续更新，以便能快速展示最新的数据，那我只能在Flink里维持一个长周期的状态了业务说这个数据的指标不符合预期，怀疑是数据层面有问题，这几个Topic的数据我又要导出到其他系统来分析了业务修改了统计口径，需要我从7天前开始重新统计口径，我又要从离线库里重新把数据导入Kafka计算了 Kafka不适合做流存储：IO成本昂贵阿里内部x Flink SQL作业中，平均只使用了49%的列读写毫秒级延迟，服务端列裁剪，节省大量网络成本，10倍性能提升 Kafka不适合做流存储：不支持更新去重算子承担更新工作成本高昂 Kafka不适合做流存储：数据无法探查支持主键点查支持LIMIT,COUNT等查询实时维表Join 特色能力：Flink+Fluss实时宽表新范式回追使用归档Paimon表/冷存储+Batch Join，4小时→0.5小时 JoinState-> No State，大规模Join更稳定 Flink资源减低10倍，2300CU→200CU 状态与作业解耦，提升灵活性和开发效率，中间数据可探查湖流一体：Fluss+Paimon构建统一存储 Fluss解决方案业务收益： √无需冗余存储，流存数据大大减

点击免费查看完整报告