黄鹏程 阿里云智能集团高级产品专家阿里云实时计算Flink版产品负责人 01AI实时化浪潮 02产品能力解读 Contents 03应用场景与落地案例 01AI实时化浪潮 AI开辟实时化分析新纪元 •当今企业面临的数据处理挑战不断升级,实时数据分析需求持续增长。与此同时,生成式AI技术正迅速改变各行各业的应用场景与可能性。 •行业正快速向融合AI与大数据实时处理的方向演化,企业寻求在数据产生的第一时间获取智能洞察并采取行动。 2.5倍 72% 35% 企业增长 效率提升 采用实时数据分析的企业收入增长率 实时AI决策相比传统分析方法的效率提升 企业通过实时智能分析降低运营成本 02产品能力解读 基于大语言模型的实时数据分析 能力覆盖实时情感分析、智能推荐、异常检测、语义搜索、智能客服等多样化AI场景 情感分析 智能推荐 实时RAG •毫秒级流数据相似性搜索•与Apache Flink SQL生态系统无缝集成,让非结构化与结构化数据综合分析成为可能 •强大的AIFuncion函数支持在SQL流处理中直接调用大语言模型服务•支持ChatModel实时调用,实现文本理解•完全兼容OpenAI API,各种模型可无缝接入,全面支持阿里云百炼、PAI等大模型服务。 •丰富的上游生态,对数据库实时变化、对象存储文件变化实时捕捉•内置提供多种数据、文本函数方便数据切分•支持Embedding Model调用,实现文本向量化,•内置Milvus连接器,支持高性能写入向量数据 事件驱动型AI多智能体框架Flink Agents 03应用场景与落地案例 AI问答应用的引擎能力场景介绍 具体应用场景:直播评论实时智能情感分析 落地案例:某头部车企客户之声实时市场舆情分析 架构方案&架构图 项目简介 VOC(VoiceofCustomer)应用场景,涵盖高层战略、产品介绍、试乘试驾、售后维修、召回、APP使用、论坛、车友会、会员体系、线上线下活动、权益使用等各种场景下,使用大模型进行语音和文字数据的结构化打标和处理工作,提供情感分析、信息提取、VOC标注、标签挖掘能力,用于舆情监控、活动介绍、售后维修等场景。 项目需求与痛点 •效率:传统的方式依靠靠人工抽检或者针对每个场景训练NLP小模型来应对,并发和吞吐较低,客户要求达到百万条推理/小时 •效果:常见NLP小模型应对多数据源、多目标场景的泛化能力不足,无法满足所有需求•成本:要求在控制成本、不依靠堆积资源的前提下,满足生成效率的需求 方案价值与成果 •高吞吐:依托Flink+百炼+Kafka的流式推理架构,在Kafka分区数1200个、Flink并发度100时,可实现240万条数据/小时的处理效率,远超客户百万条每小时的预期。•低成本:整条链路未大幅增加Kafka分区或Flink并发度,仅优化超时参数与异步吞吐•高精确度:借助FlinkAIFunction调用大模型能力,调用百炼做到高质量标签生成,提升后续标签挖掘、舆情分析等场景的准确度 •多种源端数据(评价文本)清洗后以Json格式推送至消息通道Kafka •Flink流式消费Kafka中数据,使用AIFunction异步httpcall形式调用百炼大模型服务,结果返回异步队列,将生成的三级标签数据回写至Kafka•Kafka中数据推送给下游业务消费,做进一步分析*以上为客户 THANKS 阿里云实时计算Flink安全架构&权限体系 李昊哲 阿里云智能集团实时计算Flink版产品经理 01 企业上云安全驱动及挑战 02阿里云账号权限体系 Contents 03 企业级产品安全能力 04场景化权限管理方案 01企业上云安全驱动及挑战 大数据安全建设的三大驱动力 合规监管 安全事件 业务刚需 n国家法律 Ø《网络安全法》Ø《数据安全法》Ø《个人信息保护法》Ø《密码法》n监管规范Ø《《促进和规范数据跨境流动规定》》Ø《烟草行业数据安全管理办法》Ø《汽车数据安全若干若干规定》Ø…… n外部数据窃取n内部数据泄漏n个人数据滥用 n企业核心资产保护n数据分级治理n数据安全成熟度认证 企业上云面临的安全挑战 随着⼈员、⽹络、⾝份、应⽤的多样化,⾝份权限管理难以统⼀ ⽆统⼀认证——“账号⿊洞” •使用默认JobManagerWebUI,无登录鉴权•通过Nginx做简单Basic Auth,账号密码明文存储•存在未授权访问风险,易被扫描器发现并攻击 权限粗放——“全有或全⽆” •多租户场景下,团队间资源互相可见、可操作•所有用户拥有相同权限:可提交、修改、停止任意作业•无“只读”、“开发”、“运维”角色区分 操作⽆审计——“⿊盒操作,⽆法追溯” •无操作日志记录,难以进行和人追踪•审计合规无法满足(如等保、GDPR) 02阿里云账号权限体系 阿里云身份权限体系 RAM鉴权体系 03企业级安全能力 企业级安全能力概览 Flink平台系统安全 数据泄露 权限控制不足 安全攻击 Flink基础设施安全 业务中断 项目空间权限—租户隔离 简化购买、分配、使⽤流程,⾼效完成实现计算资源、成员⽤户的可管可控 开发空间权限—细粒度授权 企业组织架构下的⼈员、⻆⾊、权限、组织关系等管理;⽀持关键操作的审计,满⾜企业监管需求 ⽤户管理 •原⽣⽀持阿⾥云RAM⾝份体系 •基于RAM⽤户/⻆⾊/云SSO⽅式鉴权 权限控制 ⻆⾊权限管理 资源级 •⽀持RAMPolicy系统权限•⽀持RAMPolicy⾃定义权限 空间级 •⼯作空间访问隔离•项⽬空间级租户隔离 操作级 •平台内置⻆⾊ •⽤户⾃定定义⻆⾊ 04场景化权限管理方案 场景一:多租户资源隔离 场景二:云SSO / LDAP企业统一登录 场景三:多团队分权协作 THANKS 阿里云实时计算Flink被集成能力介绍 李昊哲 阿里云智能集团实时计算Flink版产品经理 01 开放被集成能力全景 02被集成能力介绍 Contents 03客户成功案例 01开放被集成能力全景 开放被集成能⼒全景 从控制⾯到计算⾯,全⾯开放兼容 02被集成能力介绍 被集成能⼒——Open API 提供丰富的Open API,⽀持企业调⽤Flink平台原⼦能⼒,深度集成企业⾃有系统 售卖控制台Open API •⽀持⼯作空间、项⽬空间下的各项主要管理操作 •覆盖空间创建/释放、修改计费模式、资源动态升降、资源标签管理配等场景 Workspace 开发控制台Open API•在数据开发、调试、启停、运维、元数据管理各环节开放 OpenAPI服务 •⽀撑深度集成,企业⽤户可⾃由构建⾃⼰的平台 三⽅监控告警Open API 作业诊断详情 变量管理 已部署作业 •⽀持⼯作空间下的各项主要管理操作 •覆盖数据集管理、模型管理、镜像管理、任务管理、训练任务管理、代码配置管理等场景 作业定时计划 被集成能⼒——Git集成 FlinkServerlessCI/CD研发新范式实现代码版本管理、协作开发与持续集成 核⼼功能 ⽆缝Git仓库对接 Ø⽀持GitHub/GitLab/Bitbucket等主流平台 Ø⼀键授权绑定,⽆需⼿动下载上传代码 ⾃动化代码同步 ⾃动触发代码更新与同步 ⽆缝集成CI/CD流⽔线 Ø通过FlinkOpenapi与Jenkins、GitLab CI/CD等三⽅CI/CD⼯具集成 产品价值 •⾼效协作—团队成员实时同步开发进度,减少沟通成本•版本安全—完整保留代码变更历史,⽀持快速回溯和问题定位•简化流程—⽆缝整合开发与部署流程,提升DevOps效率•规范管理—促进代码审查和标准化流程,提升代码质量 客户成功案例 数据开发进⼊“⼯程化治理”时代 ❌痛点2:开发流程不规范 ❌痛点1:多团队协作混乱 ❌痛点3:作业质量⻛险⾼ Ø数据、算法、运维等多团队并⾏开发同⼀套数据链路Ø缺乏统⼀的分⽀管理机制Ø没 有 代 码 审 查(CodeReview)流程 Ø“改完就上线”成为常态Ø没有统⼀的开发-测试-⽣产流程Ø缺乏⾃动化校验机制(语法、权限、依赖) Ø没有版本快照,作业被覆盖后⽆法找回历史逻辑Ø审计追溯困难,⽆法将线上事故与具体代码commit关联,责任边界模糊 客户成功案例:头部互联⽹招聘平台 挑战(核心痛点) 解法(Git集成设计核心) ü平台不再保存代码主副本——Git仓库即Single Sourceof Truthü任何发布必须先过MR → CI → Merge →平台只拉取合并后的分支ü把Flink作业当作一种特殊‘语言’接入企业现有Sonar、Owner审批、签名扫描链路 Ø巨型代码仓:单仓19GB,654个文件夹、3673个作业Ø流程割裂:团队已建立GitLab CI+Code Owner审核,但开发者仍需手动拷贝SQL到控制台,绕过MR流程,合规风险高Ø发布低效:人工上传→手动建作业→配参数,平均30分钟/次;回滚时需翻找历史文件,定位难、耗时长 “不是Git没有流程,⽽是Flink平台缺少对企业既有Git审核流程的‘原⽣对接’能⼒。” ü极速同步:首次fetch2分钟,后续增量pull/push秒级完成ü合规无损:沿用既有GitLab审核链路,审计日志与commit SHA一一对应,满足内部合规要求ü效率提升:发布时长从小时级别→分钟级,回滚粒度到commit 业务收益 THANKS 自动调优功能介绍与未来发展剖析 黄睿 阿里云智能集团产品专家 资源配置:Flink用户的核心痛点 到底该如何设置Flink作业的资源? 自动调优架构 自动调优功能介绍 智能调优 监控模式 定时调优 可视化配置调优条件 全程默认开启 内置规则库和决策机制 周期分析,提供建议 从性能工具到成本工具 同样都是一个月:30CU包月=花费5400元,10CU包月+20CU每天使用8小时=花费1800+1,824元 如果没有混合计费,成本提升5400/3624=49% 自动调优功能未来规划 深入AI化 引入非结构化数据源分析 成本可视化 建立大模型分析能力 THANKS 阿里云全托管流存储服务ApacheFluss预览 黄睿 阿里云智能集团产品专家 阿里云流存储Fluss产品架构图 Kafka做流存储是无奈之举 最近数据流量增加的很快,这张订单表被DWS层多个Flink作业消费,kafka集群IO不够,又要扩容了 物流表的状态需要被持续更新,以便能快速展示最新的数据,那我只能在Flink里维持一个长周期的状态了 业务说这个数据的指标不符合预期,怀疑是数据层面有问题,这几个Topic的数据我又要导出到其他系统来分析了 业务修改了统计口径,需要我从7天前开始重新统计口径,我又要从离线库里重新把数据导入Kafka计算了 Kafka不适合做流存储:IO成本昂贵 阿里内部x Flink SQL作业中,平均只使用了49%的列 读写毫秒级延迟,服务端列裁剪,节省大量网络成本,10倍性能提升 Kafka不适合做流存储:不支持更新 去重算子承担更新工作 成本高昂 Kafka不适合做流存储:数据无法探查 支持主键点查 支持LIMIT,COUNT等查询 实时维表Join 特色能力:Flink+Fluss实时宽表新范式 回追使用归档Paimon表/冷存储+Batch Join,4小时→0.5小时 JoinState-> No State,大规模Join更稳定 Flink资源减低10倍,2300CU→200CU 状态与作业解耦,提升灵活性和开发效率,中间数据可探查 湖流一体:Fluss+Paimon构建统一存储 Fluss解决方案 业务收益: √无需冗余存储,流存数据大大减