CONTENTS /目录腾讯内部Data+AI实践02AI改变数据管理理念01 未来展望04腾讯云Data+AI方案03 AI改变数据管理理念01 AI时代,数据应用的思路在改变是一种数据分析过程,通过在Data-to-Insight的工作流程中应用AIAgent,以半自主或自主的方式协调任务,朝着AI主动洞察&决策预测,2028年33%的企业会将现在Analytic toolshelp peopleand businessmake decisions.当产品开发团队要发行新保险产品,数据分析师在做市场与竞争分析…①手动提取市场数据、行业动态数据、竞争对手信息、销售数据等、运行分析脚本并生成报告②基于报告,及个人专业经验,判断该如何优化制定市场策略AgenticAnalytics2024.11.252025.4.9Google推出A2A协议agent-agent collaboration内部IT应用Anthropic推出MCP协议LLM+Tools&Resources 的目标推进。AgenticAI用于分析和决策,而2024年这个占比不及1未来AI-powered analyticsmakes decisionsthat help peopleand business.①“根据上半年产品售卖情况和竞争对手情况,预测下半年什么类型的保险产品热卖。”②Agent自动连接到数据湖,调用AI模型生成预测,并以可视化图表的形式呈现结果。③Agent还能主动提出建议,比如“根据趋势,建议推出A产品或同类产品。”数据分析师终端用户数据平台使用对象的演进路径 海外数据平台厂商演进路线MosaicAI专注于Agent平台的建设•AgentFramework:Agent开发平台•AgentEvaluation:端到端的Agent效果评估模块,支持HumanFeedback/Expert Review等机制•Playground:可以在选择基础大模型和工具,探索性实验Agent的具体使用效果•VectorSearch:非结构化数据处理内置向量检索服务,Agent实时检索各类DeltaLake中非结构化数据•ModelServing/Training SnowflakeCortexSnowflakeMLSnowflake的AI套件,它利用大型语言模型(LLMs)来理解非结构化数据、回答开放式问题并提供智能辅助。包括:在结构化和非结构化数据源之间进行协调,以提供洞察。规划任务,使用工具来执行这些任务,并生成响应。CortexAgent使用CortexAnalyst和CortexSearch作为工具,与LLMs一起分析数据SnowflakeML提供端到端的机器学习服务,所有功能都在单一平台上实现。统一的机器学习开发和生产环境,经过优化,可实现大规模分布式特征工程、模型训练和推理,支持CPU和GPU计算,无需手动调优或配置。•DocumentAI:Doc转成结构化数据only•CortexSearch:TEXTonly•CortexAnalyst:强调高准确度,但目前仅支持单表「preview」构建自己的CortexAgent •CortexLLM•CortexAgent DataAgents•主要做数据准备相关的工作,数据清洗、转换、验证等•嵌入在BQpipelines数据工程agent数据科学agent•参与model开发的所有环节,例如:自动特征工程、提供智能模型选择、训练等。•嵌入在Colabnotebook对话式分析•用自然语言进行数据分析•嵌入在Looker、applicationAIQueryEngine•以引擎的形式出现,但是与snowflake的cortexagent很类似•BigQueryAIQueryEngine同时处理传统SQL和Gemini,以实现在运行时访问现实世界知识、语言理解和推理能力。强调无缝处理结构化和非结构化数据•例子:Q1.我们库存中哪些产品主要是在新兴经济体国家生产的?Q2.这些社交媒体图片中包含哪些产品?推出一系列DataAgents,及AIQueryEngine 本质原因是过于依赖人和流程管理,且流程执行链路长,需要企业有强大的执行力和魄力 新的数据管理理念对数据基建的要求⚫支持全域数据价值的挖掘⚫数据安全第一位,同时兼顾数据开发与应用效率⚫数据存算引擎具备更高的效率和更广的场景支持“效率”“价值”“智能” 腾讯内部Data+AI实践02 启动:构建人与AI都能理解的数据资产体系➢建立从业务需求、行业知识、数据结构之间的资产纽带,通过领域模型进行沉淀和推荐,确保资产能被AI理解和使用通过大模型,结合SQL本身复杂度,自动识别出通用特征资产体系打造流程数据资产治理:资产下架(逻辑删除、物理删除…)、资产结构优化(指标新增、逻辑调整…)、资产质量提升(计算效率、稳定性、异常恢复…)数据资产标准:开发标准(命名、字根、逻辑…)、管理标准(唯一性、标签…)、运营标准(热度、复用率、成本…)优质资产基础资产评价模型历史SQL技术元数据业务元数据元数据血缘指标模型技术元数据业务元数据元数据血缘指标模型语义知识思维链对话历史特征代码……1123 资产运营&效率工具治理建议特征资产运营根据ROI迭代优选资产数据工程Agent逻辑初始化-自动解析热度分析特征聚类特征资产化沉淀治理评价2 建设:多Agent协同,在数据应用过程中沉淀资产使用Agent多智能体架构,将一个Job(工作)分解成若干的Task(任务),在某些Task上由AI完成,某些Task人与AI协同完成(需求协同、验收协同),覆盖从业务需求到数据交付的全链路,各节点Agent可与用户实时交互,及时感知问题并进行干预和修正,确保系统的可持续优化。用户需求资产召回SQL编写资产沉淀资产推荐本地LLM精排资产推荐接口根据需求和资产,大模型生成SQL发送到计算引擎如SQL校验失败,则触发多轮对话进行需求修订需求改写SQL修正Query理解语意精排需求确认SQL确认数据分析Agent如何理解用户需求数据工程Agent如何在使用过程中沉淀资产 SQL可运行校验,特殊语法、函数转换SQL校验知识图谱搜索 运营:分层运营,主动治理机制业务需求拆分逻辑特征匹配库表资产平台功能需求运营资产运营平台运营•数据工程Agent,主动治理开发过程脚本规范•资产分晾晒机制及质量监测机制,主动发现资产问题•智能运维大脑,主动治理生产运行过程的高危作业 需求规范•需求格式标准(时间周期、逻辑、输出….)•需求分类(思维模式、复杂度、需求标签)通过知识沉淀辅助逻辑拆分•沉淀派生指标计算逻辑、•沉淀非通用领域的维度枚举值、派生维度的计算规 需求模版需求模版定义(需求类型、匹配推荐)需求质量识别(需求判断、缺失项说明)库表资产通过库表资产优化计算效率•完善库表元数据管理,包括数据标准化、分层、打标、表/字段描述;•根据数据资产的热度进行数据表的物化、湖仓沉降操作; 湖仓一体平台••特征资产通过特征资产优化匹配准确特征资产的增删改查;根据特征相似度识别配置配置个人特征向公共公共 行业知识特殊逻辑说明;则;率••特征同义词;•特征转化; 腾讯云Data+AI方案03 数据分析Agent当前现状【用数门槛高】用数覆盖范围是数据科学家和数据分析师,而一线业务人员用数场景局限,限制了一线想通过数据改善业务的空间【问数准确率低】智能问数面临的核心问题是准确率,如何克制大模型幻觉问题,提升用数准确率,查数过程透明化 ✓自然语言转SQL能力,✓腾讯云ChatBI通过数据解读,波动归因能力,提升数据价值挖掘效率✓腾讯云ChatBI通过多轮对话,意图澄清反问等能力,有效提升问数场解决方案:降低用数门槛,提高问数准确率 全球第三,国内第一景的准确性 数据工程Agent当前现状【开发人员水平不一致】50%以上的数据质量问题是在开发过程产生,如何提升开发质量是解决企业数据管理问题的关键因素【规范约束力弱】如何用AI工具来提升开发规范的执行力,是企业提升数据质量的关键能力【分类分级难度大】数据分类分级是企业数据管理的必修课,但分类分级影响因素大,人工识别工程量大 智能知识库代码辅助数据分类分级基于大模型,提供SQL纠错/SQL注释/SQL解释(已上线试用)、SQL生成/SQL基于大模型,提供站内元数据、知识库智能查找提供更高效稳定的数据安全识别和风险监测能力,AI识别+人工校准基于AI技术的敏感数据识别及异常风险研判AI双引擎&用户操作特征,识别高风险SQL查询解决方案:AI介入数据工程整个生命周期,提高管理办法落地效果 改写(优化中)功能 OneOps一体化当前现状【数据安全问题】数据分析和探索需求集中在数据平台和AI平台,AI平台的数据安全管理是缺失的【数据资产不完整】非结构化数据资产沉淀在AI平台,但缺失良好的机制沉淀回统一资产平台中【数据交互效率低】AI平台与数据平台的交互涉及不同环境的流转,AI平台在数据探索过程涉及到频繁的提数,数据清洗,数据更新等交互动作,效率低 一套工作流一套调度引擎OneEnvironment+OneWorkflow+OneData+AI工作负载DataOps+MLOps+AIOps一体化工作流Serverless通用资源组统一Notebook开发IDECopilot环境镜像管理Git管理统一调度统一权限管理腾讯云统一元数据服务TC-Catalog多元异构高性能计算引擎解决方案:OneOps一体化平台,解决安全、效率和资产管理痛点一份数据一套权限配置++++ 多模态统一元数据当前现状【多模态数据管理痛点】多模态数据分散孤岛化,缺乏统一管理,导致数据发现与访问成本高昂【AI模型应用落地障碍】AI模型应用与数据源、工具间缺乏统一通信标准,制约Agent规模化部署与落地 大数据智能管家当前现状【运维门槛高】大数据平台的运维门槛较高,且随着多模态需求的兴起,运维门槛将会更【预警信息繁杂】平台运维预警信息繁杂,缺少识别和根因分析,运维人员工作量大 高 未来展望04 技术回归本质,AI成为数据管理团队的智能伙伴全域数据入湖,多模态数据融合 THANKS谢谢观看