刘岩腾讯游戏数据技术负责人 腾讯游戏数据工程的挑战基于多智能体的需求构造AI驱动的湖仓资产体系可持续优化的工程平台系统演示 腾讯游戏数据工程的挑战 1.1腾讯游戏数据发展—紧跟业务发展,以业务需求为核心 腾讯游戏以休闲品类进入市场2003~2007 产业链布局和全面出海2015~Now 1.0基础功能完善阶段 1.2游戏业务对数据的需求 ➢现存游戏业务的数据挖掘/提取类需求数万个/年,数据挖掘是问题归因、分析决策、干预闭环的关键。 1.3如何更好地服务业务? ➢AI要解决的问题不是仅仅是写SQL,而是从业务需求到数据结果的各个环节,需要建立AI环境下的工程平台和资产体系。 基于多智能体的需求构造 2.1提示词(需求)的完备度与结果准确性 “好”提示词的特点: ➢完整的上下文解释➢隐性知识➢行业know-how➢恰当的示例➢逐步思考➢明确的预期结果 2.2基于“需求标准”的人与AI需求对齐 一个完备的SQL需求包括:“筛选”、“问题”、“结果”三段式提问,及“行业知识” 需求标准 统计:玩家数2024.1.1-2024.2.2期间XX条件的玩家每个自然周不同周活跃天数 输出:统计周、周活跃天数、玩家数 通过需求Agent,匹配需求案例和行业知识,对进行需求整理与改写,改写成标准的需求格式 2.3根据复杂度进行需求分解 ➢把复杂需求分解成简单的子需求,降低AI生成难度,通过工程化方式组合成最终结果,确保稳定可控的交付质量。 根据腾讯游戏内部实际应用统计: 1.需求复杂度小于等于4准确率>90%,5至7准确率>60%,大于等于8准确率<25%,复杂度大于等于15时正确率趋近于0 2.需求复杂度=Where个数+ Join个数+ Union个数+ Group By个数+ Order By个数+ Distinct个数+开窗/json等高阶函数个数 AI驱动的湖仓资产体系 3.1LLM在SQL生成的能力瓶颈 BIRD(BIgBench forLaRge-scaleDatabase Grounded Text-to-SQL Evaluation)代表了一个开创性的跨域数据集,用于检查广泛的数据库内容对文本到SQL解析的影响。BIRD包含超过12,751个独特的问题SQL对、95个大型数据库,总大小为33.4GB。它还涵盖了区块链、曲棍球、医疗保健和教育等超过37个专业领域。 Spider是一个由11名耶鲁大学学生注释的大规模复杂、跨领域语义解析和文本到SQL数据集。它由10,181个问题和5,693个独特的复杂SQL查询组成,涉及200个数据库以及覆盖138个不同领域的多个表。https://github.com/taoyds/spider https://bird-bench.github.io/ 3.2如何提高SQL准确率? 3.4构建“人和AI”都能理解的资产 ➢建立从业务需求、行业知识、数据结构之间的资产纽带,通过领域模型进行沉淀和推荐,确保资产能被AI理解和使用 3.5领域模型技术架构 3.6新一代AI资产基建-湖仓一体 ➢通过湖仓一体的技术架构,最终数据分析直接使用明细数据(非传统结果数据)而不用考虑性能问题,配合实时链路接入,让业务人员可以使用实时明细数据做业务洞察分析。 分析自助化 用户的看板基于明细数据实时计算和汇总,能够支持进一步的数据挖掘和探索分析,快速洞察业务增长背后的深层次原因。 湖仓一体化 分冷,热,实时三级存储,满足实时与性能从低到高不同层级提速要求,可以将不同数据按时间或重要程度,分级提供最优性价比。 链路实时化 减少原有开发过程中的数据重跑检验过程;数据源(资产)变化时看板自动更新,无需等待。 3.7基于StarRocks构建湖仓一体解决方案 ➢独立无状态的ComputeNode支持灵活的计算扩展。➢存储层可以在对象存储上进行灵活的资源扩展。➢ComputeNode支持热存储(BE)和冷存储(对象存储)查询。➢通过数据下沉机制,可以实现数据在冷热存储的转储 3.8智能动态加速 3.9智能动态加速–StarRocks物化视图 基于LLM的数据工程平台 4.1多智能体架构,人与AI高度协同工作 ➢使用Agent多智能体架构,将一个Job(工作)分解成若干的Task(任务),在某些Task上由AI完成,某些Task人与AI协同完成(需求协同、验收协同),覆盖从业务需求到数据交付的全链路,各节点Agent可与用户实时交互,及时感知问题并进行干预和修正,确保系统的可持续优化。 4.2分层持续运营,AI持续进化 需求规范 需求模版 •需求模版定义(需求类型、匹配推荐)•需求质量识别(需求判断、缺失项说明) •需求格式标准(时间周期、逻辑、输出….)•需求分类(思维模式、复杂度、需求标签) 行业知识 特征资产 库表资产 通过特征资产优化匹配准确率 通过知识沉淀辅助逻辑拆分 通过库表资产优化计算效率 •沉淀派生指标计算逻辑、特殊逻辑说明;•沉淀非通用领域的维度枚举值、派生维度的计算规则; •完善库表元数据管理,包括数据标准化、分层、打标、表/字段描述;•根据数据资产的热度进行数据表的物化、湖仓沉降操作; •特征资产的增删改查;•根据特征相似度识别配置特征同义词;•配置个人特征向公共公共特征转化; 资产平台 工程平台 模型平台 •支持多种资产初始化方式•支持SR、MySQL、HIVE等 •支持个性化prompt配置•支持个性化API调用 4.3多租户、可配置、安全的工程平台 4.4平台的核心能力 稳定可控的需求构造 智能动态的计算加速 AI可理解的资产体系 可持续优化的运营平台 系统演示Demo Udata产品演示 5.2腾讯游戏数据团队内部的最佳实践:UData 大模型时代的智能数据助手 5.3相关书籍 《大模型实战:AI驱动下的数据体系》腾讯游戏数据团队编著 5.4欢迎联系交流 感谢观看! Thank you!