您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024AI研发数字峰会AiDD北京站]:崔宸-AI生成checklistQUNAR测试域结合AIGC提效实践 - 发现报告

崔宸-AI生成checklistQUNAR测试域结合AIGC提效实践

AI智能总结
查看更多
崔宸-AI生成checklistQUNAR测试域结合AIGC提效实践

AI ChecklistQUNAR测试域结合AIGC提效实践 崔宸去哪儿旅行 演讲嘉宾 崔宸 去哪儿旅行高级开发工程师 2022年加入去哪儿旅行基础架构-基础平台团队,主要负责测试域工具的研发。参与过自动化测试、联调平台、写压测等项目,对录制回放场景有深入了解。 熟悉AI大模型通识,23年开始主攻AI大模型应用方向,完成AI在测试域、需求域提效的应用落地。在去哪儿AIGCHACKATHON大赛获得冠军。 1.背景2.设计思路和方案3.效果评估方案4.成果及未来计划 目录CONTENTS 背景PART 01 现有痛点 用大模型生成checklist的好处 提 升Q A写c h e c k l i s t的 效 率 提 升 自 测 自 发 需 求 质 量f ro mto 可 以 检 查 需 求 文 档 的 质 量 质 量 好 :质 量 差 : f ro mto 设计关键点 准确度提升01 覆盖度推广02 效果度量方案03 设计思路和方案PART 02 业界参考样例 基于自有大模型及微调的一键生成方式 Qunar探索的解决方案 主要(便捷):基于通用大模型+聚焦于需求点+集成项目研发流程中的一键生成方式 辅助(灵活):智能体多轮问答 系统架构 执行流程 1.获取需求文档,对文本进行拆分2.结构化文档+prompt向大模型提问3.将AI返回的测试点进行转换,渲染为脑图4.归档AI生成与手动修改完的case,分析数据 产品文档预处理 解决方案: 原因分析: •需求文档无固定模板,规范性较低•需求文档中的无关内容影响生成效果 •需求文档预处理,提取需求正文•拆分需求正文,获得结构化需求点 文本解析模块 符合标准格式: •工程化解析需求正文及需求点列表•生成准确率高 问题: •对产品角色要求变高•QA角色获益•推进受阻 文本解析模块 圈定需求正文: •大模型解析需求点列表•预处理成本低•生成准确率高 文本解析模块 完全无格式: •大模型解析需求正文•大模型解析需求点列表•生成准确率取决于文档内容密度 需求分析模块 需求分析模块——prompt设计 角色 能力 测试专家&语言分析专家 1,提取需求点文本的关键信息2,给出测试点列表和示例 规则 样例 1.关键信息只保留一句精炼的概括信息2.每个测试点对应一个示例3.以JSON格式输出 通过history模拟Few shot的方式来提升回答的准确率 需求分析模块——LLM选择 AI基建情况 微调•机器显卡有限•缺少标准数据集内部大模型•小参数的开源大模型外部大模型•安全审核•接口统一化 项目流程集成 •项⽬管理流程⼊⼝触发 •定时扫描第⼆天进⼊开发中的需求,触发⾃动⽣成checklist qschedule 样例展示 使⽤AI Checklist后 效果评估方案PART 03 效果评估模块 采纳率 覆盖率按 照 项 目 维 度 统 计 用 户 使 用 情 况项 目 覆 盖 率 : 使 用 的 项 目 数/全 部 项 目 数 原 始 生 成 结 果 中 用 户 选 取 自 动生 成 节 点 的 概 率采 纳 率 :( T + 0 . 5 * P ) / A 0 完 全 可 采 纳 节 点 数T部 分 可 采 纳 节 点 数P完 全 不 可 采 纳 节 点 数F 召回率 用 户 进 行 修 改 之 后 采 用 的 自 动生 成 节 点 与 总 结 点 数 的 比 率召 回 率 :( T + 0 . 5 * P ) / A 1 效果评估模块 效果评估模块 中 文 文 本e m b e d d i n g模 型 是 一 种 将 文 本 转 换 为 向 量 表 示 的 技 术 , 它 能 够捕 捉文 本 的 语义和 语法信 息 ,并将其转 换 为连 续的 向 量空 间中 的 点 。这种表 示 方 式 在 自然语 言处 理 领域被 广 泛应 用于 各种任 务,如文 本 分类、 情感分 析 、命 名 实 体识别等 。 效果评估模块 效果评估模块 采纳率:(2*100%+1*50%)/5 = 50.0% 召回率:(2*100%+1*50%)/6 = 41.7% 成果及未来计划PART 04 目前效果 召回率 准确率 采纳率∝需求文档逻辑清晰程度60%-70% 召回率∝需求文档需求点拆分细致程度30%-40% 提效成果 落地范围 •5pd及以下需求,每个需求节省0.1pd•5pd以上需求,每个需求节省0.2pd•年化可节省约200pd•填补自测自发不写checklist的缺口 每月500+个项目使用产品需求覆盖率60%-70% 未来计划 内部大模型微调涉及核心私密数据的需求,可以走内部大模型生成01 接入内部知识库业务知识库:公司内部概念,黑话,历史资料等技术知识库:系统调用关系,业务代码资料等02 结合多模态支持解析PRD中存在的流程图、UI图信息03 THANKS