行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

崔宸-AI生成checklistQUNAR测试域结合AIGC提效实践

医药生物 2024-11-17 2024AI研发数字峰会AiDD北京站 Roger谁都不是你的反派大魔王

背景

去哪儿旅行面临PM、DEV、QA三方沟通效率低、需求文档质量参差不齐、自测自发需求不充分等痛点。通过AI生成Checklist可提升需求文档质量、提高QA写Checklist的效率。

设计思路和方案

解决方案：基于通用大模型的一键生成方式为主，辅以智能体多轮问答。
系统架构：包括需求文档预处理、文本解析模块、需求分析模块、项目流程集成等。
关键点：准确度提升、覆盖度推广、效果度量方案。
执行流程：获取需求文档、结构化文档并提问大模型、转换渲染为脑图、归档分析数据。
产品文档预处理：提取需求正文，拆分需求正文获得结构化需求点。
文本解析模块：圈定需求正文，提高生成准确率。
需求分析模块：通过prompt设计提取关键信息，生成测试点列表和示例。
LLM选择：考虑采纳率、召回率、成本等因素，选择合适的LLM。
项目流程集成：融入通用case模板，通过项目管理流程入口、checklist平台手动触发或定时扫描触发自动生成。

效果评估方案

评估指标：采纳率、覆盖率、召回率。
统计口径：自动生成总节点数、完全可采纳节点数、部分可采纳节点数等。
方案对比：用户点击反馈、字符串匹配、基于Embedding模型匹配。
中文文本embedding模型：将文本转换为向量表示，捕捉语义和语法信息。

成果及未来计划

提效成果：每月500+个项目使用，需求覆盖率60%-70%，采纳率∝需求文档逻辑清晰程度，准确率召回率∝需求文档需求点拆分细致程度。
节省时间：5pd及以下需求每个节省0.1pd，5pd以上需求每个节省0.2pd，年化可节省约200pd。
未来计划：接入内部大模型微调、接入内部知识库、结合多模态支持解析PRD中的流程图、UI图信息。

AI ChecklistQUNAR测试域结合AIGC提效实践崔宸去哪儿旅行演讲嘉宾崔宸去哪儿旅行高级开发工程师 2022年加入去哪儿旅行基础架构-基础平台团队，主要负责测试域工具的研发。参与过自动化测试、联调平台、写压测等项目，对录制回放场景有深入了解。熟悉AI大模型通识，23年开始主攻AI大模型应用方向，完成AI在测试域、需求域提效的应用落地。在去哪儿AIGCHACKATHON大赛获得冠军。 1.背景2.设计思路和方案3.效果评估方案4.成果及未来计划目录CONTENTS 背景PART 01 现有痛点用大模型生成checklist的好处提升Q A写c h e c k l i s t的效率提升自测自发需求质量f ro mto 可以检查需求文档的质量质量好：质量差： f ro mto 设计关键点准确度提升01 覆盖度推广02 效果度量方案03 设计思路和方案PART 02 业界参考样例基于自有大模型及微调的一键生成方式 Qunar探索的解决方案主要（便捷）：基于通用大模型+聚焦于需求点+集成项目研发流程中的一键生成方式辅助（灵活）：智能体多轮问答系统架构执行流程 1.获取需求文档，对文本进行拆分2.结构化文档+prompt向大模型提问3.将AI返回的测试点进行转换，渲染为脑图4.归档AI生成与手动修改完的case，分析数据产品文档预处理解决方案：原因分析： •需求文档无固定模板，规范性较低•需求文档中的无关内容影响生成效果 •需求文档预处理，提取需求正文•拆分需求正文，获得结构化需求点文本解析模块符合标准格式： •工程化解析需求正文及需求点列表•生成准确率高问题： •对产品角色要求变高•QA角色获益•推进受阻文本解析模块圈定需求正文： •大模型解析需求点列表•预处理成本低•生成准确率高文本解析模块完全无格式： •大模型解析需求正文•大模型解析需求点列表•生成准确率取决于文档内容密度需求分析模块需求分析模块——prompt设计角色能力测试专家&语言分析专家 1，提取需求点文本的关键信息2，给出测试点列表和示例规则样例 1.关键信息只保留一句精炼的概括信息2.每个测试点对应一个示例3.以JSON格式输出通过history模拟Few shot的方式来提升回答的准确率需求分析模块——LLM选择 AI基建情况微调•机器显卡有限•缺少标准数据集内部大模型•小参数的开源大模型外部大模型•安全审核•接口统一化项目流程集成 •项⽬管理流程⼊⼝触发 •定时扫描第⼆天进⼊开发中的需求，触发⾃动⽣成checklist qschedule 样例展示使⽤AI Checklist后效果评估方案PART 03 效果评估模块采纳率覆盖率按照项目维度统计用户使用情况项目覆盖率：使用的项目数/全部项目数原始生成结果中用户选取自动生成节点的概率采纳率：( T + 0 . 5 * P ) / A 0 完全可采纳节点数T部分可采纳节点数P完全不可采纳节点数F 召回率用户进行修改之后采用的自动生成节点与总结点数的比率召回率：( T + 0 . 5 * P ) / A 1 效果评估模块效果评估模块中文文本e m b e d d i n g模型是一种将文本转换为向量表示的技术，它能够捕捉文本的语义和语法信息，并将其转换为连续的向量空间中的点。这种表示方式在自然语言处理领域被广泛应用于各种任务，如文本分类、情感分析、命名实体识别等。效果评估模块效果评估模块采纳率：(2*100%+1*50%)/5 = 50.0% 召回率：(2*100%+1*50%)/6 = 41.7% 成果及未来计划PART 04 目前效果召回率准确率采纳率∝需求文档逻辑清晰程度60%-70% 召回率∝需求文档需求点拆分细致程度30%-40% 提效成果落地范围 •5pd及以下需求，每个需求节省0.1pd•5pd以上需求，每个需求节省0.2pd•年化可节省约200pd•填补自测自发不写checklist的缺口每月500+个项目使用产品需求覆盖率60%-70% 未来计划内部大模型微调涉及核心私密数据的需求，可以走内部大模型生成01 接入内部知识库业务知识库：公司内部概念，黑话，历史资料等技术知识库：系统调用关系，业务代码资料等02 结合多模态支持解析PRD中存在的流程图、UI图信息03 THANKS

点击免费查看完整报告

崔宸-AI生成checklistQUNAR测试域结合AIGC提效实践

背景

设计思路和方案

效果评估方案

成果及未来计划

你可能感兴趣

AI生成checklist：Qunar使用AIGC在测试域的提效实践

刘鑫-AI辅助测试开发领域端到端流程提效实践

「AI研习社」解码热门AI应用，智能质检、3D生成与AIGC实践分享

25Q1点评：AI驱动广告超预期，期待中视频生成工具进一步提效

【盘中宝】或为AIGC优先释放大产能的细分赛道，行业营销、制作和运营环节均将被重塑，龙头公司已在部分核心产品中测试Al 这家公司已尝试利用AI技术，降本提质效果显著-20240222

顾炯宸-京东春晚活动专题：DevOps 左移测试工程实践

【机构龙虎榜解读】多模态+AI视频+短剧+抖音电商，与巨量引擎签署数据推广合作协议，基于自研营销领域专用的AIGC多模态模型，已实现图片、视频等多种形式的智能化内容生成，这家公司获净买入

【点金互动易】 AI PCAIGC 基于AI芯片的Al PC项目已在研发当中，微软、AMD等企业是其重要合作伙伴，这家公司提供AIGC生成式AI本地化解决方案，可以在PC端通过大模型生成文字、图像等

【掘金行业龙头】多模态+AIGC，多模态大模型进入实验性训练阶段，AIGC产品覆盖图像、音乐、文本、编程等多模态内容生成能力，这家公司已发布多个AI助手

【电报解读】各国逐渐重视AI安全问题，保护用户数据成为当务之急，这两种技术途径可对AI生成内容进行判别，这家公司可实现AIGC生成文本的检测识别