行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

软件工程领域基于 LLM 的生成式搜索实践

2025-01-09 刘志伟 - 静心悟动

软件工程领域基于 LLM 的生成式搜索实践

搜索的业务场景

研发领域搜索的重要性：58%的开发人员时间用于搜索和阅读代码，轻松获取信息能提升60%的工作能力和11%的生产力。
研发域搜索场景：
- 通用研发场景：新人了解产品、交接业务、问题排查、资料学习等。
- 代码研发场景：找不到参考代码、重复开发、组件使用、影响代码修改、漏洞止损、基础框架升级、代码定位等。

搜索当前的痛点问题

小程序私域搜索痛点：搜索流量小、引导转化效果差、排序因子单一。
通用痛点：知识获取成本高、分散平台、相关性结果冗余。

大模型在知识方面的问题

大模型自身问题：无法记住全部知识、知识时效性、易泛化虚假答案。
行业解决方案：ChatGPT-retrieval-plugin、WebGPT、检索增强。

搜索和大模型结合架构方案

关键点：产品层接入、多种数据源对接、离线索引计算生成、索引数据存储、用户画像、在线高性能相关性召回。
架构方案：
- 研发领域底座模型构建：
  - 数据：Github公开数据、计算机类图书教材、论文等，清洗出T级别高质量数据集。
  - 算法：GPT架构优化、研发领域行业大模型MBPP评测国内国际第一梯队。
- 生成式搜索总结模型构建：
  - 总结模型微调：在底座模型基础上构造微调数据，提升总结能力和文档引用。
  - Prompt构建：优化Prompt可提升20%+问法效果。
- 数据与知识构建：
  - 三类数据：实时上下文数据、站点内容数据、站点能力接口。
  - 数据管理平台：能力触发数据管理。

生成式搜索的用户交互

站点搜索框：一行代码嵌入搜索框组件，自动具备大模型能力。
站点气泡框：搜索和答疑场景，如代码托管平台权限申请。

大模型与研发产品

大模型持续改进：
- 数据：大规模高质量清洗加工，建设数据质量模型。
- 算法：大模型结构算法改进，PEFT、MQA、attention层改造等。
- 场景：text-2-command, text-2-sql，问题排查，code review等，部分场景80%准确度以上。
产品：
- 大模型原生cloudIDE：产品体验代际提升。
- 站点智能助手：一行代码插入搜索框或气泡，提升用户体验。
- CodeFuse代码大模型：自然语言生成代码、网页、小程序等。

未来展望

研发领域大模型合作。
支付宝小程序私域智能搜索。
技术交流：钉钉、微信。

软件工程领域基于LLM的生成式搜索实践刘志伟蚂蚁集团风险效能高级技术专家刘志伟（比奥）现就职于蚂蚁集团，高级技术专家风险效能部搜索与推荐团队负责人，负责： •私域搜索，包括研发知识搜索、小程序私域搜索•分布式链路追踪、微服务问题排查、智能客服•代码大模型的数据、模型解释性方向 01 搜索的业务场景 02 研发域搜索架构以及业务效果目录CONTENTS 03 大模型痛点以及和搜索整合的架构 04 产品实践 05 讨论研发领域的搜索的重要性搜索是解决大规模数据下信息和知识如何高效获取的问题 58%开发人员58%的时间是在搜索和阅读理解代码 60%11%当开发人员能轻松找到他们需要的东西时，他们觉得自己有能力完成工作的可能性高出60%，此外，只要团队仓库易于搜索，就有11%的生产力提升数据来自：•https://octoverse.github.com/•Measuring program comprehension: A large-scale field study with professionals 研发域搜索的场景通用研发场景： •新人了解产品技术情况 •我是个新同学，希望对历史的信息了解的不全面，想要对历史的信息做追溯和了解，通过搜索过滤•交接新的平台或业务，了解过去的需求背景及实现细节等 •寻找问题排查方案 •找一些研发文档、技术手册，当开发的任务有运行问题时，为了解决这些问题就会去找文档 •想做某件事不知道去哪里完成 •需要下线一台机器，知道公司有个平台中某个功能，但怎么也找不到在哪 •资料学习 •学习的时候会找一些学习资料，比如高并发相关•…… 研发域搜索的场景代码研发场景： •不知道怎么用（找不到参考代码） •某个中台接口，38个入参、37个出参，20个错误码。支持上万的业务场景（包括了如扫码付、地铁协议支付），每个业务场景该传什么参数•使用一个开源的组件，接口文档不清晰，不知道怎么用 •重复开发造成低效工作量浪费 •要做个协议转换，知道肯定有人已经写过了，但不知道哪里有，重复开发•看到某网站使用了一个厉害的前端组件，怎么才能快速找到自己也用起来 •影响太多，不敢改代码 •支付流水号扩位（16位改32位），数周到数月的人工批量检查大规模代码 •漏洞止损难 •业界log4j报了安全漏洞，全仓库有没有使用有问题的log4j版本•全仓库是否有明文秘钥，以及泄露在哪些地方了 •基础框架升级难 •Python2要升级Python3，全仓库哪些地方使用Python2，升级进展怎么样 •代码定位难 •日志报错在哪打的，谁改了这段代码 •…… 搜索当前的痛点问题以小程序私域搜索为例： •搜索流量小，实际引导和转化效果差 1、搜索框入口和Query下拉列表无任何提示引导 2、「搜索发现」和「热搜榜单」固定词条配置，“千人一面” 3、销量主导下商品排序因子单一，中长尾商品无曝光和转化搜索改版前研发域搜索的架构方案关键点 •产品层，搜索能力接入•多种数据源对接方式•离线索引数据计算和生成•索引数据存储•用户画像，千人千面•在线高性能相关性召回小程序云-智能搜索案例介绍开发支付宝小程序： •开通支付宝小程序云cloud.alipay.com•智能营销版块即使用智能搜索能力，数据导入，即可通过插件或API接入搜索能力•同时还有个性化推荐、用户画像、增长分析等小程序云-智能搜索案例介绍搜索还未被很好解决的痛点但搜索还有未被很好解决的痛点：知识获取成本依然高 •分散在多个平台多个常用的平台挨个尝试•相关性的结果，多个搜索结果自己总结答案举例：在已有代码上找到API几种典型的用法并参考。然而通过相关性找到的搜索结果往往成千上万大模型是解决这些问题很好的技术方案大模型在知识方面的问题大模型自身在知识方面也存在问题行业的解决方案 •OpenAI：chatgpt-retrieval-plugin•WebGPT•LangChain：检索增强 •无法记住全部知识•知识具有一定的时效性•容易泛化虚假答案搜索和大模型结合架构方案关键点 •研发领域底座模型0->1•生成式搜索总结模型微调•数据与知识的构建研发领域的底座模型构建-数据 •采集&清洗：Github公开仓库百T+，commit，PR等公开数据；计算机类图书、教材；论文；计算机类站点等，清洗出T级别的计算机高质量数据集 •核心清洗技术：研发领域主流LLM低质量过滤模型，以及代码领域的深度程序分析技术，基于语法、缺陷等深度清洗，代码画像聚类确保数据类型分布合理研发领域的底座模型构建-算法 •GPT架构，旋转位置编码等优化 •研发领域的行业大模型，MBPP评测国内和国际第一梯队生成式搜索总结模型的构建 •总结模型微调：在底座模型基础上，构造微调数据，形成总结模型。具备更好在总结能力，以及文档引用。 •Prompt构建：prompt构建需要很好的技巧，经实验，20%+的问法可以通过优化Prompt得到更好的回答数据与知识的构建 3类数据： •第一类：实时上下文数据•Prompt补齐上下文•第二类：站点内容数据•模型训练与微调•搜索与总结•第三类：站点能力接口•能力触发生成式搜索的用户交互站点的搜索框一行代码嵌入搜索框组件，自动具备大模型能力生成式搜索的用户交互插入在站点的气泡框搜索和答疑场景：各站点平台在操作的过程中会遇到各种问题，比如代码托管平台，用户如何申请仓库权限未来展望大模型：研发领域行业大模型持续改进越来越好 •数据：大规模高质量清洗和加工，建设数据质量模型，精细化清洗技术•算法：大模型结构算法改进，PEFT、MQA、attention层改造等•场景：持续落地各业务场景，解决好研发域各种场景问题：text-2-command, text-2-sql，问题排查，codereview，测试用例生成，故障应急等，部分场景已达到80%准确度以上，线上应用状态重塑研发产品： •大模型原生的cloudIDE，产品体验代际提升•站点智能助手：一行代码插入搜索框或气泡，即具备大模型交互，提升用户体验、留存和转化•CodeFuse代码大模型：自然语言生成代码、网页、小程序…•…… 大模型全面研发和产品重塑中，欢迎合作或加入一起欢迎交流讨论 •研发领域的大模型合作•支付宝小程序私域智能搜索•技术交流感谢聆听

点击免费查看完整报告

软件工程领域基于 LLM 的生成式搜索实践