您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[QEcon]:基于大模型的蚂蚁智能研发 - 发现报告

基于大模型的蚂蚁智能研发

2024-10-01肖斌QEcon用***
AI智能总结
查看更多
基于大模型的蚂蚁智能研发

基于大模型的蚂蚁智能研发 肖斌|CodeFuseIDE插件技术负责人 肖斌 蚂蚁集团技术专家 就职于蚂蚁集团CIO技术部,自2021年加入蚂蚁以来,探索与研发效能领域的前沿技术落地,主要从事软件工程智能化方向的研究和探索,致力于研发效能领域的前沿技术落地,当下专注于 代 码 生 成 ,A I对 话 等 方 向,目 前 是C o d e F u s e研 发 助 手 技 术 负 责 人 。 从0到1建 设CodeFuseIDE系列插件,为代码大模型在蚂蚁研发领域落地铺平道路。 目录 C O N T E N T S 1.CodeFuse代码大模型探索 2.蚂蚁智能研发发展路线 3.CodeFuse关键技术及难点突破 4.未来软件研发领域发展方向思考 代码大模型探索01 代码大模型探索 蚂蚁代码大模型发展路线 大模型能力演进 通过SOP方式编排多领域Agent,完成特定复杂任务或跨平台任务。 集成平台知识库或平台特定数据对模型进行加训,通过对话方式提供研发平台知识问答。 大模型效能产品演进 传统效能平台 效能平台+Copilot AINative效能平台 工具化平台 半智能化平台 AI原生平台 通过效能平台Copilot完成AI能力的使用,用户一般通过侧边栏进行平台知识库问答或直接使用效能平台能力。 通过程序,工具等传统方式满足用户各种明确且特定的功能。用户一般在产品上通过界面和特定操作流程完成任务。 以AI技术为核心,能够自主进行复杂的任务处理和决策。AI能力嵌入到用户每个操作中,通常能通过更简单的操作完成更复杂的事情。 CodeFuse代码大模型落地现状 研发平台智能化02 Copilot+Chat模式 传统效能平台快速集成AI能力 在现有产品功能上做智能化升级是AI应用的重要方式。一些适合的场景: 1.生成式,如自然语言生成用例、根据变更代码补齐测试用例等;2.总结类,如对PR标题和描述的总结、基于文档的总结与问答;3.推理类,如代码冲突解决、问题的诊断与修复、异常日志分析等; Copilot+Chat模式 传统效能平台工具与AI能力升入结合 单纯问答形式无法满足智能化需求,需要结合平台的能力进行智能化改造。 以领域Agent为核心,对效能平台进行全面升级,增加会话及Agent调度与执行能力 AINative模式 AI原生:用户无需主动触发AI功能,任何原有功能都能友好嵌入AI能力至用户操作中。 AINative研发交付 以领域Agent为核心,对研发流程进行全面升级,增加超级会话及Agent调度与执行能力,建设AI原生的需求研发与交付平台。 难点与突破03 算法关键技术与难点 算法关键技术与难点 如何对高频场景进行触发时机优化(代码补全为例) 基于上下文感知学习(ICL )能力,解决幻觉问题 Context-Aware感知边界 基于上下文感知学习(ICL )能力,解决幻觉问题 基于上下文感知学习(ICL )能力,解决幻觉问题 结合RAG+程序分析能力强化上下文。 感知本地仓库中文件预处理构建的文本库/向量库做相似度检索寻找相似代码。通过AST解析,应用链路等追踪手段,找到对应相关代码并压缩 Context-Aware意义 从上下文感知扩展到整个仓库感知范围 •仓库内多文件代码补全•70%的代码编写会用到仓库内其他文件信息•更加关注仓库整体依赖关系•更加关注与目标代码相似的代码段 •单文件代码补全•无法利用仓库内其他文件信息•仅能完成30%的场景•补全不准,出现严重的幻觉 基于上下文感知学习(ICL )能力,解决幻觉问题 代码补全自适应生成粒度 Block效果展示 •Motivation •大模型自回归训练适合Chat任务,不支持代码补全。•代码补全需要根据代码的上下文预测代码缺失部分,无法结合上下文进行完型填空。 •FIM(Fillinthemiddle) •将训练的文本序列一部分移动到结尾,自回归重新排序进行训练。•Character:字符粒度随机切分样本,生成结果无法保证语法准确性,需要复杂后处理。 •Block-FIM •Block:结合程序分析技术构建Block数据,Block粒度切分样本,模型生成完整Block停止。 未来方案思考04 人工智能应用阶段 AI程序员(Multi-Agent技术路线) 技术普惠 AI让技术更加人性化:AI不是替代我们研发人员,是让更多人成为我们 感 谢 聆 听