行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 智能驾驶大模型

基于大模型的蚂蚁智能研发

2024-10-01肖斌QEcon用***

AI智能总结

CodeFuse代码大模型探索与蚂蚁智能研发发展路线

代码大模型探索

蚂蚁代码大模型的发展路线分为大模型能力演进和大模型效能产品演进两个阶段：

大模型能力演进：
- 初期通过SOP方式编排多领域Agent，完成特定复杂任务或跨平台任务。
- 后期集成平台知识库或平台特定数据对模型进行加训，通过对话方式提供研发平台知识问答。
大模型效能产品演进：
- 从传统效能平台逐步升级为效能平台+Copilot，再到AI原生平台。
- 阶段包括：工具化平台、半智能化平台、AI原生平台。
- 最终目标是实现AI原生平台，即AI能力嵌入到用户每个操作中，通过更简单的操作完成更复杂的事情。

研发平台智能化

蚂蚁研发平台智能化的主要模式包括：

Copilot+Chat模式：
- 在现有产品功能上做智能化升级，适合生成式、总结类和推理类场景。
- 用户通过侧边栏进行平台知识库问答或直接使用效能平台能力。
AINative模式：
- 以领域Agent为核心，对研发流程进行全面升级，增加超级会话及Agent调度与执行能力。
- 建设AI原生的需求研发与交付平台。

难点与突破

算法关键技术与难点主要包括：

触发时机优化：
- 基于上下文感知学习(ICL)能力，解决幻觉问题。
- 通过Context-Aware感知边界，结合RAG+程序分析能力强化上下文。
- 利用本地仓库中文件预处理构建的文本库/向量库做相似度检索，通过AST解析和链路追踪找到相关代码。
上下文感知意义：
- 从单文件代码补全扩展到仓库内多文件代码补全，更加关注仓库整体依赖关系和相似代码段。
- 单文件代码补全无法利用仓库内其他文件信息，导致补全不准和幻觉问题。
代码补全自适应生成粒度：
- 采用Block-FIM技术，结合程序分析技术构建Block数据，Block粒度切分样本，模型生成完整Block停止。
- 解决了大模型自回归训练适合Chat任务，不支持代码补全的问题。

未来方案思考

人工智能应用阶段：
- 从AI程序员（Multi-Agent技术路线）逐步实现技术普惠，让AI让技术更加人性化。
- AI不是替代研发人员，而是让更多人成为AI的助力。

基于大模型的蚂蚁智能研发肖斌｜CodeFuseIDE插件技术负责人肖斌蚂蚁集团技术专家就职于蚂蚁集团CIO技术部，自2021年加入蚂蚁以来，探索与研发效能领域的前沿技术落地，主要从事软件工程智能化方向的研究和探索，致力于研发效能领域的前沿技术落地，当下专注于代码生成，A I对话等方向,目前是C o d e F u s e研发助手技术负责人。从0到1建设CodeFuseIDE系列插件，为代码大模型在蚂蚁研发领域落地铺平道路。目录 C O N T E N T S 1.CodeFuse代码大模型探索 2.蚂蚁智能研发发展路线 3.CodeFuse关键技术及难点突破 4.未来软件研发领域发展方向思考代码大模型探索01 代码大模型探索蚂蚁代码大模型发展路线大模型能力演进通过SOP方式编排多领域Agent，完成特定复杂任务或跨平台任务。集成平台知识库或平台特定数据对模型进行加训，通过对话方式提供研发平台知识问答。大模型效能产品演进传统效能平台效能平台+Copilot AINative效能平台工具化平台半智能化平台 AI原生平台通过效能平台Copilot完成AI能力的使用，用户一般通过侧边栏进行平台知识库问答或直接使用效能平台能力。通过程序，工具等传统方式满足用户各种明确且特定的功能。用户一般在产品上通过界面和特定操作流程完成任务。以AI技术为核心，能够自主进行复杂的任务处理和决策。AI能力嵌入到用户每个操作中，通常能通过更简单的操作完成更复杂的事情。 CodeFuse代码大模型落地现状研发平台智能化02 Copilot+Chat模式传统效能平台快速集成AI能力在现有产品功能上做智能化升级是AI应用的重要方式。一些适合的场景： 1.生成式，如自然语言生成用例、根据变更代码补齐测试用例等；2.总结类，如对PR标题和描述的总结、基于文档的总结与问答；3.推理类，如代码冲突解决、问题的诊断与修复、异常日志分析等； Copilot+Chat模式传统效能平台工具与AI能力升入结合单纯问答形式无法满足智能化需求，需要结合平台的能力进行智能化改造。以领域Agent为核心，对效能平台进行全面升级，增加会话及Agent调度与执行能力 AINative模式 AI原生：用户无需主动触发AI功能，任何原有功能都能友好嵌入AI能力至用户操作中。 AINative研发交付以领域Agent为核心，对研发流程进行全面升级，增加超级会话及Agent调度与执行能力，建设AI原生的需求研发与交付平台。难点与突破03 算法关键技术与难点算法关键技术与难点如何对高频场景进行触发时机优化（代码补全为例）基于上下文感知学习(ICL )能力，解决幻觉问题 Context-Aware感知边界基于上下文感知学习(ICL )能力，解决幻觉问题基于上下文感知学习(ICL )能力，解决幻觉问题结合RAG+程序分析能力强化上下文。感知本地仓库中文件预处理构建的文本库/向量库做相似度检索寻找相似代码。通过AST解析，应用链路等追踪手段，找到对应相关代码并压缩 Context-Aware意义从上下文感知扩展到整个仓库感知范围 •仓库内多文件代码补全•70%的代码编写会用到仓库内其他文件信息•更加关注仓库整体依赖关系•更加关注与目标代码相似的代码段 •单文件代码补全•无法利用仓库内其他文件信息•仅能完成30%的场景•补全不准，出现严重的幻觉基于上下文感知学习(ICL )能力，解决幻觉问题代码补全自适应生成粒度 Block效果展示 •Motivation •大模型自回归训练适合Chat任务，不支持代码补全。•代码补全需要根据代码的上下文预测代码缺失部分，无法结合上下文进行完型填空。 •FIM（Fillinthemiddle） •将训练的文本序列一部分移动到结尾，自回归重新排序进行训练。•Character：字符粒度随机切分样本，生成结果无法保证语法准确性，需要复杂后处理。 •Block-FIM •Block：结合程序分析技术构建Block数据，Block粒度切分样本，模型生成完整Block停止。未来方案思考04 人工智能应用阶段 AI程序员（Multi-Agent技术路线）技术普惠 AI让技术更加人性化：AI不是替代我们研发人员，是让更多人成为我们感谢聆听

点击免费查看完整报告