行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

李传艺-一种基于修复偏好的自动程序修复工具集成策略

医药生物2024-11-172024AI研发数字峰会AiDD北京站E***

AI智能总结

APR研究现状及集成方法

APR (Automated Program Repair) 旨在自动修复软件系统中的缺陷，目前已有超过40种APR工具，包括：
- 传统基于规则的工具：如GenProg（采用遗传算法）、Nopol（基于语义约束）、TBar（基于修复模板）。
- 基于神经机器翻译 (NPR) 的工具：如CoCoNut（结合上下文感知的NMT架构和CNN模型）、SequenceR、DLFix、Cure、Circle、RewardRepair、Codit、SelfAPR、Recoder、Tare。
- 基于大语言模型 (LLM) 的工具：如AlphaRepair、PLBART、CodeT5、CodeGen、InCoder、GPT-Neo、GPT-J、GPT-NeoX、Codex、GPT(3.5/4)、ChatRepair、RTTAPR、Srepair、ThinkRepair、FixAgent、RepairAgent。

本工作动机

现有基于学习的APR工具集成方法存在训练数据构造成本高、特征选取随机性大、增加新的APR工具代价大等问题。
提出非基于训练的集成方案，无需构建专门的训练数据，随着修复经验积累性能增强。
通过待修复Bug和APR工具能修复、不能修复的Bug之间的关系度量，直接度量一个APR工具是否能够修复一个Bug。

基于修复偏好的集成方案

P-EPR (Preference-based Ensemble Program Repair)：根据APR工具对各类特征（共4类）的Bug的修复能力（能/不能）进行分类，并建立修复能力与Bug特征之间的映射关系。
集成框架：
1. 为3类传统APR工具整理其修复能力与Bug特征之间的映射关系。
2. 根据修复历史数据为所有工具初始化/更新Bug特征与修复能力的映射。
3. 抽取待修复Bug的特征。
4. 为所有工具计算成功修复输入Bug的得分并排序。
5. 按序执行工具并记录结果。
评分机制：
- BaseScore：根据修复历史中记录的修复能力和Bug特征之间的关系计算基础得分。
- PatternFactor：如果Bug特征符合传统工具的修复偏好，则通过提升影响因子的方式为传统工具加分。
- Final Score = Base Score * (1+Pattern Factor)：优先选择传统APR工具，可解释、更可信。
更新机制：
- 添加新的工具：直接更新Repair Patterns、Repair History，不影响其他工具。
- 持续更新修复历史：所有工具的修复历史都会持续更新；不强制新工具有历史数据，冷启动问题：得分低，难以被选中。

实验和结果讨论

实验设置：
- 包括21个APR工具的仿真模拟实验和4个APR工具的真实场景下的执行与验证实验。
- 集成框架仅为测试集中的Bug推荐APR工具的执行顺序，实际修复与否、修复代价则直接复用已公开数据。
- 数据集为Defects4J；Repair History设置为空；输入顺序Random，修复偏好影响因子0.5。
评估指标：
- Baselinel：评估指标包括被正确修复的Bug数量、找到Plausible补丁的Bug数量、APR工具调用次数、人工检验Plausible补丁的次数、相比执行所有工具而节约的工具调用次数、人工检验似真补丁的次数。
- RQ1. 总体性能：与Invoking All、Optimal Selection对比，取得接近性能时大幅度降低工具执行、人工检查的开销；与E-APR、E-APR(enhanced)对比，Pattern对P-EPR的贡献。
- RQ2. 组件消融：所有组件都有影响，影响较大的初始修复历史数据、是否动态更新修复历史、Pattern影响因子取值取影响不大。
- RQ3. 实用性能：4个NPR工具在Bears数据集中的83个Single-hunk的Bug上真实执行，P-EPR集成策略超越了所有单个NPR工具的修复性能：正确修复数量、精准率；单位修复正确的Bug节约的工具执行开销、人工验证开销都比单个工具要高很多，相比单独使用任何一个模型更加实用！

总结、展望与补充讨论

P-EPR 总结了一种实用的APR集成方案：充分发挥各APR工具的优势，在降低时间、计算资源开销的基础上提升修复性能；容易加入新的APR工具；随着历史数据积累的越多，效果越好。
展望1：集成方案的优化。但是，该集成思路能正确修复的Bug数量，无法超越所有单个模型能修复的Bug并集能力更强的APR工具；在生成补丁程序Token时集成不同的修复工具。
展望2：集成LLM-based Self-enhancing APR。将其放在固定的位次作为候选，例如尝试Top 3都不行，则尝试这类方法。基于LLM使用Chain-of-Thought、Agents、Additional Generation、Self-correction等技术。仅使用Bug内部信息：上下文代码、错误代码的位置；另使用Bug外部信息：测试用例、报错信息、调试信息等。
补充：LLM-based Self-enhancing APR泛化性。
- SRepair修复Defects4J数据集上近300个Bug(共500+)；非LLM方案最多能修复不到100个。
- 使用的额外信息：缺陷报错信息、触发缺陷的测试用例、开发者或用户对缺陷的评论。
- LLM的自增强APR方法表现出非常突出的性能，但不是所有缺陷修复场景下这都很容易获取，Magicoder对不同场景的泛化性受到影响。
- SRepair在更多其他数据集上都能表现很好吗？测试了Defects4J、QuixBugs、HumanEval-Java、BugsInPy。
- 如果LLM对不同数据集的记忆程度不同，且记忆多效果好，记忆少效果差，如何度量LLM对数据集的掌握情况——记忆程度？LLM补全的代码和真实代码之间的Type-1克隆：数量和密度。
- 增大记忆会提升效果吗？+ 降低记忆会降低效果吗？构造包含BugsInPy general-level和bug-level知识的数据集，并微调Base LLM；对Srepair第二个LLM也使用微调后的LLM。
- Base LLM对评测数据集的记忆程度会影响对自增强方法性能提升的评测结果，评测时使用多种不同的评测数据集合、尽可能使用包含新收集数据的评测数据集，使用新的Bug数据持续更新APR的评测数据集。

一种基于修复偏好的自动程序修复工具集成策略李传艺南京大学演讲嘉宾李传艺南京大学助理教授 CCF系统软件专委、软件工程专委执行委员。主要研究方向为智能化软件技术，在ACMTOSEM、IEEETSC、IEEE/ACMTASLP、ACMTKDD、JSS、InS.、FGCS、JPDC、软件学报、计算机学报和ICSE、ESEC/FSE、ASE、ACL、AAAI、IJCAI、EMNLP等国内外重要学术期刊和会议发表论文60余篇，获授权专利6项。主持国家自然科学基金项目、CCF-华为胡杨林基金项目，以及华为、腾讯、华夏幸福等企业创新项目10余项，成果研制了一系列智能化软件工具，落地应用于国产编程语言开发环境搭建、国产操作系统生态建设等信创领域。 1.APR研究现状及集成方法2.本工作动机3.基于修复偏好的集成方案4.实验和结果讨论5.总结、展望与补充讨论目录CONTENTS APR研究现状及集成方法PART 01 丰富的APR系统（1） lAPR(Automated Program Repair)旨在自动修复软件系统中的缺陷l目前已经有超过40种的APR工具，包括 l传统的基于规则的工具l基于神经机器翻译的工具（NPR）l基于大语言模型（LLM）的工具 1.基于启发式搜索：人工定义启发式规则,指导修复补丁的生成过程例子:GenProg[1],采用遗传算法，以能通过的测试用例的数量为优化目标，不断修改缺陷的代码片段直到产生通过所有测试用例的代码 2.基于语义约束：通过某种手段推断程序的正确规约,作为约束指导补丁的生成过程例子:Nopol[2],针对java程序中的条件语句，首先在出错的代码位置搜集所有变量的取值情况,然后根据期望的条件语句取值情况(true或false),将程序语义编码成为Z3约束求解器的约束进行求解 3.基于修复模板的方法：根据开发者、研究人员的经验或者数据挖掘的结果预定义一些补丁模板或者补丁生成策略用于指导修复的过程例子:TBar[3],基于修复模板的大成之作，集成了大量的补丁模板 [1] LeGoues, C., Nguyen, T., Forrest, S., & Weimer, W. (2011).Genprog: A generic method for automatic software repair.Ieeetransactions on softwareengineering, 38(1), 54-72.[2] Xuan,Jifeng, et al. "Nopol: Automatic repair of conditional statement bugs in java programs." IEEE Transactions on Software Engineering 43.1(2016): 34-55.[3] Liu, K.,Koyuncu, A., Kim, D. andBissyandé, T.F., 2019, July.TBar: Revisiting template-based automated program repair. ISSTA 2019(pp. 31-42). 丰富的APR系统（2） lAPR(Automated Program Repair)旨在自动修复软件系统中的缺陷l目前已经有超过40种的APR工具，包括 l传统的基于规则的工具l基于神经机器翻译的工具（NPR）l基于大语言模型（LLM）的工具 1.Tufano等人[1]将程序修复定义为神经机器翻译(Neural Machine Translation)任务;CoCoNut[2]就结合了上下文感知的NMT架构和CNN模型用于程序修复 2.目前NPR的改进角度大致可以分为三类：数据预处理、输入表示(recoder)和输出搜索(decoder) 3.SequenceR[3]能够在类级别的代码上下文中接受最多1,000个令牌作为输入，以确保其在不同场景中的适用性；DLFix[4]为有bug的代码实现了重命名抽象，这样可以增强修复模型学习如何修复类似错误的能力。Cure[5]在其NMT架构中添加了一个在源代码上预训练的GPT编码模块，而Circle[6]和RewardRepair[7]则利用一个基于Transformer的预训练语言模型T5作为它们的编码器。目前NPR的解码器架构主要分为两种类型：一类是LSTM或Transformer序列解码器，由Codit[8]和SelfAPR[9]采用；另一类是Recoder[10]和Tare[11]自己设计的结构感知解码器，它们将解码阶段建模为AST的修改，而不是生成文本序列。4.最近随着各种大语言模型（LLM）的出现，NPR研究人员开始探索将LLM用于程序修复。RepairLLaMA[12]，设计了多种输入/输出的内容格式，并采用Lora方法来微调CodeLLaMA 丰富的APR系统（2）——引用列表 [1]An Empirical Study on Learning Bug_x0002_Fixing Patches in the Wild via Neural Machine Translation.[2]CoCoNuT: combining context-aware neural translation models using ensemble for program repair.[3]SequenceR: Sequence-to-Sequence Learning for End-to-End Program Repair.[4]DLFix: context-based code transformation learning for automated program repair.[5] CURE: Code-Aware Neural Machine Translation for Automatic Program Repair.[6] CIRCLE: continual repair across programming languages.[7] Neural Program Repair with Execution-based Backpropagation.[8] CODIT: Code Editing With Tree-Based Neural Models.[9]SelfAPR: Self-supervised Program Repair with Test Execution Diagnostics.[10] A syntax-guided edit decoder for neural program repair.[11] Tare: Type-Aware Neural Program Repair.[12]RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair. 丰富的APR系统（3） lAPR(Automated Program Repair)旨在自动修复软件系统中的缺陷l目前已经有超过40种的APR工具，包括 l传统的基于规则的工具l基于神经机器翻译的工具（NPR）l基于大语言模型（LLM）的工具 1.AlphaRepair[1]是第一个non-training LLM-based APR工具：将缺陷修复转化为MLM任务，在遮蔽缺陷行后，利用CodeBERT对遮蔽进行预测，从而修复缺陷行。 2.Jiang等人[2]对于PLBART、CodeT5、CodeGen和InCoder四种LLM进行了实证，实验结果发现，在不微调的情况下，这四种LLM的修复性能在Defects4J v2.0、QuixBugs和HumanEval-Java上优于传统的NPR模型，而在Defects4J v1.2上与最先进的NPR模型修复性能基本持平； 3.Xia等人[3]也进行了相似的研究，发现GPT-Neo、GPT-J、GPT-NeoX和InCoder的修复性能仍逊于最先进的NPR工具，但Codex超过了现存所有NPR。这对于LLM4APR的未来，给了研究人员们极大的信心。 4.而随着GPT-3.5的出现，LLM4APR的浪潮达到了顶峰，GPT(3.5/4)4APR成为了目前最主流的修复工具：如利用Bug外部信息与GPT进行对话式修复的ChatRepair[4]；有利用往复翻译（RTT）进行修复的RTTAPR[5]；有利用GPT-3.5生成额外信息指导开源模型修复的Srepair[6]；有利用思维链增强修复性能的ThinkRepair[7]；也有很多Agent-based的修复工具，如FixAgent[8]、RepairAgent[9]。 5.目前这些GPT(3.5/4)-basedAPR在诸如Defects4J、QuixBugs(Python/Java)上远超其他任何APR技术的修复性能。丰富的APR系统（3）——引用列表 [3] Automated Program Repair in the Era of Large Pre-trained Language Models [5] A Novel Approach for Automated Program Repair using Round-Trip Translation with Large LanguageModels [6] How Far Can We Go with Practical Function-Level Program Repair?[7]ThinkRepair: Self-Directed Automated Program Repair[8] A Unified Debugging Approach via LLM-Based Multi-Agent Synergy[9]RepairAgent: An Autonomous, LLM-Based Agent for Program Repair 交叉的修复性能——不包括非训练方式LLM-based l没有一个工具能够超越其他所有工具单个模型能够修复的Bug数量所有模型能够修复的Bug数量巨大差距对同一个Bug尝试所有工具vs.首先尝试最有可能修复Bug的工具基于学习的APR工具集成方法 AldeidaAletiand Matias Martinez. 2021.E-APR: Mapping the effectiveness of automatedprogram repair techniques.Empirical Software Engineering,26, 5 (2021), 99. l创新想法：不同于追求单个APR⼯具的性能，⾸次尝试为Bug选择⼯具 l收集能够度量Bug特征的角度，用于关联Bug和APR工具；做特征关联分析l搜集和构造<Bug，APR工具>数据对l使用SVM、DT、RFC、MLP等相对传统的算法 l效果本工作动机PART 02 弥补基于学习的集成方案的不足？ l基于学习的集成方法比较常见：代码检索、代码补全、代码摘要等 l但基于学习的方法存在一些问题 l训练数据构造成本⾼：依赖⼤规模实际修复数据，要求对⼀个Bug尝试多种不同APR⼯具l特征选取随机性大，和APR工具自身特征的联系松散l增加新的APR工具代价大：一方面需要构造对应的修复数据，另一方面需要重新训练如何直接度量一个APR工具是否能够修复一个Bug？通过待修复Bug和APR工具能修复、不能修复的Bug之间的关系度量！基于修复偏好的集成方案PART 03 基础概念 lPreference-basedEnsembleProgramRepair,P-EPR l修复偏好：APR工具对各类特

点击免费查看完整报告