AI智能总结
2025RESEARCHREPORT软 件 研 发 应 用 大 模 型国 内 现 状 调 研 报 告> > 拥抱AI.重塑研发 拥 抱A I重 塑 研 发 目录 0 1调 查 获 得 的 一 些 结 论 0 2国 内 使 用 大 模 型 (L L M) 的 概 况 0 3在 软 件 研 发 生 命 周 期 应 用L L M 0 4L L M未 来 展 望 附 录L L M能 发 挥 良 好 作 用 的 应 用 场 景 清 单 特 别 鸣 谢 「2025年软件研发应用大模型」国内现状调查于2025年10月开启,历时一个月时间完成数据收集。下面就基于调查获得的数据进行梳理和解析,汇编成本调查报告,希望不仅给每一位读者带来启发和思考,还能给每一个软件企业或团队带来重大的参考价值,能够指导他们完成下一年度AI战略的重构、相关AI部署和行动规划。 大模型(LLM)不仅可以提供强大的内容生成能力,还能够处理复杂的任务,为软件研发带来了巨大的潜力和机遇,将软件工程带入3.0时代。 为了推动我国软件研发领域的发展,作为软件研发行业的重要参与者——AI+研发数字峰会(AiDD)组委会,联合软件工程3.0时代、测试窝、异步社区、思否、稀土掘金等多个社区、组织发起「2025年软件研发应用大模型」国内现状调查。 然而,国内对于LLM在软件研发中的实际应用情况和潜在价值尚未有系统性的了解和总结。开发团队普遍缺乏将LLM技术与现有软件工程实践深度融合的经验和方法论指导。如何评估LLM的适用性,并制定有效的集成策略,成为亟待解决的关键问题。 通过这次调查,旨在全面了解我国软件研发领域应用大模型的情况,探索大模型在软件研发中的优势和机会,为进一步推动大模型技术的应用与发展提供有力的支持和指导。 本调查报告于AiDD峰会深圳站(2025年11月14日)首发公布,其中难免有不妥之处,敬请指正! 01调查获得的一些结论 01调查获得的一些结论 总体趋势与行业格局 LLM应用从「通用」向「垂直」领域加速迁移,行业大模型成为主流。 大模型应用已进入“深耕细作”阶段,重心从试点转向系统化落地。 模型生态由“模型能力竞争”转向“应用生态竞争”。 金融、制造、能源、软件研发和政务等五大领域已形成成熟的行业模型或私域定制模型,比2024年扩大约1.8倍。 相较2024年以探索和验证为主,2025年企业更专注于在具体业务流程中整合LLM,形成端到端的智能工作流(如智能代码助手、AI运维分析等)。 企业更倾向通过平台集成、插件生态(如Dify、Coze、FlowAgent)构建完整应用链条,而非单纯比拼模型基座性能。 01调查获得的一些结论 企业内部落地现状 从“人辅助AI”向“AI辅助人”的角色转变加速。 企业开始重视“模型能力×业务知识”的结合,内部知识库+私域微调形成主流范式。 软件与IT服务业成为大模型应用最活跃的行业之一(渗透率超78%)。 生成式AI基础设施趋于标准化与平台化。 AI不再只是生成文本或代码,而逐渐承担部分流程自治任务,如生成需求文档、测试脚本、运维报告,并自动评审需求、架构文档、测试用例等。 公有云模型服务(阿里、百度等)与私有化部署(基于DeepSeek、Qwen等)并行,统一API标准和模型接口成为趋势。 软件生命周期管理、代码智能化、知识文档管理成为重点突破方向。 2025年,约62%的企业开始使用RAG或LoRA微调方式将内部数据与模型结合,显著高于2024年的(约30%)。 01调查获得的一些结论 在软件全生命周期的具体落地情况 测试与质量环节智能化突破显著。 需求、编程和测试成为LLM三大高效落地环节。 软件开发知识与知识管理融合,形成“开发文档即知识库”的新范式。 LLM驱动的软件运维进入智能分析阶段。 LLM辅助的自动化测试生成、日志分析和测试覆盖率优化已普遍应用,测试工具生态(主要是自研AI测试工具)成熟度大幅提升。 其中代码生成、文档分析、测试脚本生成的自动化成熟度最高。平 均 节 省 开 发 与 测 试 人 力 成 本30%~45%。 从基础的日志解析扩展至“全链路 问 题 诊 断与 性 能预测”;AIOps结合大模型成为企业数字运维新方向。 利用LLM进行接口文档、开发手册的自动生成与版本同步,显著提升知识利用率。 01调查获得的一些结论 管理、策略与组织变革层面 企业治理关注点从“模型安全”扩展为“全栈智能治理”。 ROI评估能力提升,“可量化价值”成为关键验证标准。 提示工程、上下文工程与Agent编排成为新型岗位或技能方向。 超过70%的企业以时间节约、成本下降、质量提升等指标来量化LLM带来的业务收益。 涉及数据隐私、Prompt合理性、模型溯源、评估指标与可控输出等;国产企业在安全对策建设方面显著领先国际平均线。 2025年企业开始设置“AI工作流设计师”或“AI应用策略师”岗位,表明从工具导向转向生产力体系建设。 01调查获得的一些结论 未来展望(2026前瞻) 模型与人类协作方式将从“提示与回复”过渡至“持续对话与共创”。 向智能体(Agentic)系统演进成为确定方向。 企业普遍计划在2026年前引入任务导向型LLM Agents,以支持跨阶段自动协作与决策。 LLM将成为产品经理、开发者、测试者的“长期交互成员”,带来组织工作机制重塑的潜在变革。 01调查获得的一些结论 02国内使用大模型的概况 02国内使用大模型的概况 我们先看一下国内软件研发团队对大模型(LLM)的态度,绝大多数(89.2%)是拥抱LLM,关注、开始使用或积极使用LLM的。 积极应用大模型的团队,占比超过了一半,达到62.8%,比去年增多了8.8%,进一步得到提升 处在观望中、不了解的团队或公司,和去年相比比较稳定,相差1.0%左右,在误差范围内。不过,经过近3年的发展,依旧还有不了解的团队,说明这些团队太封闭、远离尘世吗? 开始关注并试用的团队明显减少了(11%),绝大多数转化为积极应用,说明试用成功,带来了效益, 02国内使用大模型的概况 借助LLM发挥什么作用? 可以看出,软件研发团队最期望大型语言模型(LLM)能够帮助团队实现“降本增效”、提升整体效能、在2025年得到进一步巩固,增加近10%,达到85.1%;其次,在提升开发(编程)的工作效率上有明显进步,增加了16.7%,说明LLM在代码生成、代码评审等应用场景,效果是积极的。此外,接近一半的团队期望提高公司产品的智能水平或用户体验,以便LLM更好地服务于实际业务产品。 通过LLM缩短开发周期并加速产品上市的预期依旧不够高,但比去年有所改善,提升了5%。说明大部分企业还只是在一些关键环节(开发、测试上)应用LLM,没有打通产品研发的整个周期。从我们观点看,提倡在大模型时代,应用ATDD方式,从需求生成、需求评审开始,并借助智能体构建工作流,全面推行大模型,产品上市周期将明显缩短。 02国内使用大模型的概况 借助LLM做了什么 可以看出,研发团队在应用LLM的场景方面都有所改善,特别在代码生成上得到进一步的显著提升,增加了近15%,达到了81.1%,说明越来越多的代码是由AI生成的,最近看到国内某大厂分享的这方面数据,70%的代码是由AI生成的,从侧面验证LLM生成代码的效果越来越好,这受益于多方面的因素,如大模型的能力增强、知识库建设和智能体应用。从调查结果看,代码检查、代码解释、测试脚本和用例生成等方面也有一定的提升。 别的方面提升了,将LLM用于答疑解惑、文档润色等场景的占比则自然会下降了,大家都懂得一个道理:好钢要用在刀刃上。 02国内使用大模型的概况 已经有超过90%的公司/团队拥抱大模型,实际使用情况如何呢? 可以看出,团队应用LLM的时间今年变化没有去年那么明显,低于我们预期——不超过6个月的团队趋于零,因为应用大模型成了今年企业的必选项。但从调查数据看,今年也有明显进步,不超过6个月的,合起来下降了近12%。加到了超过6个月以上的两项选择上,团队应用大模型的超过了95%,使用超过半年的团队占比超过60%,达到63.5%。 02国内使用大模型的概况 如何使用大模型的技术呢? 今年对这到题目做了改进,将部署第三方LLM区分为开源和闭源两类,同时将RAG技术作为独立于模型的通用技术进行应用。目前,绝大多数已私有化部署LLM的企业都会构建知识库,通过RAG方式增强大模型对业务知识和领域知识的理解能力。 由于DeepSeekR1和V3年初开源,部署开源大模型成为最主要的应用方式,加上基于开源大模型训练自己的领域大模型,两者加起来,开源大模型占比超过一半,达到54.8%。 通过训练大模型构建LLM全栈技术能力的团队基本稳定,变化的幅度,在误差范围内。从我们认知来看,也是这样,除了一直致力于基础大模型训练的大厂(如阿里、百度、字节、腾讯、华为、讯飞等)之外,其他企业不会参与基础大模型的竞争,而是直接使用比较好的开源大模型(如DeepSeek、Qwen)。 02国内使用大模型的概况 使用了哪些国外的LLM? 可以看出,依旧有超过一半的企业或团队使用OpenAIGPT系列大模型,还略有增长。 但增长最快的是Claude系列大模型,不止翻了一倍,是去年的2.45倍。从代码生成能力看,Claude4.5最强,只是应用它存在其他障碍。其次,就是Gemini也有显著的增长,是去年的2.41倍。 由于DeepSeek、Qwen开源,LLama系列大模型的占比明显下降,接近腰斩。 Grok、PaLM等模型也引起关注,有2-3%的占有率。 02国内使用大模型的概况 使用了哪些国外的LLM? ①在国内大模型中,最大的变化自然发生在DeepSeek上,从去年的3.2%增长到今年的81%,成为第一。②增长速度仅次于DeepSeek的,是豆包大模型,是去年的2.38倍③阿里千问大模型从去年的第一名降到今年的第二名,但份额还是有明显的增长,这也得益于它的开源策略和性能。④与前三位增长形成对比的是,讯飞星火、百川、智谱、百度文心、Kimi、华为盘古等大模型都有明显下降,自研大模型也下降很厉害。可以看出,从最初的百模大战,慢慢集中在几家性能比较好或采取开源策略的大模型之上,多数团队都会使用两个大模型,如DeepSeek和千问。 02国内使用大模型的概况 本题今年也做了很多调整,增加了前面5个因素,从调查结果看,所增加的5个因素中,前3个因素也成为排在前面的主要困难。 去年排在前几位的困难,没有本质的改变,但少量因素还是有了明显的改善,如训练数据、ML和LLM训练人才、算力、应用水平等,随着国家和企业的重视,模型的改善,这些因素还会进一步得到改善。 从调查结果看,LLM应用主要有八大困难(从高到低排列): ①缺少高质量的(业务/研发)训练数据②安全、隐私担忧③“AI幻觉”导致引入难以察觉的深层Bug④缺少机器学习和大模型训练人才⑤缺少算力或云计算平台⑥目前研发人员的应用水平不行⑦AIAgent行为的不可预测性与可控性差⑧难以精确衡量投入产出比(ROI) 02国内使用大模型的概况 数据、算法和算力,是人工智能时代的三要素。好的数据产生好的结果,但数据、算力是客观条件,而算法相对灵活,有着很大的挖掘和提升空间。对于大模型,算法更多体现在参数上,算法的设计影响了模型的参数数量、参数初始化方法、损失函数的选择、正则化方法等。这些因素直接影响了模型的训练效果、泛化能力和推理速度。而算法的设计最终依赖这方面的人才。所以,这次调查重点依旧放在“人”之上,毕竟人是决定性因素。 从调查结果看,没有本质变化,但有了一些明显改进,例如“没有AI相关的专业人员”下降了近8%,有专业LLM团队的,上升了近9%。 而且具有AI或LLM人才的团队/企业,超过了80%,说明绝大多数团队有了良好的AI人才基础,随着企业重视AI的应用,