目录 P R O LO G U E 开篇:9个月后回望 Fromsevennon-consensusquestionstosixstructuralinsights. 2025年7月,腾讯研究院发布第一版《AI Coding非共识报告》,提出7个行业非共识,判断“AICoding是通用Agent的先验战场”,将“从2,500万开发者走向数十亿构建者”作为愿景。9个月后,这7条非共识的验证情况如下。 01产品形态:本地vs云端 🔄三极并存:CLI / IDE / Cloud 一版没有简单站队,而是用“本地×云端/交互辅助×自主执行”四象限切分出IDE/插件、CLI、VibeCoding、异步Coding Agent四类,并把CLI单独称为“进可攻退可守的通用潜力股”。9个月后,这个判断兑现方式超预期:CLI不只是通用,而是全面赢得开发者内循环(Claude Code 8个月成为最受使用和喜爱的工具);IDE继续在专业场景坚守并Agent化(Cursor 3、Google Antigravity、VSCode Multi-Agent);Vibe Coding产品向设计等通用场景迁移;云端异步Agent则在“龙虾热”下将IM变为交互入口。四象限结构仍然成立,重心向CLI与异步侧迁移。 02模型选择:自研vs第三方 🔄模型选择:趋同与分化 一版的“自研+第三方”四象限仍是理解模型策略的基本框架,指出“多模型策略+智能路由”正在成为主流。9个月后,原问题“该选哪家模型”已被更深层问题取代:六大商业模型SWE-bench Verified压缩到1个百分点区间内,开源Qwen3-Coder追至80%段位。但Anthropic 2026.4同时发布Mythos Preview(93.9%,不公开)与Opus 4.7(87.6%,公开)的双轨机制表明,前沿实验室的能力储备与已公开模型之间正在拉开新的差距。 03用户价值:提效vs降效 ✅已跨越争议期 一版在这条上最审慎:同时摆出吴恩达“效率提升至少10倍”和METR随机对照实验“AI让开发者慢了19%”,让争议成为真正的非共识。9个月后,METR同批参与者在2026.2的后续实验中逆转为快18%(CI-38%到+9%),30-50%开发者拒绝“无AI”条件。争议期已跨越,但一版埋下的测量论(“自我报告的时间节省与PR吞吐量指标之间存在脱节”)在V2谈AI生产力时仍然值得引用。 04付费模式:固定vs按需 ✅按需/信⽤制成为主流 一版已明确判断“混合模式38%超过订阅/席位制36%成为最主流”,指出“传统SaaS的固定订阅模式在AI高变动成本下出现结构性问题”。这条验证最彻底:所有主流产品(Cursor / Claude Code / Copilot /Devin / Replit Agent)都走向Token / Credit / ACU(Agent Compute Unit)等抽象计费单元的按需或混合制。一个延伸判断:AI的成本倒逼驾驭工程,每次Agent失败都是直接成本,这成为企业投资驾驭框架的直接商业理由。 05企业态度:激进vs渐进 ✅两极分化加剧 一版用“从强制使用到进入绩效”描述激进派路径,摆出Dario Amodei “3-6个月内AI写90%代码”的最激进预测。9个月后:微软、谷歌内部AI代码占比约30%、Meta未到50%,Amodei的90%没达成,但激进做法仍在扩散:Microsoft、Shopify把AI使用计入绩效,Perplexity的“强制使用”被更多公司采纳,Jellyfish调研的“仅22.5%有正式政策”分化继续放大。一版的“两极分化”判断准确,加剧程度超预期。 06组织影响:裁员vs扩张 🔄同时发⽣,不同技能层 一版的关键数据(软件开发岗位仅为2020.1的65%、初级岗位从30%降至20%、高级岗位从30%升至40%、“10人做100人的事”、1,000万ARR规则被改写Cursor 20人/ 1亿ARR)9个月后每条都被进一步印证。但也出现了一版未充分展开的新维度:AI不是简单替代N个人,而是在拉高下限(非开发者进入构建)的同时提高上限(高级工程师杠杆放大)。Staff+工程师63.5%是最重度Agent用户,最有经验的人受益最多。 07市场格局:专业vs普惠 ✅“先验战场”充分验证 这是一版判断力最强的一条:Karpathy Software 1.0→2.0→3.0(code→weights→prompts)、“代码≠编程,意图将成为编程的核心驱动力”、Replit CEO Amjad Masad的“往下走/留在中间/往上走”三象限,每一个框架9个月后都被广泛引用并进一步深化。Vercel注册用户翻番、Cursor 36万个人开发者、GitHub个人仓库年增217%,专业开发者没有被取代但角色重塑,非开发者正在以“构建者”身份进入软件生产。 7条非共识的验证汇聚到一个更深层问题:当这些争论尘埃落定之后,2026年的AI Coding呈现出哪些真正的结构性图景?本版提炼为6个洞察,依次展开于下文六章。 本版六个洞察 SixstructuralinsightsfortheAIcodinglandscape,2026. ❶模型加速趋同,前沿差距不减 六大商业模型挤在1个百分点区间内;但Opus 4.7一次性+6.8pp跳升、Mythos Preview更领先6.1pp——“内部突破+阶段性降权公开”的双轨发布机制正在形成。→第二章 ❷Agent原生成为工具演化的收敛方向 工具形态走向Agent-First(Cursor 3 / Codex App),工具接口走向Agent-native(CLI赢内循环/MCP退外循环/ Skills补齐非开发者层)。→第三章 ❸代码生成规模化,验证成新瓶颈 “怎么实现”退出核心瓶颈。新瓶颈出现在规格定义(向前)和验证维护(向后)两端——Veracode45% AI代码含已知漏洞、GitClear技术债务增30-41%。→第四章4.1 ❹产品构建零门槛,品味、运营逐渐稀缺 YC W2025 25%创业公司95%+代码AI生成。但“原型墙”普遍存在——分发、运维、合规、品味成为新稀缺。→第四章4.2 ❺SaaS没有死去,它正在被重新分配 三场“Anthropic Day”定点打击中间层SaaS(FactSet -10% / IBM -13.2% / Figma -6.89%),同时Cursor $50B、Skills生态两极壮大。→第五章 做什么和谁能做,开发者被双向重定义 做什么在变:开发者从编写者转向编排者;谁能做也在变:非开发者首次以“构建者”身份进入。就业在三层之间流动。→第六章 C H A P T E R0 1·质变时刻 质变时刻 Fromaugmentedcompletiontoautonomouscollaboration. AI编码工具跨越了第二道能力门槛——从代码生成到自主协作。五维证据汇聚,商业验证加速。 1.1两道能力门槛 AI编码工具的发展存在两个可识别的能力门槛。2021年GitHub Copilot首发、2022–2023年完成商业化铺开,那是“辅助式补全”的时代:IDE里逐行、逐块的智能提示;此后每一次门槛跃迁,都由一款Anthropic模型定义。 第一道(2024年中,Claude 3.5 Sonnet):AI编码从“补全工具”跃升为“可靠的代码生成助手”。一版报告记录过这一时刻——Replit CEO Amjad Masad将3.5 Sonnet的发布称为“变革性的突破”。门槛跨越的直接结果是产品形态的重构:AI的能力边界从Copilot式的行内补全扩展到Cursor式的全栈写作,Cursor在此后一年内从小众工具成长为1亿ARR的新范式。 第二道(2025年末至2026上半年,Opus 4.5 / 4.6 / 4.7一代):从简单任务辅助跨越到稳定的自主式协作。AI能理解整个代码库、自主完成多步骤任务。正如Sonnet 3.5标志了“AI辅助编程”时代,Opus 4.5标志了“AI协作工程”时代——首次在SWE-bench Verified上突破80%门槛。这一感知转变在Opus 4.5发布后约一个月里被开发者社区逐步确认,甚至迎来了“ClaudeChristmas”,开发者社区趁着圣诞假期集体切换到Claude Code,品味Opus 4.5带来的新体验。 能⼒⻔槛时间线 1.2五维证据 技术:SWE-bench Verified上,Opus 4.5(2025.11)首次突破80%门槛,达到80.9%,token消耗较上一代下降约65%,这是“AI协作工程”时代的质变起点。后续Opus 4.6、4.7持续演进,并在2026年4月出现Mythos Preview这一内部能力线(详见第二章、第五章)。 产品:Plan Mode、多Agent协作、1M context窗口GA、Claude Code Web / Mobile接入全面铺开。 用户体验:“Claude Christmas”现象:开发者社区在2025年圣诞前后集体切换到ClaudeCode。 意见领袖:前特斯拉AI总监、OpenAI创始团队成员Andrej Karpathy从“模型就是垃圾”转变为“Opus 4.5强了10倍”。Anthropic Claude Code工程负责人Boris Cherny在WIRED专访中称“编程基本上已经被解决了”,这一判断反映了工具开发者的乐观立场。 商业:Claude Code收入从零增长到10亿美元(2025.12)再到25亿美元以上(2026.2)。Anthropic估值增至3,800亿美元。a16z 2026.4企业AI采纳报告显示29%的财富500强企业已是领先AI创业公司的正式付费客户(合同数据而非调查);编码是“领先近一个数量级的主导用例”,最佳工程师生产力提升10-20倍。 关键数字 25亿Claude Code ARR(美元· 2026.2) 最佳工程师生产力提升(a16z) 1.3两个佐证 METR研究的逆转。METR于2025年初完成首次随机对照实验(使用Claude 3.5/3.7 + CursorPro),2025年7月发布结果——AI让开发者慢了19%。2026年2月的后续更新逆转了结论:原始参与者组变为快18%(置信区间-38%到+9%,尚未达到统计显著水平),30-50%开发者拒绝“无AI”条件。 METR实验结论逆转 ⾸次实验(2025初)· 2025.7发布-19%AI让开发者变慢Claude 3.5/3.7 + Cursor Pro 2026.2 ·后续更新+18% 原始参与者变快CI: -38%到+9%;30-50%拒绝“无AI” Dogfooding(吃自家狗粮,指开发者自己使用自己开发的产品)。Claude Code团队95%的代码由Claude Code编写;Claude Cowork 100%由Claude Code编写,仅用1.5周。Anthropic作为制造者的内部证言有利益相关性,Block 12,000员工采用AI工作流、Cursor 67%财富500强使用等第三方数据提供独立支撑。 12,000Block员工已采用AI工作流 100% 95%Claude Code团队代码由AI编写 Cowork代码AI编写,仅1.5周 模型与驾驭工程 Convergenceiscommerce;divergenceisthefrontier. 商业模型在coding能力上趋同,前沿实验室的能力储备仍在加速分化。当模型趋同时,驾驭框架成为真正的竞争变量。 洞察❶ 模型加速趋同,前沿差距不减。 2026.4六大商业模型在SWE-bench Verified上压缩到1个百分点区间内——“选哪个模