AI智能总结
这种现象的背后,是开源模型与闭源模型之间性能差距的迅速收敛。在Meta、Mistral、阿里巴巴等科技巨头的推动下,高质量的开源模型层出不穷,持续追赶甚至在部分指标上超越了同期的闭源对手。迭代速度的极致体现是,根据OpenRouter等平台的追踪数据,一个新模型能在排行榜前五名保持领先的中位数时间仅为3周。这种“你方唱罢我登场”的快速更迭,使得任何单一模型的长期技术壁垒都变得极不稳定。除了计算成本,数据成本同样惊人。Deepmind每年在数据标注上的花费高达10亿美元,而Meta为Llama 3的后训练数据投入了1.25亿美元。对于高质量的推理数据,OpenAI甚至愿意为单条推理轨迹支付2000至3000美元。计算和数据这两项巨额开支的边界日益模糊,共同构成了模型开发中令人望而却步的成本结构。超越参数规模:推理计算与新尺度定律的兴起长期以来,单纯扩大模型参数量被视为提升能力的核心路径,但这一趋势正在逆转。数据显示,在2023年GPT-4达到一个参数量高峰后,后续发布的新一代顶尖模型如Claude 3.5 Sonnet和Llama 3等,其参数规模反而有所下降。业界开始意识到,模型的效率和智能并非仅由参数量决定。 一种新的权衡范式正在形成:用更海量的数据(远超“计算最优”配比的tokens)来训练一个参数量较小的模型,虽然在训练阶段效率较低,但在推理(即实际使用)时,这样的模型更容易部署、运行成本更低、延迟也更小,从而在应用层面具备显著优势。这一转变的深层原因在于,预训练的传统路径正逼近其物理极限。正如Ilya Sutskever所指出的,高质量的互联网数据是有限的,堪称“人工智能的化石燃料”。当数据无法同步增长时,单纯依靠硬件和集群规模的扩张将难以为继。因此,业界不得不寻找新的能力增长点,而推理时间计算(Inferencetime compute)正成为新的前沿。其核心思想是,让模型在输出最终答案前,花费更多的时间进行内部的“思考”和“推理”。这种“慢思考”允许模型构建更复杂的逻辑链条,从而提升回答的质量和准确性。研究表明,这代表了一种新的尺度定律:增加测试时的计算量,同样能带来模型准确率的稳步提升。一个惊人的结果是,一个30亿参数的推理模型,在给予足够“思考时间”后,其数学能力可以超越一个不做深度思考的700亿参数的大模型。这证明了“思考”本身,而非单纯的模型尺寸,正成为解锁更高智能的关键。 后训练革命:构建更强推理能力的方法论为了实现更强的推理能力,模型的训练方法论也在快速演进,重心正从预训练转向后训练(Post-training)阶段。目前主要有两种发展路径:一是通过在大量的“推理轨迹”上进行后训练,直接教会模型如何思考;二是利用“搜索”技术,在推理时指导模型的思考过程。例如,通过“Best-of-N”或“树状搜索”等技术,让模型生成多个候选答案或推理路径,再由一个验证器(Verifier)或奖励模型(Reward Model)来挑选出最佳结果。验证器和奖励模型因此变得至关重要。它们可分为两类:一类是程序化验证器,如用于代码生成的编译器和单元测试,这类验证器准确但泛化能力差;另一类是学习型验证器,通过学习人类偏好来评估输出的质量。构建一个能理解复杂、通用人类价值观的通用奖励模型(Generalist RewardModel),被认为是该领域的“圣杯”,但其开发难度极大。同时,后训练的优化算法也在不断迭代,从PPO发展到DPO,再到结合了奖励模型的GRPO,整个技术栈日益复杂和精细。 演进中的模型架构:从混合专家到多模态在模型架构层面,多个趋势正在走向成熟:混合专家模型(Mixture-of-Experts, MoE)日益普及。如DeepSeek、Mistral以及传闻中的GPT-4,都采用了这种架构。它通过一个路由器将输入导向不同的“专家”子网络,只激活部分参数,从而在保持巨大模型容量的同时,显著降低了单次推理的计算成本。上下文窗口急剧增长,部分模型已宣称支持千万级token的上下文。但用户需警惕“虚假宣传”,在“大海捞针”测试中评估模型在超长文本中的真实信息提取能力。多模态能力持续进步。模型已能熟练地处理图文混合输入。然而,能够无缝理解和生成文本、图像、音频、视频等多种模态的全能模型(Omni-modal models)仍处于非常早期的研究阶段。Tokenization(分词)作为当前模型的一个基础环节,依然是一个“顽固的‘变通’方案”,是导致模型拼写错误、算术不佳、难以处理某些语言等诸多问题的根源。直接在字节(bytes)层面进行建模的Transformer架构,可能是解决这一问题的潜在方向。跨越边界:AI在多模态与科学领域的渗透基础模型的概念正被应用到越来越广泛的领域。视频模型正迎来其“ChatGPT时刻”,生成质量和可控性大幅提升。在机器人技术领域,通用模型已能让机器人在前所未见的环境中执行新任务。世界模型(World models)则致力于模拟环境中的动态变化,为机器人训练乃至交互式娱乐体验提供基础。在更专业的科学领域,基础模型的应用也方兴未艾。以自监督方式在基因组序列上训练的DNA基础模型,有望用于突变效应预测和基因组设计。除此之外,从蛋白质设计(Generate:Chroma)、药物动力学预测(Iambic)到材料科学(Orbital),AI模型正在成为科学发现的新引擎。然而,这些专业领域面临的最大瓶颈是高质量数据的稀缺,这限制了其市场成熟度和应用广度。02指数时代:从技术突破到全面爆发两大技术突破:解锁规模化的钥匙 当前这轮AI技术浪潮的爆发,并非偶然,而是源于两个关键的技术突破,它们分别解决了数据和计算的规模化瓶颈。第一个突破是自监督学习(Self-Supervised Learning)。该方法允许模型从海量未标注的数据中自行学习。传统监督学习需要昂贵的人工标注数据(例如,将图片标记为“猫”或“狗”),而自监督学习通过巧妙设计的任务,让模型从数据自身寻找监督信号。例如,模型可以被训练来预测一句话中被遮盖的词语,或者根据前半句话补全后半句。通过这种方式,互联网上浩如烟海的文本、代码和图像都成为了可用的训练材料,从根本上解决了数据供给的规模化问题。第二个突破是注意力架构(Attention Architecture),其最知名的实现即“Transformer”模型。这一架构革命性地提升了计算效率和模型对上下文的理解能力。在Transformer出现之前,处理长序列数据(如长篇文章)的模型效率低下且难以并行计算。注意力机制则允许模型在处理每个词语时,都能同时“关注”到输入序列中的所有其他词语,并动态评估它们的重要性。这不仅使模型能够精准捕捉长距离的语义依赖,更关键的是,其计算过程高度可并行化,完美契合现代GPU等并行计算硬件的特性,从而为模型规模的急剧扩张铺平了道路。从量变到质变:“涌现”与指数级扩张当模型在数据和计算两个维度上实现规模化后,一个关键的现象出现了——“涌现”能力(EmergentBehavior)。研究表明,当模型规模(以训练所用的计算量,即FLOPs衡量)达到某个临界点后,其在特定任务上的性能会突然从接近随机猜测的水平,跃升至具备相当高的准确率。这在模块化算术、多任务自然语言理解等领域尤为明显。这种非线性的性能飞跃意味着,单纯地扩大模型规模,就能解锁前所未有的新能力。这一发现直接催生了业界对模型规模的极致追求。在2018年至2022年的短短几年间,顶尖语言模型的参数量实现了爆炸式增长,从千万级(如ELMo)一路飙升至万亿级(如Switch-C)。其增长速度达到了惊人的三年15,500倍,将遵循“每两年翻一番”规律的摩尔定律远远甩在身后。 市场印证:空前的采纳速度与商业化效率技术上的指数级进步迅速转化为市场上的现象级成功。ChatGPT的问世,创造了人类科技史上最快的用户增长记录。它仅用60天时间就吸引了1亿用户,相比之下,互联网达到同样规模用了7年,Facebook用了近5年。这一数据清晰地表明,生成式AI满足了真实而广泛的用户需求。与用户增长同样迅猛的,是其商业化变现的速度。一批AI原生应用在极短时间内就实现了惊人的收入规模。例如,GitHub Copilot在三年内达到约4亿美元的年化收入;Midjourney用两年时间、约40名员工的团队,创造了约2亿美元的年化收入;而更年轻的Cursor仅用一年时间、约20名员工,就实现了约1亿美元的年-化收入。这些案例共同指向一个事实:AI应用正以极高的资本效率和极精简的团队结构,创造着前所未有的商业价值。全面加速:技术指标与模型能力的持续跃升 这股指数级增长的势头,正贯穿于基础模型技术的所有核心指标。从2023年初到2025年春季,模型的上下文窗口(即一次性处理信息量的上限)从数千个token扩展至约100万个token,增幅高达100-500倍。达到GPT-4级别模型的训练成本预计将从1亿美元降低至10万美元,实现了超过1000倍的成本缩减。同时,训练模型所需的总计算量也增长了超过1000倍,反映出业界仍在坚定地投入算力以换取更强的模型能力。性能的提升同样直观。在各项学术和专业基准测试中,大型语言模型(LLM)的得分曲线持续陡峭上扬,在2024年已在科学推理、高级数学、软件工程等多个领域接近甚至超越了人类顶尖水平。更具实际意义的是,AI能够自主完成任务的时间跨度也实现了指数级飞跃。在短短五年内,AI智能体能够稳定完成的任务时长从1秒钟跃升至1小时以上,其能力倍增周期仅为7个月。这意味着AI正从一个只能执行瞬时指令的工具,演变为能够处理复杂、长期任务的可靠助手。 在特定专业领域,LLM的能力已经开始超越人类专家。例如,在多项综合诊断任务中,AI模型已展现出比人类医生更高的准确性。在解决国际数学奥林匹克(IMO)级别的复杂几何问题上,AI的准确率已超过地球上99.999%的人口。这种超越不仅局限于文本和逻辑推理,在图像生成领域,扩散模型(Diffusion Models)同样在两年内实现了从略带卡通感的生成(如2022年的Imagen)到照片级逼真度(如2024年的Visual Electric)的巨大飞跃,展现了其在多模态能力上的同步进化。03用例与应用:AI对知识工作的全面重塑随着基础模型能力的指数级增长,其应用范围正以前所未有的深度和广度渗透到各个行业。从重塑信息获取方式,到颠覆软件工程的全生命周期,再到为所有高技能知识工作者配备Copilot,生成式AI正从根本上改变价值创造的方式。核心应用:从通用搜索到垂直领域的“信息中枢”搜索与信息综合至今仍是大型语言模型(LLM)最核心、最具标志性的应用场景。这一需求催生了两类产品形态。一类是通用型搜索与问答引擎,如Glean、Perplexity和Bench,它们致力于为用户提供一个能回答任何问题的统一入口,直接挑战传统搜索引擎的地位。另一类则是数量更为庞大的垂直领域专用解决方案。据估计,已有超过1000家初创公司围绕这一模式找到了产品市场契合点(Product-Market Fit)。这些公司将LLM的理解和综合能力应用于特定行业,打造专用的“信息中枢”。例如,AlphaSense和Tetrix服务于投资领域,Harvey专注于法律行业,Trunk Tools面向建筑业,而OpenEvidence则深耕医疗健康领域。这种垂直化策略通过整合行业特有数据和工作流,提供了远超通用工具的价值,形成了一个繁荣的创业生态。 颠覆性影响:软件工程迎来范式革命软件工程是迄今为止受到AI冲击最为深刻的领域。在短短两到三年内,软件工程Copilots(SWECopilots)已经发展成为一个年收入规模近20亿美元的庞大市场。其中的明星产品Cursor,更是创造了软件即服务(SaaS)领域有史以来最快的增长记录,年化收入已接近10亿美元。AI代码生成工具的影响力已经不容忽视。根据YC创始人Garry Tan的观察,在其2025年冬季批次的创业公司中,有25%的公司其代码库中95%的行