您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京智源人工智能研究院]:2025十大AI技术趋势 - 发现报告
当前位置:首页/行业研究/报告详情/

2025十大AI技术趋势

信息技术2025-01-10倪贤豪、靳虹博、陈泓伊、殷靖东北京智源人工智能研究院淘***
AI智能总结
查看更多
2025十大AI技术趋势

DO 2025 000 十大Al 技术趋势 BAA 智源研究院 卷首语· 岁月不居,时节如流。站在新旧交接的十字路口回望,一系列前所未见的技术突破正在虽 塑机器智能的定义,引发着深层次的变革,预示着更新、更美好的智能图景。 大模型的持续进化,如同蝴媒振翅般顾覆了我们对人工智能的传统理解。从初次尝试新架构到发现新的普适定律,从能力泛化到模态无缝融合,这些突破性进展正在不断刷新机器智能的边界。大模型逐步拥抱文本、视觉、音频、片至3D数据,实现了感知与认知能力的全面升级, 机器具备了更加细腻丰富的理解能力,人机交互焕发了全新的活力。与此同时,人工智能正在向 着另一个关键维度挺进一一对真实物理世界的模拟与适应。在这一主题下,机器不仅能够自主感知和推理复杂场景,更能够主动规划行动、做出决策。而具身智能的加速落地,义进一步塑造了机器的物理形态。从感知到决策再到控制执行,端到霜的智能系统正在起,机器的适应性和 灵活性持续笑破。 令人振奋的是,这些趋势正互为助力、相得益彰。基座模型能力选代,为世界模拟和具身智能注入了更精准的感知与认知基础,应用落地数据义反哺着基座模型的成长;大模型的惊人 能量,扰动着基础科学的浩瀚宇宙,大模型本身又作为科研对象,静候研究者揭晓它更深的奥 秘,在这些力量的驱动下,AgenticAl与新时代的超级应用应运而生,悄然渗入每个人的工作和 生活中,春风化雨般改变着人机交互的形态, 光明息是与黑暗共存。技术和应用正在高款猛进,重塑人类社会的方方面面,而安全隐患在陪处滋生。我们必频建立起与日益暂能的机器系统相称的安全技术框渠,探索具备最人共识的治理之道,才能最大限度地释放人工智能的无穷潜能、让技术以负责任的方式造福人类社 会。 于是,在2025年的开端,我们提出十个人工智能技术及应用趋势。通过深入剖折科技的 演进轨迹,更消地润察未来几年的科技发展方向,预测哪些核心技术将成为关健驱动力、哪些新兴技术将谨勃发展,它们将如何以创新之力指引人类社会迈向更加智能、美好与互联的未来。 科技的曙光将照罐人类前行的路途。这些技术将在激烈的竞争与协作中相互促进,共回同谱写人与智能系统共生共荣的破遵算章。而我们作为亲历者,将见证科技为人类文明注入游动 能,推动人类能力的边界向更高更远处延伸。站在科技的肩膀上,身可高百尺,手可摘星辰。 02 >》目录K 趋势 科学的未来:AI4S驱动科学研究范式变革p04 趋势 “具身智能元年”:具身大小脑和本体的协同进化p06 趋势三 "下一个Token预测”:统一的多模态大模型实现更高效Alp08 趋势四 ScalingLaW扩展:RL+LLMs,模型泛化从预训练向后训练、推理迁移p10 趋势五 世界模型加速发布,有望成为多模态大模型的下一阶段p12 趋势六 合成数据将成为大模型选代与应用落地的重要催化剂p14 趋势七 推理优化选代加速,成为AINative应用落地的必要条件p16 趋势八 重塑产品应用形态,AgenticAl成为产品落地的重要模式p17 超趋势儿 Al应用热度渐起,SuperApp花落谁家犹未可知p18 超势十 模型能力提升与风险预防并重,AI安全治理体系持续完善 p19 参考文献p20 20 Trend 2 科学的未来: 拍势一/科学的来来:A14S需动科学用究范式变茶 AI4S驱动科学研究范式变革 ■2024年度的诺贝尔物理学奖、化学奖均颁发给了AI领域科学家。大模型引领下的A145,已成为推动 科学研究范式变苹的关键力最。 ■科学研究的范式带有其所处时代的认知水平、价值取向、工具先进性、科研资源等因索的深刻熔印。白人类开始记录白然现象以来,科学研究经历了经验观察、理论建构、仿真模拟、数掘驱动的科学发现四个阶段。 来源:2024年诺见尔奖官方插通—物理奖及化学奖获得者大模型时代,Al4S(AlforScience)展现出的赋能效果与小模型时期大相径庭。传统人工智能在科学 研究中多聚焦于特定任务的优化,如教据挖握算法辅助科研教据处理,或基于既有模式进行推理预 则,但其模型规模与泛化能力有限,难以解决复杂间题。而大模型以海量数据训练,具备显大的跨领 减知识整合能力:模型架构赋予其多层次的学习和处理能力,能够捕提高维数据中的复杂结构和模 式,并对复杂科学问题进行整体理解与全局综合分析。大模型还能通过生成式能力提出创新性假设,为科学研究开辟新方向。 高性能算力的支持下,大模型正以前所未研究提供宝贵资源、5月,DeepMind和Isomor- 有的广度与深度重塑科学研究格局,成为phicLabs团队联台发布AlphaFold3,能够准 推动科研突破、解决实际间题的强劲动力。2024确预测蛋白质与其他分子的相互作用,相较上 年2月,俄亥俄州立大学发布用于执行化学任务代模型,应用范围取得巨大突破。 的LlaSMol大模型,在名称转换、特征额测、分子 插描还、化学反应知识等任务上取得较优成绩;同国内方面,2024年6月,中国气象局发布“风清 时,研究团队发布了包含14个任务、300多万个“风顶""风雷“三个人工智能气象大模型系统,具 有大气物理融入和可解释性,在实现高效计算 高质量样本的数据集SMolinstruct,为后续相关 2025十大A技术超势 04 Trend 拍势一/科学的来来:A14S第动科学研究范式变茶 的同时,可为预测结果提供物理可解释性依据,自动挖掘包括天气系统内在的物理演变。12月,北京智源人工智能研究院提出的BAAlWorm天宝 被选为NatureComputationalScience期刊封 面;BAAIWorm是一个全新的、基于数据驱动的 生物智能模拟系统,首次实现秀丽线出的精细神 经系统、身体与环境的闭环仿具,为探索大脑与行为之间的神经机制提供虽要研究平台。此外,智源 研究院正在研发OpenComplex平台,该平台建 立了将蛋白质结构预测、RNA结构预测和蛋白质 RNA复合物结构预测三类仟务统一的端到端 物人分子三维结构预测深度学习框渠,以期逐步 构建能够模拟生物过程的“数字李生系统” 2025年,多模态人模型将进一步融入科学研究, 赋能多维数据的复杂结构挖掘,辅助科研问题的综合理解与全局分析,为生物医学、气象、材料发现、生命模拟、能源等基础与应用科学的研究开辟 新方向。 DavidBaker 华盛顺大学蛋白质设计研究所所长 2024年诺贝尔化学奖得主 (正是因为AI的影响),我们看到原本如同黑魔法般的蛋白质疗法(给动物免疫,让自然免疫系统 找到解决方案)转变为实际合理的设计。 2025十大A技术起势 05 Trend 2 “具身智能元年” 具身大小脑和本体的协同进化 ■2024年,全球范围内的具身智能竞争日渐白热化。从融资规模、产品发布等多维度来看,中美两国在该领域执行业牛耳。以国内为例,根据智源研究院数据统计,截至2024年底,国内已发布或在研人形 机器人接近100家,融资规模超100亿元,称之为“百机大战"并不为过。 ■从厂商类型来看,专注本体/零部件、具身脑、具身脑和本体并重等三类厂商主导具身智能行业。自 2024年5月以后,获得融资的“专注本体”的具身初创企业融资件数平均占比较前五月下降了 36.8%。可以认为,具身赛道的创业和资本热度已从本体扩展到具身大小脑。 Ang.76.7% Avg.39.9% 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 ■本体 ■模型 模型+本体 来源:BAAI行研组 相较于整体成熟、更注重细节创新的本体,大模型目前在具身大脑应用较多。在具身小脑方向,大模 型的应用尝试将将起步。 本体方面,作为一个相对成熟的领域,在本轮具身智能热度中,更领回于在组分领有所创新。比如灵巧手为代表的未端执行器、触党传感器为代表的传感器、面而具身专门设计的感知芯片等细分额 域,在2025年均可能迎来更新选代, (大模型)(小模型为主,大积型会试)(整体成熟经分持术创所) 大脑小脑 本体 任务输入环境理解规划控制 任务决策 环境感知状态感知 BAAI布局方向 来源:BAAI行研组 ■至于具身大模型,日前已形成两条主流技术路线:端到端模型和分层决策模型。分层模型方面, LLM、VLM等已成为具身大脑的主流范式,而小脑侧仍以传统控制方法为主。端到端模型,作为近两年的研究热点,覆盖感知-决策-控制全流程,理论上可获取的信息量最为丰富,端到端的输出效果 最优。就模型愈能效果来看,具身大模型已在感知决策端实现了较好的多任务迁移和处理,但控制势 行侧的泛化仍需要技术路径的持续选代和模型规模的Scalingup,这或可成为2025年的突破方向。 2025十大A技术超势 06 Trend2 内外科技大厂及研究机构在近两年时间 内密集推出具身模型成果。 海外方面,Google联合DeepMind发布✁RT 系列模型。其中,RT-1首先将Transformer应用 到机器人领域,表现出较好✁长时序任务执行能力。RT-2则是首个端到端视觉语言动作模型 (VLA,Vision-Language-ActionModels),实 现了感知信总拥入-动作控制信总辅出,RT-X基 于自采✁大规模、多样化数据集训练,支持在多机器人平台,泛化任务和环均间迁移,通用性进一步 提升,斯坦福大学在2023年发布✁多模态视觉 模型VoxPo5er(LLM+VLM),可根据感知到✁环 境信息与用户指令,指导合成机器人所需执行✁ 操作轨迹。PhysicalIntelligence公司发布π通 用机器人基础模型,将互联网规模✁视觉语言预训练与实际机器人交互数据相结合,在五项机器人任务✁评估中优于其他✁基线模型。 国内方面,银河通用尝试利用三维视觉小模型+基础大模型✁技术组合解决具身模型泛化能力差,响应速度慢✁问题。目前,银间通用✁具身人 模型机器人Galbot已落地应用于美团24小时 无人值守药房,承担补货、取货等任务;星海图持续推动在具身本体及核心模组、端到端AI算法以 及场景解决方案✁研发及落地:北京智源人工智 能研究院基于快系统和慢系统✁设计路线,将快系统用于产生快速直觉✁动作,当通过快系统执行任务失败时,再通过慢系统检测、定位任务失败 节点,并进行纠正。 2025年✁具身智能,将继续从本体扩展到具身 黄仁勋 脑✁叙事主线,我们可以从三方面有更多期待。在行业格局上,近百家✁具身初创或将迎来洗牌,厂 商数量开始收效:在技术路线上,端到端模型继英伟达创始人 续选代,小脑大模型✁尝试或有突破;在商业变 现上,我们也必将看到更多✁工业场景下✁具身人工智能✁下一个浪潮将是具身智能,即能理解、 智能应用,部分人形机器人迎来量产。推理、并与物理世界互动✁智能系统, 2025十大A技术起势 07 Trend3 下一个Token预测” 统一✁多模态大模型实现更高效AI ■2023年以来✁大模型热度肇始于LLM在多任务中✁涌现,但国于LLM所学习✁模态单一,模型能力 很难向高维✁真实世界拓展。而人上智能✁本质在于对人✁思维✁信息过程✁模拟,人类对于信息✁交五和处理,总是呈现多模态、跨模态✁输入输出状态,当前✁语言大模型、拼接式✁多模态大模型, 在对人类思维过程✁模拟上存在天然✁局限性 ■以传统多模态大模型为例,DiffusionTransformer(DiT)和LLM+CLIP是当前主流✁多模态构建路 线,但这两条路径中数据✁"后融合“方式会造成多模态信息✁损失,各模态信息表征本质上是相互孤立✁,大模型对多种模态数据理解✁不充分会导致多种模态生成✁割裂和误差增大。因此,从训练之初就打通多模态数掘,实现端到端输入和输出✁原生多模态技术路线给出了多模态发展✁新可能。 ,基于此,训练阶段即对齐视觉、音频、3D等模态✁数据,实现多模态✁统一,构建原生多模态大模型成为多模态大模型进化✁重要方向。 文本Scaling具身智能 合成数铝 世界模型 音频 Scifnce 视频 米源:BAAI 2024 年