AI智能总结
卷首语· 岁月不居,时节如流。站在新旧交接的十字路口回望,一系列前所未见的技术突破正在重塑机器智能的定义,引发着深层次的变革,预示者着更新、更美好的智能图景。 大模型的持续进化,如同蝶振趣般题覆了我们对人工智能的传统理解。从初次尝试新架构到发现新的普适定律,从能力泛化到模态无缝融合,这些突破性进展正在不断剧新机器智能的界。大模型逐步拥抱文本、视觉、音频、乃至3D数据,实现了感知与认知能力的全面升级,机器具备了更加细腻丰富的理解能力,人机交互焕发了全新的活力。与此回时,人工智能正在向着另一个关链维度挺进一一对真实物理世界的模拟与适应。在这一主题下,机器不仪能够自主感知和推理复杂场景,更能够主动规划行动、做出决策。而具身智能的加速落地,又进一步望造了机器的物理形态。从感知到决策再到控制执行,端到端的智能系统正在起,机客的适应性和灵活性持续突破。 令人振奋的是,这些趋势正互为助力、相得益彰。基座模型能力送代,为世界模拟和具身智能注入了更精准的感知与认知基础,应用落地数据又反哺着基座模型的成长;大模型的惊人能量,扰动着基础科学的浩瀚宇宙,大模型本身又作为科研对象,静候研究者揭晓它更深的奥秘。在这些力量的驱动下,AgenticAl与新时代的超级应用应运面生,悄然渗入每个人的工作和生活中,容风化用股改变看人机交互的形态。 光明息是与黑暗共存。技术和应用正在高款猛进,重塑人类社会的方方面面,而安全隐思在暗处滋生。我们必须建立起与日益智能的机器系统相称的安全技术框架,探索具备最人共识的治理之道,才能最大限度地释放人工智能的无究潜能,让技术以负责任的方式造福人类社会。 于是,在2025年的开端,我们提出十个人工智能技术及应用趋势。通过深入剖析科技的演进轨迹,更清晰地润察未来几年的科技发展方向,预测哪些核心技术将成为关健驱动力、邮些新兴技术将蓬勃发展,它们将如何以创新之力指引人类社会迈向更加智能、美好与互联的末来。 写人与智能系统共生共荣的酸遵算章。而我们作为亲历者,将见证科技为人类文明注入谢津动能,推动人类能力的边界向更高更远处延伸。站在科技的肩膀上,身可高百尺,手可摘星辰 》目录K 超势 科学的未来:AI4S驱动科学研究范式变革p04趋势二“具身智能元年”:具身大小脑和本体的协同进化p06趋势三"下一个Token预测”:统一的多模态大模型实现更高效Alp08趋势四ScalingLaw扩展:RL+LLMs,模型泛化从预训练向后训练,推理迁移p10趋势五世界模型加速发布,有望成为多模态大模型的下一阶段p12超势六合成数据将成为大模型选代与应用落地的重要催化剂p14趋势七推理优化选代加速,成为AINative应用落地的必要条件p16趋势八重塑产品应用形态,AgenticAl成为产品落地的重要模式p17超趋势九Al应用热度渐起,SuperApp花落谁家犹未可知p18趋势十模型能力提升与风险预防并重,AI安全治理体系持续完善p19参考文献p20 Trend 科学的未来:AI4S驱动科学研究范式变革 ■2024年度的诺贝尔物理学奖、化学奖均颁发给了AI领域科学家。大模型引领下的AI4S,已成为推动科学研究范式变革的关键力量。 ■科学研究的范式带有其所处时代的认知水平、价值取向、工具先进性、科研资源等因素的深刻熔印。自人类开始记录自然现象以来、科学研究经历了经验观察、理论建构、仿真模拟、数据驱动的科学发现四个阶段。 大模型时代,Al4S(AlforScience)展现出的赋能效果与小模型时期大相径庭。传统人工智能在科学研究中多聚焦于特定任务的优化,如数据挖插算法辅助科研数据处理,或基于既有模式进行推理预测,但其模型规模与泛化能力有限,难以解决复杂问题。而大模型以海量数据训结,具备弱大的跨领域知识整合能力:模型架构赋予其多层次的学习和处理能力,能够捕提高维数据中的复杂结构和模式,并对复杂科学问题进行整体理解与全局综合分析。大模型还能通过生成式能力提出创新性假设,为科学研究开辟新方向。 高性能算力的支持下,大模型正以前所未有的广度与深度重塑科学研究格局,成为推动科研突破、解决实际问题的强劲动力,2024年2月,俄亥俄州立大学发布用于执行化学任务的LlaSMol大模型,在名称转换、特征预测、分子描达、化学反应知识等任务上取待较优成锁:同时,研究团队发布了包含14个任务、300多万个高质量样本的数据集SMolnstruct,为后续相关 研究提供宝贵资源、5月,DeepMind和Isomor-phicLabs团队联合发布AlphaFold3,能够准确预测蛋自质与其他分子的相互作用,相较上一代模型,应用范国取得巨大突破。 国内方面,2024年6月,中国气象局发布“风清”“风顺""风雷”三个人工智能气象大模型系统,具有大气强物理融入和可解释性,在实现高效计算 Trend 的同时,可为预测结果提供物理可解释性依据,自动挖摄包括天气系统内在的物理演变。12月,北京替源人工智能研究院提出的BAAIWorm天宝被选为NatureComputationalScience期封面;BAAIWorm是一个全新的、基于数据驱动的生物智能模拟系统,首次实现秀丽线虫的精细神经系统、身体与环境的闭环伤真,为探索大脑与行为之间的神经机制提供重要研究平台。此外,智源研究院正在研发OpenComplex平台,该平台建立了将蛋白质结构预测、RNA结构预测和蛋白质RNA复合物结构预测三类任务统一的端到端生大分子三维结构预测深度学习框架,以期逐步构建能够模拟生物过程的“数字李生系统” 2025年,多模态大模型将进一步融入科学研究,赋能多维数据的复杂结构挖掘,辅助科研问题的综合理解与全局分析,为生物医学、气象、材料发现、生命模拟、能源等基础与应用科学的研究开辟新方向。 DavidBaker 华盛领大学蛋白质设计研究所所长2024年诺贝尔化学奖得主 (正是因为AI的影响),我们看到原本如同黑魔法般的蛋白质疗法(给动物免疫,让白然免疫系统找到解决方案)转变为实际合理的设计。 Trend “具身智能元年”:具身大小脑和本体的协同进化 ■2024年,全球范围内的具身智能竞争日渐白热化。从融资规模、产品发布等多维度来看,中美两国在该领域执行业牛耳。以国内为例,根据智源研究院数据统计,截至2024年底,国内已发布或在研人形机器人接近100家,融资规模超100亿元,称之为“百机大战“并不为过 ■从厂商类型来看,专注本体/零部件、具身脑、具身脑和本体并重等三类厂商主导具身智能行业。自2024年5月以后,获得融资的“专注本体”的具身初创企业融资事件数平均占比较前五月下降了36.8%。可以认为,具身赛道的创业和资本热度已从本体扩展到具身大小脑。 ,相较于整体成然、更注重细节创新的本体,大模型目前在具身大脑应用较多。在具身小脑方向,大模型的应用尝试将将起步。 本体方面,作为一个相对成熟的领域,在本轮具身智能热度中,更倾向于在细分领域有所创新。比如灵巧手为代表的未端执行器、触爱传感器为代表的传感器、面回具身专门设计的感知芯片等细分领域,在2025年均可能迎来更新选代。 ■至于具身大模型,目前已形成两条主流技本路线:端到端模型和分层决策模型。分层模型方面LLM、VLM等二成为具身大胸的主流范式,而小脑侧仍以传统控制方法为主。端到端模型,作为近两年的研究热点,覆盖感知-决策-控制全流程,理论上可获取的信息量最为丰富,端到端的输出效果最优,就模型赋能效果来看,具身大模型回在感知决宽端实现了教好的多任务迁移和处理,但控制扶行侧的泛化仍需要技术路径的持续送代和模型规模的Scalingup,这或可成为2025年的突破方向。 Trend 内外科技大厂及研究机构在近两年时间内密集推出具身模型成果。 海外方面,Google联合DeepMind发布的RT系列模型。其中,RT-1首先将Transformer应用到机器人领域,表现出较好的长时序任务执行能力。RT-2则是首个端到端视觉语言动作模型(VLA,Vision-Language-ActionModels),实现了感知信息输入-动作控制信息输出。RT-X基于自采的大规模、多样化数据集训练,支持在多机器人平台、泛化任务和环境间迁移,通用性进一步提升。斯坦福人学在2023年发布的多模态视偿模型VoxPo5er(LLM+VLM),可根据感知到的环境信息与用户指令,指导合成机器人所需执行的模作轨迹。PhysicalIntelligence公司发布ro通用机器人基础模型,将互联网规模的视觉一语言预训练与实际机器人交互数据相结合,在五项机器人任务的评估中优于其他的基线模型。 国内方面,银河通用尝试利用三维视觉小模型+基础大模型的技术组合解决具身模型泛化能力差,响应速度慢的问题。自前,银间通用的具身大模型机器人Galbot已落地应用干美团24小时无人值守药房,承担补货、取货等任务;星海图持续推动在具身本体及核心模组、端到端AI算法以及场最解决方案的研发及落地:北京智源人工智能研究院基于快系统和慢系统的设计略线,将快系统用于产生快速直觉的动作,当通过快系统执行任务失败时,再通过慢系统检测、定位任务失败节点,并进行纠正。 2025年的具身智能,将继续从本体扩展到具身脑的叙事主线,我们可以从三方面有更多期待。在行业格局上,近百家的具身初创或将迎来洗牌,厂商数量开始收效;在技术路线上,端到端模型维续选代,小脑大模型的尝试或有突破;在商业变现上,我们也必将看到更多的工业场景下的具身智能应用,部分人形机器人迎来量产。 黄仁勋英伟达创始人 人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统: 3Trend 下一个Token预测”统一的多模态大模型实现更高效AI ■2023年以来的大模型热度肇始于LLM在多任务中的通现,但国于LLM所学习的模态单一,模型能力很难向高维的真实世界拓展。而人工智能的本质在于对人的思维的信息过程的模拟,人类对于信息的交互和处理,总是呈现多模态、跨模态的输入输出状态。当前的语言大模型、接式的多模态大模型,在对人美思维过程的模拟上存在天然的局限生。 ■以传统多模态大模型为例,DiffusionTransformer(DiT)和LLM+CLIP是当前主流的多模态构建路线,但这两条路径中数据的"后融合方式会造成多模态信息的损失,各模态信息表征本质上是相互孤立的,大模型对多种模态数据理解的不充分会导致多种模态生成的割裂和误差增大。因此,从训练之初就打通多模态数据,实现端到端输入和输出的原生多模念技术路线给出了多模态发展的新可能。 基于此,训练阶段即对齐视觉、音频、3D等模态的数据,实现多模态的统一,构建原生多模态大模型成为多模态大模型进化的重要方向。 2024年,海外头部模型厂商积极布局原十生多模态模型,在性能泛化上也得到初步证明。2024年5月,OpenA1发布了新代原生多模态恭础模型GPT-4O,这款模型的创新之外在放奔了GPT-4等前代模型使用独立神经网络处理不同输入教据的做法,采用单一统的神经网络来处理所有输入,这一创新使得GPT-4o在多模态融合能力显著提升,OpenAI团队称其为首个原生多模态模型。同月,Meta团队 发布原生多模态大模型Chameleon,模型同样采用了统一的Transformer架构,使用10万亿token文本、图像和代码混合模态数据完成训练,34B参数模型性能接近GPT-4V,并且同时生成两种模态。12月,OpenAl发布o1正式版,更侧重复杂问题的解决和更强大的推理能力,在STEM方面表现出色,尤其是科学、编程、数学模型等方面能力更为突出;同月,Google发布原生多模态大模型Gemini2.0.支持图像、视领、音 13Trend 频等多模态输入和输出,可调用Google原生的代码、搏索以及第三方工具。 相较于海外原生多模态大模型的如火如茶,国内原生多模态大模型目前处于探索阶段。2024年9月,北京智源人工智能研究院发布完全自研的自回归原生