AI智能总结
序言 从今年起,量⼦位智库做了⼀个改变—— 在过往三年连续围绕整个前沿科技来提供年度科技趋势参考后,今年聚焦在了AI。 过去,AI是前沿科技主轴上的⼀⽀核⼼技术。现如今,AI正在吞噬整个世界、整个产业、全部赛道。 没错,AI已经完全成为了科技发展主旋律。 尽管有诸多类⽐,如⼀开始类⽐互联⽹⾰命,到后来类⽐电⼒(第⼆次⼯业)⾰命,再到现如今——最宏⼤的⼀种说法是:第⼆次地球⽂明⾰命。 所以不论如何,可⻅AI正在展开的冲击、带来的影响⼒是如何全⾯⼜深刻,甚⾄⼀度被以科幻的⽅式谈论它。 AI当然不是科幻,AI⾸先是⼀⻔科学,其次是⼀项⼯程,最后正在变成⼀种⼯业。 这就意味着AI不仅可以观测、可以学习,还能预测——或者更准确来说,我们就是站在新进展新信息的最前沿,站在产学研交汇地带,把正在从学术研究进⼊产业变⾰程序的技术⽅向,总结并举例说明呈现给所有⼈。 在今年,我们还通过更具规模的数据统计,在AI应⽤的创新创业和投资⽅⾯,也提供了结论性参考,希望对整个产业提供第三⽅视⻆下的助益。 总之,希望这份年度趋势报告,能够对你在岁末年初了解时代技术进展提供最直接的帮助。⾝处技术⼤航海时代,即便你未能出海探索,也希望你能感知到潮⽔涌动的⽅向。 量⼦位智库总裁 目录 2024年度⼗⼤AI趋势 技术篇 趋势⼀⼤模型创新:架构优化加速涌现,融合迭代⼤势所趋/02/10/16趋势⼆ScalingLaw泛化:推理能⼒成皇冠明珠,倒逼计算和数据变⾰趋势三AGI探索:视频⽣成点燃世界模型,空间智能统⼀虚拟和现实 产品篇PART2 趋势四AI应⽤格局:第⼀轮洗牌结束,聚焦20赛道5⼤场景/25/35/45/50趋势五AI应⽤竞争:多领域竞速运营⼤于技术,AI助⼿兵家必争趋势六AI应⽤增⻓:AI+X赋能类产品⼤⼲快上,原⽣AI爆款难求趋势七AI产品趋势:多模态上⻢,Agent席卷⼀切,⾼度个性化呼之欲出 ⾏业篇PART3 趋势⼋AI智变千⾏百业:左⼿变⾰⽣产⼒,右⼿重塑⾏业⽣态趋势九AI⾏业渗透率:数据基础决定初速度,⽤⼾需求成为加速度趋势⼗AI创投:投融资⻢太效应明显,国家队出⼿频率提升千⾏百业AI优秀落地⽅案推荐/54/75/78/87 结语 ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎꢏ⻓ꢐꢑꢒꢓꢔꢃꢁꢕꢀ 1.架构层创新助⼒解决算⼒瓶颈现实问题/02 2.创新混合架构挑战Transformer垄断/02/03技术原理——1.路径⼀:循环神经⽹络及其变种(以RWKV为代表)2.路径⼆:状态空间模型(以Mamba为代表)/05/063.路径三:层次化卷积模型(以UniRepLKNet为代表)4.路径四:多尺度保持机制模型(以RetNet为代表)/075.路径五:液体神经⽹络模型(以LFM为代表)/08 TECHNOLOGY ꢀꢁꢪAGIꢫꢬꢈꢭꢮꢯꢜꢰꢱꢲꢳꢄꢅꢐꢴꢵꢶꢚꢷꢂꢸꢹꢥ⻓ꢺ技术原理—— 1.视频⽣成:从扩散模型出发/162.世界模型:从⾃动驾驶领域到整个世界/193.具⾝智能:回到现实世界,回到产业链/20/224.空间智能:连结具⾝智能与空间计算 ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎ⻓ꢏꢐꢑꢒꢓꢂꢔꢕꢖ 1.架构层创新助⼒解决算⼒瓶颈现实问题 Transformer架构是⽬前应⽤最⼴泛的主流⼤模型架构,⽽⾃注意⼒机制(Self-Attention,SA)则是Transformer架构的核⼼——它允许模型进⾏并⾏计算,在序列中⾮线性地直接捕捉任意两个位置之间的关联权重,⼤幅提⾼模型能⼒上限。但另⼀⽅⾯,这也使模型的算⼒需求、计算复杂性和消耗资源成本都随参数增加呈指数级增⻓,在⼤规模任务中快速触达天花板。 2024年以来,随着⼤模型参数量的⻜速规模化以及训练与部署的深⼊落地,Transformer架构的上述弊端愈发显著,成为助推全球性算⼒紧缺的重要因素,也为⼤模型的端侧落地提出了挑战。为寻求突破,对⼤模型架构的创新性探索逐渐成为不容忽视的趋势。 若能突破Transformer在算⼒和数据需求⽅⾯的限制,新架构有望在⾃然语⾔处理和计算机视觉领域引发新⼀轮技术⾰新。 ——明势创投 2.创新混合架构挑战Transformer垄断 ⾃2017年AttentionIsAllYouNeed出世提出Transformer架构以来,7年已过。AI⾏业对Transformer的路径依赖引发了越来越多的“过时”争论,体现出⽇渐迫切的架构创新需求。 2023年以来,RWKV和Mamba引起热议,多种新架构加速涌现,世界范围内的学者从多个⽅向努⼒,试图在保留Transformer架构优势的基础上创新性引⼊其他架构特点,解决算⼒开销问题,Transformer的绝对统治地位得到挑战,兼采众家之⻓的混合模型(Hybrid)已成未来趋势。 Transformer架构、Next-Token Prediction和Scaling Law是当前⼤模型的算法基⽯,但这些领域也越来越需要新的突破,以构建强⼤且⾼效的新⼀代基础⼤模型。强⼤意味着卓越的性能、泛化能⼒和抵抗幻觉能⼒;⾼效则指低成本、⾼效率和低能耗。只有具备这两⼤特质,⼈⼯智能才能真正成为⽔和电⼀样的基础设施。 ——微软亚洲研究院 这些新兴⼤模型架构不仅在性能上可以与Transformer模型竞争,还在内存效率和可扩展性上展现出优势。梅花创投杨颜媛表⽰,部分新架构更易于进⾏并⾏计算,能够充分利⽤现代硬件的并⾏计算能⼒,提⾼训练和推理的速度。 它们的出现,为AI领域带来了新的活⼒,也为未来的研究和应⽤开辟了新的可能性。随着这些模型的不断发展和优化,我们有理由相信,⼤模型创新架构将在AI未来发展中扮演越来越重要的⻆⾊。 ꢀꢁꢂꢃ 1.路径⼀:循环神经⽹络及其变种(以RWKV为代表) 循环神经⽹络(RNN)通过循环⽅式处理序列数据,能够对过去的输⼊保留记忆,但存在难以并⾏化的问题,Transformer架构的诞⽣最早就是为弥补这⼀缺陷。但仍有很多学者认为,RNN的潜⼒还远未达到天花板,在Transformer架构越来越受到诟病的今天,RNN凭借其独特优势再度获得了越来越多学者的探索创新。 ⽬前这⼀路径的架构创新主要使⽤循环神经⽹络(RNN)替代⾃注意⼒机制,通过循环⽅式处理序列数据,使模型对过去的输⼊保留记忆。 ꢗꢘꢙꢚ RWKV「联想记忆法」 区别于Transformer的Query-Key-Value参数,RWKV架构由四个重要参数组成:R、W、K、V,除了可训练的权重参数w(Weight),RWKV还使⽤r(Receptance)参数来控制对信息的接受程度。 RWKV与Transformer架构的本质区别在于背后的记忆机制,与Transofrmer的内存寻址机制相⽐,RWKV更像是⼀种联想记忆⽅法。 RWKV=AssociativeMemory联想记忆: Transformer=AddressingMemory寻址记忆: 我相信RNN是正确的,但现在的RNN远远没有做到它真正的⽔平,它的上限其实是⾮常⾼的,现在我们还远远没有到那个地步,还有很多空间。因为RNN更接近⼈脑和宇宙的运作⽅式。例如,在物理上,宇宙的下⼀状态只与上⼀状态有关,这是所谓的locality和causality,量⼦场论遵循这⼀原则。 ——彭博,RWKV作者 (1)RWKV核⼼思想 RWKV(RecurrentWeightedKey-Value)模型核⼼思想是将RNN的循环结构与Transformer的并⾏计算能⼒相结合,在实现⾼效推理、节省存储开销的同时保持模型的⾼性能。这使得RWKV可以“像Transformer⼀样”进⾏并⾏训练,同时在推理阶段可以以递归形式进⾏解码,“像RNN⼀样”推理。 (2)RWKV的创新点• TokenShift:token shift在时间混合计算中,通过对当前和前⼀输⼊的线性组合进⾏线性投影,⽣成⽤于时间混合的向量;在通道混合计算中,也采⽤类似的⽅法⽣成通道混合输⼊向量 •WKV运算符:WKV运算符利⽤时间衰减因⼦对权重进⾏更新,使得每个时间步的输出依赖于之前所有时间步的信息,从⽽保留了RNN的记忆能⼒,这种设计使得RWKV模型在保持较低计算复杂度的同时,能有效捕捉序列数据中的⻓期依赖关系 输出⻔控:RWKV通过在时间混合和通道混合块中使⽤sigmoid函数对接收向量进⾏⻔控,控制信息的流动和记忆更新,确保在每个时间步只传递和处理相关信息,从⽽减少梯度消失和爆炸问题,增强了模型的稳定性和训练效率 (3)RWKV的发展与应⽤ RWKV⾃提出以来已经经历了多次版本迭代,最新版本RWKV-7预览版已在今年9⽉正式发布。 2.路径⼆:状态空间模型(以Mamba为代表) 状态空间模型可以看作是循环神经⽹络(RNN)和卷积神经⽹络(CNN)的融合,由其发展⽽来的结构化的状态空间序列模型(SSM)是另⼀颇具潜⼒的⼤模型创新架构代表。这类模型利⽤状态空间处理⻓序列问题,通过循环或卷积运算实现⾼效计算,使得计算开销与序列⻓度呈线性或近线性关系,从⽽显著降低计算成本。 (1)Mamba⾸次提出 2023年12⽉,Mamba架构⾸次被提出,引⼊了选择性状态空间模型,实现了对输⼊数据的有选择性处理。这种选择机制使得模型能够根据当前输⼊的token决定哪些信息是重要的,忽略不相关的信息,提升模型处理⻓序列的能⼒和推理吞吐量,达到Transformer模型的五倍。 (2)Mamba核⼼思想 Mamba的核⼼在于其硬件感知算法,利⽤现代硬件(如GPU)的内存层次结构,通过扫描⽽⾮卷积计算模型,减少不同级别GPU内存间的IO访问,提⾼计算效率。此外,Mamba简化了深度序列模型设计,⽆需注意⼒机制或多层感知器(MLP)块,使模型更加简洁。 (3)Mamba-2核⼼思想 今年5⽉,Mamba-2发布,提出了状态空间对偶(SSD)框架,揭⽰了状态空间模型与结构化掩码注意⼒之间的联系。Mamba-2的核⼼层通过引⼊新的SSD算法,在训练效率上提升了2-8倍,同时保持了与Transformer在语⾔建模⽅⾯的相似⽔平竞争⼒。 (4)Mamba-2创新点• 硬件友好设计:Mamba-2的另⼀个重要贡献是其对硬件友好的设计,允许使⽤更⼤的状态维度,提⾼训练速度。在处理需要更⼤状态容量的任务,如多查询关联回忆(MQAR)任务时,Mamba-2显⽰出⽐Mamba-1显著的性能提升 混合模型的探索:Mamba-2还探索了将注意⼒层与SSM层结合的混合模型,发现适量的注意⼒层可以进⼀步提升模型性能 3.路径三:层次化卷积模型(以UniRepLKNet为代表) 层次化卷积模型,以UniRepLKNet为代表,是⼀种⻓卷积架构,其核⼼在于使⽤与输⼊序列⻓度相当或接近的滤波器(核)来捕捉序列数据中的⻓距离依赖关系。这种设计使得模型在处理输⼊时能够考虑到更远的历史信息,有效处理⻓序列问题。 (1)UniRepLKNet创新点 UniRepLKNet采⽤⼤核CNN,能够处理多种模态数据,如图像、⾳频、时序预测等。该模型提出了“局部结构设计、重参数化、核⼤⼩选择和随深度拓展添加⼩核”四条指导原则来设计⼤核CNN架构,并采⽤硬件感知的并⾏算法,在图像识别任务中实现领先性能,并在⾳频、视频、点云和时间序列等多模态任务中也取得了显著的结果。UniRepLKNet的优势在于充分利⽤⼤核卷积神经⽹络的特点,通过创新的架构设计,有效地解决了感受野、特征抽象层次以及模型深度表⽰能⼒等核⼼问题。 (2)⼤核卷积的优势 ⼤核卷积的独特优势在于不依赖深度堆叠即可获得⼤感受野,避免了深度增加带来的边际递减问题。UniRepLKNet提出了⼀种膨胀重参数块(DilatedReparamBlock),即通过使⽤多个膨胀⼩核卷积层来增强⼀个⼤核卷积层,从⽽在不增加推理成本的情况下提⾼性能,该块的公式如下: 膨胀重参数块使⽤膨胀的⼩核卷积层来增强⾮膨胀的⼤核层。这样的膨