AI产业发展十大趋势 易观分析2024年12月 2025年AI产业发展十大趋势 AGI道阻且长,技术能力持续提升,加速产业落地 self-play RL范式开启,大模型技术军备赛进入复杂推理阶段多模态模型能力持续升级,朝向多模态理解和生成的统一发展Agent向超级智能体进化,具备更强的学习和推理能力,处理更复杂的任务 应用场景多元化探索,初现雏形 AI原生应用形成服务闭环,聚焦专业用户提升效率是中短期重要方向现存应用加速拥抱AI,利用LLM能力提升产品竞争力,不加AI就淘汰AIGC赋能IP全生态,延长优质IP生命周期,提升商业价值贡献硬件全面AI化,教育与办公、生活的应用场景闭环率先实现落地 企业拥抱AI持续加速,理性思考投入产出比 AI赋能千行百业,行业大模型催生“智能链主”AI技术能力普惠之下,利用企业专有数据形成深度洞察与策略是企业未来经营差异化的重要关键AI应用的深化将对企业的组织能力提出新的要求,企业需要打造适用于人机协同的组织管理体系 趋势1:self-play RL范式开启,大模型技术军备赛进入复杂推理阶段 由OpenAI发布的GPT3作为序幕,大语言模型理解和生成能力、通用和泛化能力提升等,引爆了对于AGI发展的高预期,大量大模型涌现,开源模型与闭源模型并驾齐驱,国内大模型也在奋起直追,人工智能的发展从分析式AI进入生成式AI时代。 分析式人工智能→生成式人工智能 •思维革命•AI具备独立思考与逻辑判断的能力•进一步延展,具身智能连接物理世界,硅基生命与碳基生AGI 2.0 •交互革命•人机交互方式:GUI🐀DUI/HUI•Prompt工程价值凸显 通过易观分析AI开发者调研结果来看,OpenAI GPT系列大模型以42.9%的使用率位居首位,同为海外的MetaLLaMa系列大模型以27.1%的比例位居第三位。中国的大模型企业,阿里通义大模型以37.8%的使用率位居第二。 总体上而言,AI开发者在模型层的选型仍然处于变动的状态,且尚未形成相对比较明确的竞争格局。而OpenAI发布o1(草莓)模型,则再次定义大语言模型的技术方向与竞争焦点,如下图所示: 与以往的模型相比,OpenAIo1聚焦于优化推理过程,在复杂的科学、编程和数学等任务中的表现显著提升。它能够像人类一样进行深入思考、逐步推导,这对于解决需要深度逻辑推理的问题具有重大意义,突破了对大型语言模型能力的传统认知,为人工智能在复杂任务处理上开辟了新的道路。 由此而开启Post-train阶段的Self-play RL(自对弈强化学习)范式对于后续大模型技术路线的升级和优化具有指引性的意义,传统预训练依赖全网语料,数据有噪声且质量不一,RLHF后训练受人类标注数据限制。纯强化学习(RL)方法无需人类标注数据,能让模型自我探索学习,激发创新和探索能力,利于突破未知领域。 同时,也需要注意到,尽管Self-play方法已经开始在一定范围内得到应用,但是,也仍然存在挑战需要进一步研究和解决,包括收敛性问题、环境非平稳性问题、可扩展性与训练效率等问题。另外,强化学习注重设计良好的“奖励模型”,但是除了数学、代码等理科领域,强化学习在其他领域仍然难以泛化。 在OpenAI发布O1推理模型之后,国内大模型厂商也紧随其后,纷纷推出了自己的推理模型。这些模型在数学、代码、推理谜题等多种复杂推理任务上取得了显著进步。 总体上而言,在复杂推理阶段,大模型需要具备更高层次的逻辑推理、因果推断和问题解决能力,进而可以扩展大模型在更多领域发挥重要作用,复杂推理的重要性凸显。这进一步提升了当下大模型技术能力的评价标准与竞争壁垒。 趋势2:多模态模型能力持续升级,朝向多模态理解和生成的统一发展 当前自然语言、音频、视频等多个模态的理解与生成能力均提升显著,在模型创新、跨模态能力提升、性能优化上有进展,并涌现出不少基于多模态模型的应用和探索。目前多模态大模型主要有两种思路,具体如下: 具体来说,当前多模态模型的进展如下: 新模型不断涌现 研究机构和企业不断推出性能强大的多模态模型,例如智源人工智能研究院Emu3,是全球首个原生多模态世界模型,通过自回归技术结合图像、文本和视频三种模态,在图像生成、视觉语言理解和生成方面表现出色。 训练方法优化 训练方式不断创新,例如新的联合训练策略,即在训练过程中先固定大语言模型的权重参数,对图像编码器和桥接组件进行初步训练,然后再对整个模型进行整体训练,这种分阶段的训练方式有助于提高模型的性能和效率。 跨模态交互能力增强 能够更好地理解和关联不同模态之间的信息,实现更精准的跨模态交互和转换,例如,可以根据文本描述生成高质量的图像或视频,也可以理解图像或视频内容并生成相关的文本描述,并且在语义一致性方面有了很大提升。 性能提升 计算效率提高,多模态模型计算速度加快、响应时间缩短,可快速处理分析数据满足实时需求。同时,模型结构与训练方法优化使精度提升,在图像、语音、自然语言处理等任务准确率和召回率显著提高。 面对现实世界,信息是以多种模态存在的,如文本、图像、音频、视频等。人类的认知过程是多模态的,我们通过视觉、听觉、触觉等多种方式感知世界。然后,上述在多模型能力方面的进展,通常都是将理解和生成任务分开处理,使用独立的模型分别应对,多模态模型的统一有助于使其更接近人类的认知模式,从而更好地理解和处理复杂的自然场景,增强人机交互体验,拓展更广泛的应用领域。相应地,多模态理解和生成的统一是当下多模态模型能力提升的重要发展方向。 (3)Unified Model(Understanding & Generation) 信息来源:SHOW-O:One Single Transformer to Unify MultiModel Understand and Generation 无论是上述何种思路,多模态整体上需要在如下方向进一步研究与提升,从而实现更广泛的应用落地: 技术发展 增强跨模态理解能力 不同模态的数据(如文本、图像、音频、视频等)具有各自独特的特征和表达方式,统一发展能更好地建立起不同模态之间的关联和映射,让模型更准确、深入地理解各模态信息的内在联系和语义一致性 提高模型的泛化能力 单一模态的模型往往只能处理特定类型的数据,在面对复杂多变的实际场景时可能表现不佳。而多模态模型的统一发展可以整合多种模态的信息,使模型能够从多个角度对事物进行理解和分析,从而提高模型的泛化能力,适应不同的应用场景和数据变化 数据管理 促进数据融合和共享 多模态模型的统一发展需要对不同模态的数据进行融合和处理,这将推动数据的标准化和规范化,促进不同来源、不同格式的数据之间的融合和共享 缓解数据稀缺问题 某些模态的数据可能比较稀缺或难以获取,而多模态模型的统一发展可以通过利用其他模态的数据来弥补某一模态数据的不足 应用落地 拓展应用场景 统一的多模态模型可以打破不同模态之间的界限,为各种创新应用场景的开发提供了可能。例如,在文化娱乐领域,可以打造出具有多模态交互功能的虚拟现实(VR)或增强现实(AR)游戏,让玩家沉浸在更加丰富的虚拟世界中等 降低应用成本 对于企业和开发者来说,使用统一的多模态模型可以减少对不同单一模态模型的开发和维护成本 提高应用效率和质量 多模态模型的统一发展使得不同模态的数据能够在一个模型中进行协同处理,减少了数据在不同模型之间的转换和传输时间,提高了应用的效率。同时,统一模型能够更好地整合多模态信息,做出更准确、更全面的决策和判断,从而提高应用的质量和可靠性 趋势3:Agent向超级智能体进化,具备更强的学习和推理能力,处理更复杂的任务 Agent正凭借一系列关键技术进展,如深度学习、强化学习、自然语言处理技术的突破以及多模态融合等方面的发展,逐步向具备更强学习和推理能力、能处理更复杂任务的超级智能体进化。 基 于 大 语 言 模 型 的 发 展 以 大 语 言 模 型 为 核 心 的Ag e n t在 自 然 语 言 处 理 能 力 上 取 得了 显 著 进 步 。 它 们 能 够 理 解 和 生 成 人 类 语 言 , 准 确 回 答 各 种问 题 , 提 供 详 细 的 解 释 和 建 议 。 这 些 能 力 的 提 升 可 增 强 语 言理 解 与 生 成 , 助 力 任 务 规 划 执 行 , 强 化 推 理 决 策 , 还 能 拓 展知 识 储 备 与 学 习 能 力 , 如 在 客 服 、 写 作 、 金 融 、 科 研 等 多 领域 发 挥 作 用 , 推 动Ag e n t更 好 完 成 各 项 复 杂 任 务 。 多 模 态 融 合 能 力 增 强 部 分Ag e n t开 始 具 备 多 模 态 融 合 的 能 力 , 能 够 结 合 文 本 、图 像 、 语 音 等 多 种 信 息 进 行 处 理 和 分 析 。多 模 态 融 合 能 力 增强可 以 推 动A g e n t实 现 更 全 面 准 确 信 息 理 解 , 克 服 单 模 态 局限 、 整 合 多 源 信 息 ; 带 来 更 自 然 高 效 人 机 交 互 ; 使 其 有 更 强场 景 适 应 力 ; 还 赋 予 更 智 能 决 策 与 规 划 能 力 , 为Ag e n t在多 领 域 应 用 提 供 有 力 支 撑 。 工具使用能力的拓展 Agent能够与外部工具进行更有效的交互和协作。具体涵盖信息检索、数据分析、文件处理、图像音视频处理、自动化流程管理、智能协作沟通等多方面工具能力的拓展。这 对Ag e n t进 化 价 值 显著 。 能 增 强 任 务 处 理 、 提 升 信 息 获 取 整 合 能 力 、 拓 展 应 用 场景 并 促 进 人 机 协 作 , 让Ag e n t可 应 对 多 样 任 务 、 跨 领 域 应用 、 更 好 配 合 人 类 , 有 力 推 动 其 从 单 一 向 多 功 能 等 方 向 进 化 。 上述Agent能力提升对应用场景的拓展意义非凡,使得Agent能更精准理解场景需求,高效处理复杂任务,提升整体工作效率,适应多元环境变化,保障应用的稳定性与持续性。同时,Agent进化为超级智能体也将进一步促进多智能体应用的发展,包括提升任务处理与协同能力,快速处理复杂任务并优化多智能体协同;可能推动多智能体系统的架构向更加智能化、灵活化的方向发展,并对多智能体系统进行集中管理和监控,及时发现和解决系统中的问题,提高系统的稳定性和可靠性等。 尽管上述技术能力的不断提升可以推动Agent向广泛的应用场景拓展,但是在实际落地的过程中仍然需要形成一系列规则和措施来规避如下技术以外的风险和挑战: 伦理道德 社会经济 安全 价值对齐:确保Agent目标与人类价值观一致困难,其决策可能不符人类期望,引发道德困境 对抗攻击:易受恶意攻击,如对抗样本可使Agent产生错误决策,需有效防御技术自主决策风险:自主决策能力可能带来不可预测风险,决策系统故障或被篡改会严重影响社会 就业影响:广泛应用可能替代大量工作岗位,需做好劳动力转型与再培训应对就业市场变化 责任划分:Agent出错时,难以界定开发者、使用者还是其自身的责任,需明确法律伦理框架 社会公平性:发展应用可能加剧不平等,优势群体受益多,落后地区和弱势群体可能被边缘化 隐私保护:Agent训练需大量数据,保障性能同时保护用户隐私是重要挑战 将LLM(大语言模型)和RPA(机器人流程自动化)相结合是现阶段Agent落地的一种有效手段,可以充分发挥技术协同优势,增强数据处理与理解能力,将智能决策与任务执行有机融合;也有助于通过RPA明确的流程规则,确保价值对齐和透明性提升,以及责任界定的辅助;通过RPA系统本身具有的稳定性和可靠性,在一定程度上提升Agent应用的安全保障能力等。如下三种方式