行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

深度学习专利全景：多模态人工智能、智能体与数字人的兴起

文化传媒 2026-01-09 Questel 王英文

深度学习专利全景分析

概览

深度学习领域技术创新活跃，专利活动持续加速增长。本报告聚焦多模态人工智能（MultimodalAI）、智能体（IntelligentAgents）与数字人（DigitalHumans）三大前沿方向，揭示新一轮创新浪潮特征与趋势。这三个领域快速演进并相互融合，推动人工智能系统向更高自主性、更强交互性及更以人为本的方向发展。少数全球科技领军企业通过整合基础模型、智能体能力与拟人化交互界面，构建系统化创新战略，主导关键转型进程。

深度学习全球专利全景

深度学习与生成式人工智能革命经历三个主要阶段：2011年至2016年深度学习革命阶段、2016年至2021年生成式人工智能兴起阶段、2021年至今生成式人工智能爆发阶段。2011年至2024年全球累计产生约45万个深度学习相关专利家族，其中大语言模型（LLMs）自2020年后迅猛崛起。主要参与者专利申请数量持续增长，百度在深度学习和大语言模型领域均居首位。

聚焦：多模态人工智能/数字人/智能体

多模态人工智能

多模态人工智能是当前人工智能创新的重要基石，目标在于使机器能够通过单一模型理解并融合多种类型信息。OpenAI、谷歌、百度是该领域核心引擎开发者。谷歌凭借数量最多的多模态人工智能专利家族以及广泛的国际保护布局占据主导地位，百度紧随其后。腾讯、阿里巴巴和平安科技拥有数量可观的专利家族，但主要立足于国内市场。微软、华为和三星电子则采取平衡的布局策略。

智能体

智能体是能够长期自主运行的人工智能系统，主动设定目标、拆解任务步骤、调用外部工具，并动态调整行为。IBM在该领域专利总量保持领先地位，将智能体发展重点定位于面向企业及专业层级的解决方案。谷歌、百度和微软紧随其后，均拥有规模可观的专利组合。智能体领域专利格局高度集中，少数全球性科技巨头占据主导地位。

数字人

数字人是人工智能以类人形态实现具身化交互的典型代表，整合了语言模型、语音技术与实时动画。英伟达在数字人领域展现出显著的专利优势，共布局565个专利家族，其中包含299个国际专利家族。IBM和百度位居其后，但国际专利布局规模与英伟达相比仍有较大差距。数字人专利格局呈现清晰的层级体系，以英伟达为代表的少数全球技术领导者主导核心技术创新。

生成式人工智能

生成式人工智能应用技术涵盖多模态人工智能、数字人及智能体等领域，自2017年以来进入快速且持续扩张的新阶段。谷歌、微软等全球科技巨头已建立起广泛且高度国际化的专利组合，在生成式人工智能各细分领域的国际专利家族数量上持续领先。百度在多模态人工智能、数字人及智能体三大方向上均构建了强大的专利组合，尤其在基于智能体的任务导向型人工智能系统领域表现突出。

深度学习专利全景： -多模态人工智能、智能体与数字人的兴起目录关于Questel ....................................................................................................................................3概览........................................................................................................................................................4I.引言................................................................................................................................................6II.方法论......................................................................................................................................81.数据来源与检索策略...........................................................................................................82.分类方法......................................................................................................................................9III.深度学习全球专利全景..............................................................................................10IV.聚焦多模态人工智能/数字人/智能体. ..............................................................141.引言...............................................................................................................................................142.多模态人工智能......................................................................................................................153.智能体...........................................................................................................................................174.数字人............................................................................................................................................185.生成式人工智能..........................................................................................................................20附录.........................................................................................................................................................22 关于Questel Questel是世界一流的端到端知识产权解决方案提供商，业务覆盖全球30个国家/地区，为超过20,000家客户及150万用户提供服务。我们提供一套完整的软件解决方案，专门用于高效检索、深度分析及系统化管理创新发明与知识产权资产。 Questel还提供覆盖知识产权全生命周期的专业服务，包括现有技术检索、专利申请撰写、国际申请支持、文件翻译以及专利续展等。通过将我们的解决方案与知识产权成本管理平台相结合，平均可为客户节省全部专利申请预算的30%至60%。 Questel始终致力于以高效、安全、可持续的方式推动创新发展。在履行这一使命的同时，我们亦高度重视企业社会责任（CSR），深信企业应对自身活动负责，并在客户、员工、社区及环境等各方面创造积极影响。如需了解更多关于Questel的信息，欢迎访问我们的官方网站：www.questel.com 更多内容可在网上查阅，请参考：www.questel.com/resources-hub/ 概览深度学习目前仍是技术创新中最活跃的领域之一，相关专利活动持续加速增长。基于我们此前在深度学习与大语言模型方面的研究基础，本报告通过对专利申请数据的深入分析，聚焦多模态人工智能（MultimodalAI）、智能体（IntelligentAgents）与数字人（DigitalHumans）这三大前沿方向，揭示当前新一轮创新浪潮的特征与趋势。这三个领域正快速演进并相互融合，共同推动人工智能系统向更高自主性、更强交互性及更以人为本的方向发展。专利全景分析表明，少数全球科技领军企业正通过整合基础模型、智能体能力与拟人化交互界面，构建系统化创新战略，从而主导这一关键转型进程。 §谷歌凭借其Gemini系列模型，在核心技术领域确立了领导地位。Gemini采用原生多模态架构，深度融合文本、视觉、音频与视频处理能力，并持续强化智能体推理功能。谷歌的国际专利布局规模突出，有力支持其在搜索、云服务及生产力工具等全球核心业务中，规模化部署多模态与智能体驱动的人工智能系统。 §百度展现出高度垂直整合的特点。依托ERNIE多模态大模型引擎、面向智能体的GenFlow与AgentBuilder平台，以及不断扩展的数字人技术体系，百度已构建覆盖多模态人工智能、智能体与数字人三大领域的统一技术栈。其在专利申请数量上的显著优势，体现出以规模化部署为核心的战略导向。 §英伟达在数字人领域处于主导地位。尽管英伟达并不直接定位为通用人工智能助手提供商，但其提供的底层基础设施、平台及工具链，是实现具身人工智能的关键支撑。通过Omniverse与AvatarCloudEngine，英伟达支持高度拟真的数字人及多模态交互，并拥有坚实的国际专利组合作为后盾。 §微软采取“企业优先”策略，将多模态人工智能与智能体深度融入企业业务流程。依托与OpenAI的战略合作及自研智能体框架，微软已将Copilot全面集成至Office套件、云平台及企业级软件中。其专利布局呈现出高度均衡的特点：不仅专利组合规模可观，更在全球范围内构建了高比例的同族专利，彰显在企业级人工智能领域的全球化布局与雄心。 §IBM凭借watsonx.ai平台与Granite基础模型家族，成为智能体领域的重要推动者。公司专注于专业级与企业级人工智能系统，虽在消费端声量有限，但IBM强大的专利实力，充分印证了其作为企业环境中智能体驱动型人工智能核心基石的战略定位。 I.引言深度学习作为人工智能的核心技术之一，通过多层人工神经网络从海量数据中学习分层表征，在图像识别、语音识别与自然语言处理等感知任务中取得了卓越成果。在这一技术框架下，自2016年左右兴起的生成式人工智能已成为重要分支，它专注于运用变分自编码器（VAEs）、生成对抗网络（GANs）、扩散模型以及基于Transformer架构的大语言模型等方法，生成包括文本、图像、视频、音频、代码及合成数据在内的各类新内容。其中，大语言模型作为基于Transformer架构的系统，通过在海量语料上进行训练，具备理解、生成与处理自然语言的能力，进而可实现推理、摘要、翻译和对话交互等功能。与上述基础性人工智能技术层相对应，以下三大领域已作为其上层应用逐步发展并走向成熟： •多模态人工智能：指能够同时处理、理解并生成多种模态或数据类型（如文本、图像、音频、视频及传感器数据）信息的系统。通过整合不同形式的输入并进行跨模态推理，此类系统可形成统一的语义理解，并能生成跨越模态边界的连贯内容，例如带字幕的图像、配有旁白的视频，或实现音画同步的交互响应。相较于单模态系统，多模态人工智能显著提升了系统的感知维度、人机交互的自然度以及内容生成的灵活性与适应性。 •智能体：指具备自主或半自主能力的人工智能系统，可通过传感器（如视觉、音频及其他传感数据）感知环境，基于既定目标做出决策，并执行行动以完成特定任务。借助深度学习、多模态理解、生成与推理能力，智能体能够独立运作、从经验中持续学习、与人类及其他智能体高效协作，并动态调整行为以适应不断变化的环境。因此，它们尤其适用于任务自动化、智能规划、人机协同、实时辅助及自适应决策支持等动态场景。•数字人：是融合计算机图形学、动画、自然语言处理、语音合成与行为智能等技术构建的人工智能虚拟化身，能够以高度拟真的形象与人类进行自主或半自主交互。基于多模态人工智能与生成式技术的支持，数字人在外观、语音、表情、动作及行为模式上已具备高度仿真能力，目前广泛应用于医疗健康、教育、娱乐及客户服务等领域，典型应用包括虚拟助理、数字教练、虚拟演员以及情感陪伴系统等。 II.方法论 1.数据来源与检索策略本报告的数据基础来源于Questel提供的全球专利数据库FamPat及其检索平台OrbitIntelligence。FamPat按简单专利家族进行组织，收录全球100多个国家与地区的专利申请及授权专利，其中包含22个主要专利局的可检索全文数据。由于每条FamPat记录可能对应多个公开日期不同的文献，为统一分析，本报告将各专利家族中最早的首次申请日作为该家族的代表日期。首次申请局（或优先权）指某项发明在全球范围内提交的第一份专利申请，该申请一经提交即构成“优先权申请”，其提交日期为优先权日，申请所在地则为优先权国。除非特别说明，本报告中的所有表格和图表均采用优先权日作为时间基准，因其最能准确反映发明活动的实际发生时间。专利的来源地（即专利家族的起源）依据“首次申请局”确定。需指出的是，尽管该方法在极少数情况下可能存在偏差，但仍为识别各实体通常首次提交申请的国家或地区提供了一种实用且公平的参照——该地区通常与其本国专利局所在地一致。每个专利家族均关联一个或多个实体，统称为专利权人。如果同一专利家族中的专利由多个权利人共同持有，则该专利家族将归属于所有相关实体。为提升可读性并提供清晰的整体概览，本报告对所列申请人进行了系统性归并，将其统一归类至对应的母公司名下——子公司及其他关联实体均按此原则整合，以反映统一的所有权结构。此项归并工作结合了自动化处理（基于OrbitIntelligence数据库）与人工核查，并依据报告撰写时可获取的最新公开信息完成。 2.分类方法本专利全景分析聚焦于深度学习（DeepLearning,DL），并特别关注三个快速

点击免费查看完整报告

深度学习专利全景：多模态人工智能、智能体与数字人的兴起

深度学习专利全景分析

概览

深度学习全球专利全景

聚焦：多模态人工智能/数字人/智能体

多模态人工智能

智能体

数字人

生成式人工智能

你可能感兴趣

2024年深度学习领域专利全景分析报告

人工智能与宏观经济建模：RBC模型中的深度强化学习

中国人工智能行业研究：人工智能行业系列（三）：中国深度学习框架深化应用的痛点与挑战

华创宏观●全球市场与中国连线第220期纪要：深度学习和人工智能领域的现状与展望

人工智能与宏观经济建模：在RBC模型中的深度强化学习

基于大型语言模型的智能体的兴起与发展

【公告全知道】华为鸿蒙+机器人+AI智能体+算力+多模态AI+信创！这家公司产品率先完成原生鸿蒙-应用的开发与适配

面向硬件设计的多模态与多AI智能体

2022年AI和人工智能与机器学习全景报告

针对干扰攻击下的协作无人机中继网络的多智能体深度强化学习