您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Questel]:深度学习专利全景:多模态人工智能、智能体与数字人的兴起 - 发现报告

深度学习专利全景:多模态人工智能、智能体与数字人的兴起

文化传媒 2026-01-09 Questel 王英文
报告封面

深度学习专利全景: -多模态人工智能、智能体与数字人的兴起 目录 关于Questel ....................................................................................................................................3概览........................................................................................................................................................4I.引言................................................................................................................................................6II.方法论......................................................................................................................................81.数据来源与检索策略...........................................................................................................82.分类方法......................................................................................................................................9III.深度学习全球专利全景..............................................................................................10IV.聚焦多模态人工智能/数字人/智能体. ..............................................................141.引言...............................................................................................................................................142.多模态人工智能......................................................................................................................153.智能体...........................................................................................................................................174.数字人............................................................................................................................................185.生成式人工智能..........................................................................................................................20附录.........................................................................................................................................................22 关于Questel Questel是世界一流的端到端知识产权解决方案提供商,业务覆盖全球30个国家/地区,为超过20,000家客户及150万用户提供服务。我们提供一套完整的软件解决方案,专门用于高效检索、深度分析及系统化管理创新发明与知识产权资产。 Questel还提供覆盖知识产权全生命周期的专业服务,包括现有技术检索、专利申请撰写、国际申请支持、文件翻译以及专利续展等。通过将我们的解决方案与知识产权成本管理平台相结合,平均可为客户节省全部专利申请预算的30%至60%。 Questel始终致力于以高效、安全、可持续的方式推动创新发展。在履行这一使命的同时,我们亦高度重视企业社会责任(CSR),深信企业应对自身活动负责,并在客户、员工、社区及环境等各方面创造积极影响。如需了解更多关于Questel的信息,欢迎访问我们的官方网站:www.questel.com 更多内容可在网上查阅,请参考:www.questel.com/resources-hub/ 概览 深度学习目前仍是技术创新中最活跃的领域之一,相关专利活动持续加速增长。基于我们此前在深度学习与大语言模型方面的研究基础,本报告通过对专利申请数据的深入分析,聚焦多模态人工智能(MultimodalAI)、智能体(IntelligentAgents)与数字人(DigitalHumans)这三大前沿方向,揭示当前新一轮创新浪潮的特征与趋势。这三个领域正快速演进并相互融合,共同推动人工智能系统向更高自主性、更强交互性及更以人为本的方向发展。 专利全景分析表明,少数全球科技领军企业正通过整合基础模型、智能体能力与拟人化交互界面,构建系统化创新战略,从而主导这一关键转型进程。 §谷歌凭借其Gemini系列模型,在核心技术领域确立了领导地位。Gemini采用原生多模态架构,深度融合文本、视觉、音频与视频处理能力,并持续强化智能体推理功能。谷歌的国际专利布局规模突出,有力支持其在搜索、云服务及生产力工具等全球核心业务中,规模化部署多模态与智能体驱动的人工智能系统。 §百度展现出高度垂直整合的特点。依托ERNIE多模态大模型引擎、面向智能体的GenFlow与AgentBuilder平台,以及不断扩展的数字人技术体系,百度已构建覆盖多模态人工智能、智能体与数字人三大领域的统一技术栈。其在专利申请数量上的显著优势,体现出以规模化部署为核心的战略导向。 §英伟达在数字人领域处于主导地位。尽管英伟达并不直接定位为通用人工智能助手提供商,但其提供的底层基础设施、平台及工具链,是实现具身人工智能的关键支撑。通过Omniverse与AvatarCloudEngine,英伟达支持高度拟真的数字人及多模态交互,并拥有坚实的国际专利组合作为后盾。 §微软采取“企业优先”策略,将多模态人工智能与智能体深度融入企业业务流程。依托与OpenAI的战略合作及自研智能体框架,微软已将Copilot全面集成至Office套件、云平台及企业级软件中。其专利布局呈现出高度均衡的特点:不仅专利组合规模可观,更在全球范围内构建了高比例的同族专利,彰显在企业级人工智能领域的全球化布局与雄心。 §IBM凭借watsonx.ai平台与Granite基础模型家族,成为智能体领域的重要推动者。公司专注于专业级与企业级人工智能系统,虽在消费端声量有限,但IBM强大的专利实力,充分印证了其作为企业环境中智能体驱动型人工智能核心基石的战略定位。 I.引言 深度学习作为人工智能的核心技术之一,通过多层人工神经网络从海量数据中学习分层表征,在图像识别、语音识别与自然语言处理等感知任务中取得了卓越成果。在这一技术框架下,自2016年左右兴起的生成式人工智能已成为重要分支,它专注于运用变分自编码器(VAEs)、生成对抗网络(GANs)、扩散模型以及基于Transformer架构的大语言模型等方法,生成包括文本、图像、视频、音频、代码及合成数据在内的各类新内容。其中,大语言模型作为基于Transformer架构的系统,通过在海量语料上进行训练,具备理解、生成与处理自然语言的能力,进而可实现推理、摘要、翻译和对话交互等功能。 与上述基础性人工智能技术层相对应,以下三大领域已作为其上层应用逐步发展并走向成熟: •多模态人工智能:指能够同时处理、理解并生成多种模态或数据类型(如文本、图像、音频、视频及传感器数据)信息的系统。通过整合不同形式的输入并进行跨模态推理,此类系统可形成统一的语义理解,并能生成跨越模态边界的连贯内容,例如带字幕的图像、配有旁白的视频,或实现音画同步的交互响应。相较于单模态系统,多模态人工智能显著提升了系统的感知维度、人机交互的自然度以及内容生成的灵活性与适应性。 •智能体:指具备自主或半自主能力的人工智能系统,可通过传感器(如视觉、音频及其他传感数据)感知环境,基于既定目标做出决策,并执行行动以完成特定任务。借助深度学习、多模态理解、生成与推理能力,智能体能够独立运作、从经验中持续学习、与人类及其他智能体高效协作,并动态调整行为以适应不断变化的环境。因此,它们尤其适用于任务自动化、智能规划、人机协同、实时辅助及自适应决策支持等动态场景。•数字人:是融合计算机图形学、动画、自然语言处理、语音合成与行为智能等技术构建的人工智能虚拟化身,能够以高度拟真的形象与人类进行自主或半自主交互。基于多模态人工智能与生成式技术的支持,数字人在外观、语音、表情、动作及行为模式上已具备高度仿真能力,目前广泛应用于医疗健康、教育、娱乐及客户服务等领域,典型应用包括虚拟助理、数字教练、虚拟演员以及情感陪伴系统等。 II.方法论 1.数据来源与检索策略 本报告的数据基础来源于Questel提供的全球专利数据库FamPat及其检索平台OrbitIntelligence。FamPat按简单专利家族进行组织,收录全球100多个国家与地区的专利申请及授权专利,其中包含22个主要专利局的可检索全文数据。由于每条FamPat记录可能对应多个公开日期不同的文献,为统一分析,本报告将各专利家族中最早的首次申请日作为该家族的代表日期。首次申请局(或优先权)指某项发明在全球范围内提交的第一份专利申请,该申请一经提交即构成“优先权申请”,其提交日期为优先权日,申请所在地则为优先权国。 除非特别说明,本报告中的所有表格和图表均采用优先权日作为时间基准,因其最能准确反映发明活动的实际发生时间。专利的来源地(即专利家族的起源)依据“首次申请局”确定。需指出的是,尽管该方法在极少数情况下可能存在偏差,但仍为识别各实体通常首次提交申请的国家或地区提供了一种实用且公平的参照——该地区通常与其本国专利局所在地一致。 每个专利家族均关联一个或多个实体,统称为专利权人。如果同一专利家族中的专利由多个权利人共同持有,则该专利家族将归属于所有相关实体。为提升可读性并提供清晰的整体概览,本报告对所列申请人进行了系统性归并,将其统一归类至对应的母公司名下——子公司及其他关联实体均按此原则整合,以反映统一的所有权结构。此项归并工作结合了自动化处理(基于OrbitIntelligence数据库)与人工核查,并依据报告撰写时可获取的最新公开信息完成。 2.分类方法 本专利全景分析聚焦于深度学习(DeepLearning,DL),并特别关注三个快速