报告由由国家电网公司提供+ 目录引言3我们调查了谁4执行摘要 - 五个关键要点7关键发现1:语音技术正在扩展成为基础关键发现2:语音人工智能的未来光明关键发现3:语音AI代理:新的前沿客户服务自动化关键发现4:灵活性将推动语音人工智能的采用关键发现5:合规性与可访问性仍是关键语音人工智能的驱动因素声音景观11语音技术有多普及?当前语音技术用途从 ivr 到iva:自动化的重要性客服采用语音人工智能技术为什么实施语音AI合规性与可访问性驱动语音人工智能语音AI采用的预期投资回报率从通用LLMs到微调语音AI 18语音AI代理之年企业急于从传统IVR迁移到AI-18带语音功能的智能体 企业对语音AI智能体的满意度如何20科技?进入壁垒21语音AI代理用例22跨语音AI代理应用示例23行业 关心 组织的语音AI代理功能24关于部署类人语音代理的大部分内容:特性24组织应优化语音AI的未来26组织计划扩大语音人工智能的使用26有成长的空间28主要趋势29期望增长领域30Deepgram的语音人工智能愿景31语音转语音是未来32分别的话33关于报告34 88910101112131414151617 引言过去的调查表明,2022年是语音技术年,而2023年是人工智能年。语音识别与合成方面的创新,以及实时处理,现在使得近乎即时、个性化、且具有情感感知能力的交互成为可能。听觉能力的集成以及对隐私和伦理考量的关注,进一步巩固了语音人工智能在用户体验中的变革性作用。因此,2025年标志着语音技术广泛采用和复杂化的关键转折点。现在,让我们看看为什么2025年正逐渐成为语音AI和类人语音AI代理中最激动人心的一年。现在,在2025年,这些主题已经汇聚——我们处于语音人工智能技术,特别是语音代理。怀着这些见解,我们决定亲自考察语音技术格局。由 Deepgram 与合作伙伴共同执行的 2025 年语音人工智能现状调查奥普斯研究,基于400位商界领袖的见解,探索了voiceAI在十多个行业的应用和关键特性。进展大型语言模型 (LLMs)已显著提升了语音代理的功能。这些模型现在提供更自然的语言理解能力,使用户能够在不同领域进行无缝、上下文感知的对话。更具体地说,根据a16z“模型开发的进步简化了基础设施“堆栈”,从而产生了具有降低延迟并提高了性能。这项改进主要在过去六个月中通过新的对话模型实现。” 2025年是类人的一年语音AI代理 我们调查了谁更具体地说,42%的受访者是关键决策者,包括他们各自组织中的C级高管、(高级)副总裁和业务部门负责人。有关详细信息,请参见图2和图3。此外,29%的受访者具有技术倾向,就职于工程、数据科学或人工智能部门。还有21%的人报告称从事产品管理工作,这一职位通常需要技术专长。因此,熟悉编码和人工智能架构复杂性的受访者人数可能高达50%。为了生成一个具有代表性的数据集,我们对北美的400位商业领袖进行了调查。绝大多数—82%—位于美国。在受访者中,大多数(83%)来自年收入超过1亿美元的 large enterprises。事实上,36%的受访者来自年收入超过10亿美元的 organizations。 我们调查了谁 我们确保了调查中不同行业的代表性。零售/电子商务仍然是代表最充分的行业(与2023年相同),占受访者的16%。紧随其后排名第二的是餐厅/快餐店(quick service restaurant)行业,占14%。其他代表性行业包括医疗保健、电信、金融/银行、保险和旅游/酒店业。 2367%50%80%语音人工智能:不再是可选项,现在已是人工智能创新的基础语音AI现在是基础性的1转录:从特征到基础使用传统语音代理进行任务/服务自动化,并将其视为语音AI代理最具吸引力的用例。有组织认为语音AI是其产品和业务战略的核心92%对受访者的语音数据进行捕捉,以及56%转录他们超过一半的互动。5客服自动化:语音AI代理的启动平台 70%对在多个客户触点整合语音技术以实现收益正不断增长期望。公司正在为其预算腾出空间——有时甚至增加其预算——明确目的是将语音技术集成到其技术堆栈中。实际上,现在超过一半的组织预计从将语音技术融入客户旅程中实现显著收益。这标志着一种转变,即将语音AI视为一个变革性层,在每个阶段增强客户互动。对合规性、安全性和可访问性的日益重视也推动组织投资于尖端语音AI解决方案。2语音AI的未来一片光明84%有百分之多少的受访者计划在未来十二个月内增加他们对语音技术的预算。 语音AI正迅速从一项新兴技术转变为一个基础支柱商业策略随着组织越来越多地投资人工智能驱动的语音技术,以自动化客户互动、简化工作流程并推动合规性和可访问性,调查数据显示,语音转文本正成为一项基本要求,也是开发语音人工智能应用的入口。92%在受访者中,有部分人捕获并分析他们的语音数据,其中大多数(56%)转录了超过一半的对话互动内容。67%受访者中有的人认为语音实现基础为他们产品和策略。97%有%的受访者在目前使用某种形式的语音技术——自动语音识别、传统语音代理、文本转语音和语音分析。语音技术正在扩展并成为基础 语音AI代理:客户服务自动化的新前沿上50%已有组织使用传统语音代理进行客户服务与任务自动化(即回答常见问题、销售支持及订单处理),并认为这是最具变革性的应用场景语音AI代理.尽管80%在使用某种形式的语音代理的受调查组织中——从传统的IVR系统到人工智能解决方案——只有21%他们对现有技术“非常满意”,强调需要更先进的AI能力,以提供类似人类的响应能力。很快,采用语音AI代理将不再被视为“走在前列”,而是将成为常态。未能实施它们的组织将面临落后的风险,因为类人AI将成为自动化客户互动的预期标准。15%of 组织已经积极开发语音 AI 代理,其中大多数(98%计划在明年内完成生产。传统的IVR系统正在被更先进的技术所取代。从客户服务到销售支持,自动电话不再局限于简单的多项选择查询。相反,语音AI代理允许企业自动化更复杂的任务,例如回答动态的客户常见问题解答,甚至接收详细的订单。因此,绝大多数组织正在将语音代理集成到其现有的客户服务系统中。 柔性将推动语音人工智能的采用72%将性能质量(语音质量、对话流程等)列为部署语音AI代理的最关键障碍。语音人工智能技术的市场充满了来自各科技公司的选择。当一个组织决定采用语音人工智能时,他们因此必须选择采用哪个(些)模型。毫不奇怪,组织更关心能够微调并且定制他们的AI,表明需要根据特定的行业或术语调整语音AI模型以在跨企业应用中提高准确性。同样,他们倾向于购买与现有系统兼容的AI模型。46%有受访者的表示,微调语音模型的能力将促进语音AI的采用。65%将兼容现有AI系统列为供应商选择的一个关键因素。 86%将语音AI视为提升客户体验可及性和包容性的关键驱动因素。合规性与可访问性仍为语音AI使用的关键驱动因素一半以上%的受访者将语音AI合规视为实施背后的主要驱动力。合规性与可访问性都是语音AI采用的主要驱动力。语音界面自然地将可访问性扩展到那些难以使用数字工具或倾向于使用非母语说话而非打字的人群。语音AI通过消除传统的互动障碍,同时扩大了客户覆盖范围并多样化了潜在的劳动力人才库。随着可访问性标准和合规性框架的演变,许多组织将语音技术视为既是一种竞争优势又是一项合规性必要条件,将其置于创新与合规遵守的交叉点。 语音AI有多普遍?声音景观在采用语音技术的组织中,有令人印象深刻的87%已经至少在内部构建了部分解决方案。其余13%则完全依赖于外部供应商的一站式技术。剩余的3%的受访者表示,他们有预算限制、缺乏对语音技术的了解或人员资源有限。本年度报告更新的目标是提供对语音人工智能当前能力及其发展速度的更清晰理解。在本节中,我们将探讨组织如何将这项技术整合到其运营中。语音人工智能技术的范围很广——从文本转语音 (TTS)和语音到文本(STT)到类人前沿语音AI代理能够实时响应用户。此外,语音AI应该在嘈杂的环境中表现良好,具备多语言能力,并能根据不同用户群的大小和需求进行扩展。绝大多数——97%的受访者——在运营中积极使用某种形式的语音技术,例如传统语音代理、语音转文本(转录)和文本转语音(语音合成)。因此,我们得出结论,各个领域的大部分企业都清晰地感受到了语音AI带来的好处,以至于它们愿意投入资金和人力资源来实施和集成此类解决方案。 当前语音技术用途转录现在至关重要,超过40%的受访者指出员工辅导、合规监控和客户体验分析是变革性用例。与此同时,更具能动性的应用场景正成为下一个前沿领域。最深远的影响是什么?自动化客户互动。52%的受访者认为这是语音AI最具变革性的应用。三分之一受访者认为用于招聘的语音AI是一种变革性应用场景,15%的受访者认为AI团队成员代表着语音技术应用的未来。近年来,随着企业逐渐习惯语音技术,一些清晰的主导应用已经出现。总结会议和自动化客户服务仍然是企业认为语音技术最具变革性的前两种最常见方式。 受访者认为那些可以通过传统方式(如IVR)实现自动化(或可自动化)的任务是实施语音代理的充分理由:61%的人提到完整交易或结账,59%的人指出回答常见问题,48%的人提到预约(详见下文的图12)。• 长期胜利:能够潜在地推动解决不明确或棘手问题的代理驱动交互是长期机遇。超过一半的组织(52%)认为“客户服务或任务自动化”是语音技术的最具变革性的用例。但其中蕴含的见解比表面上看到的更多。从交互式语音应答到交互式语音助手:自动化客户服务的重要性然而,在谈及更艰巨的“长期取胜”方面,有一些组织认为此类用例今天是公平的:30%的受访者在启动/解决服务请求时,将其视为深入语音AI代理世界的有力理由。• 短期收益:本质上,这些组织旨在从类似IVR的体验转变为更偏向IVA的体验。这些用例长期以来一直是自动化的候选对象,甚至可以说是唾手可得的果实,能快速见效。 通常情况下,这些回复的广度突出了语音人工智能所满足的多样化需求。前六种用例被三分之一到二分之一的受访者使用这一事实,仅仅展示了语音技术如何满足不同领域企业的各种需求。 为什么实施语音AI采用语音人工智能技术组织采用语音AI的原因多种多样,从降低成本到提高效率。不出所料,这些企业中的几乎每一个都以令人满意的方式实现了其运营目标。这些数据突显了语音AI当前的效力。既然这项技术仍在发展中,我们只能想象它将如何在未来使企业受益。简单来说,组织实施语音AI是因为它从多个方面为其业务增加价值。三分之二的组织表示语音AI是他们产品的基础。三分之一的人认为这项技术降低了成本。现在让我们来考察实施语音技术的动机及其影响所带来的满意度水平。此外,45%的受访者使用语音AI来提高运营效率,而35%的人使用它来提高销售人员和员工的效率。 在成本节约方面,可访问性体验推动:所以说,无障碍性不仅仅关乎用户体验的改进——它还能带来实实在在的营收和利润增长。在创收方面,拥有无障碍体验的品牌:• 扩大他们的客户覆盖范围 –无障碍性确保更多的人,包括残障人士,能够参与品牌的产品、服务及其内容,从而扩大潜在客户群。“坡道效应”表明,不仅仅是残障人士从更高的无障碍性中获得了改善的体验。• 更高效的开发 –从一开始就考虑无障碍性设计可以避免昂贵的翻新,并减少后期修复无障碍功能所产生的技术债务。监管合规与可访问性推动语音AI的采用• 增加收入机会 –通过消除壁垒,公司使所有消费者更容易参与、购买和推广他们的产品,从而提高转化率和收入增长。可访问性——通常与合规性直接相关——现在是语音AI的一个强大驱动力。直观地看,这种对可访问性的关注是有道理的,因为语音模式为那些难以使用传统数字工具的人打开了交互方式。此外,语音AI代理使那些更习惯用非母语说话而不是用非母语写作的人的可访问性得到改善。因此,改进的可访问性和包容性已成为品牌期望从语音AI中获得的最大客户体验(CX)改进。 企业正在探索合规的语音人工智能解决方案,以同时提高可访问性、增强客户体验,并创造