AI智能总结
目录介绍3我们调查了谁4执行摘要 - 五个关键要点7关键发现1:语音技术正在扩展成为基础关键发现2:语音人工智能的未来充满希望关键发现 3:语音人工智能代理:新的前沿客户服务自动化关键发现4:灵活性将推动语音人工智能的采用关键发现 5:合规与可访问性仍为关键语音人工智能的使用驱动因素声音景观11语音技术有多普遍?当前语音技术的用途从 ivr 到 iva:自动化的重要性客户服务中语音人工智能技术的应用人们为什么要实现语音AI合规性与可访问性驱动语音AI发展采用语音AI的预期投资回报率从通用大语言模型到微调语音人工智能 18智能语音代理之年企业渴望从传统IVR迁移到AI-18赋能语音智能代理 企业对语音人工智能代理的满意度如何20科技?进入壁垒21语音AI代理用例22跨领域语音AI代理应用实例23行业 神经语音助手 企业关心的特性24关于部署类人声音代理:功能24组织应优化语音人工智能的未来26组织计划扩大语音AI的使用26有成长的空间28主要趋势29期望增长领域30深信科技的语音人工智能愿景31语音转语音是未来32告别语33关于报告34 88910101112131414151617 介绍过去的调查表明,2022年是语音技术年,而2023年是人工智能年。在语音识别与合成领域的创新,以及实时处理技术的进步,现在允许近乎即时、个性化且具有情感感知的交互。听觉能力的集成以及对隐私和伦理考量的关注,进一步巩固了语音AI在用户体验中变革性的作用。因此,2025年标志着语音技术广泛采用和复杂化发展的关键转折点。现在,让我们看看为什么2025年正逐渐成为语音AI和人声模拟型AI代理中最激动人心的一年。现在,在2025年,这些主题已经趋同–我们正处于年份语音人工智能技术特别是语音代理。以这些见解为背景,我们决定亲自考察语音技术格局。由 Deepgram 与合作开展的 2025 年语音人工智能状态调查Опус Исследования,基于来自400位商业领袖的见解,探索了语音AI在十几个行业中的应用和关键特性。进展大型语言模型 (LLMs)显著增强了语音代理的能力。这些模型现在提供了改进的自然语言理解,能够与用户在各种领域中进行无缝、上下文感知的对话。更具体地说,根据a16z, “模型开发的进步简化了基础设施堆栈“,”导致出现了语音代理降低延迟并提高了性能。这种改进在很大程度上在过去六个月中通过新的对话模型实现了。” 2025年是类人的年份语音AI代理 我们调查了谁甚至更具体地说,42%的受访者是关键决策者,包括其各自组织中的C级高管、(高级)副总裁和业务部门负责人。有关更多细节,请参见下图2和图3。此外,29%的受访者技术倾向,工作于工程、数据科学或人工智能部门。另外21%的人报告工作于产品管理,该职位通常需要技术专长。因此,熟悉编码和人工智能架构复杂性的受访者数量可能高达50%。为了生成一个具有代表性的数据集,我们调查了北美400位商业领袖。绝大多数——82%——来自美国。在受访者中,大多数(83%)来自年收入超过1亿美元的的大型企业。事实上,36%的受访者来自年收入超过10亿美元的组织。 我们调查了谁 我们确保了调查中各行业的多样化代表。零售/电子商务仍然是最有代表性的行业(如2023年一样),占受访者的16%。紧随其后排名第二的是餐厅/快餐店行业,占14%。其他有代表性的行业包括医疗保健、电信、金融/银行、保险和旅游/酒店业。 267%50%语音AI:不再可选,现已成为AI创新的基础语音人工智能已成为基础1转录:从功能到基础使用传统语音代理进行任务/服务自动化,并将其视为语音人工智能代理最具吸引力的用例。有组织认为语音AI是其产品和业务战略的核心92%受访者中捕获他们的语音数据,和56%转录他们超过一半的互动。5客服自动化:语音AI代理的启动平台 70%对通过在多个客户接触点整合语音技术来实现收益的增长预期。企业正在为其预算腾出空间——有时甚至增加预算——明确目的是将语音技术集成到其技术栈中。事实上,现在超过一半的组织预计将从贯穿客户旅程的语音技术中实现实质性收益。这标志着将语音AI视为一个变革性层级的转变,该层级在每个阶段都增强了客户互动。对合规性、安全性和可访问性的日益重视也正在推动组织投资于尖端的语音AI解决方案。2语音AI的未来一片光明84%在接下来的十二个月内,计划增加对语音技术预算的受访者。 语音人工智能正迅速从一项新兴技术转变为一个基础支柱商业战略随着组织越来越多地投资人工智能驱动的语音技术来自动化客户互动、简化工作流程并推动合规性和可访问性,调查数据显示,语音转写正成为一项基本要求,也是开发语音人工智能应用的一个入口。92%在受访者中,有超过一半的人(56%)转录了他们大部分的对话互动内容。67%受访者中有的人认为语音实现基础性针对他们的产品和策略。97%有百分之多少的受访者目前正在使用某种语音技术——自动语音识别、传统语音代理、文本到语音以及语音分析。语音技术正不断扩展并成为基础 语音AI代理:客户服务自动化的新前沿上50%已有组织使用传统语音代理进行客户服务与任务自动化(即回答常见问题、销售支持及订单处理)并认为这是最具变革性应用场景的语音AI代理.尽管80%在使用某种形式的语音代理(从传统的IVR系统到人工智能驱动的解决方案)的受访组织中,只有21%他们对现有技术感到“非常满意”,并强调了需要更先进的AI功能,以提供类人的响应能力。不久之后,采用语音AI代理将不再被视为“走在曲线前面”,而是将成为常态。那些未能实施它们的组织将面临落后的风险,因为类人AI将成为自动化客户交互的预期标准。15%of组织已经积极开发语音AI代理,其中大多数(98%) 计划在明年投入生产。传统的IVR系统正被更先进的技术所取代。从客户服务到销售支持,自动通话不再局限于简单的多项选择查询。相反,语音AI代理允许企业自动化更复杂的任务,例如动态回答客户常见问题甚至处理详细的订单。因此,绝大多数组织正在将语音代理集成到其现有的客户服务系统中。 灵活性将推动语音人工智能的采用72%将语音性能质量(语音质量、对话流程等)视为部署语音AI代理的最关键障碍。语音人工智能技术的市场拥有来自各科技公司的众多选择。当一个组织决定采用语音人工智能时,他们因此必须选择采用哪个(些)模型。毫不奇怪,组织更关心能否精调并且定制他们的AI,表明了为了在跨企业用例中提高准确性,需要将语音AI模型适应特定行业或术语的需要。同样,他们倾向于购买与现有系统兼容的AI模型。46%%的受访者表示微调语音模型的能力将推动语音AI的更大程度采纳。65%将兼容现有AI系统列为供应商选择的关键因素。 86%将语音AI视为提升客户体验可及性与包容性的关键驱动力。合规性与可访问性仍是语音人工智能应用的关键驱动力一半以上受访者中有的人将语音AI合规性视为实施的主要推动因素。合规性与可访问性都是语音AI采用的主要驱动力。语音界面自然地将可访问性扩展到难以使用数字工具的人群,或将非母语口语优先于打字的个人。语音AI通过消除传统交互障碍,同时扩大客户覆盖范围并多样化潜在劳动力人才。随着可访问性标准和合规性框架的发展,许多组织将语音技术视为既是一种竞争优势,也是一种合规性必要条件,将其置于创新与监管合规的交叉点。 语音AI有多普遍?声音景观在那些使用语音技术的组织中,令人印象深刻的是,87%已经至少建立了一些内部解决方案。其余的13%完全依赖外部供应商的现成技术。剩余的3%受访者表示他们有预算限制、对语音技术缺乏了解或人员资源有限。本年度报告的目的是提供对当前语音AI能力和其发展速度的更清晰理解。在本节中,我们将探讨组织如何将这项技术融入其运营中。语音人工智能技术的广度范围很广—从语音合成(TTS)和语音识别 (STT)到类人前沿语音AI代理能够实时响应用户。此外,语音AI应该在嘈杂的环境中表现良好,具备多语言能力,并能够根据不同用户规模的大小和需求进行扩展。绝大多数——97%的受访者——在他们的工作中积极使用某种形式的语音技术,例如传统的语音代理、语音转文本(转录)和文本转语音(语音合成)。因此,我们得出结论,各个领域中的绝大多数企业都清晰地体会到语音AI带来的好处,以至于它们愿意投入资金和人力资源来实施和整合此类解决方案。 当前语音技术的用途转录现在是关键,超过40%的受访者指出员工辅导、合规监控和客户体验分析是变革性用例。与此同时,更具自主性的用例正成为下一个前沿。最显著的影响是什么?自动化客户互动。52%的受访者认为这是语音AI最具变革性的应用。三分之一受访者认为语音AI在招聘方面的用例是一种变革性的用例,15%的受访者认为AI团队成员代表了语音技术应用的未来。近年来,随着公司越来越习惯于语音技术,明确的市场领先应用已经出现。总结会议和自动化客户服务仍然是企业认为语音技术最具变革性的两种最常见方式。 受访者将可以通过更传统的方式(如 IVR)实现自动化(或可自动化)的任务视为实施语音代理的强烈理由:61% 的人提到完整交易或结账,59% 的人指出回答常见问题,48% 的人提到预约安排(如图 12 中进一步参考)。• 长期收益:能够驱动解决模糊或棘手问题的智能体驱动的交互是长期机遇。超过一半的组织(52%)认为“客户服务或任务自动化”是语音技术的最具变革性的用例。但这里面还有比表面更深层的东西。从IVR到IVA:自动化客户服务的重要性尽管如此,在谈及更难的“长期胜利”方面,有一些组织认为这类用例今天是公平的游戏:30%的调查受访者认为发起/解决服务请求是一个有力的理由,去进入语音AI代理的世界。• 短期收益:本质上,这些组织旨在从类似IVR的体验转变为更像是IVA的体验。这些用例长期以来一直是自动化候选者,甚至是唾手可得的成功。 通常来说,这些反馈的广度突出了语音AI所应对的多样化需求。前六种用例被三分之一到二分之一受访者使用这一事实,恰恰展示了语音技术如何满足跨多个领域的企业的各种需求。 人们为什么要实现语音AI采用语音人工智能技术组织采用语音AI的原因多种多样,从降低成本到提高效率。不出所料,这些企业中的几乎所有都以令人满意的方式达成了其运营目标。这些数据凸显了语音AI当前的效力。由于这项技术仍在发展中,我们只能想象它将如何在未来惠及企业。简单来说,组织实施数字语音助手是因为它从多个方面为其业务增值。三分之二的组织表示语音AI是他们产品的基础。三分之一的人说这项技术降低了成本。现在我们来考察实施语音技术的动机及其影响带来的满意度水平。此外,45%的受访者使用语音AI来提高运营效率,而35%的人使用它来提高销售人员和员工的生产力。 在成本节约方面,可访问体验驱动:综上所述,无障碍性远不止于改善客户体验—改进无障碍性可以带来实际的最优和最差效益。在创收方面,拥有无障碍体验的品牌:• 扩大他们的客户覆盖范围 –无障碍性确保更多人,包括残障人士,能够参与品牌的商品、服务与内容,从而扩大潜在客户群。“坡道效应”表明,并非只有残障人士能从更高的无障碍性中获得改善的体验。• 更高效的开发 –从一开始就考虑可访问性设计可以防止昂贵的返工,并减少后期修复无障碍功能所产生的技术债务。合规性与可访问性推动语音AI的采用• 提高收入机会 –通过移除障碍,公司让所有消费者更容易参与、购买和推广他们的产品,从而提高转化率和营收增长。无障碍性——通常直接与合规性相关联——现在已成为语音AI的强大驱动力。直观地看,这种对无障碍性的关注是有道理的,因为语音模式为那些难以使用传统数字工具的人打开了交互方式。此外,语音AI代理为那些更习惯用非母语口语而非书写的人提升了无障碍性。因此,改进无障碍性和包容性已成为品牌期望语音AI带来的最大客户体验(CX)改进。 企业正在探索合规的语音人工智能解决方案,以同时提高可访问性、增强客户体验,并创造可衡量的投资回报率,这种投资回报率超越了仅满足监管检查表的合规性要求,并带来了运营效率。在合规方面,56%的受访者将遵循监管要求作为语音人