AI智能总结
指南 一个AI代理的解剖结构。 倾听、理解和表达是有效沟通的基础。 但让我们面对现实:真实的对话并不总是遵循简单的线性路径。我们在时间中跳跃来回,放慢速度来扩展某些时刻,快速前进通过其他时刻,甚至在我们说话时编辑我们所说的话。 例如,有时你问某人一个问题,他们用另一个问题来回应。这种回应未必是在回避回答原问题——实际上,这通常是寻求澄清以便给出更好、更有帮助的回答的方式。换句话说,对话趋势趋于流动性和不可预测性。 超越自动语音应答系统:能够倾听、理解并适应的AI。 有效沟通的基石。 虽然我们倾向于认为我们与人工智能处于对立状态,但有效沟通的相同原则也适用于人机对话。 只是为了确认,您是在呼叫关于您应付的四月账单? 所有代理人都不仅需要展示三个原则,而且澄清用户请求和共情通过有趣且有帮助的对话与用户互动。 有效沟通的3个原则: 为了使人工智能能够有效沟通,它需要展现出以下能力: 这些品质在客户服务中至关重要。一个能够热情地问候客户、提出恰当的后续问题、表现出理解并清晰回应的人工智能代理,更有可能吸引客户、高效解决问题,并在整个组织中提供效益。 听(处理输入)耳机 理由(解释意义)灯泡开启 通过研究人类交流的方式并将其应用于人机交互,我们可以设计出类人化、能够清晰沟通且易于亲近的AI智能体。这将有助于缓和围绕AI的固有怀疑,并建立对自动化系统的信任。 说话(清晰且有同理心地回应)扩音器 本指南解析了听、理解和说话的关键要素,以及它们如何帮助培养可靠且引人入胜的客户体验。 听 /'lisn/ [动词] (1) 要注意声音,听音乐。(2) 用思考的注意力去听某个东西:给予考虑。 听 在任何对话中,倾听能力都会受到多种外部因素的影响。环境是否嘈杂?那个人看起来像是在听你说话吗?是否有打扰? 当然!只是检查一下空间我们拥有。 这些因素同样使得自动化人机对话更具挑战性。例如: • 电话线中断•在谈话、电视和其他背景噪音之外,很难听清•每个人都说话的方式不同,例如有口音或使用俚语 这些挑战会导致语音识别错误,使人工智能难以准确捕捉口语语言。 听辨挑战:ASR 和准确率。 AI代理依赖自动语音识别(ASR)系统将口语转录为大型语言模型(LLM)可消化文本。尽管现成的ASR解决方案可能提供一些好处,但它们通常无法满足企业特定的需求和目标。 许多语音识别(ASR)提供商提供令人满意的即用型性能,但这些解决方案可能存在局限性,因为它们是为通用用例而构建的。例如,为听写或语音信箱转录训练的模型可能难以应对实时呼叫中心对话的挑战,例如重叠的语音、背景噪音和特定行业的术语。 开箱即用的模型另一个问题是它们通常是方言特定的。企业不应假设美国所有通话都使用美式英语,如果它们在全球运营(它们通常这样做),当然不能依赖英语始终是主要使用的语言。 即使是表现最好的模型也需要额外的支持才能达到人类听觉的准确度。这正是口语语言理解(SLU)发挥作用的地方。 语音语言理解:有效人工智能代理的基础。 身份识别与验证(IDNV) 当你听错别人说的话时,你或者让那个人重复一遍,或者根据对话的语境推断他们说了什么。 字母数字解析苹果查理爱克斯双八零对于七ACE88047 slu是一个应用于可用来修正有误的asr转录的技术术语。例如,如果顾客说,“八人桌,请”,但asr将其误听为“恨人桌”,slu模型可以利用上下文,比如识别出“八”是大团体预订的常见要求。 如果一个AI代理不断地要求顾客重复他们的查询,体验就会变得乏味,对系统的信任也会急剧下降。 识别器集成与N最佳列表 即使有先进的语音识别系统,仍然可能发生错误。这就是为什么口语语言理解(SLU)是人工智能通信的关键层。 不幸的是,我丢了车。不幸的是,我的卡丢了。不幸的是,我的车卫生间。 以下页面展示了一些用于客户服务的AI代理的关键SLU技术的示例。 波形语音活动检测(VAD) 圆信实体提取 模型集成图表网络 书籍词汇自定义 这就是一组人工智能模型协同工作以实现更好性能的情况。每个模型专门负责一项特定任务,其不同的输出结果被结合起来以产生更可靠和准确的结果。这就像让多位专家合作解决问题一样。 这是从用户所说的内容中识别关键信息(实体),并使用这些信息来理解和满足请求的过程。 这涉及到根据特定的用例(如品牌名称或行业术语)调整AI的词汇表。 VAD用于判断何时有人在说话以及何时是静默状态。它帮助AI代理知道何时开始聆听以及何时停止。这对于检测对话中何时一个人结束发言并减少中断的可能性非常重要。 例如,如果人工智能应用于医疗保健领域,您可以向其词汇库中添加诸如“远程医疗”或“心脏病专家”等术语以提高准确性。 上下文语音识别偏差 数据库 计时器延迟权衡 该功能将语音识别文本与相关数据库(例如,所有美国邮政编码)或现有客户关系管理记录进行核对,并使用这些信息挑选出最相关的语音识别文本。 AI 匹配发音相似但可能发音错误或转录错误的双语。例如,如果有人说的是,“我想将资金转移到我的 savins 账户,” 系统使用语音模糊匹配来识别“savins”很可能是“savings”,尽管发音略有错误。 这涉及提供关于ASR模型应该“侦听”何种输入的上下文信息(例如,邮政编码或8位数字字母字符串)。 这确立了语音识别模型应监听特定输入的时间长度,以及客户是否可以中断。 时机就是一切:平衡延迟和中断。 打断是谈话的自然一部分。有些打断是 useful 的,比如当有人向你提供饮料时,他们可能会列举“茶、咖啡、水、果汁、啤酒……”如果你不想喝饮料,或者你想喝已经列出的饮料,如果你直接打断,双方都会更容易。 其他打扰不如询问问题等你好久回答时打断你来得有用,反而让对话比必要时更困难。 你应该允许客户打断吗?圆问号 在考虑客户是否以及何时应该能够打断人工智能代理时,这里有一些有用的问题: 构建AI代理最关键的要素之一是流畅、及时的交互。如果助手响应过慢,用户输入和系统响应之间的延迟会令用户感到沮丧。但快速或Incomplete的响应中断会对和谐的人机通信造成问题。 •客户听取一切有多重要?您是否想确保客户不会打断AI读出条款和条件? •对客户体验(CX)有什么影响?允许或禁止客户打断,会对他们的体验产生负面影响还是正面影响? 需要达到一个平衡点,系统要快速准确地响应,不能断开用户或让其感到困惑。不幸的是,没有硬性规定何时应该允许客户打断。这完全取决于你认为对你的业务重要的是什么,以及你的客户认为什么是重要的。 •一个客户打断的潜在影响是什么?如果你正在读出一份清单,而他们跳过后面的选项,这是否可能导致对话后续出现错误? •你想如何平衡客户体验和业务流程?如果客户可能会跳过无聊的内容,你如何在你和他们的优先事项之间取得平衡? 原因 /'ri zn/ [动词] (1)以逻辑方式思考。(2)通过思考各种可能性来为(某事物,如问题、疑问等)找到解释或解决方案。 原因 一旦说话者的文字被转录,人工智能代理需要理解通话者话语背后的上下文来制定正确的回复,并以推动对话走向解决的方式来采取行动。 决定如何回应以及采取哪些行动的过程通常由大型语言模型处理。 需要考虑两种关键类型的幻觉: •智能代理说错误的事情:有时生成式AI模型会“编造东西”。记住,这些模型根据它们在训练数据中看到的内容构建回复,有时,它们会得出一些没有意义的东西。 大型语言模型擅长进行自然对话。如果你尝试过ChatGPT、Gemini或Claude,你可能已经被这些模型能够多么具有对话性所打动。 但是,LLMs 容易产生幻觉这并不是秘密。但这并不意味着它们完全不可靠。它们只需要一套强大的护栏来确保它们说和做它们应该做的事情。 •智能代理做错误的事情:大型语言模型擅长对话但不一定擅长采取行动。例如,大型语言模型可能确定推动对话的正确方式是说,“好的,我已更新您的地址”,但这并不一定意味着它已经做出了实际的API调用来更新客户记录。 使用检索增强生成(RAG)确保大型语言模型说出正确的话 将客户互动交由自动化系统处理,需要您和客户双方都投入大量信任。 如果您的代理不确定如何解决客户的问题,您会希望他们检查他们的回复,以便他们提供值得信赖且正确的答案。 rag 帮助组织平衡生成式人工智能的潜力以及受控响应的需求。 这项技术确保智能代理将其生成的回复与知识库进行核对。它充当一种保障措施,防止不准确、不相关和不适当的回复,并将客户对话保持在既定范围内。 检索增强生成,或称RAG,是一种使AI智能体能够交叉引用生成模型知识库中知识的技巧。 RAG 有两个必须优化的关键要素,以防止幻觉和提示注入攻击:知识库和检索器。 1. 知识库 2. 检索器 您的AI代理的表现取决于其可获取的信息,因此开发和维护一个可供代理参考的详细知识库至关重要。 检索器是使代理能够对照知识库进行交叉引用事实的“搜索引擎”。检索器必须足够准确,以便能够与知识库进行交叉引用,几乎没有或没有误差。 你的知识库应该包含你想让代理能够讨论的所有内容,但它也需要包含不需要的信息和特定情况下需要应用的行为。 大型语言模型通常运作在一个黑箱中,这意味着如果并非不可能,极难理解模型从哪里具体获取某些知识。如果不能隔离幻觉的起因,就很难纠正。 然而,巧妙的检索器设计使得能够追踪对知识库中特定点的引用,使设计人员能够进行基于文本的简单编辑以防止幻觉,并为所有人创建一个更干净、更透明的系统。 确保大型语言模型采取正确的行动 给出现不期望或不准确的响应是 llms 以一个非常知名的问题,但使用像 rag 这样的护栏相对容易克服。 开放时间 更少被记录的是如何确保大语言模型采取行动。例如,一个调用者可能会要求更新他们的账户地址。对于这个请求,大语言模型被训练成知道正确的对话流程。它询问新的地址,然后说变更已经完成。但它实际上更新了CRM、预订系统或其他相关软件吗? 这是大多数 AI 代理概念验证失败的地方。对话进行得很顺畅,但是 API 调用并不一致或可靠,导致用户认为已经采取了行动,而实际上并没有。这项不完整的工作可能会给您的呼叫中心的其它功能带来问题,更糟糕的是,可能会给其他部门带来问题。 我们从上午9:00至下午3:00周一至周五 取消 为关键交易构建流程 大型语言模型足够智能,你不需要设计特定的流程来使它们能够回答常见问题。但诸如预订或发送付款之类的交易需要遵循一套特定的步骤。 许多AI代理难以可靠地采取行动,因为它们可以访问的工具或API太多,而且几乎没有关于何时使用何种工具的指导。 作为一种最终的安全保障,为需要特定工具使用或 API 调用的一些特定类型的交易建立检查点是件好事。这些检查点提醒 AI 代理根据调用类型、特定话语或某些类型的交易来确保某些操作已被执行。 虽然你可以编写简单的提示,使大型语言模型能够进行相当正常的对话,但设计流程来展示大型语言模型如何通过对话,包括在每个步骤中采取什么行动,会 safer 更可靠。 拆分你的知识库能让你将特定的操作分配给不同的主题。例如,你可以建立与更新账户信息相关的特定知识库部分。在该知识库部分中,你可以准确地引用你希望人工智能代理在讨论该主题时调用的工具和API。 说 /spi k/ [动词] (1) 要说话,要使用声音,要和某人交谈。 说指南文本到语音(TTS)技术 一旦智能代理理解了来电者并决定采取何种行动,下一步就是制定一个清晰、自然的回复。 你的AI代理人的声音是一个关键因素,决定了客户参与的可能性。我们都曾与那些不理解我们的自动化系统有过糟糕的体验。在消费者语音助手和语音IVR的长期“训练”下,我们已习惯于最糟糕的情况,所以当客户遇到一个僵硬的、机械化的声音时,他们坚持要和人类交谈就不足为奇了。 一个真正令人投入的AI助手应该像真人一样说话和发声。这并不是要欺骗客户