您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:AI+RTC:如何用实时音视频技术创造AI实时对话自然交互 - 发现报告

AI+RTC:如何用实时音视频技术创造AI实时对话自然交互

2025-04-22腾讯�***
AI+RTC:如何用实时音视频技术创造AI实时对话自然交互

AI+RTC:如何用「实时音视频技术」创造「AI实时对话自然交互」 目录Menu •AI对话应用场景•TRTC实时对话式AI解决方案•TRTC产品介绍和核心优势 前言 Voice Agent可能是今年最值得关注的一个方向,是下一代人机交互界面,多模态改变交互 低延迟、高智能 重新发明电话 GUI-> LUI 语音交互以其与人类自然沟通方式的高度一致性,提供了一种更为直观和低能耗的交互体验,而打字文本交互的使用门槛更高 围绕实时对话构建的产品受到投资人青睐,利用AI定制特定类型的实时对话,更高效地提供上下文和价值 GPT-4o是第一个实现端到端voice-in, voice-out的大模型,低延迟、真实情感表达、很强的语义理解能力 AI对话应用场景 自24年下半年以来,涌现了哪些新场景? 01大模型/搜索:实时AI对话已经成为标配 05 AI+游戏:AI陪玩、AINPC、AI队友 AI+泛娱乐:AI陪伴、语聊房助手 06AI+健康:问诊助手、心理健康咨询 02 07AI+客服:智能客服、智能外呼 03AI+教育:实时字幕、在线课堂助手 08AI+工作:招聘、实时翻译 AI+IoT:可穿戴设备、AI玩具 04 应用场景01:大模型/搜索——实时AI对话已经成为标配 大模型厂商 未来挑战与演进方向 从「会思考」到「能对话」 RTC+AI的方案不断优化 多语种混合准确性 长对话意图漂移 •在嘈杂的地铁场景中,用户仍可通过语音与大模型完成复杂问题交互,且支持随时打断和话题切换,接近真人对话体验 •多语种混合场景的实时翻译精度(如中英文混杂语句的识别错误率约8%) •当前仍需解决长时对话中的意图漂移问题(如30轮以上对话的上下文丢失率约12%) 有效提升对话轮次和客户粘性 •相比仅用IM单次对话,加入AI实时语音对话平均轮次提升3-5倍 应用场景02:AI+泛娱乐沿着虚拟陪伴和互动内容两条路进化 •NSFW可能是目前AIGC产品里停•据了解有些做海外的已经实现了•虚拟体验需求,一段虚拟的剧情体验,用户使用该产品的目的性比较明确,通过和AI的互动获得「情绪价值」 •想办法满足更广泛人群的虚拟体验需求,成为一个大DAU的产品 今天的C.AI,并不是真正的恋爱陪伴,而是一种新的“内容消费”形式,是一种全新的互动内容。 留时长和付费意愿最强的品类 盈利(主要靠擦边和强收费) 目前阶段的AI虚拟陪伴,还有很多难点需要解决 用户和AI在共创一个故事,并且不同于看小说,AI每次回复的内容,可能都是不一样的,会往完全不同的剧情发展。 1.记忆力不足2.成本较高3.没办法完美模仿一个IP4.文字太单薄,需要多模态 应用场景03:对话式AI在教育行业的应用场景 •LLM+VoiceAgent是下一代交互的开始:低延迟、高智能。 •长链路的延迟是用户难以接受的,RTC+LLM使得延迟降低,加入了智能打断等功能让用户交互起来更像在于真人交流。 •这对于互动/实时要求性高的教育场景具有显著意义。典型场景如语言学习、儿童兴趣引导、阅读伴侣等。 实时字幕+AI助手同声传译 AI大模型参与教学的能力逐渐增强,难度逐渐增大 应用场景04:IoTAI对话 (一)手机&电脑硬件行业 智能手机 搭载了大模型的手机语音助手响应更快,质量更高 搭载了大模型的电脑语音助手可以与AI助手聊天、向它提问,并像与朋友或同事交谈一样打断它 国产手机厂商正在加快脚步进行调研这里是我们的机会点 应用场景04:IoTAI对话 (二)智能家居行业 萤石AI三摄全自动人脸视频锁行业首款接入蓝海大模型的智能锁 更好的自然语言理解,清晰指令 通过摄像头实时识别并理解视频内容 从摄像头延伸出来的宝宝陪伴、陪伴机器人都有机会 追觅、科沃斯、石头、云鲸等头部玩家均在比拼 多模态视频能力落地的典型场景 应用场景04:IoTAI对话 (三)智能穿戴设备 智能手表的屏幕较小,对语音交互的诉求更强 在智能眼镜中加入摄像头、AI等功能通过AI提升语音交互能力 智能耳机目前主要应用在1对1翻译,支持双方对话过程随时发言 智能眼镜可能是AI+多模态最适合的场景,智能眼镜是最完美的AI助手,行业还在早期,未来还会有新的玩家出来,密切关注 小天才、360手表、其他白牌厂商均有机会 创业公司+老牌耳机公司均有机会 应用场景05:对话式AI在游戏中的应用场景 应用场景06:对话式AI在医疗健康行业的应用 智能辅助诊疗与决策支持 心理健康支持与危机干预 •AI诊疗助手•疑难病例多学科会诊•个性化药物推荐 •24小时情感疏导与心理评估•虚拟现实疗法与社交训练 应用场景07:AI+客服——快速实现智能外呼和智能呼入能力配置智能体 创建语音智能体,开放接入大模型,支持接入自定义TTS音色并配置效果。 实现呼入 绑定智能体至电话号码,用户呼入后由智能体接待。 2025趋势:多模态交互升级、垂直场景深化、物理实体走得更远 潜在机会 关注点 多模态交互升级 垂直场景深化 物理实体 TRTC实时对话式AI解决方案 方案概述 现有的AI语聊场景主要是基于IM场景的离线文字聊天或者语音聊天,GPT-4o的发布,把多模态大模型的应用场景提升到了实时的语音或者视频交互。 使用Tencent RTC,结合第三方的大模型和TTS等,您可以轻松创建一个媲美GPT-4o所演示的AI实时交互体验,应用到您的业务场景内。 功能特点和技术优势 功能特点 精准的ASR识别 实现超低延迟的AI对话 支持多种语言,包括英语、西班牙语、日语、韩语、中文以及23种方言和130种国际语言。 音视频端到端延迟低于300ms,AI对话延迟低于1000ms。 第三方LLM和TTS无缝集成 高兼容性 支持多个平台,兼容超过20,000种设备模型。 配置LLM和TTS服务的账户凭证,无缝集成到服务后台。 红框内客户自定义 腾讯侧:客户端和服务端的一体化集成方案,提供智能打断、降噪能力。客户侧:自定义大模型和TTS,接入到腾讯AI服务,保持业务灵活性。 服务稳定 双讲打断 AI降噪 技术优势 全新降噪引擎,输入端音频实时AI降噪,提升ASR的识别准确度。 AI聊天过程,实时打断,真正实现与人聊天的真实体验。 全球2800+节点,多服务容灾,高稳定超低延迟。 DEMO WEBDEMO在线体验:https://rtcube.cloud.tencent.com/prerelease/component/experience-center/index.html#/detail?scene=ai 延迟优化:通过预测、缓存和智能分片等技术,提升响应速度 基于语义的句子边界识别 实现对话意图预测,通过适当浪费大模型请求来降低大模型延迟 实现智能分片边界判断,精准识别网址、markdown格式、公式等复杂文字的边界判断,适配更多语种 设计语气词库,实现上下文相关的寒暄语生成,大幅降低体感延迟 全流程流式 •STT/LLM/TTS全流程流式处理,减少延迟 网络优化 •内部使用内网传输,外部供应商支持GBN加速 •支持欢迎语缓存,减少TTS费用和延迟 •采用自部署STT/LLM/TTS方案,进一步减少延迟 •AI对话场景码率更低,配置更低的播放buffer,减少延迟 语音识别与降噪优化方案 •专业术语与行业专有名词识别困难•口语化表达场景下字错率偏高•语音3A处理影响识别精度 识别准确度问题 优化策略 降噪增强 联合优化 场景化优化 •降噪与ASR团队协作•通过A/B测试,优选最佳参数组合 •针对性开发远场声音消除功能,提升AI通话质量•服务端AI降噪支持,支持小程序/Web/电话等多端场景 •为不同客户定制专属热词词库•基于真实场景音频数据进行标注与模型微调 降噪优化:提升语音识别质量 远场人声消除 说话人声分离 声纹识别 •应用深度学习模型,实现远场人声的精确识别和消除 •使用盲源分离算法,再多人对话场景中提取目标说话人的声音 •建立声纹特征提取模型,实现实时说话人身份确认和切换检测 LLM技术优化方案 极致低延迟 生态兼容性 对话能力增强 •大模型访问默认流式传输•引入连接池机制,降低建联延迟•对大模型输出进行流式分片,保证最小的延迟 •内置上下文管理系统•支持自然流畅的多轮对话 •支持兼容OpenAI API规范的厂商•无缝对接Coze/Dify等主流Agent平台•支持RAG知识库增强能力,支持Function Call功能扩展 TTS部分技术优化方案 分片优化 流式处理 多平台支持 TTS全部采用流式,保证最低延迟 配合大模型流式分片引擎,保证低延迟和分片正确性,支持客户级别的分片规则下发 已支持TTS厂商包括 •腾讯•Minimax•Azure•火山•Elevenlabs•Cartesia 允许自定义TTS接入 智能打断:分为自动打断和手动打断,有效提升对话的流畅性和自然度 手动打断 自动打断 自动打断是指系统在检测到特定条件时,根据用户的音频输入自动触发,支持两种主要规则:基于音频时长的打断和基于语义的打断。 手动打断手动打断是指由用户主动发起,通过端上SDK发送自定义消息实现,为用户提供更直接的控制方式。通常依赖于用户界面上的按钮或快捷键。 1)打断信令说明 1)基于音频时长的打断 使用JSON格式的自定义消息 用户可动态配置打断时长,默认为500ms可调范围:300ms(更灵敏)到5000ms(避免误打断)建议:对于客服对话等高交互场景,设置较短时长(如300ms或者500ms)以提高响应速度对于演讲或授课场景,设置较长时长(如1000ms)以避免误打断 2)使用方法 通过SDK的sendCustomCmdMessage方法发送上述自定义消息即可实现手动打断。 2)基于语义的打断 基于语音活动检测(VAD)技术,当服务端检测到用户输入了一句语义完整的话时,会自动触发打断。 打断优化:提升交互自然度 01打断准确性提升 03 打断延迟优化 优化实时性能 优化VAD模型,降低背景噪声触发打断的概率;增加语义打断能力,结合语义判断是否要打断 02打断自然度提升 04ASR误识别修正 ASR错误检测,基于大模型对误识别进行修正 避免出现抢话的场景,优化打断时的语音合成效果 TRTC产品介绍和核心优势 TencentRTC:快速实现全球跨平台、超高品质的实时音视频互动场景 跨平台全球互通 高质量全球部署 超高品质 低门槛快速接入 高品质:腾讯会议同款3A引擎高抗性:丢包率80%正常语音通话低延时:全球平均端到端延时<300ms 端:Android、iOS、Windows、Mac、Web全平台SDK。云:覆盖全球200+国家和区域的实时传输网络 提供覆盖泛娱乐、教育、企业服务丰富的场景化组件以及全平台的代码示例官方支持Flutter、Electron跨平台框架 提供包括亚太、北美、欧洲、中东、非洲、拉丁美洲等覆盖全球的海外接入点与加速点 基础功能 超低延时直播场景 <1s延时观看 多人实时互动场景<300ms实时互动 30亿每日支撑上行时长 5000+每月使用客户数量 合规及隐私通过ISO/CSA/NIST/BS 7项合规认证并符合GDPR、CCPA规范 产品矩阵 产品 TencentRTC-数据安全与稳定 20,000+终端设备 200+国家地区 <300ms延迟 多平台互通,支持iOS, Android, Windows,macOS, web, Flutter, Electron, Unity,Unreal等,20,000+终端设备完美适配 全球节点布局,丰富