行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

AI+RTC：如何用实时音视频技术创造AI实时对话自然交互

2025-04-22 腾讯 🦄黄斌

AI+RTC：如何用「实时音视频技术」创造「AI实时对话自然交互」

AI对话应用场景

自2024年下半年以来，AI对话应用场景涌现，包括：

大模型/搜索：实时AI对话成为标配，但需解决长时对话意图漂移和多语种混合准确性问题。RTC+AI方案提升对话轮次和客户粘性，平均轮次提升3-5倍。
AI+泛娱乐：沿虚拟陪伴和互动内容进化，NSFW品类停留时长和付费意愿强。虚拟体验需求明确，通过AI互动获得情绪价值。当前AI虚拟陪伴存在记忆力不足、成本高、IP模仿不完美、文字单薄等问题。
AI+教育：语言学习、口语陪练、解题讲解等场景。LLM+Voice Agent是下一代交互开始，RTC+LLM降低延迟，提升交互自然度。
IoT AI对话：
- 硬件：智能手机（如Pixel 9 with Gemini Live）、电脑（如搭载大模型的语音助手）。
- 智能家居：扫地机器人、智能摄像头、智能门铃等，通过摄像头实时识别并理解视频内容。
- 智能穿戴设备：智能手表、智能眼镜、智能耳机，通过AI提升语音交互能力，智能眼镜是AI+多模态最适合场景。
AI+游戏：AI NPC、AI陪玩/指导、AI队友，大模型参与游戏流程能力增强。
医疗健康：智能辅助诊疗与决策支持、心理健康支持与危机干预。
AI+客服：创建语音智能体，支持接入自定义TTS音色，实现智能外呼和呼入。

2025趋势

多模态交互升级：语音交互更自然流畅，视觉交互取得突破。
垂直场景深化：教育等领域单月使用超100小时的AI辅助教学场景可能爆发。
物理实体走得更远：搭配物理实体的AI陪伴产品可走得更远，视频多模态应用场景与AI陪伴结合孕育新交互模式。

TRTC实时对话式AI解决方案

方案概述：Tencent RTC结合第三方大模型和TTS，创建媲美GPT-4o的AI实时交互体验。
功能特点和技术优势：
- 全新降噪引擎：输入端音频实时AI降噪，提升ASR识别准确度。
- 双讲打断：AI降噪，服务稳定，超低延迟（音视频端到端延迟<300ms，AI对话延迟<1000ms）。
- 高兼容性：精准ASR识别支持多种语言和方言，兼容超过20,000种设备模型。
- 第三方LLM和TTS无缝集成：支持配置LLM和TTS服务账户凭证，无缝集成到服务后台。
延迟优化：通过预测、缓存和智能分片等技术提升响应速度，总延迟<1003ms。
语音识别与降噪优化：场景化优化、降噪增强，提升识别准确度。
LLM技术优化：极致低延迟、对话能力增强、生态兼容性。
TTS技术优化：多平台支持，分片优化，流式处理。
智能打断：自动打断（基于音频时长和语义）和手动打断，提升交互自然度。

TRTC产品介绍和核心优势

Tencent RTC：快速实现全球跨平台、超高品质的实时音视频互动场景。
- 超高品质：丢包率80%正常语音通话，低延时（端到端<300ms，实时互动<300ms，直播<1s）。
- 全球互通：覆盖全球200+国家和区域的实时传输网络。
- 低门槛：提供场景化组件和全平台代码示例，支持Flutter、Electron等框架。
- 安全合规：通过ISO/CSA/NIST/BS 7项合规认证，符合GDPR、CCPA规范。
产品矩阵：20,000+终端设备支持，200+国家地区全球节点布局。
典型合作客户：涵盖多个行业和场景。

魔镜云科技：AI语音交互软硬件的实践路径与场景创新

公司简介：成立于2019年，专注AI语音交互硬件研发，面向智能家居、健康管理、企业服务等领域。
产品定位：聚焦“语音交互 + 场景AI模型”的终端产品开发，解决失眠、情绪、销售管理等痛点。
- AI哄睡师：提供睡前对话、睡眠数据分析、个性化音乐推荐。
- AI心理大师：情绪识别与干预、心理测评与建议、情感陪伴与倾听、危机干预与资源推荐。
- AI销售助理：智能客户分析、实时数据反馈、多语言支持、销售流程自动化。
选择TRTC的原因：项目节奏清晰，快速推进，推动多个合作订单签署。
市场趋势分析：智能家居需求增长、个性化交互体验、跨设备互联、隐私与安全关注。
未来发展方向：多模态交互融合、边缘计算与本地化处理、行业定制化解决方案、情感计算与人性化设计。
合作邀请：生态共建，技术共享，探索无限。

AI+RTC：如何用「实时音视频技术」创造「AI实时对话自然交互」目录Menu •AI对话应用场景•TRTC实时对话式AI解决方案•TRTC产品介绍和核心优势前言 Voice Agent可能是今年最值得关注的一个方向，是下一代人机交互界面，多模态改变交互低延迟、高智能重新发明电话 GUI-> LUI 语音交互以其与人类自然沟通方式的高度一致性，提供了一种更为直观和低能耗的交互体验，而打字文本交互的使用门槛更高围绕实时对话构建的产品受到投资人青睐，利用AI定制特定类型的实时对话，更高效地提供上下文和价值 GPT-4o是第一个实现端到端voice-in, voice-out的大模型，低延迟、真实情感表达、很强的语义理解能力 AI对话应用场景自24年下半年以来，涌现了哪些新场景？ 01大模型/搜索：实时AI对话已经成为标配 05 AI+游戏：AI陪玩、AINPC、AI队友 AI+泛娱乐：AI陪伴、语聊房助手 06AI+健康：问诊助手、心理健康咨询 02 07AI+客服：智能客服、智能外呼 03AI+教育：实时字幕、在线课堂助手 08AI+工作：招聘、实时翻译 AI+IoT：可穿戴设备、AI玩具 04 应用场景01：大模型/搜索——实时AI对话已经成为标配大模型厂商未来挑战与演进方向从「会思考」到「能对话」 RTC+AI的方案不断优化多语种混合准确性长对话意图漂移 •在嘈杂的地铁场景中，用户仍可通过语音与大模型完成复杂问题交互，且支持随时打断和话题切换，接近真人对话体验 •多语种混合场景的实时翻译精度（如中英文混杂语句的识别错误率约8%） •当前仍需解决长时对话中的意图漂移问题（如30轮以上对话的上下文丢失率约12%）有效提升对话轮次和客户粘性 •相比仅用IM单次对话，加入AI实时语音对话平均轮次提升3-5倍应用场景02：AI+泛娱乐沿着虚拟陪伴和互动内容两条路进化 •NSFW可能是目前AIGC产品里停•据了解有些做海外的已经实现了•虚拟体验需求，一段虚拟的剧情体验,用户使用该产品的目的性比较明确，通过和AI的互动获得「情绪价值」 •想办法满足更广泛人群的虚拟体验需求，成为一个大DAU的产品今天的C.AI，并不是真正的恋爱陪伴，而是一种新的“内容消费”形式，是一种全新的互动内容。留时长和付费意愿最强的品类盈利（主要靠擦边和强收费）目前阶段的AI虚拟陪伴，还有很多难点需要解决用户和AI在共创一个故事，并且不同于看小说，AI每次回复的内容，可能都是不一样的，会往完全不同的剧情发展。 1.记忆力不足2.成本较高3.没办法完美模仿一个IP4.文字太单薄，需要多模态应用场景03：对话式AI在教育行业的应用场景 •LLM+VoiceAgent是下一代交互的开始：低延迟、高智能。 •长链路的延迟是用户难以接受的，RTC+LLM使得延迟降低，加入了智能打断等功能让用户交互起来更像在于真人交流。 •这对于互动/实时要求性高的教育场景具有显著意义。典型场景如语言学习、儿童兴趣引导、阅读伴侣等。实时字幕+AI助手同声传译 AI大模型参与教学的能力逐渐增强，难度逐渐增大应用场景04:IoTAI对话（一）手机&电脑硬件行业智能手机搭载了大模型的手机语音助手响应更快，质量更高搭载了大模型的电脑语音助手可以与AI助手聊天、向它提问，并像与朋友或同事交谈一样打断它国产手机厂商正在加快脚步进行调研这里是我们的机会点应用场景04:IoTAI对话（二）智能家居行业萤石AI三摄全自动人脸视频锁行业首款接入蓝海大模型的智能锁更好的自然语言理解，清晰指令通过摄像头实时识别并理解视频内容从摄像头延伸出来的宝宝陪伴、陪伴机器人都有机会追觅、科沃斯、石头、云鲸等头部玩家均在比拼多模态视频能力落地的典型场景应用场景04:IoTAI对话（三）智能穿戴设备智能手表的屏幕较小，对语音交互的诉求更强在智能眼镜中加入摄像头、AI等功能通过AI提升语音交互能力智能耳机目前主要应用在1对1翻译，支持双方对话过程随时发言智能眼镜可能是AI+多模态最适合的场景，智能眼镜是最完美的AI助手，行业还在早期，未来还会有新的玩家出来，密切关注小天才、360手表、其他白牌厂商均有机会创业公司+老牌耳机公司均有机会应用场景05:对话式AI在游戏中的应用场景应用场景06:对话式AI在医疗健康行业的应用智能辅助诊疗与决策支持心理健康支持与危机干预 •AI诊疗助手•疑难病例多学科会诊•个性化药物推荐 •24小时情感疏导与心理评估•虚拟现实疗法与社交训练应用场景07:AI+客服——快速实现智能外呼和智能呼入能力配置智能体创建语音智能体，开放接入大模型，支持接入自定义TTS音色并配置效果。实现呼入绑定智能体至电话号码，用户呼入后由智能体接待。 2025趋势：多模态交互升级、垂直场景深化、物理实体走得更远潜在机会关注点多模态交互升级垂直场景深化物理实体 TRTC实时对话式AI解决方案方案概述现有的AI语聊场景主要是基于IM场景的离线文字聊天或者语音聊天，GPT-4o的发布，把多模态大模型的应用场景提升到了实时的语音或者视频交互。使用Tencent RTC，结合第三方的大模型和TTS等，您可以轻松创建一个媲美GPT-4o所演示的AI实时交互体验，应用到您的业务场景内。功能特点和技术优势功能特点精准的ASR识别实现超低延迟的AI对话支持多种语言，包括英语、西班牙语、日语、韩语、中文以及23种方言和130种国际语言。音视频端到端延迟低于300ms，AI对话延迟低于1000ms。第三方LLM和TTS无缝集成高兼容性支持多个平台，兼容超过20,000种设备模型。配置LLM和TTS服务的账户凭证，无缝集成到服务后台。红框内客户自定义 腾讯侧：客户端和服务端的一体化集成方案，提供智能打断、降噪能力。客户侧：自定义大模型和TTS，接入到腾讯AI服务，保持业务灵活性。服务稳定双讲打断 AI降噪技术优势全新降噪引擎，输入端音频实时AI降噪，提升ASR的识别准确度。 AI聊天过程，实时打断，真正实现与人聊天的真实体验。全球2800+节点，多服务容灾，高稳定超低延迟。 DEMO WEBDEMO在线体验：https://rtcube.cloud.tencent.com/prerelease/component/experience-center/index.html#/detail?scene=ai 延迟优化：通过预测、缓存和智能分片等技术，提升响应速度基于语义的句子边界识别 实现对话意图预测，通过适当浪费大模型请求来降低大模型延迟 实现智能分片边界判断，精准识别网址、markdown格式、公式等复杂文字的边界判断，适配更多语种 设计语气词库，实现上下文相关的寒暄语生成，大幅降低体感延迟全流程流式 •STT/LLM/TTS全流程流式处理，减少延迟网络优化 •内部使用内网传输，外部供应商支持GBN加速 •支持欢迎语缓存，减少TTS费用和延迟 •采用自部署STT/LLM/TTS方案，进一步减少延迟 •AI对话场景码率更低，配置更低的播放buffer，减少延迟语音识别与降噪优化方案 •专业术语与行业专有名词识别困难•口语化表达场景下字错率偏高•语音3A处理影响识别精度识别准确度问题优化策略降噪增强联合优化场景化优化 •降噪与ASR团队协作•通过A/B测试，优选最佳参数组合 •针对性开发远场声音消除功能，提升AI通话质量•服务端AI降噪支持，支持小程序/Web/电话等多端场景 •为不同客户定制专属热词词库•基于真实场景音频数据进行标注与模型微调降噪优化：提升语音识别质量远场人声消除说话人声分离声纹识别 •应用深度学习模型，实现远场人声的精确识别和消除 •使用盲源分离算法，再多人对话场景中提取目标说话人的声音 •建立声纹特征提取模型，实现实时说话人身份确认和切换检测 LLM技术优化方案极致低延迟生态兼容性对话能力增强 •大模型访问默认流式传输•引入连接池机制，降低建联延迟•对大模型输出进行流式分片，保证最小的延迟 •内置上下文管理系统•支持自然流畅的多轮对话 •支持兼容OpenAI API规范的厂商•无缝对接Coze/Dify等主流Agent平台•支持RAG知识库增强能力，支持Function Call功能扩展 TTS部分技术优化方案分片优化流式处理多平台支持 TTS全部采用流式，保证最低延迟配合大模型流式分片引擎，保证低延迟和分片正确性，支持客户级别的分片规则下发已支持TTS厂商包括 •腾讯•Minimax•Azure•火山•Elevenlabs•Cartesia 允许自定义TTS接入智能打断：分为自动打断和手动打断，有效提升对话的流畅性和自然度手动打断自动打断自动打断是指系统在检测到特定条件时，根据用户的音频输入自动触发，支持两种主要规则：基于音频时长的打断和基于语义的打断。手动打断手动打断是指由用户主动发起，通过端上SDK发送自定义消息实现，为用户提供更直接的控制方式。通常依赖于用户界面上的按钮或快捷键。 1）打断信令说明 1）基于音频时长的打断使用JSON格式的自定义消息 用户可动态配置打断时长，默认为500ms可调范围：300ms（更灵敏）到5000ms（避免误打断）建议:对于客服对话等高交互场景，设置较短时长(如300ms或者500ms)以提高响应速度对于演讲或授课场景，设置较长时长(如1000ms)以避免误打断 2）使用方法通过SDK的sendCustomCmdMessage方法发送上述自定义消息即可实现手动打断。 2）基于语义的打断基于语音活动检测（VAD）技术，当服务端检测到用户输入了一句语义完整的话时，会自动触发打断。打断优化：提升交互自然度 01打断准确性提升 03 打断延迟优化优化实时性能优化VAD模型，降低背景噪声触发打断的概率；增加语义打断能力，结合语义判断是否要打断 02打断自然度提升 04ASR误识别修正 ASR错误检测，基于大模型对误识别进行修正避免出现抢话的场景，优化打断时的语音合成效果 TRTC产品介绍和核心优势 TencentRTC：快速实现全球跨平台、超高品质的实时音视频互动场景跨平台全球互通高质量全球部署超高品质低门槛快速接入高品质：腾讯会议同款3A引擎高抗性：丢包率80%正常语音通话低延时：全球平均端到端延时<300ms 端：Android、iOS、Windows、Mac、Web全平台SDK。云：覆盖全球200+国家和区域的实时传输网络提供覆盖泛娱乐、教育、企业服务丰富的场景化组件以及全平台的代码示例官方支持Flutter、Electron跨平台框架提供包括亚太、北美、欧洲、中东、非洲、拉丁美洲等覆盖全球的海外接入点与加速点基础功能超低延时直播场景 <1s延时观看多人实时互动场景<300ms实时互动 30亿每日支撑上行时长 5000+每月使用客户数量合规及隐私通过ISO/CSA/NIST/BS 7项合规认证并符合GDPR、CCPA规范产品矩阵产品 TencentRTC-数据安全与稳定 20,000+终端设备 200+国家地区 <300ms延迟多平台互通，支持iOS, Android, Windows,macOS, web, Flutter, Electron, Unity,Unreal等，20,000+终端设备完美适配全球节点布局，丰富

点击免费查看完整报告