您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:AI驱动下音视频场景创新 - 发现报告

AI驱动下音视频场景创新

2025-11-25腾讯小***
AI智能总结
查看更多
AI驱动下音视频场景创新

崔⽴鹏⼁腾讯云⾳视频产品总监 PART1AI+⾳频实时互动 PART2AI+视频实时互动 ⽬录 PART3AI+智能媒资新能⼒ AI⾳频实时互动AI语⾳助⼿、实时多语种翻译,重构⼈机与⼈际互动新体验01 腾讯云城市峰会·无锡峰会 VoiceAgent:下⼀代实时对话的新⽅向 VoiceAgent可能是今年最值得关注的⼀个⽅向,是下⼀代⼈机交互界⾯,多模态改变交互 低延迟、⾼智能 重新发明电话 GUI->LUI 语⾳交互以其与⼈类⾃然沟通⽅式的⾼度⼀致性,提供了⼀种更为直观和低能耗的交互体验,⽽打字⽂本交互的使⽤门槛更⾼ GPT-4o是第⼀个实现端到端voice-in,voice-out的⼤模型,低延迟、真实情感表达、很强的语义理解能⼒ 围绕实时对话构建的产品受到投资⼈青睐,利⽤AI定制特定类型的实时对话,更⾼效地提供上下⽂和价值 腾讯云城市峰会·无锡峰会 AI实时对话赋能千⾏百业的创新实践 01⼤模型/搜索:实时AI对话已经成为标配 05AI+游戏:AI陪玩、AINPC、AI队友 06AI+健康:问诊助⼿、⼼理健康咨询 02AI+泛娱乐:AI陪伴、语聊房助⼿ 03AI+教育:实时字幕、在线课堂助⼿ 07AI+客服:智能客服、智能外呼 08AI+⼯作:招聘、实时翻译 04AI+IoT:可穿戴设备、AI玩具 腾讯云城市峰会·无锡峰会 AI实时对话⽅案 •使⽤TencentRTC,结合第三⽅的⼤模型和TTS等,可以轻松创建⼀个媲美GPT-4o所演⽰的AI实时交互体验,应⽤到业务场景内。 功能特点 精准的ASR识别 实现超低延迟的AI对话 ⽀持多种语⾔,包括英语、西班⽛语、⽇语、韩语、中⽂以及23种⽅⾔和130种国际语⾔。 ⾳视频端到端延迟低于300ms,AI对话延迟低于1000ms。 第三⽅LLM和TTS⽆缝集成 ⾼兼容性 ⽀持多个平台,兼容超过20,000种设备模型。 配置LLM和TTS服务的账户凭证,⽆缝集成到服务后台。 l腾讯侧:客户端和服务端的⼀体化集成⽅案,提供智能打断、降噪能⼒。l客户侧:⾃定义⼤模型和TTS,接⼊到腾讯AI服务,保持业务灵活性。 腾讯云城市峰会·无锡峰会 对多模态的⽀持:当⼤模型有了“眼睛” •具有跨⽂本、⾳频和视频进⾏实时推理的能⼒,可实现更⾃然的⼈机交互•AI可以进⾏流畅的实时视频通话,⼈可以实时打断AI•通过⼿机的摄像头与⼈互动,可通过视频流理解对话当前的环境(包括⼈物状态/背景环境) 场景很丰富,现在需要探索多模态能⼒对于AI解题、绘画设计、⾳乐学习等需要视觉和听觉才能进⾏反馈指导的科⽬,⾮常关键 腾讯云城市峰会·无锡峰会 AI线上实时翻译:有⽂字到⽂字、语⾳到⽂字、语⾳到语⾳三种模式 语⾳→⽂字 腾讯云城市峰会·无锡峰会 AI线下实时翻译:⼤型跨国峰会、随⾝翻译、AI同声传译等场景 腾讯云城市峰会·无锡峰会 AI实时翻译解决⽅案:沉浸式的翻译体验,端到端语⾳体验佳 端到端语⾳体验佳 超低延迟与全球覆盖 AI降噪抓取精准⼈声 ⽀持多语种识别 情感化TTS助⼒同声传译 AI+视频实时互动02 打造沉浸式、游戏化的社交增长引擎 腾讯云城市峰会·无锡峰会 AI+美颜+⼩游戏:利⽤⾯部表情或⼿势结合直播⼩游戏玩法 典型玩法 游戏玩法 •例如,⽤户/主播通过⿐⼦进⾏切⽔果,结合头部移动控制⽅向,实现沉浸式互动玩法 互动游戏+特效礼物 •将主播的实时⾯部与肢体动作转化为游戏控制器,主播做动作的过程本⾝就极具节⽬效果,容易产⽣病毒式传播的直播⽚段 腾讯云城市峰会·无锡峰会 特效能⼒升级:256+⼈脸点位识别,底层能⼒对齐抖⾳、tiktok •粒⼦特效贴纸 腾讯云城市峰会·无锡峰会 AI驱动体验升级:腾讯美颜特效SDK赋能互动游戏 •腾讯美颜特效SDK通过强化AI能⼒,优化了⼈体点位识别的精准度,⽀持识别300个 以上的全⾝点位,以及42个⾝体⾻骼关键点 •复杂运动场景下也能够稳定、精准地识别出关键点位,确保美颜、美型、贴纸的贴合度更⾼,动作跟随更稳定⾃然。 扫码体验新版Demo AI+智能媒资新能⼒03 为每⼀秒内容赋能,让创意⽣产更⾼效 腾讯云城市峰会·无锡峰会 腾讯云城市峰会·无锡峰会 新兴媒体闭门专场 智能字幕-点播场景 画⾯压制 画⾯提取 ⾃动插⼊字幕轨道 ⾃动⽣成字幕⽂件 ⽆需代码开发,控制台配置好语种模板和编排,基于⽂件上传触发,⾃动⽣成视频字幕⽂件 基于⾃动⽣成的字幕⽂件,可⾃动转码压制到视频画⾯,样式、字体、字号、字体颜⾊、背景⾊均可⾃定义压制 可⾃动⽣成字幕并插⼊字幕轨道,可防⽌字幕视频分开存储导致字幕⽂件丢失,⽤户可按需开启 基于视频画⾯原有字幕⾃动提取并⽣成字幕⽂件,⾼清重制进⾏⽼⽚保护 腾讯云城市峰会·无锡峰会 智能擦除 动态擦除 静态擦除 ⾃动识别位置;定制识别⽬标;多种檫除效果 腾讯云城市峰会·无锡峰会 智能拆条 ⾼光集锦 ⾜球/篮球进球集锦 Thanks