行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

腾讯云赋能智能硬件开发者“看、听、说”的最佳实践

2025-06-18 腾讯华仔

大模型时代的智能硬件产品趋势

腾讯云定义了多模态大模型时代下智能硬件的“看、听、说”I/O标准化，主要趋势包括：

功能扩展：支持“看、听、说”多种交互方式，如看环境、听写、口语陪练、情感陪伴等。
多语支持：覆盖东南亚、日韩、德法意葡西等多种语言，支持本地语言。
低延时与智能化：低延时智能打断、方言支持、网络搜索、位置搜索、音频/视频/文档/图片/音乐/视频生成。
感知与交互：近场通信、语音交互、定向拾音、看听增强、拍照录像直播、第一视角感知、人/位置/环境感知、情绪交换、名片碰一碰加好友、支付通行。

腾讯云平台对智能硬件开发者的开放能力

腾讯云为智能硬件开发者提供开放能力，包括：

微信会议场景：语音交互、视频直播、近场通信、社交关系、会议摘要、声纹区分、多语言支持、微信通话、拍照分享、视频号直播、语音AIAgent、低延时全球接入、画质超分、实时字幕、多语翻译、电商直播互动、运动直播互动。
智能设备与微信原生音视频通话：设备一键呼叫，微信持续响铃提醒，触达率和流畅通话体验高，支持RTOS/Linux，低功耗，资源占用低，全线适配视频、音频芯片。
TWeTalk多模态对话：包含“跟我说、听我说、让我看、微信通话”等功能，支持唤醒/降噪/回声消除、远场增益、Linux/RTOS双向音视频、ASR语义打断、LLM、TTS，可接第三方LLM和TTSSWeSee（多模态）、TWeCall（微通话）、TWeTalk（AI对话）、P2P音视频RTC服务。
应用场景：教育（听写、背诵、口语陪练）、陪伴机器人（情感陪伴、康养咨询）、全屋智能（Function Call）、AI Agent（陪伴、教育、出行、客服、酒店服务）。

智能耳机、智能眼镜会议场景

腾讯云提供智能耳机、智能眼镜的会议场景解决方案，特点包括：

音频降噪：背景音降噪、回声抑制、弱网时自动切换，使用Penguins语音引擎提升音质。
多说话人分离：支持多说话人分离功能，声纹讲转写内容按发言人拆分，支持修改发言人名称，会议录制文件支持按发言人回顾。
实时转写+字幕：自动识别声源语言并转写为字幕，支持翻译成中文、英语、日语等，增强目标讲话人语音，适用于开放工位和户外场景。
多语言支持：会议内容实时转为文字，支持翻译为日语、韩语、俄语等17种语言，会中可随时回顾，支持导出为文本形式。

腾讯云方言大模型

腾讯云方言大模型支持多种方言，如上海话、四川话等，提供自定义热词、行业领域词汇、转写支持多语言等功能。

AR

AR功能未在正文中详细展开。

AI大模型时代，腾讯云带给智能硬件开发者“看、听、说”最佳实践龙一民丨腾讯云音视频物联网总经理大模型时代的智能硬件产品趋势智能硬件产品趋势腾讯云定义多模态大模型时代“看、听、说”智能硬件I/O标准化让我看记住人看书看题看环境麦克风看听增强定向拾音语音交互听我说跟我说让我管用我搜多语支持本地语言东南亚日韩德法意葡西低延时智能打断方言支持网络搜索位置搜索管理音频管理视频管理文档生成图片生成音乐生成视频生成文档摄像头记忆能力拍照录像直播第一视角感知人感知位置感知环境感知情绪近场通信通行支付碰一碰加好友交换名片会议场景腾讯云平台对于智能硬件开发者的开放能力微信微信通话拍照分享视频号直播会议摘要声纹区分多语言支持语音交互语音AIAgent低延时全球接入腾讯音乐语音读书智能硬件开发者的开放能力画质超分实时字幕多语翻译社交关系视频直播电商直播互动运动直播互动近场通信交换名片离近加好友语音消息文字消息学生之间硬件微聊社交名片家庭群家长学生智能设备与微信原生音视频通话高触达率的微信原生音视频通话 设备一键呼叫，微信持续响铃提醒 保有与微信原生音视频通话一致的触达率和流畅通话体验全线适配视频、音频芯片，资源占用低 支持RTOS/Linux，随操作系统支持快启动，低功耗，资源占用低编码、解码，无压力智能设备与微信原生音视频通话高触达率的微信原生音视频通话 设备一键呼叫，微信持续响铃提醒 保有与微信原生音视频通话一致的触达率和流畅通话体验全线适配视频、音频芯片，资源占用低 支持RTOS/Linux，随操作系统支持快启动，低功耗，资源占用低编码、解码，无压力 TWeTalk多模态对话：跟我说、听我说、让我看、微信通话 TWeTalk 唤醒/降噪/回声消除远场增益 Linux/RTOS 音视频 P2P RTC 音视频双向音视频 P2P服务 TWeTalk （AI对话）教育：听写、背诵、口语陪练陪伴机器人：情感陪伴、康养咨询全屋智能：FunctionCall 设备拔打微信音视频通话 TWeCall （微通话) 视频语义理解、拍照识图 TWeSee （多模态） P2P双向音视频对讲服务 RTC服务可接第三方 LLM ASR 语义打断可接第三方 TTS LLM AIAgent 陪伴、教育、出行、客服、酒店服务 TTS 智能耳机、智能眼镜会议场景：转写字幕、多语翻译、智能录制，多说话人分离，降噪增强音频降噪主讲人语音增强多说话人分离实时转写+字幕 背景音降噪：识别并自动抑制环境噪音，让人声更清晰 回声抑制：回声抵消、啸叫检测、自动增益控制等技术，降低声音问题的干扰，提升会议效率 弱网时自动切换使用Penguins 语音引擎，提升音质体验 基于录入的声纹，在抑制其他人声干扰的同时，增强目标讲话人的语音 眼镜看着的主讲人的声音可以被识别，“陌生人”的人声不会被ASR转写。适用于开放工位和户外等喧闹场景，帮助生成“纯粹和干净”的字幕和纪要 支持进行多说话人分离功能，通过声纹讲转写内容按照发言人拆分，并支持修改发言人名称 会议录制文件的视频、转写和纪要支持按发言人回顾，快速定位目标内容 自动识别声源语言并转写为字幕。参会成员可根据个人需求选择翻译成中文、英语、日语，帮助外籍员工不受语言限制 会议内容实时转为文字，支持翻译为日语、韩语、俄语等17种语言，会中可随时回顾会议内容。实时转写支持导出为文本的形式腾讯云方言大模型音频方言腾讯云方言大模型上海话侬让伊可以过来试驾一下噶车子[叫易为来四号]再试试阿拉车子试对比一下呵，搿部是就是赛道版一百零两万百，呃，但是侬屋里相呢，侬可以就是讲就讲噶种4.5的噶种百公里加速也够用了对吧？而且现在的续航是500多公里，那现在把照送的啊无来购置税在十一月现在自己国家是免购置税的，那你现在就是等于是后机养费用搿车子还是非常少对吧？对就是对阿拉12大权益不客户啊，都是尊贵的，这种就是车主本呃比如说三年免费充电，比如说免费安装加充终身质保四川话你给他给他看下那个一号座二号个谢谢啊这边这边我先给你介绍下那个项目嘛，你们是第一次打那个项目啊，那我接着给你介绍下那个周边那个交通情况吗？就不了都比较了解过，就情况，然后就给[你]讲从项目上[沙盘]开始讲嘛。啊，这个是我们一个大的一个沙盘。啊，我们现在所在的位置是在这个位置，售楼部这个位置，然后我们下目的话，它是背靠彭山这边，这边是彭山景区，呃，这边是南边，然后前面是成都的母亲河景家啊他整个项目它是背山面水的一个项目，然后你们过来的话，他就是你们走的是哪个位置嘛，环天路吗嘛？自定义热词、行业领域词汇、转写支持多语言 AR Thanks

点击免费查看完整报告

腾讯云赋能智能硬件开发者“看、听、说”的最佳实践

大模型时代的智能硬件产品趋势

腾讯云平台对智能硬件开发者的开放能力

智能耳机、智能眼镜会议场景

腾讯云方言大模型

AR

你可能感兴趣

腾讯云CodeBuddy赋能企业软件工程开发实践

众安保险实时数仓赋能金融精细化智能运营的落地实践

2024数据智能赋能消费者增长的策略与实践分享报告

运营商最佳实践：人工智能大模型赋能垂直用例（2025）

AI端侧系列推荐之十二：开发者生态与私有云赋能，苹果打造安全智能AI终端

计算机行业周报：从工业软件赋能工业母机，看智能制造蕴含的科技投资机遇

智能驾驶行业专题：算法篇，AI赋能背景下看汽车智能驾驶算法的迭代

腾讯云安全六大新品&最佳实践发布

腾讯云智能体开发平台企业级ADP Claw最佳实践与教程

腾讯云智能体开发平台企业级skill 最佳实践与教程