您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:喜马拉雅AI有声内容生产方式的变革与生态重构 - 发现报告

喜马拉雅AI有声内容生产方式的变革与生态重构

2026-06-22 腾讯 付瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶
报告封面

内容生产方式的变革与生态重构 主讲人:张慧敏 喜马拉雅·音剪AI产品负责人 AI在放大什么01 ⽬录 新一代产品设计02 我们的产品实践03 Agent时代落地04 05培养「下棋人」 AI在放⼤什么 工具人人可用,差距为什么反而在扩大 Chapter 01 · AI在放大什么⼯具⼈⼈都有,差距为什么反⽽在扩⼤ 交给AI做的事 人要死守的判断 这个角色该用哪个声音这里该爆发,还是该留白第三分钟,听众会不会流失AI越强→这一列越稀缺、越值钱 配音生成/格式转换 标准化审听流程 反复修改与执行 AI越强→这一列越快、越便宜 顶级创作者用AI解放的是时间,不是判断力 Chapter 01 · AI在放大什么AI学的是已经发⽣过的,但共鸣发⽣在当下 AI不清楚的 AI能学会的 •为什么这个故事今天让这群人沉默、大笑、流泪,共鸣点在哪? 历史上哪类内容播放量更高 •统计上哪种声音更受欢迎,统计常用的人设声音 •为什么这个声音在这角色身上或者当下的时间段是对的? •为什么真实经历比AI设计好的情节更有重量? 共鸣不是内容创造的,是内容激活的——它发生的地点在听众的记忆和经历里 新⼀代产品设计 思维转变到AI共生 Chapter 02·新一代产品设计从「功能思维」到「能⼒思维」 先想哪些事AI做、哪些事人做产品=能力的编排流程AI调能力,人做关键判断竞争点人机共生的新设计 先想用户需要什么功能产品=功能的集合流程用户操作工具竞争点功能丰富度 产品不再是「人用的工具」,而是「人和AI共生的工作流」 Chapter 02·新一代产品设计四个判断问题:哪件事该交给AI,哪件事必须留给⼈ 」 做错的代价能事后修复吗? 这件事有标准答案吗? ✓能→ AI可以放手做 ✓有→ AI倾向于赢 ✓没有→留给人 ✓不能→人来兜底 做对它需要「懂受众」吗? 做错时谁承担后果? ✓产品bug → AI决策✓品牌/创作者→人在场 ✓不需要→ AI ✓需要→人 我们的产品实践 从「模块串联」到「原子能力+人的判断」 Chapter 03·我们的产品实践 旧路径:一键全自动(我们踩过的坑) 新路径:原子能力+人的判断 审听 机器串行跑完整链路 原子能力,按需自由编排 目标:先把规模做出来 人/ Agent →调用→任意组合 结果:用户不买单,Roi打不正,业务方觉得我们价值低 竞争点:不只是功能丰富度,而是人机协作设计深度 真正逼我们改路的,不是技术不够,而是用户一句很直接的反馈:“我花了钱当会员的,你就给我听这个?”核心创新:把固定模块拆成原子能力,让短篇创作者也能用Agent跑通原创→有声化→平台发布全链路 Chapter 03·我们的产品实践三个「⼈必须在场」的判断节点 ③终审判断·整章质感 ②导演判断·演绎 ①角色判断·选角 能合成情绪≠演出层次坑:只给情绪标签设计:情绪标注+实时调节,导演意图直接落到执行 声音像≠角色对 单段可用≠整章成立 坑:只会匹配「像不像」 坑:片段看着都对 设计:一键审听+标记修订, 设计:快速试音对比, 质感判断留到最后 让审美决策成本最低 坑不在「做不出来」,而在把关键判断交给了机器 Chapter 03·我们的产品实践为什么我们⾃⼰训⼀个⾳频模型 长篇一致性 连续情绪演绎 「演」出来 通用TTS:单句质量已经很好 通用TTS:情绪标签离散 通用TTS:把字念清楚 但同一角色30章后 (开心/悲伤/愤怒) 还是同一个人吗? 我们:咳咳/笑声/喘息/沉默 我们:爆发/哽咽/强忍/颤抖 我们:30万字稳定 表演级演绎,不只是朗读 连续可调可控 保持声线与性格 Chapter 03·我们的产品实践DEMO⼤咖精品:让顶级⾳⾊可被复刻 DEMO02 ·单田芳 DEMO03 ·Jason小宇宙财经播客自然的口语化一致性,稳定的播客节目输出 DEMO01 ·王更新 大咖精品 稳定的旁白讲述,一听就知道,完美的复刻 Chapter 03·我们的产品实践DEMO情感演绎:表演级的声⾳ DEMO03 ·大师版定制真实人生+大师演绎普通素人录音,一键升级为大师级演绎 Agent时代 让AI直接调用我们的能力节点 Chapter 04· Agent时代Agent接⼊:⼀次开发,任意Agent调⽤ 把能力开放成AI可调用的节点 接入页:复制提示语即可让任意Agent接入 通过audiobooklm_mcp,把全链路能力做成AI可直接调用的「能力节点」播客生成/单·多播有声书/多人演播章节合成/角色音色绑定/混音上架一句话触发:文稿→音色→合成→发布接入方:Codex· Claude ·Kimi·WorkBuddy·腾讯生态 🔗aigc.ximalaya.com/help-center/agent 不是做界面工具,而是AI可调用的能力节点——让生态里的任意Agent都能接入 Chapter 04· Agent时代标杆合作:喜马拉雅×WorkBuddy联合发布Skill 一句话,跑通全链路 已上架WorkBuddy·SkillHub(官方认证) 在WorkBuddy复制提示语:新建《播客test》单人播客→Jason音色→章节合成(6m29s)返回成片+编辑页链接→一键上架 与WorkBuddy联合发布——让喜马的有声生产能力,成为生态里可被调用的标准件 Chapter4· Agent时代内置Agent:不⽌服务专业⽤户,⼩⽩也能创作 老年大学·真实落地 把Agent内置进产品,动嘴就能创作 我们把Agent装进产品老年人有阅历、有故事,唯独不会复杂的创作操作从一段录音开始,动口即可完成创作→有声化→平台发布全链路 这套链路,也已经向「完全不懂技术」的小白用户场景跑通 培养「下棋⼈」 AI时代真正稀缺的,是人 Chapter 05·培养「下棋人」我们要培养的,不是更多「⼯种」,⽽是「下棋⼈」 驾驭全局,统筹人与AI Chapter 05·培养「下棋人」审美不是⽞学,是被写在⼈⼼⾥的规律 镜像神经元·神经科学 原型记忆· CarlJung 高低语境·EdwardHall 人脑会模拟他人情绪 集体无意识里的 英雄、阴影、智者 看别人哭,你也鼻酸 AI没有真实镜像反应—— 打动人的故事, 都在激活某种原型记忆 何时说透 可以是助教,不能是老师 AI的存在,不是为了⼲掉⼈⽽是让⼈更体⾯、更有价值地存在 这是我们做新一代AI有声平台的初心 谢谢观看THANKS