行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI销售助手中的声音克隆技术-周维-终版

信息技术 2023-08-08 DataFunSummit2023：大模型与AIGC峰会庄晓瑞

AI销售助手背景介绍

AI销售助手主要通过真实销售录音和外呼话术录音进行语音合成，以提高接听率和转出率。影响接听转出率的因素包括商机质量、话术内容、对话能力（ASR、NLU、DM）以及表达能力（人工录音或语音合成）。语音合成需解决机械感、书面化、口音匹配等问题，并需关注拨打合规率、接听率和接听转出率。

基于真实对话数据的少样本声音克隆

数据来源与特点

数据来源包括真实销售录音和外呼话术录音，采样率选择为真实销售和外呼话术录音。存在的问题包括噪音问题、发音不稳定和数据量不稳定。

数据预处理

使用NISQA语音质量评价模型进行数据预处理，包括MOS（自然度）、Noisiness（噪音程度）、Discontinuity（连贯性）、Coloration（语调丰富性）和Loudness（响度）。人工校对规则中的文本和停顿，修复识别错误的文字，保留口语词，并使用中文逗号、句号或问号表示停顿。

前端文本分析

前端文本分析决定读的准确性，包括文本归一化、分词和停顿说明。韵律分析对于多说话人语音合成模型至关重要。

多说话人语音合成模型

声学模型采用Tacotron2和FastSpeech2，声码器采用Multi-Band MelGAN。训练技巧包括使用合成谱相对原始谱训练声码器音质更好。MB-MelGAN声码器结构包含Generator与Discriminator两部分。

长句合成解决方案

针对长句合成问题，采用分段合并的方法。TestCase显示，长句合成可能不通顺，需要修复长句问题。

声音克隆效果评测

评测维度包括可懂度、自然度和说话人相似度。结论显示，克隆音已十分接近人工录音水平，但仍存在音质、稳定性、口语词和口音问题。

多口音口语风格自然度优化

音质优化

采用数据降噪、模型降噪和TrimSilence等方法。结论显示，适度的数据降噪可以提升整体合成音质，但降噪后训练会使合成频谱有较多的“镂空”，听起来更不自然。模型降噪效果明显，但在实际数据中使用会误伤人声。TrimSilence可以解决静音不稳定的问题，但可能导致发音不准确和突发噪音问题。

发音与稳定性优化

问题描述包括随着文本变化，合成效果波动较大，存在发音不准确的问题。采用文本与说话人/噪音解耦的方法，并使用TransformeràConformer进行优化。结论显示，基于Conformer的声学模型具有更好的发音清晰度与韵律稳定性。

文本风格迁移

口语化程度对合成效果有重要影响。人工录音比合成音更自然的原因包括会犯错、有情绪、有笑声，停顿更加科学，带口音的音频需要对应调整文字描述。改写后的句子包括加口语词、改成四川话风格。模型选择为PromptCLUE-base，通过prompt融合多种和语音相关的任务。数据构造针对不同音色与不同口音个性化构造口语风格，并使用10w组风格迁移数据。

克隆音优势

克隆音的优势包括对不同城市用当地的口音话术，可以提高外呼效果；使用克隆音方便修改话术节点内容；使用克隆音可以高效的更换多种音色。

声音克隆服务部署

语音合成部署方案

采用文本前端、声学模型+声码器的部署方案。语速/音调/停顿控制包括直接对duration乘以倍数控制语速，从前端修改声调控制音调，通过调整fastspeech的duration控制停顿。

未来计划与相关工作

持续优化合成音质，韵律风格迁移，少样本合成一致性优化，压缩新音色的训练时间。相关工作包括WeNet中开源EfficientConformer模型端到端语音识别技术在58同城的探索实践，3人半年打造语音识别引擎——58同城语音识别自研之路，PPT+视频回放|语音技术在58同城的应用，流式和离线语音场景下VAD语音端点检测算法实践，语音识别中的WFST和语言模型。

演讲人-周维-58同城-算法架构师 DataFunSummit#2023 个人和部门简介个人简介周维，58同城AI Lab语音算法部负责人、算法架构师，负责语音识别、语音合成算法研发。 2016年硕士毕业于中国科学院大学，2018年5月加入58同城，曾先后参与智能客服、智能外呼、智能写稿等AI项目的NLP算法研发。 2019年开始主攻语音算法方向，开始从0到1自主研发58同城语音处理引擎中的语音算法。多模态与AIGC 语音合成：让模型具有感性的表达能力。目录CONTENT 03多口音口语风格自然度优化 01AI销售助手的背景介绍 02基于真实对话数据的少样本声音克隆 04声音克隆服务部署 AI销售助手的背景介绍 DataFunSummit#2023 AI销售助手的背景介绍 AI销售助手的背景介绍 AI销售助手的背景介绍真实销售成都口音外呼案例 !"#$"%&'()*+,-"./&'0123456789:;< 接听转出率影响因素 6789:< •商机质量•话术内容•对话能力：ASR、NLU、DM•表达能力：人工录音or语音合成？ =>?@A"B(&C-"(D3./EFGHIJK?+"LMA"J0%/-&IN7OPHQH-RS#TUV éè(êë&Ií5ìîA"Ñ./&'-HïñóÄòôD3íö5"LMx%/-õu"{ú#-ÄòùMÉqrûüÖÜkV 语音合成 è`L&C†"%°HIN7åç"S#¢£-zHz"k{qr;< •机械感or真实感？•书面化or口语化？•口音与用户匹配？ WIXYZ<#&IV (&IC[-"!\]"%/&'A"(^_XY-"`+-abcdA"efg-hij(`HC-Vklmno-pA"%qr9s%/&'tIN7-&IOuvw"xBRyk$$-zHz#{qr;< 拨打合规率=接听率∗接听转出率∗转出合规率 #|}~IÄZV 接听转出率=转出商机数接听电话商机数 Å"tÇ"t&C-pA"%ÉÑk-ÖÜnáàâHä"LMãMA"x%/&'-N7åçRÖÜkV 02 基于真实对话数据的少样本声音克隆 DataFunSummit#2023 基于真实对话数据的少样本声音克隆数据来源与特点语音数据来源语音数据选择 •真实销售录音•外呼话术录音采样率选择 •真实销售•外呼话术录音存在的问题 •噪音问题•发音不稳定•数据量不稳定数据预处理 NISQA语音质量评价模型 •MOS（自然度）•Noisiness（噪音程度）•Discontinuity（连贯性）•Coloration（语调丰富性）•Loudness（响度）数据预处理人工校对规则中的文本和停顿 •修复识别错误的文字，保留口语词•较短的停顿使用中文逗号【，】，•较长的停顿使用中文句号或问号【。】或【？】数据预处理训练语音识别使用的数据分布à多说话人模型前端文本分析前端文本分析决定读的是否准确文本分析case Ø旭辉·滨海江来1期2021-04-10开盘，想要详细了解内容，可以点击“在线带看”按钮联系置业顾问为你专人1v1讲解。Ø万滨天锦新推148.5-194.89㎡的户型Ø您可以在下午1:30之后拨打我们客服热线Ø工作时间:早9点～12点，下午三点～7点！Ø房产已开设服务热线:400-620-9008 你好，我是58同城人工智能外呼助手，现邀请你于2020年12月12日参加15周年司庆。原始文本你好，我是五八同城人工智能外呼助手，现邀请你于二零二零年十二月十二日参加十五周年司庆。文本归一化你好，我是/五八同城/人工智能/外呼助手，现/邀请/你/于/二零二零年/十二月/十二日/参加/十五周年/司庆。分词 ni3 hao3 wo3 shi4 wu3 ba1 tong2 cheng2 ren2gong1 zhi4 neng2 wai4 hu1 zhu4 shou3 xian4…… 停顿说明注音 Ø#1，一级停顿：分词，部分符号Ø#2，二级停顿：、，“”等Ø#3，三级停顿：。？！你好#2我是#1五八同城#1人工智能#1外呼助手#3现#1邀请#1你#1于#1二零二零年#1十二月#1十二日#1参加#1十五周年#1司庆#4 韵律分析多说话人语音合成模型声学模型：Tacotron2 存在问题 •时长不稳定，偶尔存在吞音问题•推理速度慢多说话人语音合成模型声学模型：FastSpeech2 多说话人语音合成模型多说话人语音合成模型声码器：Multi-Band MelGAN 训练技巧：使用合成谱相对原始谱训练的声码器音质更好。 MB-MelGAN声码器结构，包含Generator与Discriminator两部分多说话人语音合成模型长句合成解决方案 TestCase（299个字）我家的后面有一个很大的园，相传叫作百草园。现在是早已并屋子一起卖给朱文公的子孙了，连那最末次的相见也已经隔了七八年，其中似乎确凿只有一些野草；但那时却是我的乐园。不必说碧绿的菜畦，光滑的石井栏，高大的皂荚树，紫红的桑葚；也不必说鸣蝉在树叶里长吟，肥胖的黄蜂伏在菜花上，【25秒】轻捷的叫天子(云雀)忽然从草间直窜向云霄里去了。单是周围的短短的泥墙根一带，就有无限趣味。油蛉在这里低唱，蟋蟀们在这里弹琴。翻开断砖来，有时会遇见蜈蚣；还有斑蝥，倘若用手指按住它的脊梁，便会啪的一声，从后窍喷出一阵烟雾。何首乌藤和木莲藤缠络着。木莲有莲房一般的果实，何首乌有臃肿的根。有人说过，何首乌根是有像人形的，吃了便可以成仙。长句合成不通顺修复长句问题-分段合并基于真实对话数据的少样本声音克隆声音克隆效果评测 •可懂度：录音内容的理解难度， •5分表示完全可听懂，容易理解，•1分表示整条录音都无法听懂。 •自然度：录音的质量， •5分表示非常自然无瑕疵，•1分表示质量极差无法忍受。 •说话人相似度：合成音色与原说话人音色的相似程度 •5分表示听起来是同一个人，•1分表示完全不同。结论：从三个维度来看，克隆音已十分接近人工录音水平。但是…… 基于真实对话数据的少样本声音克隆存在的问题 •音质问题：人工录音音质更好。•稳定性问题：人工录音发音更准确、清晰。•口语词问题：人工录音有自由发挥的情况，会插入很多口语词，有自己的韵律。•口音问题：与普通话话术相比，口音话术的接听转出率要高3%左右，在固定城市用本地口音外呼效果更好。 03多口音口语风格自然度优化 DataFunSummit#2023 多口音口语风格自然度优化 01音质 02稳定性：发音&文本 03风格化：口语化&口音化音质优化数据降噪：对训练数据去噪、去混响，然后再训练。结论：适度的数据降噪可以提升整体合成音质，但对于噪音严重的音频如果降噪后训练，会使合成频谱有较多的“镂空”，听起来会更不自然，同时会更容易受到信道噪声影响。 TestCase：你好，我是五八同城人工智能外呼助手，工号29555。现邀请你于2020年12月12日参加十五周年司庆。音质优化模型降噪：针对真实销售录音，让声码器具备去噪能力结论：离线去噪效果明显，但在实际数据中使用会误伤人声。音质优化 TrimSilence：对音频首尾的静音段做截断处理。静音段不稳定问题，导致拼接处不自然 •在对齐后trim silence会导致duration不准，从而导致发音不准确以及突发噪音问题。 •对齐之前做trimsilence，可以解决静音不稳定的同时，使发音更加准确。 TestCase：你好，我是五八同城人工智能外呼助手，工号29555。现邀请你于2020年12月12日参加十五周年司庆。 AISHELL-3示例发音不准问题 TestCase：经理，您与我们签订会员后，可以在58招聘列表页发布您公司的招聘信息，让您的信息获得海量曝光，还能使用会员专属的人才库，让我们第一时间，联系到高质量求职者。外呼录音示例突发噪音问题音质优化超分辨率实验 •通过对数据重新采样，并利用声码器实现了超分辨率功能（自动填充高频成分），但效果不稳定，有些case会出现高频噪音的问题。 HIFI-GAN实验 •HiFiGAN声码器的合成语音，与MultiBand-MelGAN相比稍清晰了一点，但同时模型变大了约8倍（7MB->57 MB）。发音与稳定性优化问题描述 •随着文本变化，合成效果波动较大•存在发音不准确的问题发音与稳定性优化文本与说话人/噪音解耦第一种结构：GRL（Gradient Reversal Layer）+SpeakerClassifier 第二种结构：GRL（Gradient Reversal Layer）+NoiseClassifier 发音与稳定性优化 TransformeràConformer 外呼录音-普通话男声 TestCase：我这边是58同城的，咱们这边有考虑在线上做这个业务推广吗？结论：与原有的基于Transformer的声学模型相比，基于Conformer的声学模型具有更好的发音清晰度与韵律稳定性。文本风格迁移口语化程度对合成效果的影响为什么人工录音会比合成音更自然？ 1.人工录音中会犯错、有情绪、有笑声；2.人工录音的停顿更加科学，合成音有些停顿比较奇怪；3.带口音的音频，文字描述中需要对应调整，如：四川话中的“啥子、没得” 文本风格迁移改写后的句子帮我把下面句子加口语词、改成四川话风格… 模型选择： •选择200M参数的PromptCLUE-base作为基础模型。•通过prompt融合多种和语音相关的任务文本风格迁移数据构造 •针对不同音色与不同的口音个性化构造口语风格•10w组风格迁移数据•推理时，根据输入信息，配置好prompt 文本风格迁移多口音口语风格自然度优化克隆音优势 1.对不同城市用当地的口音话术，可以提高外呼效果2.使用克隆音方便修改话术节点内容3.使用克隆音可以高效的更换多种音色 04声音克隆服务部署 DataFunSummit#2023 声音克隆服务部署语音合成部署方案：文本前端、声学模型+声码器声音克隆服务部署语速/音调/停顿控制 •语速，直接对duration乘以倍数•音调，从前端修改声调即可•停顿，直接调整fastspeech的duration可能导致声学模型合成问题你好(2.5)我是58同城智能助手您好(2.5)老板，请问公司还在从事保姆月嫂业务吗？让声码器可以适应频谱中的静音段，且不会出现噪音问题，在训练声码器时，分别对频谱和音频信号，在随机位置插入随机长度的静音段。配合文本分析的策略，即可准确实现停顿控制。未来计划与相关工作未来规划相关工作 Ø持续优化合成音质Ø韵律风格迁移Ø少样本合成一致性优化Ø压缩新音色的训练时间 58同城AI Lab在WeNet中开源EfficientConformer模型端到端语音识别技术在58同城的探索实践3人半年打造语音识别引擎——58同城语音识别自研之路PPT+视频回放|语音技术在58同城的应用流式和离线语音场景下VAD语音端点检测算法实践语音识别中的WFST和语言模型 58技术公众号 AI Lab公众号感谢观看

点击免费查看完整报告

AI销售助手中的声音克隆技术-周维-终版

AI销售助手背景介绍

基于真实对话数据的少样本声音克隆

数据来源与特点

数据预处理

前端文本分析

多说话人语音合成模型

长句合成解决方案

声音克隆效果评测

多口音口语风格自然度优化

音质优化

发音与稳定性优化

文本风格迁移

克隆音优势

声音克隆服务部署

语音合成部署方案

未来计划与相关工作

你可能感兴趣

OPPO知识图谱及其在小布助手中的应用 - 李向林 OPPO

国盛：TMT会议纪要-华为鸿蒙终现身！来自一线的声音20190812

电力设备与新能源行业周观点：电动车抢装效应依旧，光伏政策静待终版意见稿

关于 AI 和教育的 100 个学生声音

周观点：COMPUTEX 2024开幕，关注AI终

电子行业周观点：LGD或终退出LCD TV供应，苹果采用谷歌芯片训练AI模型

周观点重视来自产业的声音增持回购及底部涨价仍是最信号中泰建材化工孙颖团

联合国粮农组织：2024“通过保护墨西哥传统农业生态系统的遗传多样性确保全球农业面对气候变化的未来”项目的终期评估报告（西班牙语版）

【民生计算机恭祝您新春快乐】ARM三天翻倍预示的重大机遇：️再次强调迎接AI终

传媒行业图像篇专题(二)：解析Midjourney的成长之路，小而美的AI绘画龙头，静待花开终有时