您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:大模型与AIGC峰会]:AI销售助手中的声音克隆技术-周维-终版 - 发现报告

AI销售助手中的声音克隆技术-周维-终版

AI智能总结
查看更多
AI销售助手中的声音克隆技术-周维-终版

演讲人-周维-58同城-算法架构师 DataFunSummit#2023 个人和部门简介 个人简介 周维,58同城AI Lab语音算法部负责人、算法架构师,负责语音识别、语音合成算法研发。 2016年硕士毕业于中国科学院大学,2018年5月加入58同城,曾先后参与智能客服、智能外呼、智能写稿等AI项目的NLP算法研发。 2019年开始主攻语音算法方向,开始从0到1自主研发58同城语音处理引擎中的语音算法。 多模态与AIGC 语音合成:让模型具有感性的表达能力。 目录CONTENT 03多口音口语风格自然度优化 01AI销售助手的背景介绍 02基于真实对话数据的少样本声音克隆 04声音克隆服务部署 AI销售助手的背景介绍 DataFunSummit#2023 AI销售助手的背景介绍 AI销售助手的背景介绍 AI销售助手的背景介绍 真实销售成都口音外呼案例 !"#$"%&'()*+,-"./&'0123456789:;< 接听转出率影响因素 6789:< •商机质量•话术内容•对话能力:ASR、NLU、DM•表达能力:人工录音or语音合成? =>?@A"B(&C-"(D3./EFGHIJK?+"LMA"J0%/-&IN7OPHQH-RS#TUV éè(êë&Ií5ìîA"Ñ./&'-HïñóÄòôD3íö5"LMx%/-õu"{ú#-ÄòùMÉqrûüÖÜkV 语音合成 è`L&C†"%°HIN7åç"S#¢£-zHz"k{qr;< •机械感or真实感?•书面化or口语化?•口音与用户匹配? WIXYZ<#&IV (&IC[-"!\]"%/&'A"(^_XY-"`+-abcdA"efg-hij(`HC-Vklmno-pA"%qr9s%/&'tIN7-&IOuvw"xBRyk$$-zHz#{qr;< 拨打合规率=接听率∗接听转出率∗转出合规率 #|}~IÄZV 接听转出率=转出商机数接听电话商机数 Å"tÇ"t&C-pA"%ÉÑk-ÖÜnáàâHä"LMãMA"x%/&'-N7åçRÖÜkV 02 基于真实对话数据的少样本声音克隆 DataFunSummit#2023 基于真实对话数据的少样本声音克隆 数据来源与特点 语音数据来源 语音数据选择 •真实销售录音•外呼话术录音 采样率选择 •真实销售•外呼话术录音 存在的问题 •噪音问题•发音不稳定•数据量不稳定 数据预处理 NISQA语音质量评价模型 •MOS(自然度)•Noisiness(噪音程度)•Discontinuity(连贯性)•Coloration(语调丰富性)•Loudness(响度) 数据预处理 人工校对规则中的文本和停顿 •修复识别错误的文字,保留口语词•较短的停顿使用中文逗号【,】,•较长的停顿使用中文句号或问号【。】或【?】 数据预处理 训练语音识别使用的数据分布à多说话人模型 前端文本分析 前端文本分析决定读的是否准确 文本分析case Ø旭辉·滨海江来1期2021-04-10开盘,想要详细了解内容,可以点击“在线带看”按钮联系置业顾问为你专人1v1讲解。Ø万滨天锦新推148.5-194.89㎡的户型Ø您可以在下午1:30之后拨打我们客服热线Ø工作时间:早9点~12点,下午三点~7点!Ø房产已开设服务热线:400-620-9008 你好,我是58同城人工智能外呼助手,现邀请你于2020年12月12日参加15周年司庆。 原始文本 你好,我是五八同城人工智能外呼助手,现邀请你于二零二零年十二月十二日参加十五周年司庆。 文本归一化 你好,我是/五八同城/人工智能/外呼助手,现/邀请/你/于/二零二零年/十二月/十二日/参加/十五周年/司庆。 分词 ni3 hao3 wo3 shi4 wu3 ba1 tong2 cheng2 ren2gong1 zhi4 neng2 wai4 hu1 zhu4 shou3 xian4…… 停顿说明 注音 Ø#1,一级停顿:分词,部分符号Ø#2,二级停顿:、,“”等Ø#3,三级停顿:。?! 你好#2我是#1五八同城#1人工智能#1外呼助手#3现#1邀请#1你#1于#1二零二零年#1十二月#1十二日#1参加#1十五周年#1司庆#4 韵律分析 多说话人语音合成模型 声学模型:Tacotron2 存在问题 •时长不稳定,偶尔存在吞音问题•推理速度慢 多说话人语音合成模型 声学模型:FastSpeech2 多说话人语音合成模型 多说话人语音合成模型 声码器:Multi-Band MelGAN 训练技巧:使用合成谱相对原始谱训练的声码器音质更好。 MB-MelGAN声码器结构,包含Generator与Discriminator两部分 多说话人语音合成模型 长句合成解决方案 TestCase(299个字) 我家的后面有一个很大的园,相传叫作百草园。现在是早已并屋子一起卖给朱文公的子孙了,连那最末次的相见也已经隔了七八年,其中似乎确凿只有一些野草;但那时却是我的乐园。不必说碧绿的菜畦,光滑的石井栏,高大的皂荚树,紫红的桑葚;也不必说鸣蝉在树叶里长吟,肥胖的黄蜂伏在菜花上,【25秒】轻捷的叫天子(云雀)忽然从草间直窜向云霄里去了。单是周围的短短的泥墙根一带,就有无限趣味。油蛉在这里低唱,蟋蟀们在这里弹琴。翻开断砖来,有时会遇见蜈蚣;还有斑蝥,倘若用手指按住它的脊梁,便会啪的一声,从后窍喷出一阵烟雾。何首乌藤和木莲藤缠络着。木莲有莲房一般的果实,何首乌有臃肿的根。有人说过,何首乌根是有像人形的,吃了便可以成仙。 长句合成不通顺 修复长句问题-分段合并 基于真实对话数据的少样本声音克隆 声音克隆效果评测 •可懂度:录音内容的理解难度, •5分表示完全可听懂,容易理解,•1分表示整条录音都无法听懂。 •自然度:录音的质量, •5分表示非常自然无瑕疵,•1分表示质量极差无法忍受。 •说话人相似度:合成音色与原说话人音色的相似程度 •5分表示听起来是同一个人,•1分表示完全不同。 结论:从三个维度来看,克隆音已十分接近人工录音水平。但是…… 基于真实对话数据的少样本声音克隆 存在的问题 •音质问题:人工录音音质更好。•稳定性问题:人工录音发音更准确、清晰。•口语词问题:人工录音有自由发挥的情况,会插入很多口语词,有自己的韵律。•口音问题:与普通话话术相比,口音话术的接听转出率要高3%左右,在固定城市用本地口音外呼效果更好。 03多口音口语风格自然度优化 DataFunSummit#2023 多口音口语风格自然度优化 01音质 02稳定性:发音&文本 03风格化:口语化&口音化 音质优化 数据降噪:对训练数据去噪、去混响,然后再训练。 结论:适度的数据降噪可以提升整体合成音质,但对于噪音严重的音频如果降噪后训练,会使合成频谱有较多的“镂空”,听起来会更不自然,同时会更容易受到信道噪声影响。 TestCase:你好,我是五八同城人工智能外呼助手,工号29555。现邀请你于2020年12月12日参加十五周年司庆。 音质优化 模型降噪:针对真实销售录音,让声码器具备去噪能力 结论:离线去噪效果明显,但在实际数据中使用会误伤人声。 音质优化 TrimSilence:对音频首尾的静音段做截断处理。 静音段不稳定问题,导致拼接处不自然 •在对齐后trim silence会导致duration不准,从而导致发音不准确以及突发噪音问题。 •对齐之前做trimsilence,可以解决静音不稳定的同时,使发音更加准确。 TestCase:你好,我是五八同城人工智能外呼助手,工号29555。现邀请你于2020年12月12日参加十五周年司庆。 AISHELL-3示例 发音不准问题 TestCase:经理,您与我们签订会员后,可以在58招聘列表页发布您公司的招聘信息,让您的信息获得海量曝光,还能使用会员专属的人才库,让我们第一时间,联系到高质量求职者。 外呼录音示例突发噪音问题 音质优化 超分辨率实验 •通过对数据重新采样,并利用声码器实现了超分辨率功能(自动填充高频成分),但效果不稳定,有些case会出现高频噪音的问题。 HIFI-GAN实验 •HiFiGAN声码器的合成语音,与MultiBand-MelGAN相比稍清晰了一点,但同时模型变大了约8倍(7MB->57 MB)。 发音与稳定性优化 问题描述 •随着文本变化,合成效果波动较大•存在发音不准确的问题 发音与稳定性优化 文本与说话人/噪音解耦 第一种结构:GRL(Gradient Reversal Layer)+SpeakerClassifier 第二种结构:GRL(Gradient Reversal Layer)+NoiseClassifier 发音与稳定性优化 TransformeràConformer 外呼录音-普通话男声 TestCase:我这边是58同城的,咱们这边有考虑在线上做这个业务推广吗? 结论:与原有的基于Transformer的声学模型相比,基于Conformer的声学模型具有更好的发音清晰度与韵律稳定性。 文本风格迁移 口语化程度对合成效果的影响 为什么人工录音会比合成音更自然? 1.人工录音中会犯错、有情绪、有笑声;2.人工录音的停顿更加科学,合成音有些停顿比较奇怪;3.带口音的音频,文字描述中需要对应调整,如:四川话中的“啥子、没得” 文本风格迁移 改写后的句子 帮我把下面句子加口语词、改成四川话风格… 模型选择: •选择200M参数的PromptCLUE-base作为基础模型。•通过prompt融合多种和语音相关的任务 文本风格迁移 数据构造 •针对不同音色与不同的口音个性化构造口语风格•10w组风格迁移数据•推理时,根据输入信息,配置好prompt 文本风格迁移 多口音口语风格自然度优化 克隆音优势 1.对不同城市用当地的口音话术,可以提高外呼效果2.使用克隆音方便修改话术节点内容3.使用克隆音可以高效的更换多种音色 04声音克隆服务部署 DataFunSummit#2023 声音克隆服务部署 语音合成部署方案:文本前端、声学模型+声码器 声音克隆服务部署 语速/音调/停顿控制 •语速,直接对duration乘以倍数•音调,从前端修改声调即可•停顿,直接调整fastspeech的duration可能导致声学模型合成问题 你好(2.5)我是58同城智能助手 您好(2.5)老板,请问公司还在从事保姆月嫂业务吗? 让声码器可以适应频谱中的静音段,且不会出现噪音问题,在训练声码器时,分别对频谱和音频信号,在随机位置插入随机长度的静音段。 配合文本分析的策略,即可准确实现停顿控制。 未来计划与相关工作 未来规划 相关工作 Ø持续优化合成音质Ø韵律风格迁移Ø少样本合成一致性优化Ø压缩新音色的训练时间 58同城AI Lab在WeNet中开源EfficientConformer模型端到端语音识别技术在58同城的探索实践3人半年打造语音识别引擎——58同城语音识别自研之路PPT+视频回放|语音技术在58同城的应用流式和离线语音场景下VAD语音端点检测算法实践语音识别中的WFST和语言模型 58技术公众号 AI Lab公众号 感谢观看