您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [2023第十二届全球TOP100软件案例研究峰会]:小米-张俊博-声音技术的未来——大模型带来的音频算法革新 - 发现报告

小米-张俊博-声音技术的未来——大模型带来的音频算法革新

报告封面

讲师简介 “小米语音技术专家。 博士毕业于中国科学院声学研究所,多年从事智能语音技术的研究和应用,在语音识别、发音评测、语音合成、音频标记等领域都做过深入的工作,在顶级会议和期刊发表论文30余篇,著有出版物《Kaldi语音识别实战》。 目前在小米负责若干项声学语音新技术的研发。 内容提要 •对大模型的思考•小米的音频大模型探索 对大模型的思考 是“发现”,而不是“发明” 原理上是量变,效果上是质变无法解释,只好说“涌现” 大模型的成功,证明了这样的路线是可行的 为AI研究指明了方向 为什么大模型具备如此神奇的能力? 不知道 虽然不知道麦克斯韦方程组不妨碍古人发明指南针 人类对它的原理还远远称不上理解 虽然暂时未能全面理解大模型不妨碍我们做出更强的大模型 但大模型研发并没有技术原理上的门槛 雨后春笋般的大模型研发 本地化、轻量部署 手机端侧大模型部分场景媲美云端 大模型==大语言模型? 文本形式训练数据相对更易获取和处理大模型首先以文本模态出现 但人类更倾向于使用视觉和声音交互 GPT4-V(ision) User What is unusual about this image? GPT-4 The unusual thing about this image isthat a man is ironing clothes on anironing board attached to the roof of amoving taxi. www.top100summit.com Gemini 令人震惊的多模态能力强人工智能已实现? 小米的音频大模型探索 全球最大消费级IoT平台 6.99亿IoT平台已连接设备数 拥有5个及以上小米IoT设备的用户数 小米声学语音技术 小爱同学背后的语音识别技术框架 在手机和IoT设备上针对垂域的识别率极高,且已经探索出成熟的迭代优化流程 Whisper:大模型语音识别 www.top100summit.com Whisper原理有何不同? 更先进的模型结构?No模型结构并无不同 多语种训练数据 带有多任务标签 680,000 hours of multilingual and multitasksupervised data collected from the web 小米Prompt-ASR 用prompt约束语音识别领域,提升识别率 把大语言模型输出通过cross-attention联入encoder 基于大模型的语音合成 更加自然 支持Prompt定制 VALL-EX Look a little closer while our guide lets the light of his lamp fallupon the black wall at your side. baseline 中文说话人 合成效果 视频来源https://www.bilibili.com/video/BV1e84y1U7j4 基于大模型的小米自然语音TTS 小米声音识别技术 大模型时代的声音理解 我们的算法框架 基座音频编码器 训练数据时长超过30年 参数量超过10亿正在探索百亿参数量的模型 独创的一致性集成蒸馏技术论文已被ICASSP 2024接收 www.top100summit.com 基座音频编码器的多任务应用 声音增强/编辑/生成 已有成果其实已经具备了部分大模型的能力 需要进一步整合 基于Prompt的声音生成 结语 •大模型的成功为AI研究指明了方向•多任务统一学习可以带来真正的理解能力和强大的任务自推广能力•各任务的统一、各模态的统一是大势所趋 微 信 官 方 公 众 号 : 壹 佰 案 例关 注 查 看 更 多 年 度 实 践 案 例