行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

小米-张俊博-声音技术的未来——大模型带来的音频算法革新

信息技术 2024-08-21 2023第十二届全球TOP100软件案例研究峰会刘银河

对大模型的思考

大模型的核心特征：大模型的成功体现了“发现”而非“发明”，其原理是量变导致质变，效果上呈现“涌现”现象，但人类对其原理尚未完全理解。
大模型的发展方向：大模型的成功为AI研究指明了方向，尽管其原理尚未完全明晰，但研发门槛较低，推动了大模型技术的快速发展。
大模型的局限性：大模型目前主要以文本形式训练数据为主，但人类更倾向于视觉和声音交互，未来多模态大模型（如GPT-4-V）的发展将更为重要。

小米的音频大模型探索

小米的IoT平台规模：小米拥有全球最大的消费级IoT平台，已连接6.99亿设备，其中5个及以上小米IoT设备的用户数占比显著。
小米声学语音技术：小爱同学背后的语音识别技术框架在手机和IoT设备上针对垂域的识别率极高，已形成成熟的迭代优化流程。
Whisper与小米Prompt-ASR：Whisper采用多语种训练数据和带有多任务标签的680,000小时监督数据，而小米Prompt-ASR通过prompt约束提升语音识别率。
基于大模型的语音合成：小米基于大模型的语音合成技术更加自然，支持Prompt定制，如VALL-EX模型展示了显著的合成效果提升。
小米自然语音TTS技术：小米声音识别技术框架基于基座音频编码器，训练数据时长超过30年，参数量超过10亿，并探索百亿参数量模型。
基座音频编码器的多任务应用：基座音频编码器已应用于声音增强、编辑和生成，部分具备大模型能力，需进一步整合。
基于Prompt的声音生成：小米在声音生成领域取得进展，但仍需进一步整合各任务和模态。

结语

大模型的意义：大模型的成功为AI研究指明了方向，多任务统一学习可带来真正的理解能力和任务自推广能力。
未来趋势：各任务的统一、各模态的统一是大势所趋。

讲师简介 “小米语音技术专家。博士毕业于中国科学院声学研究所，多年从事智能语音技术的研究和应用，在语音识别、发音评测、语音合成、音频标记等领域都做过深入的工作，在顶级会议和期刊发表论文30余篇，著有出版物《Kaldi语音识别实战》。目前在小米负责若干项声学语音新技术的研发。内容提要 •对大模型的思考•小米的音频大模型探索对大模型的思考是“发现”，而不是“发明” 原理上是量变，效果上是质变无法解释，只好说“涌现” 大模型的成功，证明了这样的路线是可行的为AI研究指明了方向为什么大模型具备如此神奇的能力？不知道虽然不知道麦克斯韦方程组不妨碍古人发明指南针人类对它的原理还远远称不上理解虽然暂时未能全面理解大模型不妨碍我们做出更强的大模型但大模型研发并没有技术原理上的门槛雨后春笋般的大模型研发本地化、轻量部署手机端侧大模型部分场景媲美云端大模型==大语言模型？文本形式训练数据相对更易获取和处理大模型首先以文本模态出现但人类更倾向于使用视觉和声音交互 GPT4-V(ision) User What is unusual about this image? GPT-4 The unusual thing about this image isthat a man is ironing clothes on anironing board attached to the roof of amoving taxi. www.top100summit.com Gemini 令人震惊的多模态能力强人工智能已实现？小米的音频大模型探索全球最大消费级IoT平台 6.99亿IoT平台已连接设备数拥有5个及以上小米IoT设备的用户数小米声学语音技术小爱同学背后的语音识别技术框架在手机和IoT设备上针对垂域的识别率极高，且已经探索出成熟的迭代优化流程 Whisper：大模型语音识别 www.top100summit.com Whisper原理有何不同？更先进的模型结构？No模型结构并无不同多语种训练数据带有多任务标签 680,000 hours of multilingual and multitasksupervised data collected from the web 小米Prompt-ASR 用prompt约束语音识别领域，提升识别率把大语言模型输出通过cross-attention联入encoder 基于大模型的语音合成更加自然支持Prompt定制 VALL-EX Look a little closer while our guide lets the light of his lamp fallupon the black wall at your side. baseline 中文说话人合成效果视频来源https://www.bilibili.com/video/BV1e84y1U7j4 基于大模型的小米自然语音TTS 小米声音识别技术大模型时代的声音理解我们的算法框架基座音频编码器训练数据时长超过30年参数量超过10亿正在探索百亿参数量的模型独创的一致性集成蒸馏技术论文已被ICASSP 2024接收 www.top100summit.com 基座音频编码器的多任务应用声音增强/编辑/生成已有成果其实已经具备了部分大模型的能力需要进一步整合基于Prompt的声音生成结语 •大模型的成功为AI研究指明了方向•多任务统一学习可以带来真正的理解能力和强大的任务自推广能力•各任务的统一、各模态的统一是大势所趋微信官方公众号：壹佰案例关注查看更多年度实践案例

点击免费查看完整报告

小米-张俊博-声音技术的未来——大模型带来的音频算法革新

对大模型的思考

小米的音频大模型探索

结语

你可能感兴趣

传媒互联网行业周报：坚定拥抱AI大模型带来的产业革新，新版号强化AI+游戏投资机会

7-5 端侧隐私计算的算法与应用探讨 -王俊

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司

大模型及机器人算法-VLA技术分解

传媒：Aigc/chatgpt：大模型等技术路径带来的变革-数据交换能力；用户=终端

数据交换能力；用户=终端：Aigc/chatgpt：大模型等技术路径带来的变革

戴尔Dell最新财报中明确提及AI带来的业绩增益；全球首部AI长篇电影即将首映，模态大模型快速更迭加速AI应用落地，该公司在动画电影《雄狮少年》制作中已开始尝试与相关AI技术的融合-20240304

【风口研报·洞察】GPTs带来AI应用全面爆发，分析师称不具备底层代码能力的“大模型”公司或迎巨大打击，而“核心专业数据库”将成为未来竞争最关键点：2024年A股盈利增速怎么看

VR技术升级带来成长机遇，AR放量可期引领产业革新

PR Reboot: 大模型时代，让企业声音成为被信任的“增长引擎”