行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

3-4 音乐驱动数字人的算法和实践-董治腾讯音乐

文化传媒 2022-08-30 DataFunSummit2022：数字人技术峰会 ~ JIAN

01Music XR Maker 天琴实验室是腾讯音乐首个音视频实验室，致力于通过AI科技提升音娱视听体验。MusicXRMaker是音乐驱动数字人技术栈中的重要工具，涵盖形象构建、声音合成、口型生成、动作捕捉、可视化渲染等功能。其核心特色是基于音乐内容进行虚拟元素的构建，结合AI驱动和音乐驱动技术。

02音乐生成数字人舞蹈虚拟人舞蹈的产生方式包括动捕棚多目/惯性动捕、视频复刻单目动捕和基于音乐生成的纯算法生成。业内方案主要基于生成技术，如codebook和舞蹈编排。AI编舞需满足美观、节奏韵律和谐、风格一致等商用要求。商用路径包括虚拟偶像、虚拟主播、用户Avatar互动娱乐等，数据获取方式包括动捕棚拍摄和单目视频复刻。

03歌声驱动数字人口型面捕方案精细级别分为专业面捕和普通光学/手机摄像头方案。口型驱动数据集构建需考虑歌唱和说话驱动的差别。虚拟偶像场景下效果显著，实时性解决方案包括原唱干声、歌词文件、口型驱动模型、实时音频分析等。用户avatar互动场景也得到应用。

04歌声驱动数字人歌唱表情歌唱时的表情表达需结合情感，带表情和情感的虚拟人歌唱表演效果更佳。情感表达通过歌词文本、演唱干声、歌唱表情五维打分、情绪节点等数据采集实现，包括带表情演唱视频、表情动作手势、面捕/手捕、歌唱表情段、表情打标等。

总结与展望虚拟形象将变得越来越普遍，中之人面临成本、管理、虚拟形象灵魂归属等问题。AI驱动技术快速升级，涵盖形象创建、视觉驱动、音频合成。TME以音乐为核心进行技术建设，数字人的未来在于技术发展。