AI智能总结
事项: 2025年2月3日,字节跳动研究团队发布了名为OmniHuman的人体动画生成框架,并发表研究成果论文,展示其在人体动画生成领域的最新成果。 OmniHuman是一个基于Diffusion Transformer的多模态条件驱动的人类动画生成框架,能够通过单张图片和音频、视频等多种信号,生成高度逼真、支持任意比例和风格的动态人类视频。OmniHuamn的最新发布标志着人工智能技术在人体动画方向上的突破,有望在影视、娱乐、游戏开发等更多实际应用中展现其强大功能。 评论: 运用混合多模态训练,实现更高泛化能力:OmniHuman采用Omni-Conditions Training的混合多模态训练策略,克服了以往方法面临的高质量数据稀缺问题。通过弱条件助力强条件、提高弱条件训练比例这两大原则,OmniHuman从大规模数据训练中受益,学习自然的运动模式,从而支持多种输入模式,并显著提升生成质量。 采用DiT架构,提高视听契合度:OmniHuman采用基于DiT架构的视频生成框架,使模型兼容多种模态的条件注入方式。通过将交叉注意力与视频特征完美融合,实现语言、音频与动作生成的高度契合度,来达到适应多种模态的效果。 OmniHuman整体效果取得显著优势:在与目前行业领先方案的效果对比中,OmniHuman表现出色,在多方面超越现有的主流方法。在肖像和身体动画任务中,OmniHuman使用单一模型表现优于领先的专业模型。通过对数据集中的指标进行平均,OmniHuman在所有评估指标中取得了最佳结果,反映了其整体有效性。此外,OmniHuman在特定数据集中的几乎所有指标上表现出色。 消融研究验证训练策略有效性:在音频比例设置上,通过比较OmniHuman在不同音频比例训练中的表现,得出音频比例设置为50%效果最佳,将其作为最终训练配置。并通过不同音频比例的消融研究,验证了训练策略的有效性,表明混合数据训练可以显著提高模型性能。 可视化效果显著提升:通过展示更多可视化结果,OmniHuman在人物动画方面展现强大能力,能保持输入的运动风格。可兼容风格化人形和2D卡通角色,甚至可以以拟人化的方式为非人类图像赋予动画效果。 投资建议:AI大模型本质应落脚垂类应用,国内大模型在全球竞争中崭露头角,看好AI+应用产品力与商业化落地进程。建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份;9)创意:万兴科技、美图公司、虹软科技;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署:优刻得、星环科技、网宿科技、汉得信息;16)算力:海光信息、寒武纪、景嘉微等。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、OmniHuman运用全新框架,突破技术瓶颈 (一)运用混合多模态训练,实现更高泛化能力 OmniHuman采用Omni-Conditions Training的混合多模态训练策略,克服了以往方法面临的高质量数据稀缺问题。通过弱条件助力强条件、提高弱条件训练比例这两大原则,OmniHuman从大规模数据训练中受益,学习自然的运动模式,从而支持多种输入模式,并显著提升生成质量。 图表1 OmniHuman基于输入音频和图像生成的视频 (二)采用DiT架构,提高视听契合度 OmniHuman采用基于DiT架构的视频生成框架,使模型兼容多种模态的条件注入方式。 通过将交叉注意力与视频特征完美融合,实现语言、音频与动作生成的高度契合度,来达到适应多种模态的效果。 图表2 OmniHuman技术框架图 二、OmniHuman整体效果取得显著优势 在与目前行业领先方案的效果对比中,OmniHuman表现出色,在多方面超越现有的主流方法。在肖像和身体动画任务中,OmniHuman使用单一模型表现优于领先的专业模型。 通过对数据集中的指标进行平均,OmniHuman在所有评估指标中取得了最佳结果,反映了其整体有效性。此外,OmniHuman在特定数据集中的几乎所有指标上表现出色。 图表3 OmniHuman肖像和身体动画任务表现 消融研究验证训练策略有效性。在音频比例设置上,通过比较OmniHuman在不同音频比例训练中的表现,得出音频比例设置为50%效果最佳,将其作为最终训练配置。并通过不同音频比例的消融研究,验证了训练策略的有效性,表明混合数据训练可以显著提高模型性能。 图表4 OminiHuman不同音频比例训练结果 图表5 OmniHuman关于不同音频比例的消融研究 将相同方法运用到姿态比例设置上,同样得出姿态比例设置为50%效果最佳,并将其作为最终训练配置。 图表6 OmniHuman关于不同姿态比例的消融研究 可视化效果显著提升。通过展示更多可视化结果,OmniHuman在人物动画方面展现强大能力,能保持输入的运动风格。可兼容风格化人形和2D卡通角色,甚至可以以拟人化的方式为非人类图像赋予动画效果。 图表7 OmniHuman根据输入的音频和图像生成的视频