您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [财通证券]:多模态技术落地再加速 - 发现报告

多模态技术落地再加速

信息技术 2025-06-02 - 财通证券 HEE
报告封面

请阅读最后一页的重要声明!投资评级:看好(维持)最近12月市场表现分析师杨烨SAC证书编号:S0160522050001yangye01@ctsec.com分析师李宇轩SAC证书编号:S0160524080001liyx02@ctsec.com相关报告1.《算电协同正在催生“东数西算”新模式》2025-05-252.《网证网号政策发布,全面推广在即》2025-05-253.《AI算力:数字经济的基石,大国博弈的焦点》2025-05-18单击或点击此处输入文字。-16%-1%15%31%46%62%计算机沪深300上证指数 核心观点多模态技术再迎“奇点”时刻。告。投资建议:风险提示:全球宏观经济风险。 谨请参阅尾页重要声明及财通证券股票和行业评级标准1多模态技术再迎“奇点”时刻...................................................................................................................3谷歌Veo 3推动AI视频进入“音画同步”时代.................................................................................3豆包发布视频通话功能,AI视觉理解与交互加速落地.................................................................52视频生成赛道竞争胶着,商业化曙光已现...........................................................................................6视频生成模型中外各领风骚,谷歌、快手成为近期“黑马”...........................................................6实测体验:视频一致性、稳定性明显提升,指令跟随、物理规律理解仍偏弱...........................73投资建议.................................................................................................................................................114风险提示.................................................................................................................................................12图1.谷歌发布Veo 3实现生成视频人物开口说话.....................................................................................3图2. Veo文生视频技术框架..........................................................................................................................4图3.谷歌为视频生成音频技术框架.............................................................................................................5图4.豆包视频通话应用场景.........................................................................................................................5图5.视频生成领域活跃度竞争格局.............................................................................................................6图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准..................................................7图7.快手可灵2.1视频生成效果..................................................................................................................8图8.快手可灵2.1订阅价格..........................................................................................................................8图9. Vidu视频生成效果................................................................................................................................9图10. Vidu订阅价格......................................................................................................................................9图11.海螺AI视频生成效果......................................................................................................................10图12.海螺AI订阅价格..............................................................................................................................10图13. Runway视频生成效果......................................................................................................................11内容目录图表目录 2 谨请参阅尾页重要声明及财通证券股票和行业评级标准1多模态技术再迎“奇点”时刻谷歌Veo 3推动AI视频进入“音画同步”时代谷歌发布视频生成模型Veo3,让AI视频角色开口说话。5月21日,谷歌2025开发者大会上,谷歌推出了Veo 3视频生成模型和Imagen 4图像生成模型,其中Veo 3支持原生音频生成,能够为视频添加背景音乐、音效甚至对白。Veo 3已内嵌入谷歌的影视制作工具Flow,可赋能电影制作人和内容创作者工作流,Flow支持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅GoogleGemini的AIUltra(每月249.99美元)才能使用Veo3。根据新智元报道,Klarna等公司正在使用Veo来提高营销内容创作效率,从而显著缩短制作周期;数字营销公司Jellyfish已将Veo集成到其AI营销平台Pencil中,并与航空公司合作提供AI生成的机上娱乐内容,平均成本和制作时间减少了50%。我们认为,Veo3带来了多模态发展的“奇点”,AI生成视频商业化进程被极大加速,对推理算力的需求也将进一步推升。图1.谷歌发布Veo3实现生成视频人物开口说话训练方法:使用潜在扩散模型(Latent diffusion model)。Diffusion是现代图像、音频和视频生成模型的标准方法。Veo 3采用潜在扩散技术,将扩散过程同时应用于时间音频潜变量(temporal audio latents)和时空视频潜变量(spatio-temporal video latents)。视频和音频通过各自的自动编码器编码为压缩的潜在表示,与原始像素或波形相比,在该表示中学习可以更高效地进行。在训练过程中,基于Transformer的去噪网络经过优化,可从含噪潜变量向量中去除 3 谨请参阅尾页重要声明及财通证券股票和行业评级标准4噪声。然后在采样过程中,将该网络迭代应用于输入的高斯噪声,以生成视频。训练数据:在一个包含图像、视频和相关注释的大型数据集上进行训练。谷歌利用多个Gemini模型,使用不同详细级别的文本标题对数据进行注释,并应用过滤器来删除不安全的标题和个人身份信息;根据各种合规性和安全性指标以及质量对训练视频进行筛选。所有数据在不同来源间进行语义去重,以最大程度降低输出过度拟合训练数据特定元素的风险。数据来源:谷歌Deepmind官网,财通证券研究所谷歌提出视频到音频技术(V2A),将视频像素与自然语言提示相结合,可为屏幕上的动作生成丰富的声音。2024年6月,谷歌Deepmind分享了一篇关于“为视频生成音频”的博客,展示了V2A生成背景音的效果。通过V2A,用户可以为任何视频输入生成无限数量的音轨,也可以定义一个“positive prompt”来引导生成的输出指向所需的声音,或者定义一个“negative prompt”来引导它远离不需要的声音。生成音频时,V2A系统首先将视频压缩为编码进行输入,然后扩散模型从随机噪声迭代优化音频。此过程由给定的视觉输入和自然语言提示指导,以生成与提示紧密一致的同步、逼真的音频。最后,音频输出被解码,转换为音频波形并与视频数据相结合。谷歌在持续改进涉及语音的视频的唇形同步技术。V2A尝试根据输入的文本生成语音,并将其与角色的唇动同步。但配对的视频生成模型可能并未以文本为条件,这就造成了不匹配——由于视频模型生成的嘴部动作与文本稿不符,往往会导致错误的唇形同步效果。由此看出,后续推出的Veo3很大程度上优化了这个问题。 谨请参阅尾页重要声明及财通证券股票和行业评级标准数据来源:谷歌Deepmind官网,财通证券研究所豆包发布视频通话功能,AI视觉理解与交互加速落地豆包视频通话面向C端开放,视觉理解、记忆、推理能力强,应用场景广阔。5月23日,豆包正式对外发布视频通话功能,早在2024年12月18日火山引擎Force原动力大会上就已发布豆包视觉理解模型,其不仅具备强大的视觉感知能力,还能融合视觉与语言输入,进行综合的深度思考和创作。我们认为视觉理解模型相比传统视觉分析增加了推理与生成反馈,在C端可以用于端测拍摄问答(手机、AI眼镜等),也可用于屏幕内容的分析推理(作为办公Agent的视觉功能);在B端可以作为工业领域的场景、物体识别,可用于输出带有分析结论的文本报告。视觉理解模型可作为AI认识世界的“眼睛”,应用场景极为广阔。图4.豆包视频通话应用场景数据来源:豆包官方微信公众号,财通证券研究所 5 谨请参阅尾页重要声明及财通证券股票和行业评级标准2视频生成赛道竞争胶着,商业化曙光已现视频生成模型中外各领风骚,谷歌、快手成为近期“黑马”视频生成产品迭代较快,今年以来Pika、海螺走弱,而谷歌、快手走强。Poe是由全球知名问答平台Quora推出的AI聊天机器人聚合平台,主要包括多模型集成与交互、个性化机器人创建、开发者生态与盈利支持等业务。根据Poe统计,视频生成模型的活跃程度当中,可灵、Runway、V