行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

多模态技术落地再加速

信息技术 2025-06-02 - 财通证券 HEE

多模态技术落地再加速

核心观点

多模态技术再迎“奇点”时刻：谷歌发布Veo 3视频生成模型，支持原生音频生成，实现AI视频角色开口说话，内嵌影视制作工具Flow，赋能内容创作者，加速AI生成视频商业化进程，推升推理算力需求。
视频生成赛道竞争胶着，商业化曙光已现：快手Kling系列模型迅速获得约30%市场份额，Veo 2保持约20%份额，Runway下降约40%至约20%；Vidu、海螺AI、Runway等技术领先，推动商业化落地加速。
投资建议：关注快手-W、阿里巴巴-W、腾讯控股、万兴科技、美图公司、Adobe、Meta等在AI视频生成、编辑等生产力工具领域布局的公司。

关键数据

Veo 3订阅价格：每月249.99美元（Google Gemini AI Ultra）
快手可灵收入：1Q2025实现1.5亿元，超去年7月至今年2月总和
快手可灵定价：黄金会员58元/月，铂金234元/月，钻石586元/月
Vidu订阅价格：标准版48元/月，专业版179元/月，旗舰版559元/月
海螺AI订阅价格：基础版68元/月，专业版245元/月，无限版666元/月
Runway订阅价格：15美元/月

研究结论

多模态技术落地加速，推动AI视频生成、编辑等生产力工具商业化进程。
视频生成模型竞争激烈，商业化曙光已现，未来将加速向影视、广告等领域落地。
建议关注相关领域布局的公司，如快手、阿里巴巴、腾讯等。

请阅读最后一页的重要声明！投资评级:看好(维持)最近12月市场表现分析师杨烨SAC证书编号：S0160522050001yangye01@ctsec.com分析师李宇轩SAC证书编号：S0160524080001liyx02@ctsec.com相关报告1.《算电协同正在催生“东数西算”新模式》2025-05-252.《网证网号政策发布，全面推广在即》2025-05-253.《AI算力：数字经济的基石，大国博弈的焦点》2025-05-18单击或点击此处输入文字。-16%-1%15%31%46%62%计算机沪深300上证指数核心观点多模态技术再迎“奇点”时刻。告。投资建议：风险提示：全球宏观经济风险。谨请参阅尾页重要声明及财通证券股票和行业评级标准1多模态技术再迎“奇点”时刻...................................................................................................................3谷歌Veo 3推动AI视频进入“音画同步”时代.................................................................................3豆包发布视频通话功能，AI视觉理解与交互加速落地.................................................................52视频生成赛道竞争胶着，商业化曙光已现...........................................................................................6视频生成模型中外各领风骚，谷歌、快手成为近期“黑马”...........................................................6实测体验：视频一致性、稳定性明显提升，指令跟随、物理规律理解仍偏弱...........................73投资建议.................................................................................................................................................114风险提示.................................................................................................................................................12图1.谷歌发布Veo 3实现生成视频人物开口说话.....................................................................................3图2. Veo文生视频技术框架..........................................................................................................................4图3.谷歌为视频生成音频技术框架.............................................................................................................5图4.豆包视频通话应用场景.........................................................................................................................5图5.视频生成领域活跃度竞争格局.............................................................................................................6图6.在Huggingface上Vbench提出了评价视频生成模型的参考标准..................................................7图7.快手可灵2.1视频生成效果..................................................................................................................8图8.快手可灵2.1订阅价格..........................................................................................................................8图9. Vidu视频生成效果................................................................................................................................9图10. Vidu订阅价格......................................................................................................................................9图11.海螺AI视频生成效果......................................................................................................................10图12.海螺AI订阅价格..............................................................................................................................10图13. Runway视频生成效果......................................................................................................................11内容目录图表目录 2 谨请参阅尾页重要声明及财通证券股票和行业评级标准1多模态技术再迎“奇点”时刻谷歌Veo 3推动AI视频进入“音画同步”时代谷歌发布视频生成模型Veo3，让AI视频角色开口说话。5月21日，谷歌2025开发者大会上，谷歌推出了Veo 3视频生成模型和Imagen 4图像生成模型，其中Veo 3支持原生音频生成，能够为视频添加背景音乐、音效甚至对白。Veo 3已内嵌入谷歌的影视制作工具Flow，可赋能电影制作人和内容创作者工作流，Flow支持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅GoogleGemini的AIUltra（每月249.99美元）才能使用Veo3。根据新智元报道，Klarna等公司正在使用Veo来提高营销内容创作效率，从而显著缩短制作周期；数字营销公司Jellyfish已将Veo集成到其AI营销平台Pencil中，并与航空公司合作提供AI生成的机上娱乐内容，平均成本和制作时间减少了50%。我们认为，Veo3带来了多模态发展的“奇点”，AI生成视频商业化进程被极大加速，对推理算力的需求也将进一步推升。图1.谷歌发布Veo3实现生成视频人物开口说话训练方法：使用潜在扩散模型（Latent diffusion model）。Diffusion是现代图像、音频和视频生成模型的标准方法。Veo 3采用潜在扩散技术，将扩散过程同时应用于时间音频潜变量（temporal audio latents）和时空视频潜变量（spatio-temporal video latents）。视频和音频通过各自的自动编码器编码为压缩的潜在表示，与原始像素或波形相比，在该表示中学习可以更高效地进行。在训练过程中，基于Transformer的去噪网络经过优化，可从含噪潜变量向量中去除 3 谨请参阅尾页重要声明及财通证券股票和行业评级标准4噪声。然后在采样过程中，将该网络迭代应用于输入的高斯噪声，以生成视频。训练数据：在一个包含图像、视频和相关注释的大型数据集上进行训练。谷歌利用多个Gemini模型，使用不同详细级别的文本标题对数据进行注释，并应用过滤器来删除不安全的标题和个人身份信息；根据各种合规性和安全性指标以及质量对训练视频进行筛选。所有数据在不同来源间进行语义去重，以最大程度降低输出过度拟合训练数据特定元素的风险。数据来源：谷歌Deepmind官网，财通证券研究所谷歌提出视频到音频技术（V2A），将视频像素与自然语言提示相结合，可为屏幕上的动作生成丰富的声音。2024年6月，谷歌Deepmind分享了一篇关于“为视频生成音频”的博客，展示了V2A生成背景音的效果。通过V2A，用户可以为任何视频输入生成无限数量的音轨，也可以定义一个“positive prompt”来引导生成的输出指向所需的声音，或者定义一个“negative prompt”来引导它远离不需要的声音。生成音频时，V2A系统首先将视频压缩为编码进行输入，然后扩散模型从随机噪声迭代优化音频。此过程由给定的视觉输入和自然语言提示指导，以生成与提示紧密一致的同步、逼真的音频。最后，音频输出被解码，转换为音频波形并与视频数据相结合。谷歌在持续改进涉及语音的视频的唇形同步技术。V2A尝试根据输入的文本生成语音，并将其与角色的唇动同步。但配对的视频生成模型可能并未以文本为条件，这就造成了不匹配——由于视频模型生成的嘴部动作与文本稿不符，往往会导致错误的唇形同步效果。由此看出，后续推出的Veo3很大程度上优化了这个问题。谨请参阅尾页重要声明及财通证券股票和行业评级标准数据来源：谷歌Deepmind官网，财通证券研究所豆包发布视频通话功能，AI视觉理解与交互加速落地豆包视频通话面向C端开放，视觉理解、记忆、推理能力强，应用场景广阔。5月23日，豆包正式对外发布视频通话功能，早在2024年12月18日火山引擎Force原动力大会上就已发布豆包视觉理解模型，其不仅具备强大的视觉感知能力，还能融合视觉与语言输入，进行综合的深度思考和创作。我们认为视觉理解模型相比传统视觉分析增加了推理与生成反馈，在C端可以用于端测拍摄问答（手机、AI眼镜等），也可用于屏幕内容的分析推理（作为办公Agent的视觉功能）；在B端可以作为工业领域的场景、物体识别，可用于输出带有分析结论的文本报告。视觉理解模型可作为AI认识世界的“眼睛”，应用场景极为广阔。图4.豆包视频通话应用场景数据来源：豆包官方微信公众号，财通证券研究所 5 谨请参阅尾页重要声明及财通证券股票和行业评级标准2视频生成赛道竞争胶着，商业化曙光已现视频生成模型中外各领风骚，谷歌、快手成为近期“黑马”视频生成产品迭代较快，今年以来Pika、海螺走弱，而谷歌、快手走强。Poe是由全球知名问答平台Quora推出的AI聊天机器人聚合平台，主要包括多模型集成与交互、个性化机器人创建、开发者生态与盈利支持等业务。根据Poe统计，视频生成模型的活跃程度当中，可灵、Runway、V

点击免费查看完整报告