您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业专题报告:视频大模型最新进展如何? - 发现报告

计算机行业专题报告:视频大模型最新进展如何?

信息技术2024-06-16杨烨财通证券任***
AI智能总结
查看更多
计算机行业专题报告:视频大模型最新进展如何?

Sora团队的负责人在2024智源大会开幕式分享多模态大模型领域近年来的发展历程以及未来的前进方向。DALL.E:通过压缩数据可以实现学习,但仅仅压缩并不能通向AGI;CLIP:从在视觉世界学习过程中介入自然语言指导,与单纯压缩数据相比计算效率将显著提升;DALL·E 3:增强训练文本的描述性,训练文生图模型的效率也会更高,即使在推理时无法使用具有描述性的文本,也可以使用具有较强描述性的文本作为训练的框架得到更好的无条件模型;视觉上下文学习可能是实现通往所有类型应用的一条可行路径。 视频大模型应用商业化持续推进。Adobe Firefly新增生成式扩展功能,生成音频和视频功能即将推出,Adobe Express发布音频生成动画功能,为C端提供便捷的口播视频制作工具;美图构建AI短片工作流,提升AI生成可控性,加速文生视频商业化落地;Filmora上线13.5版本,AI功能持续更新,携手英伟达开启全新视频视觉体验。6月12日,公司更新了视频创意软件新版本,并上线多个新功能;Luma AI发布Dream Machine,实现较高质量的文生视频、图生视频;快手发布可灵大模型,技术路线类似Sora;Pika再融资5.8亿人民币,已构建起AI视频生成基础模型;Runway更新Gen-2多重运动笔刷功能,提升视频可控性,获得D轮融资,与谷歌合作进一步加深。 投资建议:见正文。 风险提示:视频大模型技术迭代不及预期;商业化落地不及预期;竞争加剧风险;全球宏观经济风险 1OpenAI视频大模型技术发展思路 Sora团队的负责人Aditya Ramesh在2024智源大会开幕式上发表了题为《Language as the Scaffolding for Visual Intelligence》的主题演讲,介绍了多模态大模型领域近年来的发展历程以及未来的前进方向,分享了OpenAI从研发DALL·E、iGPT、CLIP到Sora的指导思想的转变。 DALL.E:通过压缩数据可以实现学习,但仅仅压缩并不能通向AGI。2021年2月,OpenAI发布了DALL·E,它是一个同时使用文本和量化压缩后的图像以自回归方式训练的Transformer模型,可以将文字描述映射为量化的创作各种风格的逼真图像。给定一段语言Prompt,OpenAI用通用的语言模型对其进行建模,还训练了一个用于图像的VQ-VAE编码器,图像块的嵌入会被语言的嵌入增强。 图1.DALL·E随着规模扩展模型能力也逐步增强 CLIP:从在视觉世界学习过程中介入自然语言指导,与单纯压缩数据相比计算效率将显著提升。在DALL·E发布之前,OpenAI就在iGPT中探索了无条件的自回归图像Transformer,发现将一切信息压缩起来,可以学到很好的表征。iGPT可以被视作一个图像生成或理解模型,OpenAI将图像压缩成一系列马赛克色块,从而快速得到可以通过类似于GPT的自回归方法处理的序列。这项研究的亮点在于,可以通过压缩后的图像,学习到潜在的结构信息。而在与DALL·E同期发布的CLIP中,OpenAI通过对比损失尝试学习成对的文本-图像数据集之间的共有信息,其计算效率比iGPT高出几个数量级。OpenAI认为,在提取智能的过程中,与压缩所有像素的信息相比,使用自然语言引导视觉世界中的学习,可以大大提升计算效率。CLIP模型包含一个图像编码器和一个文本编码器。文本编码器的输入为一段prompt文本,而图像编码器的输入为一张图像。在CLIP的训练过程中,OpenAI向模型输入一个包含“图像-描述文本”的数据列表作为训练数据。CLIP模型意味着不再需要人工标注的标签来为某个域的数据训练一个优秀的分类器,可以利用互联网海量的廉价文本来训练一个模型作为所有数据域上的优秀分类器。 图2.CLIP同时输入文本与图像数据对进行训练 DALL·E 3:增强训练文本的描述性,训练文生图模型的效率也会更高,即使在推理时无法使用具有描述性的文本,也可以使用具有较强描述性的文本作为训练的框架得到更好的无条件模型。如下图所示,当不加入任何噪声,模型将每个点的像素值转化为图像,模型不会学到任何知识;当拥有更大的算力,加入少许噪声,留下的图像对应的文本十分具有描述性,模型学到的知识变多了。随着加入噪声变多,图像数据的不确定性递增,留下的图像对应的文本描述性下降,以文本为条件模型学到的知识变多。当拥有大量算力时,可以建模没有任何条件下的图像的熵。OpenAI认为,利用极具描述性的文本训练,有助于在小规模模型上补充感知相关的先验。在参数量较大,即模型规模较大时,模型可以学习到语言无法描述的知识。当我们拥有的算力越大,就可以使用越少的补充语言描述。 图3.如果模型规模较大,大算力支持下模型可以学习到语言无法描述的知识 视觉上下文学习可能是实现通往所有类型应用的一条可行路径。起初没有用太多的文本,只能预测少量的信息从而构建图像分类器;接着,通过类似于CLIP使用了较多的文本;后来,发现可以像在DALL·E 3和Sora中一样使用极具描述性的文本来训练生成式模型;最后,OpenAI发现随着模型规模的扩大,语言可以作为一种训练的框架,在推理时可以被丢弃。视觉上下文学习应用于DALL·E 1,给出图像的上半部分,让模型绘制出图像的下半部分。可以发现,当上半部分变化时,绘制出的下半部分也会变化,而模型从没有在这些任务上训练过。未来,可以向模型输入一张图像,要求其生成满足任意要求的视频。 图4.将描述性的文本注入视觉世界,使模型更具智能 2视频大模型最新进展 2.1Adobe即将推出生成音频和视频功能 AdobeFirefly新增生成式扩展功能,生成音频和视频功能即将推出。自2024年1月17日起,Adobe对特定计划实施生成式积分限制,每个月将赠与用户25个积分,在使用包括Adobe Firefly、Express等具备生成式功能的操作时进行扣减,每生成/修改一次图像都将消耗一个积分。购买会员需要4.99美元/月,每月可获得100积分。当前Firefly已构建AI生图的完备流程,可实现图片的生成、扩展、修改,官网显示生成音频和视频功能即将推出,我们预计Adobe将借助数据与算力规模优势,实现文生视频大模型规模化商用。 图5.AdobeFirefly的AI产品矩阵日趋完善 AdobeExpress发布音频生成动画功能,为C端提供便捷的口播视频制作工具。 Adobe Express是Adobe推出的一款在线图形设计工具,允许用户快速创建和编辑图片、视频和社交媒体帖子,当前会员费为9.99美元/月。其中音频生成动画功能,仅需选角色、选背景、定尺寸三步,再上传或录制音频,便可获得2分钟以内的口播视频。该功能可识别音频段落的开启与结束,进而驱动人物讲话与手势动作的启停,与数字人不同的是,该功能并不能拟合口型,因此生成时间短,灵活性与便捷性很高,目前仍为免费产品,对C端用户切入口播视频领域是个较为实用的工具。 图6.Adobe Express的AnimatefromAudio功能可提供便捷的口播视频制作方案 2.2美图MOKI即将上线,重塑短片创作工作流 美图构建AI短片工作流,提升AI生成可控性,加速文生视频商业化落地。在Sora发布后,公司升级了视频模型架构,编解码技术由仅空间域压缩,升级为空间与时间域同步压缩,并将U-Net升级为Diffusion Transformer模型。公司在文生视频实践过程中发现,用模型辅助内容创作,存在故事成片难,可控性较差的痛点。公司通过构建AI短片工作流,开发了AI短片创作工具MOKI,解决了上述难题:在脚本、视觉风格、角色等前期设定完成后,AI自动生成分镜图并转为视频素材,通过智能剪辑、AI配乐、AI音效、自动字幕等功能串联素材并实现成片。 MOKI深度理解视频创作者需求,实现内容和成本的双重可控,目前可以进行多种视频场景的AI短片创作,预计今年7月31日上线。 图7.美图即将发布文生视频产品MOKI 2.3万兴Filmora上线13.5版本,新推声音复刻、文生贴纸等功能 Filmora上线13.5版本,AI功能持续更新,携手英伟达开启全新视频视觉体验。 6月12日,公司更新了视频创意软件新版本,并上线多个新功能: 声音复刻:用户录制5秒以上自有声音样本即可完成音色训练,支持16种语言,可对用户的语气、腔调、情绪等元素进行复刻,可广泛用于口播、播客、教程、营销、电影解说等场景,大幅提高视频创作效率,满足多样化的后期配音需求; 文生贴纸:输入文字描述、选择艺术风格,系统即可一键生成四张带有透明背景的高质量静态贴纸; AI动感字幕:一键即可识别、生成丰富动效的字幕,大大简化制作难度、节省编辑时间,同时提升视觉吸引力与观看体验; 弯曲文本:将文字沿着任意曲线排列,创造出动态、有冲击力的视觉效果; 仿射变换:高级图像编辑能力,对图像进行旋转、缩放、倾斜等变换操作。 近日,英伟达宣布推出NVIDIARTX™技术,并开放AI超分辨率功能NVIDIA RTX Video,可帮助开发者原生集成AI,进行采样、锐化、降低压缩失真和高动态范围(HDR)转换。Filmora即将支持NVIDIA RTX Video,成为全球首批在端内整合该功能的视频创意软件,将为用户提供HDR(高动态范围)视频播放和导出功能,配备GeForce RTX GPU和HDR屏幕的Filmora用户,可轻松使用产品将SDR源文件转换为HDR视频,从而提供更大的色彩深度,增强视频的视觉吸引力,并确保高质量视频输出。 图8.Filmora推出“声音复刻”功能 图9.Filmora已上线“AI动感字幕”功能 2.4LumaAI发布Dream Machine,可准确理解文字描述 Luma AI发布Dream Machine,实现较高质量的文生视频、图生视频。2024年6月13日,Luma AI发布了文生视频、图生视频模型Dream Machine。在Dream Machine之前的文本生成3D物体的模型Genie1.0,能够在10秒内创建3D物体,可生成四边形网格和材料,支持任意多边形数量的标准格式。Dream Machine则基于大量视频素材训练的Transformer模型,Dream Machine利用用户的文本指令和图片生成视频内容,具有以下三大特征: 多模态输入:用户可以利用文本指令和图片来引导生成视频内容。 快速生成:可以在120秒内生成120帧的视频,这使得用户能够迅速迭代和修改视频内容。 高质量和真实感:该模型基于对人、动物和物体和物理世界的互动模式的理解,能够生成具有电影质感、运镜自然、流畅的视频,确保角色的一致性,并模拟物理世界,完美匹配场景情感。 据TechCrunch消息,截至今年1月份,Luma AI已融资超7000万美元。其中A轮,完成了2000万美元融资,投资方包括Amplify Partners、NVIDIA、General Catalyst等。B轮融资4300万美元,a16z领投,Anjey Midha、Amplify、Matrix、NVIDIA、South Park Commons等参投。 图10.Dream Machine允许用户使用文字指令或上传图片引导生成视频 2.5快手发布可灵大模型,“世界模拟器”对标Sora 快手发布可灵大模型,技术路线类似Sora。快手最新推出的国产视频生成大模型"可灵",借鉴了Sora的技术框架,并融入了多项自主研发的创新技术,能精确模拟复杂的运动场景和物理特性。具有以下三大特征: 高清视频生成与物理特性模拟:支持生成超过120秒的1080P高清视频,具有30fps的帧率和多种宽高比选项。模拟真实物理特性,如重力、光影反射、液体流动等,实现高度逼真的视觉效果。 复杂运动场景建模与连贯性:精准建模复杂运动场景,例如高速奔跑的动物或月球行走的宇航员,确保动作的连贯性和细节的真实性。视频画面连贯