AI智能总结
投资建议:Sora模型推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。推荐标的:科大讯飞、万兴科技、虹软科技、神州数码、中科曙光、拓维信息、金山办公,受益标的:苏州科达、当虹科技。 OpenAI首个文生视频模型Sora发布,实现AIGC领域的里程碑式进展。Sora能根据文字指令创造出包含丰富细节的逼真场景和角色,并能够用多角度镜头生成一镜到底的60s长镜头。Sora所生成的视频涵盖广泛的视觉数据类型、分辨率与纵横比,还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容,拥有深入的语言理解能力和复杂场景与角色生成能力。 Sora是一个基于大规模训练的文本控制视频生成diffusion模型。 Sora使用Transformer作为主要架构,释放出卓越的扩展性能,OpenAI开发了视频压缩网络来克服Transformer架构下的高昂计算成本问题,通过将LLM和Diffusion结合训练,Sora大量学习视频,理解现实世界的动态变化规律,并模拟、创造出新的视觉内容,由此产生的视频真实感十足。 OpenAI表示,视频生成模型是有希望向构建通用物理世界模拟器迈进的路径。通过大量观察和训练后,Sora掌握了许多关于真实世界的物理规律。随着模型规模的扩大,视频模型能够处理更复杂、更多样化的输入数据,从而更好地模拟和理解真实世界中的各种现象,包括物体的运动、碰撞、重力等物理规律,以及人物、动物的行为和交互等方面。 风险提示:地缘政治风险、竞争加剧风险及资本开支过大的风险 1.Sora横空出世,剑指物理世界模拟器 1.1.OpenAI首个文生视频模型效果震撼,打造全球新标杆 OpenAI首个文生视频模型Sora发布,效果震撼实现AIGC领域的里程碑式进展。2024年2月16日OpenAI发布文生视频模型Sora,AI视频生成能力实现跨越式发展,根据官方介绍,Sora能根据文字指令创造出包含丰富细节的逼真场景和角色,并能够用多角度镜头生成一镜到底的60s长镜头。Sora所生成的视频涵盖广泛的视觉数据类型和分辨率,还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容。目前Sora尚未对公众全面开放,仅邀请部分测试者进行体验,但是OpenAI CEO在社交平台上展示了由网友提供文本描述生成的视频案例,展现了Sora在视频生成方面的强大能力。 Sora强大的视频生成能力一举推高了行业天花板,产业赋能的深度和广度有望超预期拓展。 Sora文本到视频生成能力独一档,首先是灵活可变的持续时间、分辨率与纵横比。Sora能够仅通过文本描述生成长达1分钟的连贯高保真视频,某种程度上对行业目前大概只有平均“4s”的视频生成长度形成了“碾压”之势,同时Sora具备出色的采样能力 ,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对,这样的训练给Sora带来了诸多好处:可以为各种设备生成与其原始纵横比完美匹配的内容;以原始长宽比对视频进行训练可以改善构图和取景。 图1Sora可以直接以其原生宽高比为不同设备创建内容 图2与将所有训练视频裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧 请务必阅读正文之后的免责条款部分 Sora拥有深入的语言理解能力和复杂场景与角色生成能力。Sora能够准确解释提示并生成能表达丰富情感的角色,所生成的视频不仅保持了视觉品质,而且完整准确还原了用户的提示语;Sora具能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景,可以创造出生动的角色表情和复杂的运镜并且可以保持视频主体与背景的高度流畅性与稳定性,使得生成的视频具有高度的逼真性和叙事效果。 多角度镜头能力与物理世界模拟能力让眼见不再为实,AI生成视频的“欺骗性”大幅提升。Sora可以在单个生成的视频内实现多角度镜头,分镜切换符合逻辑且十分流畅,同时保持角色和视觉风格的一致性。 这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。不仅如此,Sora还具备理解真实世界的能力,Sora对于光影反射运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。Sora展示了人工智能在理解真实世界场景并与之互动的能力,它能够模拟真实物理世界和数字世界,如物体的移动、三维一致性和交互,这是朝着实现通用人工智能(AGI)的重要一步,揭示了继续扩大视频生成模型规模来发展高性能模拟器的前景。 图3Sora可以生成带有动态摄像机运动的视频 较长视频的连贯性和对象持久性。视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。通过一次性为模型提供多个帧的预测,OpenAI解决这一具有挑战性的问题,即确保主体即使暂时离开视野也保持不变。OpenAI表示Sora通常能够有效地对短期和长期依赖关系进行建模。例如,Sora可以保持人、动物和物体的时空一致,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。 图4视频中的物体具备时间一致性,不会因为遮挡或者时间流逝改变物体原有状态 静图生成视频与文生图能力面面俱到。Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。Sora的图像生成功能不仅限于特定大小的图像,它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048×2048分辨率。 充满想象力的强大视频编辑能力。Diffusion model启用了多种根据文本提示编辑图像和视频的方法。Sora能零镜头地转换输入视频的风格和环境,为视频编辑领域带来了革命性的变革。Sora还能够在时间上向前或向后扩展视频。此外还可以使用Sora在两个输入视频之间逐渐进行连接,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。 图5中间的视频连接了左右两段视频并丝滑过渡 Sora也存在许多局限性。OpenAI毫不避讳地在官网上展示出Sora的缺陷,它无法准确模拟许多基本相互作用的物理过程例如玻璃破碎,此外,在某些交互场景中Sora并不能总是产生正确的对象状态变化。 例如吃东西并非每次都能留下咬痕,还有其他诸多常见故障模式例如长时间样本中出现的不连贯性或对象的自发出现,无法理解因果关系的具体实例,例如老太太吹完蜡烛开始鼓掌,但蜡烛其实还没有熄灭。 图6Sora无法准确模拟玻璃破碎的物理过程 1.2.Sora是Diffusion与Transformer技术路径的结合体 OpenAI所公开的Sora技术报告是一贯的“ClosedAI”精神。OpenAI依旧没有公开重要的大规模训练技术、各类网络设计细节如视频压缩模型网络,数据/算力方面的核心信息也尚未披露。Sora官网的技术报告主要对Sora的技术轮廓进行了揭露,概括来说,Sora是通过在视频和图像的压缩潜在空间中训练,将其分解为时空位置补丁(patches),实现了可扩展的视频生成。 Sora是一个基于大规模训练的文本控制视频生成diffusion模型。 Sora从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换。OpenAI认为大语言模型的成功得益于Token把代码、数学以及各种不同的自然语言进行统一的能力,这便于进行超大规模训练,于是他们创造了对应Token的Patch概念用于训练Sora这个视频模型。通过将不同类型的视觉数据转换成统一的视觉数据表示(视觉patch),OpenAI可以在比以前更广泛的视觉数据上训练diffusiontransformers,涵盖不同的持续时间、分辨率和纵横比。 图7Sora给定输入的noisy patches(以及文本提示等条件信息),预测原始的“clean”patches Sora使用Transformer作为主要架构,释放出卓越的扩展性能。 Transformer在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉和图像生成。OpenAI发现diffusion transformers在视频生成领域同样具有巨大的潜力,尤其随着训练量的增加,样本质量有着明显的提高。 图8随着训练资源的增加,样本质量明显提升(固定种子和输入条件) OpenAI开发了视频压缩网络(Video compression network)来克服Transformer架构下的高昂计算成本问题。Transformer之所以未被业界广泛运用在文本生成视频领域,是因为该架构下的内存需求会随着输入序列长度而二次方增长,因此当处理视频这样的高维信号时,计算成本会非常高昂。而OpenAI所开发出的视频压缩网络专门负责降低视觉数据的维度,把原始的视频作为输入先降维到潜(latent)空间,这一过程可以类比于将某处地点的地形海拔温度等重要地理信息降维到二维地图上,Sora模型就是在这个压缩后的潜(latent)空间中接受训练,这样一来就能使输入的信息变少,有效减小Sora模型因为Transformer架构带来的计算量压力。具体做法是用video compression network (visual encoder)首先将输入视频的时间和空间维度同时进行压缩,编码成一个和视频大小成正比的3D visual patch array,然后再将它按照某种顺序展开成1D array of patches,送入到transformer model中,然后由OpenAI所设计的解码器模型将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。 如此一来,OpenAI就成功地把文生视频模型套进了其在过去取得巨大成功的大语言模型的范式里,实现了将Transformer和diffusion model结合的创新。 图9OpenAI的视觉编码器可以将原始视频降维到潜(latent)空间 Sora语言理解能力出色,借鉴了DALL·E3的re-captioning技术。 OpenAI训练了一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。通过这种方式,OpenAI发现对高度描述性的视频字幕进行训练,可以显著提高文本保真度和视频的整体质量,因为详细的文本可以迫使神经网络学习文本到视频内容的映射,加强对于prompt的理解和服从,但是这种详尽的描述会导致用户在使用Sora时出现偏差, 因为用户的描述相对往往较短 。因此 ,与DALL·E3类似,OpenAI利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型,这一创新使得Sora能够精确地按照用户提示生成高质量的视频,提高使用体验和视频生成的多样性。 图10Sora语言理解能力十分强大 1.3.视频生成模型展露“世界模型”的雏形 OpenAI表示,视频生成模型是有希望向构建通用物理世界模拟器迈进的路径。OpenAI认为Sora所展现出的能力证明了视频模型的持续扩展(Scaling)是开发物理和数字世界(包含了生活在其中的物体、动物和人)模拟器的一条有希望的路径。OpenAI的目标并不是PK现有的文生视频模型 (比如Make-A-Video、Video LDM、Text2Video-Zero、Runway-Gen2、NUWA-XL、Pikal Labs),或是颠覆广告和影视行业——这些在OpenAI看来都是“短期应用”,OpenAI把Sora视为理解和模拟现实世界的模型基础,视为AGI的一个重要里程碑。 通过大量观察和训练后,Sora掌握了许多关于真实世界的物理规律。 这包括物体的运动、重力、碰撞、光影效果等方面的知识。通过对真实场景和物体的观察,Sora能够准确地模拟和再现这些物理规律,使得动画中的场景和物体表现得更加真实和逼真。在过去,动画影视公司为了达到这种真实感专门成立了研究部门,进行复杂的物理模拟和