
Q:文生的视频模型Sora在视频模拟过程中和实际物理规则存在何种差异? A:Sora模型在模拟视频过程中,一些物理规则的具体表现与现实世界相差较大。例如,模型可能会将一个玻璃瓶掉落在地面时的情景模拟为融化在地板上,这与真实世界的物理规则不符。这可能源自其在整个算法和视频合成过程中的一些不足之处。 AI多模态专家解读SORA Q:文生的视频模型Sora在视频模拟过程中和实际物理规则存在何种差异? A:Sora模型在模拟视频过程中,一些物理规则的具体表现与现实世界相差较大。例如,模型可能会将一个玻璃瓶掉落在地面时的情景模拟为融化在地板上,这与真实世界的物理规则不符。这可能源自其在整个算法和视频合成过程中的一些不足之处。 Q:Sora模型在处理60秒视频时的计算力成本如何? A:当生成60秒的视频时,整体计算力成本相对较高。这部分成本主要由模型计算力和带宽要求构成。 Q:Sora模型在处理算法和带宽要求时存在何种考虑? A:在数据处理的过程中,模型不仅需要高算力,还需要大量带宽。例如,像我们之前的Runway模型,不少工作依赖于云端处理,因此对带宽要求高。 Q:Sora模型对于模型算力成本的提高和算力过程中的成本增加,有何应对措施? A:对于模型算力成本的提高和算力过程中的成本增加,目前策略主要是在未来考虑如何优化算力过程和训练过程,以实现更好的效果。 Q:针对Sora模型的提升,能否结合算法模型和训练数据集两方面展开说明? A:Sora模型是基于Diffusion和Transformer结合的模型,使用了一个新的时间空间片段动态关联的方式。其能够通过Transformer从高维语言空间中提取出结构化关联信息,然后将视频素材和文本素材结合在一起,这使得整体的训练数据量大大增加。同时,Sora模型采用了一种与传统方法不同的处理方式,可以利用各种清晰度和各种宽高比的视频进行训练。 Q:在Sora模型的训练和推理阶段,算力消耗大致会呈现什么样的变化? A:模型在训练阶段需要大量的算力,而且随着模型的复杂性提高,算力要求会进一步增加。然而,运行梯度配置对这个问题有所帮助。此外, 在推理阶段,模型的算力要求通常会下降,因为不再需要进行大量的学习和训练。 Q:训练一分钟的视频内容所需算力的大致成本? A:目前对我们而言,训练一分钟的视频内容所需的算力成本大概在人民币22到25元,所以一个60秒的视频大致需要人民币1500元左右的算力成本。然后关于Sora模型,我们估算的成本比我们的低,大致在人民币15元,也就是生成一分钟视频内容只需大约1000元左右。 Q:这两者的成本差异包括了哪些因素? A:首先,成本差异部分来源于我们能将现有模型的算力作为基础。在训练原有的一些模型基础上,可以叠加最后的模型,这样实际上可以节省一部分的算力。现有模型的整体的训练算力成本大概占总成本的60%,带宽成本占40%。而相比之下,对于类似纹身图的模型,带宽的成本需求并没有这么高,大部分成本实际上还是来自于模型基础算力的一部分,这部分成本可占据80%到90%百分比。 Q:如果我们对比训练一段纹身视频到Sora模型之间的成本差异,这个量级上是一个什么样的增加? A:如果我们考虑同样的数据量,并折算算力部分,用传统的token类型算力成本看的话,纹身视频模型的算力成本大概是在人民币800到1000元,而Sora模型的成本则是在1500元左右。所以,与纹身视频模型相比,Sora模型的成本大致上是接近翻倍的水平。 Q:对于带宽的需求量,网络架构方面需要额外增加些什么以应对带宽需求的增加呢? A:对于带宽的需求增加,视频数据实现方式主要是双工方式,一个是创作,一个是接收。它在整体的带宽使用会有一个数据量的增加,从而带 动整个带宽成本,以至于训练成本增加。所以,带宽的增加会影响模型训练和最终实现结果的整体成本。并且,它对网络有更高的并发的要求,可能需要5G或更高的标准以支持大规模应用这种视频生成网络。 Q:能否简述一下如何衡量生成视频的好坏,并评估其是否达到商业化的程度?尤其是针对我们自己的产品和Sora模型。 A:衡量生成视频(如纹身视频模型Sora)的标准主要来自三个方面。首先是内容的真实性,包括用户的观感体验及其还原真实度,以验证视频输出结果是否满足正常现实物理世界的需求并对应用户的感知一致性。其次是视频的质量,包括分辨率、码率和像素等方面,这主要反映技术模拟和生成过程中是否能够输出一个高清晰度的视频结果。最后一方面是模型的要求,针对生成过程,包括是否能够根据用户的理解和需求,生成 物理世界中用户所要表达的内容,例如,能否保证内容的一致性——用户想要苹果,生成出来的确实是苹果。 Q:能否用纹身视频类的算法在具体的产品上进行落地应用,如果可以,可能有哪些适用的场景和商业产品?在大概的成熟度角度来说,能否讲述一下这些技术的落地会应用在哪些方向? A:在短期内,纹身视频技术更多地应用在物理世界中的内容延展上,具体包括用物理世界中的内容拼接创建新的创新内容,例如常规内容的短片、电影、广告片等,这些内容主要面向视频创作者和设计师。中期,纹身视频技术可能作为视频编辑工具应用,例如在特效添加、背景更改和人物加入等方面,这些工具产品能服务于大众用户。而针对垂直行业,例如教育等特定领域,可能需要生成更真实、准确的视频内容,所以纹身视频技术可能会逐渐进入垂直行业进行应用。从长期角度看,纹身视频有可能在虚拟化场景中应用,如基于创新产品的设计,这主要应用于原型产品的测试和概念性产品的设计过程,在这些场 景下可能会有特定的需求和个性化设置的需要。至于商业化,关键问题不仅在于技术的成熟,更在于如何解决数据版权、内容版权等现实世界中的问题,以及在此基础上建立商业化生态,只有解决了这些问题,纹身视频技术才能大规模推广,走向市场。 Q:【Sora模型】的物理世界模拟功能,是否意味着其运用的transformer和deflation模型的结合方式,将成为未来在文字或图像视频上的多模态算法的主要发展方向? A:Sora服务发布后的确令我们对其物理世界的模拟功能感到震撼,且这种模拟方式的作用确实十分重要。然而,要确定这种模型将会变成未来文本或图像视频多模态算法的主导发展方向还言之过早。虽然OpenAI在开放大型模型生态中的技术优势确保了其运用此新模型处于市场领先地位,但这并不意味着这项技术一定会成为整个行业的标准。当前我们看到,其中的优势更多的体现在效率和进度上,有可能形成持续的市场主导地位,但并不代表它是唯一的、最好的技术方案。 Q:从成本角度看,Sora模型相对于类似的RUNWAY、JJ等模型有何优缺点? A:从成本角度来看,Sora模型相比于类似的RUNWAY和JJ模型,成本还是偏高。Sora模型的运算需求导致其在算力维度上的成本较高。我们做的比较是基于预估的成本,而不是实际成本,显现出类似模型比Sora模型成本更低。尽管如此,从商业化角度看,这样的成本基本上仍然偏高。从全行业角度看,只有当AI生成的视频成本低于人力拍摄视频的成本时,才能吸引更多的用户承担这样的成本。所以它的总成本并不具有优势。 Q:关于数据优势,Sora是否有使用过合成数据,并从数据角度,它如何构建优势? A:Sora模型的数据优势主要来自于两个部分:一个是模型开放后,有更多的数据运营方能维护其 数据,另一个是可能开放到UGC市场,让用户端贡献视频素材内容。另外,Sora模型也可能会使用一些游戏引擎,以模拟数字世界去补充其视频素材。同时,由于存在版权问题,所以很可能会与数字版权拥有者或者一些机构合作,来快速提供更多的数据源。总的来说,技术领先优势,以及更早的落地应用,都有助于通过降低成本来达成商业闭环,让数据为业务提供更好的支持。Q:像抖音或者谷歌这样拥有大量视频数据的公司,在多模态方面是否会有优势? A:从逻辑角度,像抖音或者谷歌这样的公司确实拥有大量的数据资产优势,可以为模型训练提供足够的数据源。但是,他们自身的技术投入,以及技术领先度,可能会对后端数据的应用产生影响。如果所有公司在同一个标准下进行比较,具备大量数字资产的公司,如谷歌或抖音,在这个维度上肯定有着绝对的优势。