在2025年5月21日举行的谷歌I/O开发者大会上,谷歌公司发布了新一代视频生成模型Veo3,模型引起业内广泛关注,大量高质量视频在X上出圈,我们邀请专家,交流Veo3模型的特点,并重申传媒互联网及AI板块观点。 主持人:东吴传媒互联网张良卫、周良玖嘉宾:国内AI创业公司模型负责人时间:5月26日(周一)13:00-14:00 专家:各位朋友大家好,今天很荣幸与大家分享关于Veo3视频生成模型的解读。该模型近期发布后,已在业内引发较大反响,许多专业人士对其技术进步给予高度肯定,认为这可能是具有里程碑意义的重要进展。我们可以先从近期引爆行业的部分Veo3生成视频入手,直观感受其整体表现。以下选取了一些视频片段,带大家了解当前该模型所能实现的高质量效果。 从视频中可见,人物表情、唇形与语音的配合高度精准,这是此前技术难以实现的突破。无论是背景音乐的氛围营造,还是人物情感的细腻传递,均展现出显著提升。值得关注的是,谷歌此次发布的模型不仅能生成真实人物的说话视频,卡通人物的动态表达同样表现优异。不同人物的表情、动作、情绪与语音的唇形匹配度极高,实现了多模态数据的深度融合——这不仅涉及视频画面,还涵盖语音信号及此前难以精准呈现的情感表达维度。 另一视频片段中,人物舞蹈动作与音乐节奏、音频内容的同步性堪称极致,这在技术实现上具有极高难度。再如镜面反光场景下,人物唇形与镜面成像的匹配度符合物理规律,反光效果的生成亦十分逼真。除真实人物外,卡通人物的动作、表情与其说话内容及口型动作的契合度同样达到了近乎完美的程度。 在键盘敲击场景中,按键声与动作画面的同步性精准无误,甚至连轻声说话的语音细节与场景氛围也实现了高度契合。不难发现,音频能力的融入使视频整体流畅度与质量显著提升。从用户体验角度看,音频的加入有效保障了观看体验的下限——此前生成视频通常不含语音,需依赖大量后期制作,对新手而言完成成品视频存在一定门槛。而当前通过Prompt即可直接生成带音频的高质量视频,可直接用于传播,这在音频生成能力与视频内容的融合层面实现了重大跨越。 当前视频生成技术已彻底突破恐怖谷效应,其生成内容的真实度与传统实拍视频几无差异,融合音频能力后,整体完成度与真实视频难以辨别。以下为一组网络截取的视频集合,旨在直观呈现Veo3模型的视频生成效果,并解析该模型实现此类效果的核心能力。 结合技术表现,可将Veo3对比此前视频生成模型(如Veo2、Runway、Sora、Gen-2等)的突破性进展归纳为以下方面: 首先是人物刻画的逼真性。区别于传统视频生成模型常生成的“超模脸”,Veo3可精准生成多样化的普通人面部特征,实现高度逼真的人物还原——不仅限于塑造“好看的脸”,更注重呈现真实的人物面貌。 其二是光影效果的突破。模型在人物脸部及身体阴影的渲染上近乎无懈可击,无论是光源投射逻辑还是明暗过渡细节,均展现出极高的物理准确性。 其三是微表情与场景交互的细腻度。例如在强光环境中,人物会自然呈现眯眼等微表情,且动作与场景元素(如褪色灯光、低分辨率相机成像效果)的配合高度协调,显著提升场景真实度。 其四是声音与口型的精准同步能力,这是传统从0生成视频技术的空白领域。此前技术多基于现有视频或图片驱动语音生成,而Veo3实现了语音与视频的整体联合生 成。由于语音与视频分属不同模态数据,传统跨模态生成需依赖编码器转译,而Veo3通过融合多模态数据直接生成声画统一的整体,实现了语音与口型的毫秒级精准匹配,堪称突破性成果。 其五是对复杂物理现象的理解推断能力及长视频的一致性与连贯性。例如人物在镜面反光场景中的唇形匹配、物体运动轨迹的动力学准确性等,均体现出模型对物理规律的深度理解。同时,在长视频序列中,模型可维持人物特征与场景设定的稳定性,避免帧间突变问题。 具体而言,人物刻画不再局限于“超模脸”,而是覆盖多样化的普通人脸;光影效果中,光源位置与阴影投射逻辑高度自洽,无明显光影破绽;微表情与唇形运动幅度显著,且与语音匹配精准;场景真实性体现在复杂光照环境(如教室背光场景)的高度还原;语音与口型同步在侧脸、多角度画面中均表现完美,牙齿咬合、咬字细节与语音内容严格对齐,长视频叙事亦保持逻辑连贯。 在建立直观感受后,进一步分析谷歌实现Veo3模型技术突破的核心支撑要素。从当前技术布局看,其核心优势体现在两大维度: 一是无可比拟的训练数据资源。YouTube作为全球最大视频平台,为谷歌提供了海量多模态训练数据。这一优势与国内视频生成领域领先的Sora、Gen-2等模型(依托快手、抖音数据生态)具有相似逻辑——视频平台的原生数据积累构成模型训练的底层壁垒。这种数据护城河不仅体现在视频生成领域,在动态模态及多模态大模型训练中,谷歌的长期数据优势亦难以替代。 二是基础设施与技术迭代能力的领先性。谷歌的技术布局涵盖英伟达GPU、自研AI芯片TPU及自建数据中心,构建了高效的模型训练与迭代体系。以版本迭代速度为例,Veo2模型一发布即代表行业顶尖水平,而Veo3距Veo2发布仅五个月便实现显著技术跃升。按此迭代节奏推测,后续版本(如Veo4)有望在半年左右时间内进一步提升技术泛用性。值得关注的是,在本次开发者大会上,谷歌同步发布了基于Veo2的Flow视频编辑功能(如视频延长“extend”工具),但该功能尚未适配Veo3。当前Veo3仅支持生成8秒时长的视频片段,若需进行视频延展或编辑,仍需借助Veo2的Flow工具实现。随着后续版本迭代,一旦Veo3兼容视频编辑功能,其面向C端用户的低门槛内容创作能力(如长视频生成)将进一步释放,推动AI视频生成技术向大众化应用场景渗透。 通过Veo2与Veo3的功能对比表可见,Veo3当前生成内容的质量已包含音效与语音——无论是文本生成视频还是图像生成视频,均能实现带音效的输出。但在Flow视 频编辑功能层面(如相机控制、视频延长、基于首尾帧的视频生成、素材库元素融合生成等),Veo3尚未完成适配,而Veo2已基本完成上述功能的兼容。 从技术实现逻辑看,这类功能属于模型后训练阶段可集成的拓展功能,虽需一定开发时间,但不涉及深层技术壁垒,属于可预期实现的迭代路径。待Veo3逐步完善上述功能后,其在C端应用的泛用性将得到极大释放。 关于Veo3可能带来的行业影响与冲击:首先,其可能对内容创作领域产生结构性变革。在影视、广告、游戏行业,高逼真度的视频生成技术可显著降低制作门槛——游戏行业可借此制作高质感预告片,影视行业能大幅简化前期素材生成流程,广告行业则可实现成本与周期的数量级降低。 其次,该技术引发了对“真实视频”定义的重新审视。此前生成视频普遍存在无音频或配音成本高、声画协同性差等缺陷,而Veo3实现了音频与视频的整体联合生成,其真实程度已达到一定高度。 关于竞争对手的影响,对于其他视频生成模型而言,若无法在短期内追上Veo3,待谷歌Veo3模型的泛用性全面释放后,其领先优势将进一步扩大。 回到本次讨论的话题,Veo3是否属于里程碑级的技术进步?从个人观点来看,Veo3可能相当于自然语言处理领域的GPT3时刻。回顾GPT3,其技术能力实现了跨越式提升,核心指标在数量级与质量层面均远超GPT2,展现出前所未有的性能。同时,GPT3在大规模复杂训练中“涌现能力”大幅提升,颠覆了行业对AI的认知预期,GPT3虽以基座模型形态发布于ChatGPT(GPT3.5)之前,却为后续应用爆发奠定了基础——GPT3主要在专业领域引发讨论,而ChatGPT的发布则推动其向C端实现突破性普及。 Veo3与GPT3的核心突破具有高度相似性:在文本领域,GPT3实现了高质量、长篇幅、多风格的文本生成及强大的零样本/小样本学习能力;在视频领域,Veo3则实现了超逼真、长时长、高一致性的视频生成,能够理解复杂的电影化指令,其行业震撼力与GPT3具有可比性。 GPT3标志着自然语言处理从实验性向生产力工具的转变,而Veo3亦处于从实验性向实用性跨越的关键节点。两者的应用场景均呈现丰富性,技术突破均依赖高质量大规模数据——Veo3依托YouTube海量视频数据完成充分训练,正是这一逻辑的体现。 从传播路径看,GPT3的初期影响力集中于AI研究者、开发者、科技爱好者及科技媒体,与当前Veo3在AI研究群体、开发者、科技爱好者、科技媒体乃至专业影视媒体 中的广泛传播及震撼效应高度相似。 GPT3时期,普通大众因需通过编程等复杂流程使用,难以直接体验其能力,认知多源于猎奇报道,传播范围受限;而ChatGPT以简单易用的对话界面实现全民可及,用户短时间内破亿,成为社会现象级应用。反观Veo3,当前使用仍需通过API接口,且需支付125美元或250美元的较高使用费用,仅限美国地区访问,国内用户需借助特定渠道尝试,整体使用门槛较高,与GPT3阶段的应用门槛特征相似。未来若Flow工具完成对Veo3的适配,并推出更简易的操作界面(如对话式交互、拖拽式编辑等),其使用门槛有望显著降低,推动C端普及与现象级传播,实现从“专业圈火爆”向“全民应用”的跨越,类似GPT3到ChatGPT的演进路径。 综上可见,Veo3极有可能成为视频领域的“GPT3时刻”。正如GPT3的出现标志着大型语言模型在文本理解与生成领域实现革命性突破、开启AIGC文本领域黄金时代一样,谷歌Veo3的发布凭借其在视频生成质量、连贯性、时长控制、复杂指令理解及音频融合生成等维度的突破,已抵达行业关键引爆点。 Veo3距离大规模普及可能仅需完成类似GPT3到GPT3.5阶段的RLHF后训练工作——通过此类适配将模型能力与应用场景深度结合。从技术路径判断,该环节并非高难度挑战,有望在短期内实现。鉴于其明确的应用前景,可预见未来大厂在多模态大模型训练领域的竞争将显著加剧:Veo3已验证技术可行性,使得投入资源训练同类模型的收益具备可预期性,这种可量化的商业前景将促使企业更坚定地加大研发投入,进而推动计算资源需求的爆发式增长。 Q:这个模型本身除了视频的数据量之外,模型本身有哪些方面的一些进步?国内和海外的一个差距大概是一个什么样的情况? A:关于Veo3模型与Veo2模型在基础能力及使用能力上的差异,或行业内的差距情况,据了解,Veo3模型的参数量较Veo2高出一个数量级,这是二者在参数量层面的显著差异。 在模型训练的结构设计方面,过去Veo2及即梦、可灵、Runway等其他模型,在训练视频生成模型时通常不倾向于将音频数据纳入训练内容。原因在于,将音频这一跨模态数据融入视频生成模型训练,会引发跨模态对应问题,并增加模型训练的难度与不稳定性。若仅需获得视觉层面的优质视频生成模型,业界倾向于不将音频数据纳入训练。此前Veo2、Runway、即梦、可灵等机构发布的最优模型均处于该状态——模型输入端未引入音频数据,模型结构设计中也未针对音频数据设计相应机制(如音频注意力机制、音频与视频的交叉注意力机制等)。尽管业界已开展相关探索,但整体仍处于初期阶段,多数尝试将音频纳入训练的模型表现较差,甚至无法实现稳定训练。因此,是否将音频数据纳入训练、纳入后能否训练出稳定模型,以及是否通过模型结构设计实现音频与视频模态的有效协同学习,是Veo3与其他模型的重要差异点,也是Veo3实现的重大跨越。 在训练数据量级层面,此前其他模型厂商受限于GPU显卡等计算资源,未能充分利用其持有的视频数据。以抖音、快手为例,若要使用其80%-90%的视频数据,现有计算资源难以支撑。高效利用大规模视频数据需投入更庞大的计算资源,而过去业界在这方面的工作尚未完善,这就导致一些非视频平台的一些创业公司他们也有能力训出比较类似的模型,其实Runway并没有这个依托于一些视频平台,或者说还有一些其他比如Pika这样的创业团队,他们在训练他们的视频生成模型的时候,其实并没有用到海量的这样一些视频的数据,那么他们其实这方面是有劣势。但即便未依托视频平台的海量数据,也能训练出性能相近的模型,因业界整体尚未突破利用海量视频数