技术跃迁驱动内容革命,把握产业变革新机遇 传媒行业评级:强大于市|维持 证券分析师王晓萱证书编号S1340522080005 中邮证券 发布时间:2026-02-14 投资要点 视频生成:从GAN走向DiT,通往AGI的重要路径。视频作为同时融合文本、图像、音频等多模态信息,并引入时间维度因果结构的内容形态,天然具备更高的复杂性与表达力,代表着AIGC产业能力上限。当前文本、图片、音乐等模态生成技术已相对成熟,视频仍是行业技术短板,其突破将对AIGC的产业应用前景起到重要作用。从技术演进看,AI视频生成技术自2010年代中后期逐步起步,经历了GAN、Transformer等多个架构的尝试,行业技术路线一度出现分歧。直至2022年,Diffusion与Transformer的融合思路逐步成型,叠加2024年OpenAI发布的Sora验证了DiT架构在视频生成中的可行性与效果,行业迎来关键转折点,主流厂商全面向DiT路径演进,视频生成自此进入快速发展阶段。 技术进展:短视频生成已近专业水准,世界模型或为长视频生成带来新变量。当前AI视频已可根据文本提示直接生成包含多人物、动态动作与复杂背景的完整画面,Sora2、Veo3等音画一体化模型的出现进一步推动其从“画面生成工具”演进为“视听内容引擎”,短片段生成质量已接近专业制作水准。但现有架构在生成时长、物理合理性等维度仍存在结构限制,难以支撑更复杂的长视频构建,业界目前重点关注的世界模型可能是解决上述瓶颈的关键路径。世界模型最初研讨主要用于弥补语言模型在物理与因果建模方面的能力缺口,2025年前行业以“表征派”为主,主要聚焦环境感知与状态预测;2025年后,产业研究重心开始向“生成派”倾斜,Genie3、Marble等代表性成果的推出标志着世界模型具备生成持续存在物体、模拟因果逻辑与动态环境的潜力,直接对应当前视频生成的技术短板。世界模型与现有视频模型技术路径存在差异,不受后者架构限制,且在空间一致性与物理逻辑等关键性能上展现出更快的迭代效率。行业亦已普遍认为视频生成是世界模型的雏形,后续在能力与技术演进上可能进一步重合。目前世界模型已被业内普遍视为与大语言模型同级的重要人工智能发展路径,相关参与者数量仍在持续增加,后续研发节奏预计或将进一步加快,2026年或为实现跃迁的关键节点。 商业化进展:C+B端双路并进,影视级项目有望迎来商业元年。全球AI视频生成市场正加速扩张,预计2026年市场规模将达2.96亿美元,同比增长35.16%。行业商业路径主要分为C端平台与B端工具两类:1)C端:以订阅模式为主要收入来源,用户量是现阶段主要评判标准,Sora体量仍断档领先。目前行业亦在积极探索新商业模式,例如OpenAI推出了社交化视频创作平台Sora app,未来C端有望进一步向广告、电商等新增路径拓展,并同时为B端内容传播带来新渠道;2)B端:API是当前主流业务模式,核心电商展示、广告等领域应用已基本成熟。“质量+效率+成本”是API核心评价维度,可灵、海螺、Vidu等部分国产模型已实现行业领先。但目前API模式主要应用于素材级生成,仍不具备提供完整影视级项目制作流能力。部分海外厂商已开始试水影视级AI解决方案,并初步在商业层面实现验证。以Utopai为例,其通过《Cortés》《Project Space》等项目累计实现收入约1.1亿美元。主流厂商亦在加快布局:OpenAI参与制作的AI影片《Critterz》预计于2026年上映;Runway设立旗下制作部门RunwayStudios;灵AI亦于2025年亮相东京TIFFCOM内容交易市场。随着模型能力演进与工具链完善,2026年有望成为AI影视制作商业化的关键起点。 投资要点 ◼传媒:AI视频核心应用场景,广告、影视、游戏均有望受益。 ◼广告:伴随用户侧信息获取方式向抖音、快手等短视频平台转移,推动广告形态由图文持续向视频迁移。2025年上半年全网移动广告中,视频类素材投放占比已超过65%,其中竖屏视频占比高达54.8%。竖屏广告主要为短视频广告,其多集中在6~15秒之间,契合现阶段视频生成模型的能力边界。目前AI在广告内容生成中的应用仍集中于内容草拟(70%)、文案创作(59%)等环节,视频创作渗透率(19%)明显偏低,仍然具备后发增长潜力。此外,AI视频工具的普及亦有望打破原有营销服务商的能力边界,使其从单一媒介投放职能,转型为能协助品牌进行内容策划、生成、测试与投放优化的全链路合作伙伴,提升其在营销生态中的战略价值。从资本市场反馈来看,2025全年,海外营销龙头Applovin股价累计涨幅108.08%,充分反映海外市场对AI+营销的价值认可,后续国内厂商有望持续跟进; ◼影视:AI漫剧与视频生成契合度最高,已率先实现商业闭环。拟真人短剧方面,据新华网统计,2025年1月抖音TOP5000短剧中仅4部为全AI生成,10月、11月分别增长至69部与217部,内容接受度在快速提升,后续或逐步进入量产阶段。长剧与电影层面,CG特效等高价值环节有望成为首批替代场景。但鉴于CG特效仍为影视工业中技术门槛最高模块之一,具备专业团队与预算的头部厂商短期内仍可能优先采用成熟CG方案。相较而言,中小型影视团队或更可能依托AI实现降本增效,率先受益于技术平权红利; ◼游戏:视频生成与3D生成的底层技术路径一致,均依赖扩散模型与Transformer等生成架构。当前3D生成在游戏建模领域已初步实现静态资产的自动化生产,整体进程正由“能力验证”向“实用落地”迈进。例如腾讯内部数十款游戏(如《元梦之星》)已接入混元3D能力,《蛋仔派对》亦与影眸科技合作,支持玩家通过AI生成游戏内物品,推动创作工具升级。后续世界模型等新技术落地或将进一步带动场景/动态资产的生成与应用,有望持续拓展AI在游戏中的应用深度。长期看,视频生成与交互融合亦有望为游戏内容演化带来新方向,当前AI原生交互已在多款文字类游戏中率先落地,未来若3D视频生成与行为驱动结合成熟,或催生具备实时互动能力的新游戏品类,重塑产业增长边界。 核心受益上市公司:1)具备自研算法与模型能力,且具有多场景业务嵌合能力的技术型公司:昆仑万维;2)拥有海量内容资产与版权资源的影视内容提供商:中文在线、捷成股份、华策影视;3)积极布局AI营销、具备内容分发的整合型平台公司:易点天下;4)推动AI生成能力嵌入游戏资产生产流程的大型游戏公司:完美世界、巨人网络。风险提示:AI视频生成技术发展不及预期、产业应用不及预期、版权保护风险。 ◼ 1.视频生成的前世今生:从GAN走向DiT,通往AGI的重要路径2.技术进展:短视频生成已近专业水准,长视频或迎重要变革节点3.商业化进展:C+B端双路并进,影视级项目有望迎来商业元年4.传媒:AI视频核心应用场景,广告、影视、游戏均有望受益5.核心受益上市公司6.风险提示 视频生成的前世今生:从GAN走向DiT,通往AGI的重要路径 1.1视频生成:融合多模态信息能力,决定AIGC技术上限1.2发展历程:从早期分化逐步走向共识,产业进入高速发展期 1.1视频生成:融合多模态信息能力,决定AIGC技术上限 视频同时融合文本、图像、音频等多模态信息,天然具备更高的复杂性与表达力,代表着AIGC产业能力上限。视频需处理空间、时间、因果与交互等高维结构,并要求将文字、图像、音频等模态映射到同一表征空间,其复杂性要求模型必须具备对真实世界的综合理解与推演能力:1)空间:视频需理解物体形状、位置关系、遮挡与深度等三维结构;2)时间:视频要求模型在连续帧中保持状态演化一致性,学习动力学规律与行为轨迹;3)因果与交互:视频呈现对象间的作用、反应与事件链条,迫使模型掌握因果机制和多实体交互规则。当前文本、图片、音乐等模态生成技术已相对成熟,视频仍是行业技术短板,其突破将对AIGC的产业应用前景起到决定性作用。 1.2发展历程:从早期分化逐步走向共识,产业进入高速发展期 AI视频生成技术自2010年代中后期逐步起步,经历了多个关键架构的迭代升级。视频生成技术最早可追溯至20世纪90年代的图像序列拼接方法,其开启了将静态帧合成为动态视频的早期尝试,但真正的AI模型化探索始于2014年GAN的提出。2017年,Transformer架构的引入为模型带来了更强的时序建模与语义表达能力,但仍存在计算资源受限、生成质量不稳定等问题。因而在2020年后,部分开源社区尝试将扩散模型应用于视频生成,试图跳出Transformer架构限制,行业技术路线一度呈现分歧。直至2022年,Diffusion与Transformer的融合思路逐步成型,叠加2024年OpenAI发布的Sora验证了DiT架构在视频生成中的可行性与效果,行业迎来关键转折点,主流厂商全面向DiT路径演进,视频生成自此进入快速发展阶段。 1.2发展历程:从早期分化逐步走向共识,产业进入高速发展期 GAN–VAE阶段(2014-2016):确立“视频可被端到端生成”的技术方向,是后续技术跃迁的理论起点。视频生成技术最早可追溯至2016年UCBerkeley提出的VGAN,该模型首次将生成式对抗网络(GAN)引入视频生成任务,并通过空间–时间卷积结构实现低分辨率短时动态序列的合成。同年,京都大学与东京大学提出的TGAN将视频生成分解为时间潜变量序列与图像生成器协同工作的方式,实现捕捉跨帧运动信息。在此基础上,2018年NVIDIA团队提出MoCoGAN,将视频内容与运动显式解耦,分别建模并通过对抗学习生成一致动作序列,从而实现了更具可控性的基础视频生成框架。但该阶段的模型多基于GAN的对抗式重建能力+VAE的连续潜空间表达,受限于模型架构限制,应用范围仅限于简单场景(如数字、基础动作),生成分辨率与时长均较低。 1.2发展历程:从早期分化逐步走向共识,产业进入高速发展期 Transformer表征阶段(2017–2021):时空表征能力显著提升,为视频生成真正可用奠定底层基础,但生成质量、成本化能力均属过渡期。2017年Transformer论文发表后,该架构快速渗透至各类序列建模场景,并在视频生成任务中开启探索。自2021年Google推出VideoVisionTransformer(ViViT)起,GODIVA、VideoGPT、Phenaki、CogVideo、NUWA等视频模型相继出现。相较于GAN系列,Transformer具备明确的概率密度建模能力、收敛过程更稳定,并能够有效捕捉跨帧长程依赖,在生成时序一致、衔接自然的动态内容上更具优势。但由于其计算复杂度随空间与时间token数呈平方级增长,分辨率与时长提升将带来指数级的算力压力,导致该阶段模型在生成效果上仍受限制,其产业价值主要体现在从“能生成”迈向“能理解再生成”。 1.2发展历程:从早期分化逐步走向共识,产业进入高速发展期 Diffusion扩散模型阶段(2020–2023):实现高质量短视频生成,但受限于时长与物理一致性,存在技术上限。扩散模型(Diffusion)通过“逐步加噪—逆向去噪”的显式概率建模范式,解决了GAN在训练稳定性和可控性上的核心缺陷,为高质量视觉生成奠定了基础。2022年,Meta发布Make-A-Video,其可根据自然语言生成约5秒短视频,是推动视频生成技术进入商业化探索阶段的早期代表之一。但传统扩散模型的去噪网络基于U-Net,其本质是一种以局部卷积为主的二维图像编码器,只能在空间维度内进行局部感受野建模,缺乏对时间维度的统一表征,也无法捕捉跨帧的长程依赖、物体状态延续与物理一致性。基于此结构的视频扩散模型,误差会沿时间轴不断累积,导致跨帧漂移、运动不连续,使视频生成在时长与整体一致性上存在上限。 1.2发展历程:从早期分化逐步走向共识,产业进入高速发展期 DiT扩散模型阶段(2024至今):在Sora推动下进入商业化周期,形成视频生成的主导技术路线。DiT的核心思想是以Tra