- 多模态及AI视频生成赛道发展历程:多模态模型自2021年CLIP发布起发展,2023-2026年视频生成模型集中爆发,原生多模态较后接视觉模块优势显著。
- 行业技术迭代与竞争格局:当前AI视频生成模型迭代周期为1季度至半年,无厂商长期领先,2026年6月榜单前五包含谷歌Gemini3.1Flash、字节可灵2.0等,主流采用Diffusion+Transformer架构,行业处于从可用到好用阶段。
- 字节可灵阶段性突破与市场表现:字节可灵2.5实现30秒视频输出、50张以上参考图支持的突破,阶段性领先但同行或2-3个月内追上,2026年7月其ARR接近6亿元,估值180亿元。
- 市场规模与算力需求:AI视频B端渗透率达20%-30%对应千亿级市场,算力需求指数级增长。