(1)2026年,多模态模型有望迎来DS时刻OpenAI于2024年2月推出的初代Sora模型,堪称视频领域的GPT‑1时刻,2025年9月底,OpenAI推出Sora 2 ,视频领域迎来GPT 3.5式突破时刻。10月16日,谷歌在Gemini API中发布了Veo 3.1和Veo 3.1 Fast付费预览版,在Veo 3基础 [烟花]周观点:2026年,多模态模型有望迎来DS时刻【开源计算机】 (1)2026年,多模态模型有望迎来DS时刻OpenAI于2024年2月推出的初代Sora模型,堪称视频领域的GPT‑1时刻,2025年9月底,OpenAI推出Sora 2 ,视频领域迎来GPT 3.5式突破时刻。10月16日,谷歌在Gemini API中发布了Veo 3.1和Veo 3.1 Fast付费预览版,在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原。2026年初,可灵3.0系列模型和字节Seedance 2.0相继正式上线。DeepSeek开源与成本优势驱动文本大模型普及与落地,我们认为2026年多模态模型有望迎来DS时刻,在能力提升的同时,实现成本端大幅下降,从而推动影视、游戏、广告等内容创意领域的繁荣。 (2)可灵3.0系列和字节Seedance 2.0相继上线,开启多模态领域的竞争2月5日,可灵AI正式全球上线3.0系列模型,目前正面向黑金会员开放使用,预计将于近期全量上线。可灵3.0 系列模型基于All-in-One产品和技术理念构建,形成一个多模态输入与输出高度统一的一体化视频模型体系。此次发布的可灵视频3.0、可灵视频3.0 Omni及可灵图片3.0、可灵图片3.0 Omni模型,覆盖图片生成、视频生成、编辑及后期等影视级全流程链路,标志着AI正式进入影视与创意内容的核心生产环节,可灵AI也正式迈入3.0时代。2月7日,Seedance 2.0正式上线,其特征为:能生成真正的1080p分辨率视频,提供符合专业标准的广播级输出;音视频同步,生成视频内容的同时生成同步的音频;多镜头叙事能力;Seedance V2运动合成”的技术,可产生流畅、逼真的运动;卓越的提示词遵循能力,能够准确解释和执行复杂的指令。可灵3.0系列和字节Seedance 2.0相继上线,多模态领域迎来突破性进展。 (3)商业化将成为多模态模型厂商的重要命题可灵AI是国内商业化最快的多模态模型之一,截至2025年12月,可灵AI已拥有超6000万创作者,生成视频超6 亿个,服务企业用户超3万,年化收入运行率达2.4亿美元。商业化落地将成为多模态模型厂商的重要命题,而商业化的关键一方面在于模型能力增强,用户使用体验提升;另一方面在于成本端下降,模型使用门槛降低,我们认为2026年将是多模态降本提质,实现商业化落地的关键一年。