您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱建证券]:人工智能月度跟踪:OpenAI推出新一代音视频工具Sora 2 - 发现报告

人工智能月度跟踪:OpenAI推出新一代音视频工具Sora 2

电子设备2025-10-21许亮、朱俊宇爱建证券
AI智能总结
查看更多
人工智能月度跟踪:OpenAI推出新一代音视频工具Sora 2

行业研究/行业点评 2025年10月21日 OpenAI推出新一代音视频工具Sora2 ——人工智能月度跟踪 行业及产业电子 投资要点: 强于大市 引子:2025年9月30日,OpenAI推出新一代音频、视频生成模型Sora2,并同步上线独立iOS应用。Sora2被OpenAI誉为"视频领域的GPT-3.5时刻",此次更新不仅在视频生成质量上实现了显著提升,更首次支持了与画面精准匹配的原生音频生成,标志着AI视频生成技术迈入一个全新的发展阶段。 Sora采用DIT架构,性能优于同期发布模型。2024年2月16日,OpenAI发布首个文本生成视频模型Sora,其核心采用DiffusionTransformer深度融合架构,依托自注意力机制等设计,可增强视频帧间连贯性与文本与视觉语义的匹配精准度。相较于Gen-2、Lumiere等同期模型,Sora的优势尤为突出:1)生成时长达60秒,远超Gen-2(18秒)、Lumiere(5秒)、MoonValley(6秒)的上限,能承载更具叙事性的创作需求;2)生成类型覆盖T2V(文生视频)、I2V(图生视频)、V2V(视频生视频),并额外支持VFI(视频插帧),多模态创作能力更全面;3)技术架构上,凭借DiffusionTransformer的特性,时序一致性表现更佳,可减少画面闪烁、物体运动不连贯等问题,让动态视觉效果更贴近真实场景。 相关研究 《电子行业周报:国产示波器实现高端突破》2025-10-20 《电子行业周报:湾芯展:期待新凯来新惊喜》2025-10-13《电子行业周报:先进封装玻璃基板实现技术突破》2025-10-09《电子行业周报:AI服务器+智能手机需求爆发推动NANDFlash价格上扬》2025-09-29《人工智能月度跟踪:CPO&CPC有望开启新一轮成长周期》2025-09-29 OpenAISora2相较于初代实现了多维度的卓越升级。1)在音视频同步方面,其彻底解决了初代的无声局限,可基于文本指令原声生成贴合场景的完整音效,无论是人物说话时的语音与环境音、奔跑场景的脚步声与风声,还是钢琴演奏的琴键声与空间回响等,均能自动匹配,无需后期额外配音,实现“声画一体”的创作体验;2)物理模拟精度上,Sora2实现了突破性提升:针对初代水流不自然问题,升级水、烟雾等流体模拟使其更贴合现实场景;通过精准模拟重力、惯性与摩擦力,修正了物体飘浮、碰撞反馈不真实等缺陷;同时让人物动作严密符合人体工学,有效解决动作僵硬问题。对比测试显示,其在人物走路、水流动态等场景的真实度提升36%-70%,其中水流动态提升最为显著。3)此外,Sora2新增“Cameo”功能,用户通过短暂的视频与音频采集,即可将自身或他人的形象与声音植入模型,后续能在任意场景中高度保真地呈现该角色,极大拓展了角色互动可能性,丰富了个性化创作与社交体验。 证券分析师 许亮S08205250100020755-83562506xuliang@ajzq.com Sora2应用十分广泛,已覆盖营销广告、教育培训、产品展示、自媒体创作、艺术创作等多个领域,其中营销广告领域占比最高,达30%。其核心优势在于相较传统视频制作模型能显著提升效率并大幅压缩成本:在营销广告领域,美妆广告制作成本从8000元降至25元、节省比例约99.70%,汽车广告制作周期从1个月缩短至20分钟,帮助中小商家打破高预算限制;教育培训场景中,历史教育类内容制作周期从1个月缩短至10分钟,满足教学内容快速迭代需求;自媒体领域里,美食博主单条内容成本从200元降至20元、时间从2小时缩短至10分钟,还能为实拍不可行的旅游博主直接生成内容,助力创作者高频更新、响应热点;产品展示与创意艺术领域也实现了成本97%以上、时间数倍至数十倍的节省。依托“低成本、高效率、个性化”特性,Sora2推动AI视频制作规模化、高效化落地,标志着AI音视频技术进入“工业化生产阶段”,未来若在视频时长、画面分辨率上进一步突破,应用场景还将向影视制作、游戏开发、虚拟直播等领域拓展。 联系人 朱俊宇S0820125040021021-32229888-25520zhujunyu@ajzq.com 投资建议:随着AI大模型在音视频功能上的持续升级,未来音视频制作的成本将大幅下降,这对于下游广告传媒行业的发展十分有利。同时,AI生成音视频也将推动数据流量的加速爆发,建议关注存储芯片行业的投资机会。 风险提示:1)国际贸易摩擦加剧2)下游需求不及预期3)技术升级进度滞后 目录 引子:OpenAI推出新一代音视频工具Sora2..........................................41.Sora采用DiT架构,相较于其他视频模型优势明显............................42.OpenAISora2性能实现卓越升级.........................................................53.Sora2应用领域广泛.............................................................................64.风险提示..............................................................................................8 图表目录 图表1:Sora模型框架.................................................................................................................4图表2:Sora与其他视频生成模型参数性能对比.....................................................................5图表3:Sora2解决初代Sora无声的局限.................................................................................5图表4:Sora2解决了Sora存在的物理问题..............................................................................6图表5:Sora2相较于初代Sora产品物理真实度更高.............................................................6图表6:Sora2应用领域广泛......................................................................................................7图表7:Sora2相较于传统视频制作模型:成本下降且效率提升.........................................7 引子:OpenAI推出新一代音视频工具Sora2 2025年9月30日,OpenAI推出新一代音频、视频生成模型Sora2,并同步上线独立iOS应用。Sora2被OpenAI誉为"视频领域的GPT-3.5时刻",此次更新不仅在视频生成质量上实现了显著提升,更首次支持了与画面精准匹配的原生音频生成,标志着AI视频生成技术迈入一个全新的发展阶段。 1.Sora采用DiT架构,相较于其他视频模型优势明显 2024年2月16日,OpenAI发布首个文本生成视频模型Sora。Sora采用DiffusionTransformer深度融合架构(将扩散模型与Transformer深度结合的创新架构,简称DiT架构),旨在提升从文本到视频的生成效果。其依托自注意力机制、动态学习策略及面向视频生成任务优化的架构设计,可增强生成视频的帧间连贯性,同时提升视觉内容与文本语义的匹配精准度。 资料来源:阿里云,爱建证券研究所 相较于Gen-2、Lumiere、MoonValley等视频生成模型,Sora具备在视频时长、多模态生成覆盖度、技术架构的时序一致性等方面展现出显著优势。具体而言,1)Sora视频生成时间长,远超Gen-2(18秒)、Lumiere(5秒)、MoonValley(6秒)的时长上限,能承载更具叙事性或完整性的创作需求;2)生成类型上,它不仅覆盖T2V(文生视频)、I2V(图生视频)、V2V(视频生视频),还额外支持VFI(视频插帧),多模态创作的丰富度更全面。3)技术架构层面,Sora依托DiffusionTransformer架构,时序一致性表现更佳,可减少画面闪烁、物体运动不连贯等问题,使动态视觉效果更贴近真实场景。 但作为初代文本生成视频模型,Sora仅能生成完全无声的视频,用户需在后期手动为其添加音频。这一额外操作不仅会打断连贯的创作流程,还大幅增加了内容制作的时间成本与人力成本。为解决这一核心痛点,OpenAI于2025年9月30日推出新一代模型Sora2。 2.OpenAISora2性能实现卓越升级 相较于初代Sora,Sora2首先解决无声局限,实现原生音视频同步。创作者只需输入关键词,即可生成包含音效的完整影片,无需后期额外配音。从具体场景来看,初代Sora在人物说话、奔跑、海浪拍岸等场景中均无音效,而Sora2能针对不同场景自动生成贴合场景的声音。 Sora2在物理模拟精度上实现了对初代Sora的突破性升级。针对初代“水流方向不自然”的问题,Sora2升级了水、烟雾等流体的模拟精度,使其运动轨迹与形态更贴近现实物理规律;针对初代存在的重力效果错误(如物体飘浮)与碰撞反馈不真实问题,它能通过精准模拟重力、惯性、摩擦力进行修正;针对人物动作僵硬、不流畅的缺陷,它还能让人物动作严格符合人体工学。 从对比测试结果来看,Sora2在人物走路、水流动态、物体掉落等场景的真实度,相较于初代均有明显提升,提升区间为36%-70%,其中水流动态场景提升最显著,达70%。 资料来源:API易,爱建证券研究所 此外,Sora2还引入了“Cameo”功能。借助该功能,用户只需完成一次短暂的视频与音频采集,就能将自己或朋友的形象与声音注入模型;后续在任意场景中,这一角色都能以高度保真的方式呈现。这一设计有效拓展了角色互动的可能性,丰富了用户的使用体验。 3.Sora2应用领域广泛 Sora2应用领域广泛,涵盖营销广告、教育培训、产品展示、自媒体创作以及艺术创作等领域,其中营销广告领域的占比最高,达30%。 资料来源:API易,爱建证券研究所 Sora2相较于传统视频制作模型,核心优势在于能在显著提升效率的同时大幅压缩成本。1)在营销广告领域,Sora2凭借极低的制作成本,帮助中小商家打破“高预算才能做广告”的限制(如美妆广告制作成本从8000元降至25元,节省比例约99.70%),让中小商家也能轻松开展广告宣传;2)在教育培训场景中,Sora2可大幅压缩课程制作时间(如历史教育类内容,它将原本1个月的制作周期缩短至10分钟),有效满足了培训机构对教学内容快速迭代的需求;3)在自媒体领域中,Sora2的低成本与高效率特性,支持创作者和商家更频繁地更新内容、快速响应市场热点,进一步提升了内容运营的竞争力。 在Sora2技术持续迭代的背景下,OpenAI不仅攻克AI视频生成领域的核心痛点,更依托“低成本、高效率、个性化”特性,推动AI视频制作迈向规模化、高效化落地。从行业视角看,Sora2的发布标志AI音视频技术正式进入“工业化生产阶段”;后续模型若在更长视频时长、更高画面分辨率上实现进一步突破,其应用场景将向影视制作、游戏开发、虚拟直播等领域持续拓展。 4.