AI智能总结
全球人工智能行业 陈咏娴(852) 39118271cathychan@ccbintl.com AI重塑千行百业 ►Sora多方面突破行业瓶颈,业内追赶态势助推市场需求 ►AIGC应用赋能跨行业发展新征程 ►至2030年,全球/中国相关市场复合增长率达45%/87%,潜力巨大 AI重整商业运营的游戏规则。人工智能(AI)自ChatGPT于2022年11月问世后,正在以令人震撼的速度迭代发展着。世界见证了众多科技巨头和AI初创公司竞相推出底层大模型和一系列AIGC工具的全新产品类别。OpenAI推出的Sora无疑是AIGC近期的一大里程碑。在本报告中,我们重点介绍了Sora的核心技术、关键功能和现存技术限制、潜在商用案例,以及与其他市面主流图像/视频生成模型的对比。基于文生视频模型跨行业的商业落地的可能性,我们认为该市场潜力巨大。特别是在中国,随着政府公开强调透过科技创新加快形成新质生产力、培育新动能、推动国家高质量发展,我们认为,类Sora模型将受到众多企业和消费者的青睐,从而加速该项技术的货币化进程。因此,已经具备文字生成视频能力或储备了相关技术的中国科技公司有望从中受益。 大盘)、阿里巴巴(BABA US/9988 HK,跑赢大盘)和字节跳动也能够依靠生成式AI技术来赋能现有业务,并推出相关新功能来扩展商业的第二曲线。部分垂直领域公司亦利用AIGC技术丰富现有产品线,如网易(NTES US/9999 HK,跑赢大盘)的《蛋仔派对》。此外,还有一些AI科技公司正在开发类似Sora的AI工具或处于商业化早期阶段,包括因赛集团(300781CH)、虹软科技 (688088 CH)、 万 兴 科 技 (300624 CH)、 云 从 科 技(688327CH)及恒图科技等(以上A股公司均未评级)。 风险提示:(1)政策不确定性;(2)地缘政治加剧;(3)业内竞争加剧;(4)研发商业化失败或AI解决方案失效的风险;(5)AI潜在不正当使用,及造成(6)道德伦理争议。 Sora突破业界现有文生视频技术的瓶颈。Sora能够根据简单的文字提示生成长达一分钟的完整视频。纵然文本到视频的AI应用模式并不新鲜,从谷歌等科技巨头到Midjourney、Runway和Pika等新兴初创公司都已经率先发布了类似的AI工具和平台,但Sora惊人的写实性、对更长视频片段的生成能力、对文本指令和人类情感的深度解读,以及对运动和物理世界交互原理的超强模拟都使其在一众产品中脱颖而出。尽管Sora的技术领先性毋庸置疑,但也并非没有缺陷。OpenAI在技术报告中公开的失误示例包括一些基本交互(如玻璃杯倾倒破碎)的物理建模不准确,以及物体状态(如咬痕、笔迹)随时间的变化不一致等。随着业内追赶态势,我们预计市场上会出现更多类Sora的模型和产品,从而促进用户采用率和需求的进一步增长。 资料来源:彭博行业研究,建银国际证券 广阔市场潜力。我们看到文生视频模型在各个行业都具有广泛的应用空间,包括但不限于营销广告、研发培训、电商零售、文娱游戏等。随着技术的不断迭代和应用实践的进一步成熟,企业和个人将更倾向于采用此类AIGC工具来提高运营效率、便捷日常生活、丰富娱乐方式及推动创新发展,从而带来巨大的市场潜力。根据彭博行业研究的数据,在全球范围内,AIGC市场规模预计将从2023年的670亿美元跃升至2030年的8,970亿美元,这意味着该领域复合年增长率高达45%。对于中国市场,艾瑞咨询预计其产业规模或从2023年的143亿人民币增至2030年的11,441亿人民币,复合年增长率将达87%。 飞跃式AI发展的受益者。鉴于其成熟的技术储备和先发优势,我们维持百度(BIDU US/9888 HK,跑赢大盘)为中国人工智能的最佳投资标的观点。其他互联网巨头,如腾讯(700 HK,跑赢 资料来源:艾瑞咨询,建银国际证券 SORA突破业界瓶颈 人工智能(AI)在过去一年里以惊人的速度发展着,近期最大的进展则为OpenAI年初推出的文生视频大模型Sora。纵然Sora并不是文生视频领域的第一个模型,但其生成的样片具有超现实的品质和令人震撼的视觉效果,并展现出了明确的商业化潜力与应用路线,可谓是各个相关领域的颠覆者。因此,本报告将重点介绍Sora的核心技术、关键功能及短期内的技术缺陷,并展开讨论Sora同此前文生图及视频领域相关模型的主要区别和潜在应用范例,最后我们还将论述国内外科技巨头及AI初创公司在类似模型方面的开发进展。 Sora基本情况 据OpenAI于2024年2月介绍,Sora是其全新的AI文生视频模型,能够通过文本指令生成长达60秒的完整视频,预计最快24年内对公开放。Sora的底层模型同时基于扩散式模型(Diffusion)和自注意力深度学习机制(Transformer),其精神网络运作方式与ChatGPT相差无几。 简而言之,Sora先将视频片段完全转换至静态空间,随后再通过逐步去除噪音将该片段逆转至清晰的图片或视频。为达到此效果,Sora的训练引入了海量被称之为“补丁(patches)”的影像样本作为数据单元,并辅以对视频内容的纯文本解释,这有助于模型学习并理解每帧图像和视频内容之间的联系。在整个生成过程中,自注意力机制负责补丁的组织排列,扩散模型则帮助填充每个补丁的内容,从而将输入的文字指令同最终生成的视频连接起来。 资料来源:OpenAI官网 Sora功能介绍 文生视频功能:在指令框输入简单的文字形容后,Sora便能自动生成最多60秒的高清视频,且用户可以自由地通过更改关键词对生成的视频进行局部编辑。 【Prompt:atoy robotwearing agreen dress and a sun hattaking a pleasant stroll inJohannesburg,South Africaduring awinter storm.译文:一个穿着绿裙子戴着遮阳帽的玩具机器人愉快地迎着南非约翰内斯堡的暴风雪散步】 现有图片及视频编辑:除了文生视频的基本功能外,Sora还支持图片、视频或文字与二者结合的指令,使其能够被广泛应用于静态图片和现有视频的编辑工作,包括但不限于动态化图像、向前或向后扩展视频、更改现有场景及无缝过渡多个不同主题、构图的视频等。 【Prompt: In an ornate, historical hall, a massivetidal wave peaks and begins to crash. Two surfers,seizing the moment, skillfully navigate the face of the wave.译文:在一座华丽且古朴的大厅里,巨浪席卷至顶峰并开始衰退。两名冲浪者抓住机会熟练地迎着波浪滑行】 资料来源:OpenAI官网 资料来源:OpenAI官网 文生图功能:通过在单帧空间内排列补丁碎片,Sora也能够利用输入的文字指令生成至高2048x2048分辨率的静态图片,图像风格涵盖3D仿真角色、写实风景、卡通人物等。 资料来源:OpenAI官网 现实模拟能力:Sora在大规模训练过程中还衍生出许多新兴能力,使其能够在没有特别指令的情况下,自行对某些现实物理世界中的人、动物和环境进行模拟。因此,Sora拥有在三维空间内生成动态连续物体的能力,并遵循物理规律对人物和关键物体的简单互动进行预测,如在画布上留下笔迹、在咬过的汉堡上留下齿痕等。同时,Sora还被应用于模拟数字世界,如通过输入包含“我的世界(Minecraft)”相关游戏的文字指令,渲染出与其极其相似的高保真度数字世界,且影像视角能够跟随玩家控制自然移动。 资料来源:OpenAI官网 Sora关键优势 从全球市场角度看,众多互联网巨头和初创公司都在文生视频领域深耕多年,已经将多个成熟产品投入市场,主流扩散式文生图/视频模型代表有PikaLab旗下的Pika1.0、Runway旗下的Gen-2、StabilityAI旗下的StableVideoDiffusion和Midjourney的MidjourneyV6等。但与海外现有主流文生视频模型相比,OpenAI称Sora在生成视频的质量和时长、用户体验以及对指令的理解能力等方面都拥有更为惊艳的表现。 更深入准确的指令理解能力。不同于Pika1.0和Gen-2等搭建在单一扩散式模型上,Sora通过融合Transformer框架获得了深度自我学习的能力,其生成的视频质量能够随着训练次数的增加而显著提高。因此,Sora一旦上线,用户贡献的素材内容能够进一步丰富其数据资源和训练样本,从而生成质量更高的视频片段。 OpenAI还将DALL·E 3的重描述技术(re-captioning)融入了Sora的再训练过程,确保其训练素材具有更高层次的细节描述。Sora还借助GPT-4,将用户输入的关键词转化为更长篇幅的文字段落,使其语义理解更透彻全面。而目前Pika1.0和Gen-2都有不同程度的指令理解障碍,如缺乏动态表现、生成错误对象或动作、缺失指令要素等。 【Prompt: A littleofgolden retriever puppies playing in the snow. Their heads pop out of snow, coveredin.译文:一群金毛犬幼崽在雪里玩耍,它们的头探出来并被覆盖在雪里】 更长的视频时长。受限于算力和数据集,此前文生视频模型大多只能生成20秒内的短视频片段,如Pika(3-15秒)、Gen-2(18秒)、StableVideo(7秒)等。但Sora能够一次性生成长达60s的连续视频,几乎是现有主流模型生成能力的3倍有余,进一步拓展了文生视频的应用可能性。 更高的融合度和连续性。得益于模型的底层算法设计和高质量的描述训练,Sora相互嵌入的视觉补片将其包含的信息紧密相连,实现历代级的连贯性突破。因此Sora在模拟多镜头切换时可以保持角色和风格的一致性,具体表现为物体被遮挡也不会发生形变。 资料来源:AI VideoSchool,YouTube 此外,早先文生视频模型的拓展功能仅局限于向后扩写或向外扩充画面,而Sora展现了独有的双向延展性,即为现有剪辑生成无缝前奏或后续,甚至是制作无限循环的视频,确保了故事讲述更大的深度和完整度。 资料来源:OpenAI官网 卓越的视频质量和保真度。此外,Sora还进一步学习了三维空间的物理联系和规律,生成画面的保真度和物体运动的流畅度相比其他同类模型实现了质的飞跃。无论是对毛发、肌理、表情等细节的写实,还是对光影、神态、跑跳等复杂动态的刻画,Sora都具有更高水平的“真实感”。对比之下,Pika和Stable Video更擅长并倾向于绘制动画等非写实风格,而Gen-2渲染的视频的保真度虽然同Sora相近,但其生成的画面大多为简单的慢速运动或单纯的视角位移,很难完全模拟真实的物理世界。 资料来源:AIVideoSchool,AIFactory,YouTube 更灵活的采样及导出。过去的图像和视频生成大多需要调整或裁剪素材,以适应特定模型的尺寸要求,如Runway的Gen-2只能容纳或产出1920x1080尺寸的视频。即使Pika更新后允许用户自行选择导出视频的画布比例,但新增的4个固定横纵比的画布裁剪仍然无法有效解决框定尺寸下的画面缺失问题。而由于前期训练全部基于视频的原始尺寸,Sora支持采样及生成横纵比在1920x1080和1080x1920之间的任何比例、像素、分辨率,也因此能够通过导出较小分辨率的原尺寸视频来节省预览所需的渲染时长。 资料来源:Pika官网,CSDN Sora对 现 实 世 界 的 模 拟程度 也 能 从 与在文 生 图 领 域 大 放 异 彩 的Midjourney的比 较 中得 出。MidjourneyV6生成的写实图片仍保有较高的艺术渲染,如过度饱和的灯光、色彩等,依旧留有较为明显的A