您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[建银国际]:全球人工智能行业:AI重塑千行百业 - 发现报告
当前位置:首页/宏观策略/报告详情/

全球人工智能行业:AI重塑千行百业

2024-04-11陈咏娴建银国际文***
全球人工智能行业:AI重塑千行百业

本报告由建银国际证券有限公司撰写,分析师证明及其他重要声明请见报告最后一页。 1 AI重整商业运营的游戏规则。人工智能(AI)自ChatGPT于2022年11月问世后,正在以令人震撼的速度迭代发展着。世界见证了众多科技巨头和AI初创公司竞相推出底层大模型和一系列AIGC工具的全新产品类别。OpenAI 推出的Sora无疑是AIGC近期的一大里程碑。在本报告中,我们重点介绍了Sora的核心技术、关键功能和现存技术限制、潜在商用案例,以及与其他市面主流图像/视频生成模型的对比。基于文生视频模型跨行业的商业落地的可能性,我们认为该市场潜力巨大。特别是在中国,随着政府公开强调透过科技创新加快形成新质生产力、培育新动能、推动国家高质量发展,我们认为,类Sora模型将受到众多企业和消费者的青睐,从而加速该项技术的货币化进程。因此,已经具备文字生成视频能力或储备了相关技术的中国科技公司有望从中受益。 Sora突破业界现有文生视频技术的瓶颈。Sora能够根据简单的文字提示生成长达一分钟的完整视频。纵然文本到视频的AI应用模式并不新鲜,从谷歌等科技巨头到 Midjourney、Runway 和 Pika 等新兴初创公司都已经率先发布了类似的AI工具和平台,但Sora惊人的写实性、对更长视频片段的生成能力、对文本指令和人类情感的深度解读,以及对运动和物理世界交互原理的超强模拟都使其在一众产品中脱颖而出。尽管Sora的技术领先性毋庸置疑,但也并非没有缺陷。OpenAI在技术报告中公开的失误示例包括一些基本交互(如玻璃杯倾倒破碎)的物理建模不准确,以及物体状态(如咬痕、笔迹)随时间的变化不一致等。随着业内追赶态势,我们预计市场上会出现更多类 Sora 的模型和产品,从而促进用户采用率和需求的进一步增长。 广阔市场潜力。 我们看到文生视频模型在各个行业都具有广泛的应用空间,包括但不限于营销广告、研发培训、电商零售、文娱游戏等。随着技术的不断迭代和应用实践的进一步成熟,企业和个人将更倾向于采用此类AIGC工具来提高运营效率、便捷日常生活、丰富娱乐方式及推动创新发展,从而带来巨大的市场潜力。 根据彭博行业研究的数据,在全球范围内,AIGC市场规模预计将从2023年的670亿美元跃升至2030年的8,970亿美元,这意味着该领域复合年增长率高达45%。 对于中国市场,艾瑞咨询预计其产业规模或从2023年的143亿人民币增至2030年的11,441亿人民币,复合年增长率将达87%。 飞跃式AI发展的受益者。鉴于其成熟的技术储备和先发优势,我们维持百度(BIDU US/9888 HK,跑赢大盘)为中国人工智能的最佳投资标的观点。其他互联网巨头,如腾讯(700 HK,跑赢大盘)、阿里巴巴(BABA US/9988 HK,跑赢大盘)和字节跳动也能够依靠生成式AI技术来赋能现有业务,并推出相关新功能来扩展商业的第二曲线。部分垂直领域公司亦利用AIGC技术丰富现有产品线,如网易(NTES US/9999 HK, 跑赢大盘)的《蛋仔派对》。此外,还有一些AI科技公司正在开发类似Sora的AI工具或处于商业化早期阶段,包括因赛集团(300781 CH)、虹软科技(688088 CH)、万兴科技(300624 CH)、云从科技(688327 CH)及恒图科技等 (以上A股公司均未评级)。 风险提示:(1) 政策不确定性;(2) 地缘政治加剧;(3) 业内竞争加剧;(4) 研发商业化失败或AI解决方案失效的风险;(5) AI潜在不正当使用,及造成(6) 道德伦理争议。 生成式人工智能市场规模及预测– 全球 资料来源: 彭博行业研究, 建银国际证券 生成式人工智能产业规模及预测– 中国 资料来源: 艾瑞咨询,建银国际证券 0%2%4%6%8%10%12%14%02,0004,0006,0008,00010,00012,00014,0002020202120222023202420252026202720282029203020312032生成式AI收入(左轴)占科技总支出(右轴)亿美元2023-2030年复合增长率45%0%2%4%6%8%10%12%14%16%18%20%02,0004,0006,0008,00010,00012,00014,000202220232024202520262027202820292030AIGC产业规模(左轴)中国占全球市场份额(右轴)亿元%2023-2030年复合增长率87%科技 | 2024年4月11 日 全球人工智能行业 AI重塑千行百业 ► Sora多方面突破行业瓶颈,业内追赶态势助推市场需求 ► AIGC应用赋能跨行业发展新征程 ► 至2030年,全球/中国相关市场复合增长率达45%/87%,潜力巨大 陈咏娴 (852) 3911 8271 cathychan@ccbintl.com 全球人工智能行业 | 2024年4月11 日 建银国际证券 2 SORA突破业界瓶颈 人工智能 (AI) 在过去一年里以惊人的速度发展着,近期最大的进展则为OpenAI年初推出的文生视频大模型Sora。纵然Sora并不是文生视频领域的第一个模型,但其生成的样片具有超现实的品质和令人震撼的视觉效果,并展现出了明确的商业化潜力与应用路线,可谓是各个相关领域的颠覆者。因此,本报告将重点介绍Sora的核心技术、关键功能及短期内的技术缺陷,并展开讨论Sora同此前文生图及视频领域相关模型的主要区别和潜在应用范例,最后我们还将论述国内外科技巨头及AI初创公司在类似模型方面的开发进展。 Sora基本情况 据OpenAI于2024年2月介绍,Sora是其全新的AI文生视频模型,能够通过文本指令生成长达60秒的完整视频,预计最快24年内对公开放。Sora的底层模型同时基于扩散式模型(Diffusion)和自注意力深度学习机制(Transformer),其精神网络运作方式与ChatGPT相差无几。 简而言之,Sora先将视频片段完全转换至静态空间,随后再通过逐步去除噪音将该片段逆转至清晰的图片或视频。为达到此效果,Sora的训练引入了海量被称之为“补丁(patches)”的影像样本作为数据单元,并辅以对视频内容的纯文本解释,这有助于模型学习并理解每帧图像和视频内容之间的联系。在整个生成过程中,自注意力机制负责补丁的组织排列,扩散模型则帮助填充每个补丁的内容,从而将输入的文字指令同最终生成的视频连接起来。 图表1:Sora由文字指令生成的60秒视频样片 【Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. 译文:一位时髦女士穿着黑色皮夹克、红色长裙和黑靴子,在充满霓虹灯和城市标志的东京街头行走。她戴着墨镜并涂抹了红色口红,手提黑色手袋,自信而随意地走着。街道潮湿且有反光,灯光色彩斑斓,在地面形成镜像效果,街上人来人往。】 资料来源:OpenAI官网 全球人工智能行业 | 2024年4月11 日 建银国际证券 3 Sora功能介绍 文生视频功能:在指令框输入简单的文字形容后,Sora便能自动生成最多60秒的高清视频,且用户可以自由地通过更改关键词对生成的视频进行局部编辑。 图表2:Sora通过更改文字指令中的关键词生成的不同视频片段 【Prompt: a toy robot wearing a green dress and a sun hat taking a pleasant stroll in Johannesburg, South Africa during a winter storm. 译文:一个穿着绿裙子戴着遮阳帽的玩具机器人愉快地迎着南非约翰内斯堡的暴风雪散步】 【Prompt: A woman wearing purple overalls and cowboy boots taking a pleasant stroll in Antarctica during a beautiful sunse. 译文:一个穿着紫色连体裤和马丁靴的女人愉快地迎着南极洲的美丽落日散步】 【Prompt: An old man wearing blue jeans and a white t-shirt taking a pleasant stroll in Mumbai, India during a colorful festival. 译文:一个穿着白色T恤和蓝色牛仔裤的老人愉快地迎着印度孟买的多彩庆典中散步】 资料来源:OpenAI官网 现有图片及视频编辑:除了文生视频的基本功能外,Sora还支持图片、视频或文字与二者结合的指令,使其能够被广泛应用于静态图片和现有视频的编辑工作,包括但不限于动态化图像、向前或向后扩展视频、更改现有场景及无缝过渡多个不同主题、构图的视频等。 全球人工智能行业 | 2024年4月11 日 建银国际证券 4 图表3:Sora基于DALL·E 3图像及文字指令生成的视频 【Prompt: In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave. 译文:在一座华丽且古朴的大厅里,巨浪席卷至顶峰并开始衰退。两名冲浪者抓住机会熟练地迎着波浪滑行】 资料来源:OpenAI官网 图表4:Sora无缝拼接无人机及海底蝴蝶视频 资料来源:OpenAI官网 文生图功能:通过在单帧空间内排列补丁碎片,Sora也能够利用输入的文字指令生成至高2048x2048分辨率的静态图片,图像风格涵盖3D仿真角色、写实风景、卡通人物等。 图表5:Sora根据简单文字指令生成的高清图片 资料来源:OpenAI官网 现实模拟能力:Sora在大规模训练过程中还衍生出许多新兴能力,使其能够在没有特别指令的情况下,自行对某些现实物理世界中的人、动物和环境进行模拟。因此,Sora拥有在三维空间内生成动态连续物体的能力,并遵循物理规律对人物和关键物体的简单互动进行预测,如在画布上留下笔迹、在咬过的汉堡上留下齿痕等。同时,Sora还被应用于模拟数字世界,如通过输入包含“我的世界(Minecraft)”相关游戏的文字指令,渲染出与其极其相似的高保真度数字世界,且影像视角能够跟随玩家控制自然移动。 全球人工智能行业 | 2024年4月11 日 建银国际证券 5 图表6:Sora对现实物理世界和数字世界的模拟能力 资料来源:OpenAI官网 Sora关键优势 从全球市场角度看,众多互联网巨头和初创公司都在文生视频领域深耕多年,已经将多个成熟产品投入市场,主流扩散式文生图/视频模型代表有Pika Lab旗下的Pika1.0、Runway旗下的Gen-2、StabilityAI旗下的Stable Vid