chenjunxi@gtjas.com AI绘画是AIGC的重要分支,跨模态生成是该项技术发展的关键节点。AIGC是基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术,可以看做是继PGC、UGC之后的内容产出方式,AI绘图属于AIGC技术场景中的分支。目前在该项技术上保持领先的主要是NVIDIA、Google等国外大厂,跨文字和图像的多模态内容生成技术的实现成为AI绘画关键的发展节点。 相关报告 传播文化业《电商双十一预售开启,全球手游下载基本持平》 2022.10.30 AI绘画作品获奖成导火线,Diffusion模型为当前主流。AI绘画作品《太空歌剧院》在美国一场人类艺术比赛中获第一名成为近期AI绘画受到高度关注的导火线,通过《Midjourney》软件生成的绘画作品丝毫不输艺术家的创作成果。而基于Diffusion模型设计的《Disco Diffusion》、《Stable Diffusion》、《DALL·E2》等多款AI绘图应用成为目前主流产品。同时《Dream by Wombo》等手机App的上架使得AI绘画从专业度较高的产品向大众化应用转变。 传播文化业《Q3剧综减量提质,文化综艺崛起、古装剧升温》 2022.10.23 传播文化业《Quest Pro发布,全彩透视MR功能突出》 2022.10.15 传播文化业《VR出货量或加速,内容有望迎来拐点》 2022.10.09 商业化潜力尚待发掘,有望参与10%-30%的图像内容生成工作。当前AI绘画的用户付费意愿不强,60%的用户从未在AI绘画相关方面付费,在C端付费形式刺激度较低的情况下,未来B端或将成为AI绘画软件的核心客户。但同时,AI绘画也面临版权问题,绝大多数原创作品的版权拥有者会介意AI提取自身作品的部分元素。从市场规模来看,未来五年或将有10%-30%的图片内容由AI参与生成,相应或将有600亿以上的市场规模。 传播文化业《国庆档观影人数略低于预期,PICO 4开启大众化之路》 2022.10.08 跨模态或更进一步,下一代互联网望成AI绘画关键着力点。以VR设备等新型硬件为入口的下一代互联网,2D向3D的转换对于内容量的需求或成指数级上升,这其中AI将成为重要辅助。目前,GAN模型和NeRF模型均已能实现单张2D图像向3D模型的生成,并且动态、场景、光影效果等3D图像所需的要素均已有了明显进步。在此基础上,文字向2D图像生成,进而向3D模型的生成或有望实现,该项技术不仅在游戏等行业能得到有效应用,对于下一代互联网各种元素的构建亦有关键意义。因此,AI绘画或不是结果,而只是AI进程中的一块重要拼图,有望在技术更新的加持下实现更大的应用价值。 风险提示:AI绘画相关技术发展不及预期,商业化拓展低于预期。 1.AI绘画横空出世,新技术奠定跨模态成熟 1.1.AIGC重要分支,有望率先落地 AIGC全称AI-Generated Content,是基于生成对抗网络GAN、大 型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的 泛化能力生成相关内容的技术,AI绘图属于AIGC技术场景中的分支。 目前,AIGC正在完成从简单的降本增效向创造额外价值升级,跨文字 和图像的多模态内容成为关键的发展节点。并且,AIGC已经成为PGC 和UGC之后新内容创作模式,具备较大的商业前景。 图1:AI绘图属于AIGC技术场景中的分支 从AIGC的参与者来看,目前国外大厂及细分赛道龙头公司已位居世界 前列,国内部分公司也在奋起直追。例如NVIDIA、Google、Amazon 等公司通过自研或收购的方式已走在技术前沿,图像、视频等细分领域 也有诸多小龙头诞生。国内布局最多的赛道是AI写作和语音合成,图像、视频等领域的初创公司不断增加。未来随着国内AIGC技术不断成 熟,大公司收购可能为成为主流现象,将部分初创公司的先进技术结合 进已然成熟的内容体系中,从而生成可供直接应用的消费形式,进而在 多种场景中实现应用。 图2:我国AIGC产业链基本形成 1.2.跨模态生成为主流,文字到图像基本成熟 AI绘画初代实现形式为GAN(Generative Adversarial Nets,生成 式对抗网络),最初是图像到图像的生成过程。GAN模型由生成器和判 别器两部分组成,生成器将抓取数据、产生新的生成数据,并将其混入 原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以 超过50%的准确度分辨出真实样本。以NVlabs的SPADE为例,用户 提供草图,由GAN将其转化为真实的风景图像。但在这类模型里,用户无法通过文本影响生成结果。 图3:初代GAN通过草图生成真实画像 升级后的模型加入CLIP的“指导”,可以实现跨模态的图文生成,使用 户能以文字辅助AI作画。例如VQGAN+CLIP或StyleCILP,均是因为 CLIP打通文本和图形域,使用户输入的文本和GAN生成的结果有了可 比性,从而通过计算二者的误差来达到用户真正想要的结果。 图4:CLIP和GAN通过基础图像加文字描述优化结果生成 但GAN也有诸如训练不稳定、生成样本大量重复相似、图像压缩等问 题需要解决。这也使得扩散模型Diffusion model快速崛起,甚至有望超过GAN。Diffusion其实是早于GAN被提出的,但因为Diffusion 依赖大模型实现,所以对大部分用户的进入门槛较高,研究者也不多。 直到2021年,因为Disco Diffusion、DALL·E2、Imagen AI等, Diffusion才开始被更多人了解。 Diffusion最初受到热力学概念的启发,扩散模型通过增加噪声破坏训 练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。一旦 经过训练,扩散模型就可以应用这些去噪方法从随机输入中合成新颖的 “干净”数据。相比GAN,Diffusion模型在所需数据更少的情况下, 图像生成效果有明显提升。 图5:扩散模型原理 Diffusion模型的代表是Disco Diffusion,最初是搭载在Google Colab上,特点是擅长抽象画面,但在具象生成和较多的描述语句上效 果较差。后续出现的DALL·E2和ImagenAI对文本指令的还原度更高, 但前者技术上是CLIP模型和Diffusion模型的结合,后者是由纯语言模 型(T5-XXL)实现文字到图像的转换。 图6:在Imagen AI输入“一只非常快乐的毛茸 熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一副画了鲜花的画”的文字后生成的图像 图7:在Imagen AI输入“带着宇航员头盔,在深夜眺望窗外的浣熊”的文字后生成的图像 1.3.AI绘画作品获人类美术比赛第一名,大规模应用或在朝夕 近期AI绘画受到高度关注的导火线在于一副AI绘画作品《太空歌剧院》 在以人类绘画作品为主的美国科罗拉多州博览会的美术比赛获得第一 名,从而引起对AI绘画的争议。该作品通过Midjourney生成,获奖 者在AI绘图的基础上对作品进行调整。Midjourney上手难度很低,有 较强的商业价值,近期《经济学人》杂志也用Midjourney生成的图片 做了封面。前期AI绘画生成,后期通过PS调整,作画效率将会大大提 升。通过《太空歌剧院》获奖这一事件,AI绘画的大规模应用或已到黎 明期。 图8:AI绘画《太空歌剧院》获得美国科罗拉多州博览会美术比赛的第一名 目前,AI绘画已不局限于PC端,且对显卡的要求也不再是创作的限制, 在iOS和安卓系统均上线多款AI绘画App。其中,iOS App Store最 热门的AI绘画App为《Dream by Wombo》,截止2022年上半年, 平台用户已创作出一千万以上的画作,该App的安卓版本在上架一个 月的时间内,下载量超过一百万次。 图9:iOS和安卓系统均有较多AI绘画App上线 《Dream by Wombo》操作页面可视化程度高,上手难度低,且CLIP 模型的随机性能保证不会生成两个相同的作品。用户在在平台上输入各 种与风格、主题、氛围有关的关键词后,AI就会根据这些关键词在互联 网上搜索有关的资源素材,并将其糅合与拼接成一些符合要求的画作, 同时还有多种艺术风格可以选择。CLIP的加持使得同一关键词会随机生 成不同图像,这使得所有用户都能创作出独一无二的作品。 图10:《Dream by Wombo》对于同一关键词会随机生成不同图像 2.AI绘画元年,在下一代互联网望大放异彩 2.1.AI绘画黎明将至,商业化潜力仍待发掘 我国AI绘画用户主要是集中在一二线城市中的年轻人,这类人群更乐 意尝试新事物。根据6pen的调研,国内AI绘画用户年轻化特点明显, 46%的用户为大学生和研究生,18%的用户为初中生和高中生。而在地 域方面,北京占8.7%,深圳占7.8%,南方城市占比较北方更高。 图11:年轻人更乐意尝试AI绘画 图12:AI绘画的用户主要分布在一二线城市 而在用户行业分布方面,美术设计类和互联网工作为核心,这与AI绘 画的商业应用关系密切。根据6pen的调研,AI绘画的用户近半数为美 术设计类和互联网行业,AI绘画能辅助设计类工作的进展,同时对游戏 等互联网行业有所助益,这几类行业将是AI绘画模型的核心商业受众。 在使用的具体方式上,接近40%的用户依靠在线服务,早起AI绘画模 型对显卡的高要求导致部分配置无法较好的运行AI绘画系统,但随着 StableDiffusion、Midjourney等新应用的上架,对电脑配置的要求将 进一步降低。 图13:美术和设计及互联网行业从业人员使用AI绘画占比较高 图14:我国AI绘画多是使用在线服务 在AI绘画商业化方面,用户付费尚在摸索阶段,B端付费的可能性更 高,且通过AI绘画并不能获取较高的收入。根据6pen的调研,60% 的用户从未在AI绘画产品上有过付费行为,剩下40%的用户中,付费 超过100元占比仅10%。目前AI绘画的盈利方式较为单一,多为生成 图像的次数付费或者缩短生成时间付费等,在未大规模应用AI绘画之 前,C端用户目的性较弱的前提下付费意愿不强,但如若B端应用成熟, 付费的可能性相对更高。此外,AI绘画用户主要为了娱乐目的,只有极 少的用户能从中获得收入。 图15:AI绘画付费用户占比相对较低 图16:AI绘画用户主要为了娱乐目的 最后,在AI绘画的用户认知层面,已经有相当一部分用户认可AI绘画 对人类工作的助益,并且2022年更多用户开始接触AI绘画,或成为 AI绘画的元年。根据6pen的调研,虽然有42%的用户认为AI绘画仅 能满足娱乐需求,但有50%以上的用户认为AI绘画能替代一部分,甚 至完全颠覆目前的工作方式。随着多款低门槛的AI绘画产品在2022年 发布,多数用户开始接触AI绘画,2022年有望成为AI绘画元年。 图17:AI绘画未来或可以代替一部分工作 图18:50%的用户在2022H2开始接触AI绘画 2.2.应用更新迭代,有望成为图片内容生成重要辅助 具体到AI绘画产品 ,Disco Diffusion、Stable Diffusion、 Midjourney位列前三。Disco Diffusion作为成熟的AI绘画应用,用 户基础较好。Stable Diffusion于2022年8月下旬发布,技术门槛和 储备显卡成本均进一步下探,且有更多的风格化,更简易的训练框架, 迅速成为AI绘画热门应用。Midjourney依靠AI绘画作品获得人类美 术比赛一等奖而名声大噪。 图19:Disco Diffusion在我国是用户数最多的AI绘画产品 从艺术家的