您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:AIGC应用、商业化及受益标的:新生产工具落地,近期即可展望变现 - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC应用、商业化及受益标的:新生产工具落地,近期即可展望变现

文化传媒2023-02-10赵琳华西证券别***
AIGC应用、商业化及受益标的:新生产工具落地,近期即可展望变现

新生产工具落地,近期即可展望变现——AIGC应用、商业化及受益标的华西传媒互联网团队证券分析师:赵琳SAC NO:S11205200400032023年2月10日请仔细阅读在本报告尾部的重要法律声明证券研究报告|行业深度研究报告内容产业专题之二: 核心观点2以ChatGPT为代表的AIGC应用落地,标志着内容行业新生产工具的诞生AIGC,即通过人工智能自动生成内容。我们梳理AIGC技术的发展历程,判断其广泛应用前的技术积累已经基本完成,开源社区繁荣使得进入壁垒集中于数据及算力,目前海内外已经形成了“数据供给→模型定制→内容分发”的完整产业链。截至2023年2月,OpenAI研发的对话机器人ChatGPT已积累一亿月活,成为了史上用户增长最快的消费应用,我们认为ChatGPT的广泛应用,标志着AIGC规模化、商业化应用的开始,人类的内容生产习惯将被改变,随着B、C两端的快速普及,AI创作生产内容将成为下一阶段的重要内容生产方式。B端/C端商业化条件成熟,具备短期落地潜力行业已经具备大规模商业化条件:1)从供给端看,现有技术成熟度已经能够大规模辅助用户进行内容生产,下游供给多点开花,遍及AI绘画、AI写作、AI视频等;2)从需求端看,文娱碎片化、轻量化趋势下,行业逻辑接近快消品,用户消费需求指数级增长,消费形态升级(图文→视频),传统生产方式下行业成本压力加剧,急需降本增效。我们判断ToB、ToC两端的商业化条件已完备,并给出如下展望:1)B端(出售API接口/移植模型):瞄准进行高频、大规模内容生产的细分场景,为平台提供定制化模型服务,游戏、数字人领域受益短期内即能看到。2)C端(大众应用):大厂将定制化模型嵌入搜索、办公等成熟应用,利用庞大用户流量挖掘附加价值;此外随着订阅费用的调整,个人创作者直接订阅AIGC应用将更为普遍。投资建议:关注兼具数据、算力及流量优势的厂商&先发布局标的国产替代机会更多存在于兼具中文数据资源、算力及流量分发话语权的企业中,考虑到手握C端流量的大厂技术布局已经相当完备,格局被颠覆的可能性并不高。我们重点关注同时布局AIGC生产及消费领域的互联网平台,料长期主义布局下公司将结构性受益,推荐1)百度:国内AIGC领域发力最早,投入最多,研发成果最丰富的企业,三月其类ChatGPT项目“文心一言”将完成内测并对公众开放。2)腾讯:掌握下游分发话语权,自研“混元”AI大模型已被广泛应用到广告创作、广告检索、广告推荐等腾讯业务场景中,内容、广告及云业务将直接受益;3)网易:AIGC已被引入游戏研发流程,重磅储备《逆水寒手游》上线在即。同时关注已在视频、营销、阅读等相关细分领域抢跑的重点标的,预计先发优势下应用端的推进将更快反映至业绩。推荐1)数码视讯;2)捷成股份;3)风语筑;4)浙文互联。风险提示:AIGC自身存在的伦理、版权、安全等风险;AIGC相关产品上线节奏不及预期风险;监管风险。 目录301 AIGC:新生产工具的诞生02 变现:B端/C端商业化条件成熟,长期想象空间大03 投资建议:关注兼具数据、算力及流量优势的厂商&先发布局标的04 风险提示 401AIGC:新生产工具诞生 1.1 AIGC:人工智能生成内容,Web3时代的生产工具AIGC(AIGeneratedContent),即通过人工智能自动生成内容,具体指基于大型语言模型LLM、生成对抗网络GAN等深度学习技术,输入数据后由人工智能生成相关内容。目前AIGC已进入成长期,AI生成图像、文字、代码、音乐等领域均已有相关应用落地,我们认为随着B、C两端的快速普及,AI创作生产内容将成为下一阶段的重要内容生产方式。资料来源:ChatGPT、华西证券研究所图:AI生成内容的流程数据准备使用机器学习算法(如神经网络、随机森林等)对,模型进行训练,让模型学会生成与人类相似的内容。模型训练生成内容评估效果模型优化准备大量的可供训练的数据,如文本、图像、音频等,并对其进行预处理。通过模型的预测接口,向模型输入指定的模板和数据,获得生成的内容。评估生成的内容与实际创作要求的差异。根据评估效果对模型进行优化,提高生成内容的质量。专业人士生产内容PGC用户生产内容UGCAI辅助用户生产内容AIUGCAI生产内容AIGC图:内容创作模式的演变猜想 资料来源:公开资料整理、华西证券研究所图:从机器学习角度看AIGC发展历程,相关技术已经基本成熟卷积神经网络CNN递归神经网络RNN残差网络ResNet建立长距离的dependency→并行计算能力基础架构模型的深度和参数量指数级增加模型深度与结果开始具有相关性模型框架变分自编码器VAE深度神经网络DNN大型语言模型LLMGPT-1GPT-2GPT-3ChatGPTTransformer生成对抗网络GAN流生成模型flow/glow扩散模型Diffusion落地应用AI换脸AI生成图像AI生成音频人工智能对话型机器人人工智能生成内容的基础理论,它模拟了人脑的神经网络,从而实现了人工智能的生成内容。神经网络大数据自然语言处理计算机视觉人工智能生成内容的基础,对生成内容的质量和效果有着重要的影响。通过对人类语言的理解和处理,从而实现人工智能生成内容。通过模拟人类视觉系统的功能,对图像及视频进行处理。图:AIGC的四大技术基础1.2 当下为何关注AIGC:落地前的技术积累已经基本完成 ChatGPT实现了从技术提升到技术突破的转变。此前残差网络及Transformer的出现使得模型的深度和参数量指数级增加,大模型成为可能,AIGC应用飞速发展;大语言模型出现后,大模型的使用方式从预训练的单一任务模型迭代到多模态模型,微调时所需的标注数据量显著减少,从而降低了业务的使用成本。在此基础上,2022年11月,OpenAI上线了机器人对话模型ChatGPT(GPT-3.5),新模型参数量为1750亿(人脑神经元数量为120-140亿),远超此前模型的参数量。ChatGPT引入了RLHF(基于人类反馈的强化学习),能够在大部分领域与人类进行持续的语言交互,实现了历史性的突破。ChatGPT标志着AIGC规模化、商业化应用的开始,人类的内容生产习惯将被改变。尽管此前StableDiffusion、Midjourney等AI绘画应用已经落地,但注册及使用门槛仍相对较高。ChatGPT的对话机器人属性及免费试用窗口期使其能够广泛触达用户,瑞银数据显示上线两月用户数已突破一亿,系目前用户增长最快的消费应用,2023年1月推出付费订阅版,每月价格20美元。我们认为,ChatGPT之于OpenAI,可以对标AlphaGo和AlphaFold之于DeepMind,开启了AIGC认知普及的一大步,是AIGC内容批量规模化生产的起点。资料来源:OpenAI,华西证券研究所1.3 当下为何关注AIGC:ChatGPT诞生,催化AIGC商业化价值图:ChatGPT实现路径步骤1:收集数据,监督学习步骤2:建立训练汇报模型步骤3:强化学习(PPO算法)引入监督学习,提高模型认知能力解释巩固学习到六岁阶段进行数据标注公司给予信任和惩罚在教授过程“提示学习”算法雇佣标注工使用监督学习,对GPT-3.5进行微调Q:如何向一个六岁的孩子解释强化学习?强化学习的目标是...奖励机制是...在机器学习过程中,,,围棋...一个提问对应多个回答标注者将回答从最好到最差排序该过程中产生的数据用于训练奖励模型写一个关于水獭的故事一个新提问初始化策略模型进行输出奖励模型对输出进行评价该评价用于更新策略模型的参数(基于PPO算法)图:ChatGPT的技术突破点在于引入了RLHF(基于人类反馈的强化学习)很久很久以前... 1.4 AIGC的进入壁垒:开源降低行业技术门槛,但大模型对数据及算力需求极高AIGC本身的技术门槛并不高。大模型的涌现和指数级的能力迭代,开源社区的繁荣、API接口的大量开发和开放(ChatGPT即为开放平台),使AIGC应用对新进入者较为友好。此外大模型的泛化能力和通用性极强,无需对场景和模型重复训练(即Zero-shot),由此而来的低成本准入门槛、数据飞轮效应和广泛的场景适应能力,都一定程度降低了行业的技术壁垒。但大模型对数据量及算力的海量需求,使得头部大厂的规模优势更加突出。模型是当下主流AIGC应用的核心基础,训练和运行模型都需要庞大的数据量和算力成本(资金)。1)数据需求:模型性能与数据量、数据质量紧密相关,文献显示即使是拥有130亿参数的模型(仅次于拥有1750亿的GPT-3完整版模型)处理二位数加减法的准确率也只有50%左右,处理其他运算的准确率还不到10%。2)算力花费:GPT3.5的训练使用了微软专门建设的AI计算系统,由1万个V100GPU组成的高性能网络集群,总算力消耗约3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。资料来源:OpenAI,英伟达,华西证券研究所图:深度学习模型的算力需求指数级增长图:GPT3的8个模型一共使用了3000 亿token 1.5 现有产业链拆解:数据供给→模型定制→内容分发数据标记数据预处理上游:数据供给数据收集二次开发定制化模型训练深度学习模型中游:模型开发与定制算法开发内容分发平台内容创作应用服务商下游:应用与分发内容生产厂商收集大量原始数据并对其进行预处理,以便提供给模型训练。1)使用注释数据开发和训练AI 模型以生成内容;2)在垂直细分领域进行模型的二次开发,以便适应定制化需求。1)协助用户使用模型和算法生成内容,如图像、文本、语音等。2)将生成的内容分发到各种渠道,如社交媒体、娱乐平台、新闻媒体等。文本图像音频视频代码邮件撰写会议纪要文案策划对话聊天绘画生成AI换脸画作修复广告制作AI编曲AI配音有声播客会议还原智能渲染视频剪辑素材匹配特效生成代码生成代码纠错代码优化App制作BERT(语言理解与生成)Bard(聊天机器人)Florence(视觉识别)Turing-NLG(对话系统)OPT-175B(视觉识别)M2M-100(语言理解、生成)Gato(多模态)Gopher(语言理解、生成)AlphaCode(代码生成)Megatron-Turing NLG(语言理解、生成、推理)ChatGPT(语言理解、生成、推理)CLIP&DALL-E(图像生成)Stable Diffusion(语言理解与图像生成) 1.6 评估AIGC的政策风险:数据、算法规范已逐步完善,当前责任集中于平台自查AIGC目前存在版权、伦理、数据安全等风险点。AI模型通常是通过预先存储的大量数据训练得到的,因此其中可能存在错误、偏见或不准确的信息。1)版权:AI模型可能侵犯到他人的版权,如通过复制或抄袭别人的作品创建文本。2)伦理:AI模型可能存在伦理风险,例如造成误导、歧视或侵犯个人隐私。3)数据安全:当存储或处理敏感信息时,存在数据泄露、被窃取等安全风险。数据及算法领域此前已经经历过一轮密集规范,相关细则已经相对完善,叠加2021年以来数字经济相关政策利好陆续释放,我们判断产业初创期相关的政策态度趋于包容,目前审核责任更多集中于平台对语料库的自查。资料来源:公开资料整理,华西证券研究所条例细则《民法典》、《国家安全法》、《数据安全法》、《网络安全法》、《个人信息保护法》数据分类分级实行公共数据、企业数据、个人数据分类分级界定,明确各级数据监管范围数据采集平台方强化信息采集限制、用户方明确数据处置权利将数据要素流通市场纳入监管范畴,优化数据交易市场机制,提升市场化水平数据流通数据管理维护国家数据安全、审慎规范数据使用,压实平台管理责任《网络安全审查办法》、《云计算服务安全评估办法》、《关键信息基础设施安全保护条例》、《互联网信息服务算法推荐管理规定》、《关键信息基础设施安全保护条例(征求意见稿)》、《企业数据资源相关会计处理暂行规定(征求意见稿)》、《数据出境安全评估申报指南(第一版)》、《关于修改〈中华人民共和国网络安全法〉的决定(征求意见稿)》