您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:传媒互联网行业深度研究报告:内容产业专题之二,AIGC应用、商业化及受益标的,新生产工具落地,近期即可展望变现 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒互联网行业深度研究报告:内容产业专题之二,AIGC应用、商业化及受益标的,新生产工具落地,近期即可展望变现

信息技术2023-02-10华西证券李***
传媒互联网行业深度研究报告:内容产业专题之二,AIGC应用、商业化及受益标的,新生产工具落地,近期即可展望变现

新生产工具落地,近期即可展望变现——AIGC应用、商业化及受益标的华西传媒互联网团队证券分析师:赵琳SAC NO:S11205200400032023年2月10日请仔细阅读在本报告尾部的重要法律声明仅供机构投资者使用证券研究报告|行业深度研究报告内容产业专题之二: mNtQpPoOuMqOqNmQmMnRtQ9P8QbRpNpPsQpMfQoOmOeRoPpN6MqRpMvPsQtNNZqNpR目录301 AIGC:新生产工具的诞生02 变现:B端/C端商业化条件成熟,长期想象空间大03 投资建议:关注兼具数据、算力及流量优势的厂商&先发布局标的04 风险提示 401AIGC:新生产工具诞生 1.1 AIGC:人工智能生成内容,Web3时代的生产工具AIGC(AIGeneratedContent),即通过人工智能自动生成内容,具体指基于大型语言模型LLM、生成对抗网络GAN等深度学习技术,输入数据后由人工智能生成相关内容。目前AIGC已进入成长期,AI生成图像、文字、代码、音乐等领域均已有相关应用落地,我们认为随着B、C两端的快速普及,AI创作生产内容将成为下一阶段的重要内容生产方式。资料来源:ChatGPT、华西证券研究所图:AI生成内容的流程数据准备使用机器学习算法(如神经网络、随机森林等)对,模型进行训练,让模型学会生成与人类相似的内容。模型训练生成内容评估效果模型优化准备大量的可供训练的数据,如文本、图像、音频等,并对其进行预处理。通过模型的预测接口,向模型输入指定的模板和数据,获得生成的内容。评估生成的内容与实际创作要求的差异。根据评估效果对模型进行优化,提高生成内容的质量。专业人士生产内容PGC用户生产内容UGCAI辅助用户生产内容AIUGCAI生产内容AIGC图:内容创作模式的演变猜想 图:从机器学习角度看AIGC发展历程,相关技术已经基本成熟卷积神经网络CNN递归神经网络RNN残差网络ResNet建立长距离的dependency→并行计算能力基础架构模型的深度和参数量指数级增加模型深度与结果开始具有相关性模型框架变分自编码器VAE深度神经网络DNN大型语言模型LLMGPT-1GPT-2GPT-3ChatGPTTransformer生成对抗网络GAN流生成模型flow/glow扩散模型Diffusion落地应用AI换脸AI生成图像AI生成音频人工智能对话型机器人人工智能生成内容的基础理论,它模拟了人脑的神经网络,从而实现了人工智能的生成内容。神经网络大数据自然语言处理计算机视觉人工智能生成内容的基础,对生成内容的质量和效果有着重要的影响。通过对人类语言的理解和处理,从而实现人工智能生成内容。通过模拟人类视觉系统的功能,对图像及视频进行处理。图:AIGC的四大技术基础1.2 当下为何关注AIGC:落地前的技术积累已经基本完成 ChatGPT实现了从技术提升到技术突破的转变。此前残差网络及Transformer的出现使得模型的深度和参数量指数级增加,大模型成为可能,AIGC应用飞速发展;大语言模型出现后,大模型的使用方式从预训练的单一任务模型迭代到多模态模型,微调时所需的标注数据量显著减少,从而降低了业务的使用成本。在此基础上,2022年11月,OpenAI上线了机器人对话模型ChatGPT(GPT-3.5),新模型参数量为1750亿(人脑神经元数量为120-140亿),远超此前模型的参数量。ChatGPT引入了RLHF(基于人类反馈的强化学习),能够在大部分领域与人类进行持续的语言交互,实现了历史性的突破。ChatGPT标志着AIGC规模化、商业化应用的开始,人类的内容生产习惯将被改变。尽管此前StableDiffusion、Midjourney等AI绘画应用已经落地,但注册及使用门槛仍相对较高。ChatGPT的对话机器人属性及免费试用窗口期使其能够广泛触达用户,瑞银数据显示上线两月用户数已突破一亿,系目前用户增长最快的消费应用,2023年1月推出付费订阅版,每月价格20美元。我们认为,ChatGPT之于OpenAI,可以对标AlphaGo和AlphaFold之于DeepMind,开启了AIGC认知普及的一大步,是AIGC内容批量规模化生产的起点。 1.3 当下为何关注AIGC:ChatGPT诞生,催化AIGC商业化价值图:ChatGPT实现路径步骤1:收集数据,监督学习步骤2:建立训练汇报模型步骤3:强化学习(PPO算法)引入监督学习,提高模型认知能力解释巩固学习到六岁阶段进行数据标注公司给予信任和惩罚在教授过程“提示学习”算法雇佣标注工使用监督学习,对GPT-3.5进行微调Q:如何向一个六岁的孩子解释强化学习?强化学习的目标是...奖励机制是...在机器学习过程中,,,围棋...一个提问对应多个回答标注者将回答从最好到最差排序该过程中产生的数据用于训练奖励模型写一个关于水獭的故事一个新提问初始化策略模型进行输出奖励模型对输出进行评价该评价用于更新策略模型的参数(基于PPO算法)图:ChatGPT的技术突破点在于引入了RLHF(基于人类反馈的强化学习)很久很久以前... 1.4 AIGC的进入壁垒:开源降低行业技术门槛,但大模型对数据及算力需求极高AIGC本身的技术门槛并不高。大模型的涌现和指数级的能力迭代,开源社区的繁荣、API接口的大量开发和开放(ChatGPT即为开放平台),使AIGC应用对新进入者较为友好。此外大模型的泛化能力和通用性极强,无需对场景和模型重复训练(即Zero-shot),由此而来的低成本准入门槛、数据飞轮效应和广泛的场景适应能力,都一定程度降低了行业的技术壁垒。但大模型对数据量及算力的海量需求,使得头部大厂的规模优势更加突出。模型是当下主流AIGC应用的核心基础,训练和运行模型都需要庞大的数据量和算力成本(资金)。1)数据需求:模型性能与数据量、数据质量紧密相关,文献显示即使是拥有130亿参数的模型(仅次于拥有1750亿的GPT-3完整版模型)处理二位数加减法的准确率也只有50%左右,处理其他运算的准确率还不到10%。2)算力花费:GPT3.5的训练使用了微软专门建设的AI计算系统,由1万个V100GPU组成的高性能网络集群,总算力消耗约3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。 图:深度学习模型的算力需求指数级增长图:GPT3的8个模型一共使用了3000 亿token 1.5 现有产业链拆解:数据供给→模型定制→内容分发数据标记数据预处理上游:数据供给数据收集二次开发定制化模型训练深度学习模型中游:模型开发与定制算法开发内容分发平台内容创作应用服务商下游:应用与分发内容生产厂商收集大量原始数据并对其进行预处理,以便提供给模型训练。1)使用注释数据开发和训练AI 模型以生成内容;2)在垂直细分领域进行模型的二次开发,以便适应定制化需求。1)协助用户使用模型和算法生成内容,如图像、文本、语音等。2)将生成的内容分发到各种渠道,如社交媒体、娱乐平台、新闻媒体等。文本图像音频视频代码邮件撰写会议纪要文案策划对话聊天绘画生成AI换脸画作修复广告制作AI编曲AI配音有声播客会议还原智能渲染视频剪辑素材匹配特效生成代码生成代码纠错代码优化App制作BERT(语言理解与生成)Bard(聊天机器人)Florence(视觉识别)Turing-NLG(对话系统)OPT-175B(视觉识别)M2M-100(语言理解、生成)Gato(多模态)Gopher(语言理解、生成)AlphaCode(代码生成)Megatron-Turing NLG(语言理解、生成、推理)ChatGPT(语言理解、生成、推理)CLIP&DALL-E(图像生成)Stable Diffusion(语言理解与图像生成) 1.6 评估AIGC的政策风险:数据、算法规范已逐步完善,当前责任集中于平台自查AIGC目前存在版权、伦理、数据安全等风险点。AI模型通常是通过预先存储的大量数据训练得到的,因此其中可能存在错误、偏见或不准确的信息。1)版权:AI模型可能侵犯到他人的版权,如通过复制或抄袭别人的作品创建文本。2)伦理:AI模型可能存在伦理风险,例如造成误导、歧视或侵犯个人隐私。3)数据安全:当存储或处理敏感信息时,存在数据泄露、被窃取等安全风险。数据及算法领域此前已经经历过一轮密集规范,相关细则已经相对完善,叠加2021年以来数字经济相关政策利好陆续释放,我们判断产业初创期相关的政策态度趋于包容,目前审核责任更多集中于平台对语料库的自查。 条例细则《民法典》、《国家安全法》、《数据安全法》、《网络安全法》、《个人信息保护法》数据分类分级实行公共数据、企业数据、个人数据分类分级界定,明确各级数据监管范围数据采集平台方强化信息采集限制、用户方明确数据处置权利将数据要素流通市场纳入监管范畴,优化数据交易市场机制,提升市场化水平数据流通数据管理维护国家数据安全、审慎规范数据使用,压实平台管理责任《网络安全审查办法》、《云计算服务安全评估办法》、《关键信息基础设施安全保护条例》、《互联网信息服务算法推荐管理规定》、《关键信息基础设施安全保护条例(征求意见稿)》、《企业数据资源相关会计处理暂行规定(征求意见稿)》、《数据出境安全评估申报指南(第一版)》、《关于修改〈中华人民共和国网络安全法〉的决定(征求意见稿)》、《工业和信息化领域数据安全管理办法(试行)》顶层法规图:此前针对数据及算法的监管体系已经逐步完备 1102B端/C端商业化条件成熟,长期想象空间大 2.1 行业已经具备大规模商业化条件:供给多点开花,顺应行业需求1)我们通过实际使用判断人工智能创作能力基本达到了人类专业工种60%-70%的水平,且基于AI的工具容错率高,可编辑性强,具备落地应用的可行性。2)从实际供给来看,当前AIGC已经率先在营销、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大发展,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,为文娱乃至金融、医疗等领域提供有力内容供给。供给侧1)随着互联网增速放缓、红利消耗,去肥增瘦成为普遍趋势,传统内容生产部门难以承担内容创作的超高成本,AIGC应用在前期能够替代拆条剪辑视频、简单文案等劳动密集的重复性工作,中后期可展望提供创意、推动创新,在成本控制领域有着不可替代的优势。2)快节奏生产需求下,AIGC的高效率特点使其能够进一步节省用户内容产出的时间成本。需求侧自动高效生成提升内容质量增加内容多样性降低创作成本个性化定制生成速度更快AI绘画水平较高多题材、多形态成本低廉输入内容用户自定,事后可二次编辑现有技术成熟度已经能够大规模辅助用户进行内容生产,下游供给多点开花。文娱碎片化、轻量化趋势下,行业逻辑接近快消品,用户消费需求指数级增长,消费形态升级(图文→视频),传统生产方式下行业成本压力加剧。文案助手绘画生成视频生成演讲生成AI法律支持AI虚拟主播 2.1 行业已经具备大规模商业化条件:厂商实现盈利,验证商业模式可行性目前海外已有实现稳定盈利的厂商,持续验证商业模式的可行性。公开业绩数据显示2020年Deepmind已实现千万美元量级的利润,营业额为8.26亿英镑。我们根据此前分析的下游应用场景,判断ToB、ToC两端的商业化条件已完备,并给出如下展望:•1)B端(出售API接口/移植模型):瞄准进行高频、大规模内容生产的细分场景,为平台提供定制化模型服务,游戏、数字人领域受益短期内即能看到。•2)C端(大众应用):大厂将定制化模型嵌入搜索、办公等成熟应用,利用庞大用户流量挖掘附加价值;此外随着订阅费用的调整,个人创作者直接订阅AIGC应用将更为普遍。图:AIGC当下的主流商业模式出售API接口根据产出数量计费订阅制To BTo C作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算费用。代表产品:面向C端提供服务,根据内容产出的数量计费,如AI绘画软件按照图像张数收费。代表产品:面向C端提供服务,用户需每月付费以换取服务,当前订