您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:头豹:2023年中国AIGC细分赛道研究报告(上)-文本和图像率先应 - 发现报告

头豹:2023年中国AIGC细分赛道研究报告(上)-文本和图像率先应

信息技术2023-07-31头豹研究院机构上传
AI智能总结
查看更多
头豹:2023年中国AIGC细分赛道研究报告(上)-文本和图像率先应

研究报告| 2023/03 研究报告| 2022/02 碳中和系列 研究目的与摘要 2022被称为“AIGC元年”,伴随着AI绘画的获奖事件,AIGC概念迅速点燃市场。本篇报告聚焦于AI技术在文本内容和图像生产领域的应用研究,从结合技术架构、应用场景、商业模式与落地案例、以及国内外代表性企业案例等分析维度,给出对AIGC行业发展的解读与研判 此研究将会回答的关键问题: 研究区域范围:中国 ①AI文本生成的应用和产品商业模式分析 研究周期:2023年 ②AI图像生成应用和用户端分析 研究对象:AIGC产业 ③AIGC中外企业投资布局的对比分析 AI文本生成:AI文本生成为当前AIGC商业化落地最大的技术 0101 01 AI文本生成是指基于自然语言处理技术、大语言模型LLM等深度学习技术生成结构性新闻撰写、内容续写、诗词创作等细分功能为代表文本的过程。从AI文本生成的应用场景来看,当前应用较为广泛的是辅助型文本生成,未来五年商业化落地发展潜力较大的是营销型文本生成应用。从行业应用来看,AI文本生成更容易颠覆信息查询类工作、专家咨询类和交流类等工作场景较多的行业 AI图像生成:未来AI图像生成在广告、漫画和游戏行业商业化落地潜力较大 AI图像生成指用户在AI制作工具或者模型当中,通过输入不同的词汇,例如绘画风格、色彩等,就能得到相对应的画作。当前DALL-E模型生成的图像逼真,且DALL-E与ChatGPT联合使用的新商业模型发展潜力较大。AI图像生成在广告、设计、漫画等行业应用,当前AI图像生成在设计行业如建筑设计、产品设计等应用场景较为成熟,未来AI图像生成在广告、漫画和游戏行业商业化落地潜力较大 中外龙头企业AIGC布局对比:海外龙头企业技术和模型应用的实力高于中国境内企业 模型技术层上,中国模型参数与数据量与海外相差较小,模型迭代和算力水平相差至少2年;模型应用层上,海外模型回答逻辑性、完整性、自然感和速度上都优于中国模型。百度是中国布局较领先的企业,目前已有较多的B端企业宣布接入百度的文心一言,腾讯侧重于布局广告文案和视频,字节侧重于布局AI+内容和搜索业务,阿里等电商类平台大厂侧重于布局智能客服和营销PGC:ProfessionalGeneratedContent,指专业生产内容,各领域的专业人士以专家身份贡献具有一定水平和质量的内容,如微博平台的意见领袖、科普作者和政务微博 UGC:UserGeneratedContent,用户生产内容即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户 AIGC:AI-Generated Content,人工智能生成内容,是指基于人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术,可以生成常见的如图像、文本、音频、视频等内容 MAU:Monthly Active User,月活跃用户数量,是用于反映网站、互联网应用或网络游戏的运营情况的统计指标 IDC:InternetDataCenter,互联网数据中心,是指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用服务平台 定义:AI文本生成是指基于自然语言处理技术、大语言模型LLM等深度学习技术生成结构性新闻撰写、内容续写、诗词创作等细分功能为代表文本的过程 应用端:从应用场景来看,当前应用较为广泛的是辅助型文本生成,未来五年商业化落地发展潜力较大的是营销型文本生成应用。从行业应用来看,AI文本生成更容易颠覆信息查询类工作、专家咨询类和交流类等工作场景较多的行业 AI文本生成——定义与技术分析 AI文本生成是指基于自然语言处理技术、大语言模型LLM等深度学习技术生成结构性新闻撰写、内容续写、诗词创作等细分功能为代表文本的过程 中国AI文本生成与技术分析,2023年 什么是AI文本生成? AI文本生成是指基于自然语言处理技术、大语言模型LLM等深度学习技术生成结构性新闻撰写、内容续写、诗词创作等细分功能为代表文本的过程 AI文本生成是如何实现的? 三大技术基础大数据 自然语言处理 神经网络 AI文本生成——模型与产品层 海外AI文本生成工具中较为成熟的产品占据市面上较大的市场份额。从当前产品的适用性来看,市面上的AI文本生成产品侧重于通用功能和在营销、广告领域的布局 中国AI文本生成产品层,2023年 海外AI写作工具较为成熟的产品占据市面上较大的市场份额,中国较为领先的文心一言将于3月正式面向公众进行使用 市面上出面的AI写作工具以海外的写作工具为主,如ChatGPT、CopyAI、ClosersCopy等,其功能、算法算力和应用都远超于中国的AI写作工具。从适用性看,以适用于营销、广告等领域的应用为主,目前这些领域虽未实现大规模的商业化落地,但随着大规模的相关产品的在营销和广告的应用推广,有望加速AIGC在营销和广告领域的应用。当前中国较为成熟的产品是文心一言,百度有文心大模型和预训练模型的基础,其产品目前在头部AI巨头上是处于领先的市场地位,预计将在3月正式面向中国公众使用,随着产品的推出,AI文本生成的应用渗透率有望进一步上升 AI文本生成——商业模式分析:以Chat GPT为例(1/2) Chat GPT总训练成本在1000万美元以上,当前新推出的API使用价格大幅度下滑有望吸引更多用户入驻和巩固其市场地位。其商业模式尚未成熟,处于探索阶段,B端商业模式以出售API接口为主,C端以按量付费为主 ChatGPT成本端和收入端分析,2023年 年训练成本:957千万美元以上 训练时芯片成本:20万美元以上 ChatGPT3进行一次训练的成本: GPU数量=训练总算力/单个GPU算力/训练计算用时 ChatGPT 3运行所需要的芯片成本:GPT-3 175B共有1746亿个参数,每个参数需要4个字节的存储,因此1746个参数的存储空间为:1764*4/1000=700GB的存储 由Open AI论文模型显示,V100 GPU的模型进行训练,参考V100 GPU的TESLA V100型号,其32GB内存的每块成本为9000美元 根据Open AI的论文可以知道GPT-3 175B的训练总计算量为3640PF·DAYS, 成本端 以NVIDIA的容量为28 Tflops的V 100GPU(单价:3.06$/H)一年的训练成本为例,完成ChatGPT3 175B一年的训练需要的GPU的数量为:3640/365/0.028≈357 所以,年训练成本为 :357*3.06*24*365≈957万美元 芯片总成本=(700/32)*9000≈20万美元 其他成本如电费成本、人工运维成本等暂且忽略不计 总训练成本:在1000万美元以上 B端商业模式:出售API接口 出售API接口授权企业端的平台集成ChatGPT进行应用,按照数据请求量和实际计算量收费 收入端 B端市场处于探索阶段,尚未形成较为成熟的商业模式,以出售API接口为主要商业模式 B端未来可以实现落地的应用场景较多,这也意味着B端商业模式可以创新的空间也很高,当前B端市场处于探索阶段,尚未形成较为成熟的商业模式,以出售API接口为主要的商业模式。当前已经有部分企业将Chat GPT应用集成到自家平台,主要落地的应用场景有辅助生产、智能营销等。例如,BuzzFeed接入Chat GPT开始进行辅助公司进行AI文本生成,帮助“Quizzes”栏目批量生成内容。还有ZoomInfo宣布接入Chat GPT技术帮助企业创新销售和营销团队寻找理想客户并与其建立联系的方式,并为团队带来更高的效率和更有效的结果 AI文本生成——商业模式分析:以Chat GPT为例(2/2) C端商业模式 与SaaS软件集成应用 嵌入搜索引擎 按量付费 入端 ChatGPTC端商业模式以案例付费为主,嵌入搜索引擎、与SaaS软件的集成应用等商业模式处于探索阶段 按量付费模式:订阅模式是当前ChatGPTC端应用作为广泛也是最为成熟的商业模式。Chat GPT付费用户集中在学生、蓝领白领等群体。相较于之前的20美元的订阅模型,当前其最新的C端付费模型为1k tokens/$0.002,相当于每输出100万个单词,价格才2.7美金。其使用成本的大幅度下滑有望吸引更多的用户使用,尤其是在百度和微软等巨头的模型尚未正式推出前,ChatGPT以更低的成本吸引用户的做法将吸引用户使用和巩固其市场地位 嵌入搜索引擎:目前正在尝试将Chat GPT嵌入到搜索引擎当中,搜索结果的呈现将变革传统的搜索模式。目前,这一商业模式在研发和尝试阶段,嵌入搜索引擎之后将吸引更多用户使用,便于收集更多的用户数据进而精准的推荐相关的广告而获取相应的营收。短期内很难实现完全的变革搜索引擎的传统模式,主要是由于ChatGPT给出一些看似有道理但实际是错误的回答,可信度不是很高,但有望实现ChatGPT和Web的容二虎应用 与SaaS软件的集成应用:这一商业模式处于探索阶段,微软正在尝试将Chat GPT与Office进行集成应用,用户需要付费进行相应的应用 ChatGPT年总训练成本在千万美元以上,成本的高昂影响其在中小企业商业化落地应用 通过测算可以明显的发现ChatGPT年总训练成本在千万美元以上,这一训练成本对于互联网巨头或科技企业来说是在可以接受的范围。对于中小企业来说,通过训练Chat GPT具备行业的能力的成本过于高昂,影响其在中小企业商业化落地。中小企业在AI生成内容上的落脚点可以从训练小模型入手,训练小模型对于中小企业来说是性价比极高的选择 当前应用ChatGPT的企业处于未对盈利产生影响或降本增效阶段 从ChatGPT的收入端来看,由于ChatGPT处于初期发展阶段,成本居高不下,因此目前应用ChatGPT的企业处于未对盈利产生影响或降本增效阶段,尚未进入到通过ChatGPT实现企业的增收的阶段。实现成本的下滑和企业对于Chat GPT的商业模式的应用创新是企业迈向增收阶段的加速器 定义:AI图像生成是指用户在AI制作工具或者模型当中,通过输入不同的词汇,例如绘画风格、色彩、构图方法、透视方法、修饰词等,就能得到相对应的画作 用户端:从AI图像生成的用户端来看,AI生成的图像直接用于商业的占比在2%,未进入大规模商业化应用阶段;60%的用户未对AI图像投入成本,仅8%的用户能通过AI图像生成获得盈利 AI图像生成——定义与技术流程 AI图像生成指用户在AI制作工具或者模型当中,通过输入不同的词汇,例如绘画风格、色彩等,就能得到相对应的画作。当前DALL-E模型生成的图像逼真,且DALL-E与ChatGPT联合使用的新商业模型发展潜力较大 中国AI图像生成与技术分析,2023年 什么是AI图像生成? AI图像生成是指用户在AI制作工具或者模型当中,通过输入不同的词汇,例如绘画风格、色彩、构图方法、透视方法、修饰词等,就能得到相对应的画作 以应用较为广泛模型之一的DALL-E模型为例说明AI图像生成的过程 dVAE 图像解码器 Transformer 样本生成 CLIP重新排序 …. 𝐼 𝑀 DALL-E是文本生成图像的多模态预训练模型,基于该模型生成的图像画像逼真 DALL-E是文本生成图像的多模态预训练模型。这一个模型有两个阶段,它的第一个阶段是离散变分自编码器dVAE,用于生成图像的token,也就是说实现图像特征空间向文本特征空间的映射。它的第二个阶段是混合了图像和文本特征的,以Transformer为基础的生成模型。阶段二首先将输入文本编码成特征向量,然将特征向量送入到自回归的Transformer中生成图像的token,再将图像的token送入到dVAE的解码器中得到生成图像,最后通过CLIP对生成样本进行评估,得到最终的生成结果。基于该模型生