分析师:金荣(S0010521080002) 2024年2月6日 •GPTs上线2个月后用户便创建了超过300万个应用,GPT提供了基于大模型的原生开发环境,用户可通过更加自然的语言交互方式,减少对传统GUI的依赖,同时多模态的趋势仍在继续,大模型仍处于高速创新迭代周期,头部公司对2024年的Gen AI的资本开支保持积极,建议关注AI算力及大模型布局厂商NVIDIA,AMD,Intel,IBM,Microsoft,Alphabet,Amazon,Arista,百度集团-SW,阿里巴巴-SW,腾讯控股等。 •上游算力侧: 受AI产业驱动影响,算力需求持续扩张,AI大模型的持续优化及多样化AI应用终端的入市商用持续提升全球算力需求,推动AI基础设施建设,在AI基建需求出现井喷的情况下,全球主流AI芯片厂商最新季度业绩均超市场预期,建议关注算力板块机会。1)台积电:2023Q4营业收入196.7亿美元,基本符合预期。调整后净利润75.1亿美元,超一致预期5.4%。AI方面,公司预计未来AI收入的CAGR有望达到50%。2)AMD:23Q3营收58亿美元,yoy+4%,qoq+21%,超过彭博一致预期57亿美元。1月30日,公司对AI芯片业务收入上调指引75%,预计2024年AMD人工智能芯片的销售额将达到35亿美元以上(此前指引为20亿美元)。3)Meta:1月19日,扎克伯格宣布Meta内部正在训练下一代模型Llama 3,而到2024年底Meta将拥有35万块H100,拥有近60万个GPU等效算力,这些算力很大部分将用于训练Llama 3大模型。4)NVIDIA:FY24Q3,公司收入同比上升206%至181.2亿美元,大超此前160亿美元的指引,四季度指引收入200±2%亿美元,这也是由于大语言模型带动的训练和推理算力需求较为强劲,各大数据中心均加大了对英伟达AI芯片(H100、A100等)和HGX平台的采购力度导致的。建议关注:台积电、AMD、Nvidia等。 •23年以来大模型重点发展方向: 1)NLP领域:23年随着GPT4、GPT4 Turbo、Gemini的陆续推出,我们可以看出NLP领域大模型的发展趋势体现在两方面:①模型参数量呈现增长趋势;②由单模态向多模态演变。其中,参数量规模的增长在很大程度上推动了大模型的学习能力(但不绝对,也取决于模型的算法和参数质量,过多的参数也会导致过拟合情况发生),而大模型由单模态向多模态的演变,也意味着模型能够处理和理解来自不同数据模态的信息,这些模态可以包括但不限于图像、文本、音频、视频等,实现复杂生成任务。建议关注在相关领域持续探索AI算法的公司,关注阿里巴巴-SW、京东集团-SW、焦点科技、值得买、网易-S、腾讯控股、吉比特、三七互娱、巨人网络、天娱数科、科大讯飞、昆仑万维等。 2)CV领域:通过复盘CV领域主流应用(Midjourney、Dall·E和Stable Diffusion)的版本迭代,其发展方向除了生成内容的质量优化外(如清晰度、生成时长),也向多模态、更具可控性(指模型对Prompt理解能力的跃升等)。在技术升级方面,23年3D GS推出,相较于原始的NeRF方法,3D GS在实现高质量渲染的同时可以做到实时渲染。此外,2023年初ControlNet横空出世,与传统的生成对抗网络不同,ControlNet允许用户对生成的图像进行精细的控制,给出了一条完美解决AI绘画发展进程中“精准控制”难题的道路。我们认为新的底层技术为其产品的可用性赋能,会使得用户使用学习成本更低,吸引更多B或者C的用户,并提升用户的留存及复购,建议关注布局大模型的阿里巴巴-SW、腾讯控股、百度集团-SW、美图公司、昆仑万维、科大讯飞等。此外,CV领域的发展会提高电影、动画片制作、游戏建模的生产效率,从而生产更多优质内容,建议关注兼具IP的上海电影、光线传媒、华策影视、奥飞娱乐等,以及游戏相关板块的腾讯控股、网易-S、三七互娱、盛天网络等。 3)应用侧:海内外AI应用相继落地,2024年1月份GPTStore的上线催生出了新的商业模式,AI大模型应用将迎来新一轮热潮,建议关注海内外AI应用的落地情况。GPTStore上线后,OpenAI把GPT-4 vision(视觉)、Code interpreter(代码)、DALLE-3(图像)、TTS(语音)的API进行开放,并且新推出了Assistants API。所以用户除了可以使用除了目前已有的300多万个应用之外,ChatGPT Plus用户也可以自己创建新的GPT上架到GPTStore中供其他用户付费使用。此外,微软也于2023年11月1日正式上线包含Copilot集成的Microsoft 365应用程序,为企业客户提供商用服务,24年1月15日,微软宣布Copilot Pro正式面向个人,用户可以Edge浏览器和Microsoft Office 365上使用Copilot Pro。国内方面,以豆包、天工、文心一言等为代表的AI应用用户规模呈现持续增长势头,建议关注具有AI应用布局的公司:Microsoft、阿里巴巴-SW、腾讯控股、科大讯飞、美图公司等。 4)硬件侧:当前手机和PC受AI驱动影响,预计将迎来新一轮换机潮,主流手机厂商已经陆续自研大模型,部分旗舰款手机已经侧端搭载大模型发售,以联想、戴尔、华硕为代表的主流PC厂商也将在今年陆续发售自家旗舰AIPC,建议关注AI手机和AIPC产品的落地情况,建议关注小米集团-W、联想集团、戴尔科技等。 •风险提示:人工智能相关政策风险;AI模型等技术进步不及预期;用户增长不及预期等。 1. LLM发展历程与变迁趋势 1.1 LLM爆发关键节点:2017年Transformer架构的出现1.2海外LLM大模型布局:科技巨头领衔行业,版本持续迭代1.3国内主流玩家大模型布局:互联网大厂大模型相继落地,主要赋能自身旗下产品 2.CV领域发展历程与变迁趋势 2.1CV领域工具&模型变迁之路:SD成为开源之王,多模态成为下一阶段演进方向2.2 23年以来CV领域技术升级:3D渲染能力增强,生成内容更为精准可控2.3 CV领域主流应用迭代历程:生成内容更为精细,Prompt理解能力进一步深入 3.AI手机+AIPC主流厂家布局盘点:AI驱动新一轮换机潮,关注AI产品落地情况 4.海内外热门AI应用盘点:聊天类机器人仍是主流,海内外主流应用用户规模持续扩大4.1国内热门AI应用:豆包、天工、文心一言4.2海外热门AI应用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 •在“Transformer”模型还未出现时,NLP(自然语言处理)领域的主流架构基本采用RNN(循环神经网络),RNN的痛点可以总结为两点: ①由于递归性质,训练过程中通常无法并行计算; RNN在工作过程中将会对内容按顺序逐字处理,每一步的输出取决于先前的隐藏状态和当前的输入,需要等到上一个步骤完成后才能进行当前计算,因此无法进行并行计算,训练效率较低。 ②不擅长处理长序列、长文本; 当RNN处理长序列时,由于信息的不断累积,时间步长增加时,梯度会不断变小,这会导致梯度消失或梯度爆炸问题,使得网络难以学习长期依赖(long-term dependency)的关系。当梯度消失时,前面的信息无法有效地传递到后面,也就导致词之间距离越远,前面对后面的影响越弱,所以RNN难以有效的捕获长距离的语义关系,当梯度爆炸时,网络的权重会变得极大,导致网络不稳定。 •虽然之后也出现了如LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)等的RNN变体,但解决长期依赖问题的能力也有限,也依旧无法解决无法并行计算的痛点。 注:长期依赖(long-term dependency):在一个序列中,后面的某个位置的输出,可能会依赖于前面的若干个位置的输入,这种依赖跨越了很长的时间间隔。 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 •“Transformer”是谷歌的研究团队在2017年6月在论文《Attention is All You Need》中首次发布的。该论文提出了一种全新的序列转换架构,完全基于自注意力机制,摒弃了循环神经网络(RNN)在处理序列数据时的局限性。“Transformer”有能力学习输入序列里所有词的相关性,不会受到短时记忆的影响。 •我们可以将“Transformer”的创新总结为两点:①自注意力机制;②位置编码。其中,“Transformer”的自注意力机制简单来说就是“Transformer”在处理每个词的时候,不仅会关注这个词本身以及附近的词,还会去注意输入序列里所有其他的词,然后给予每个词不一样的注意力权重(权重是模型通过大量文本训练习得的)。 •例:“The animal didn't cross the street because it wastoo tired”,其中“it”可以代指任何东西,“Transformer”中的注意力机制可以关注到输入序列里所有词,并给予不同权重,而像这样的自注意力机制有很多个,每个自注意力机制都有自己的注意力权重,用来关注文本里不同特征,每个权重互不影响,也就意味着可以实现并行计算。 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 •Transformer模型抛弃了RNN、CNN作为序列学习的基本模型,循环神经网络本身就是一种顺序结构,天生就包含了词在序列中的位置信息。当抛弃循环神经网络结构,完全采用Attention取而代之,这些词序信息就会丢失,模型就没有办法知道每个词在句子中的相对和绝对的位置信息。因此,有必要把词序信号加到词向量上帮助模型学习这些信息,位置编码(Positional Encoding)就是用来解决这种问题的方法。 •例:当接收到输入内容后,“Transformer”与其他NLP模型一样,会将词转化为词向量(这里举例维度为4个,但在Transformer中词向量维度为512个,每个维度都代表不同特征),此外还会根据每个词所在文中的不同位置,给予位置向量。这样就可以实现让模型既理解每个词的意义,又能够捕获每个词在文中的位置,从而理解不同词之间的顺序关系。借助位置编码,词可以不按顺序输入给神经网络,模型可以同时处理输入序列里的所有位置,不需要像RNN那样依次处理。 基于Transformer架构的LLM发展图谱:Decoder-only成为主流 ①粉色枝:Encoder-Only(仅用解码器)。代表LLM为BERT,该类模型主要用于处理输入数据,专注于理解和编码信息,而不是生成新的文本。 ②绿色枝:Encoder-Decoder(编码器+解码器)。代表LLM为T5,该类模型擅长处理需要理解输入然后生成相关输出的任务,比如翻译或问答系统。 ③蓝色枝:Decoder-Only(仅解码器)。代表LLM为GPT系、LLaMA、Bard等。该类模型擅长创造性的写作,比如写小说或自动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。这种架构能够更好地理解和预测语言模式,尤其适合处理开放式的、生成性的任务。 *注:实心方框为开源模型,空心方框为闭源模型 1. LLM发展历程与变迁趋势 1.1 LLM爆发关键节点:2017年Transformer架构的出现1.2海外LLM大模型布局:科技巨头领衔行业,版本持续迭代1.3国内主流玩家大模型布局:互联网大厂大模型相继落地,主要赋能自身旗下产品 2.CV领域发展历程与变迁趋势 2.1CV领域工具&模型变迁之路:SD成为开源之王,多模态成为下一阶段演进方向2.2 23年以来CV领域技术升级:3D渲染能力增强,生成内容