AI智能总结
投资建议:推荐中国AI应用及AI算力领军企业,推荐标的:金山办公、科大讯飞、虹软科技、拓维信息,受益标的:万兴科技、福昕软件、恒润股份。 微软携手OpenAI,AI大模型与AI应用齐头并进。多模态正成为大模型发展的主旋律,大模型也能够在多种模态下愈发展现出更加出色的能力,进一步推动创新应用的落地。每次OpenAI更新模型后,微软都迅速推出相关应用以跟进最新技术进展,为行业树立了典范。 OpenAI推出的GPT-4、DALL·E3等大模型,是微软AI应用的核心驱动来源。OpenAI发布的GPT-4现已加入了语音和图像功能,使用户能够通过语音与图像的形式与之互动,为用户提供更加丰富和多样化的交互方式。另外,第三代DALL·E模型它将相比以往的模型更加擅长理解文字提示,从而能生成更加细致的图像。OpenAI多个大模型的快速进展使得垂直领域的应用更加智能,颠覆传统工作模式,尤其是办公领域。同时,AI办公领域的其他创业公司也在兴起。 微软在打造产品过程中的核心思路是把自身所有的业务问题转化成Chat的问题,商业模式清晰,已形成行业标杆示范。微软Copilot是全球首款AI智能助手,Microsoft 365 Copilot企业版将于2023年11月1日全面开放,用户能以30美元/月的价格开通助手服务,结合办公全家桶,用户可以用自然语言与办公软件交互,个人办公和企业协作、运营等新的运用模式都将变革现有的办公生态。同时,Windows Copilot通过插件连接各种软件功能,将改变人们使用网络获取服务的方式,微软操作系统庞大用户基数预示着其活跃用户数量将快速增长。除了传统办公领域,微软Copilot在团队协作、安全检测以及软件开发等维度也能实现高效赋能,优化现有的工作流程和业务生态。 风险提示:大模型应用不及预期风险、伦理及隐私侵权风险。 表1:推荐标的盈利预测表(股价2023/09/28) 1.AI大模型与AI应用齐头并进 1.1.多模态需求引领大模型不断进化 语言处理领域的大模型发展已较为成熟。GPT-3模型的强大表现在自然语言处理领域,GPT-3问世也引发了一系列后续大语言模型的涌现,随着不断的层层迭代和进步,大语言模型在文字交流方面达到了极致的表现。然而,人们并不满足于此,新大模型在多模态交流方面也正在取得飞速进展。 多模态的布局由来已久。人们希望大语言模型不仅能理解文字,还能理解音频、图片、视频等多种模态。这并非空穴来风,OpenAI从一开始就针对不同的模态开发了多个模型。其中包括针对文字对话的GPT、针对图像理解的DALL·E,以及针对音频的Whisper等。 这些工作为具备多模态能力的GPT-4打下了基础。谷歌最新推出的PaLM-E模型也是一个可以同时处理视觉与文字指令输入的大模型。它能将输入转化为动作输出,从而指导机器人完成指定任务。谷歌还计划不久后推出的Gemin被定位为一个多模态大模型,它将成为一个多模态智能网络,能够处理各种任务、数据驱动的需求,包括图像、音频、视频、3D模型甚至图形。此外,微软在2023年推出了CoDi,它能够从任意输入模态的任意组合中生成语言、图像、视频或音频等多种输出模态。 这标志着人机交互迈出了重要的一步,使其更具吸引力和全面性。展望未来的两年,多模态将成为大模型发展的主旋律,大模型将继续在多种模态下展现出更加出色的能力,以应对不断增长的需求和挑战。 图1近年来全球大模型推出时间线如下所示 多模态引发大模型结构、训练方式的变化。要实现多模态的输入和输出,需要提高大模型对不同形式输入的理解能力。为此,基础的大模型需要 请务必阅读正文之后的免责条款部分 额外添加一些结构,以帮助模型将图片、视频和音频等多模态输入转换为可分析和理解的形式。同样地,还需要一些结构将模型生成的结果转换为多模态输出。这个结构通常被称为多模态解码器-编码器,其主要功能是实现多模态信息与公共语义空间信息之间的转换。现有的多模态大模型,如CoDi和PaLM-E,在其架构中都包含了解码器-编码器结构。 然而,要成功构建这样的结构并非易事。公开网络上缺乏高质量的多模态训练数据集,特别是图像-音频和视频-音频之间对应转换的数据集更是凤毛麟角。因此,研究人员必须花费心思来解决这些训练问题。 例如,微软CoDi模型就采用了一种巧妙的方法来应对转换数据集缺乏的问题。它将缺乏转换数据集的模态都转换成文本形式,并利用这些模态转换的文本信息进行桥接,从而实现模态之间的转换。这种方法充分利用了文本作为多模态信息之间的中介,弥补了缺乏真实转换数据的不足。这样一来,模型可以通过处理文本数据来学习多模态之间的关联,进而实现多模态输入和输出的转换。尽管构建多模态解码器-编码器结构存在一定的困难,但随着研究人员的努力,我们可以期待更多的高质量多模态训练数据集的开发和公开,这将进一步为实现更广泛的多模态交互和应用提供有力支持。 图2微软CoDi模型的解码器-编码器工作流程如下所示 大模型参数上升,算力发展支持模型进化。随着多模态大语言模型的不断发展,模型结构变得更加复杂,模型参数量也持续上升。 以谷歌的PaLM-E模型为例,其参数量高达3400亿,训练参数包含了3.6万亿个tokens。根据媒体semianalysis透露,GPT4拥有1.8万亿个参数,同时其训练数据中包含了13万亿个tokens。相比之下,GPT3仅有1750亿参数。这种模型参数量和复杂度的增加导致了训练成本的迅速上升。然而,近年来,以英伟达为领导的人工智能算力取得了飞速的发展。英伟达推出了A100GPU芯片,并陆续推出了H100和GH200芯片,这些芯片在推理速度和训练速度方面都有巨大的提升。此外,英伟达还与其他云计算厂商合作推出了DGX Cloud等云计算服务,使得人工智能厂商无需购买服务器也能享受到强大的算力支持。只有当算力能够跟上大模型的发展进度,才有可能保证大模型的可持续发展。因此,这种人工智能算力的飞速发展对于推动大模型的进步至关重要。 1.2.OpenAI大模型为基,与微软携手引领AI应用产品落地 微软大规模注资OpenAI开展深度合作,模型与应用双线发展。自2019年起,微软与OpenAI展开合作,微软首次注资OpenAI并在其Azure云计算服务上开发人工智能超级计算技术。OpenAI逐渐将云计算服务从谷歌云迁移到Azure,并每年在微软云服务上进行模型训练,成为微软投资的重要组成部分。2020年,微软购买了GPT-3基础技术的许可,并获得了技术集成的优先授权,将GPT-3应用于Office、Bing搜索引擎和Microsoft design等产品中,以改进现有工具和优化产品功能。总而言之,OpenAI帮助微软不断提升其多模态AI能力,而微软则为OpenAI最新功能提供了强大的流量入口和使用迭代环境,二者相互结合,形成能力闭环。 2021年,微软再次投资OpenAI,双方合作关系进入第二阶段,从合作探索期进入蜜月期。微软作为OpenAI的云提供商,在Azure中集中部署OpenAI开发的各类工具,形成了OpenAI的收入来源之一。微软开始将OpenAI工具与自有产品进行深度集成,并推出相应产品。其中,基于Codex的AI代码补全工具GitHub Copilot于2021年6月推出。2022年,微软通过Edge浏览器和Bing搜索引擎在部分国家和地区提供基于AI图像生成工具DALLE开发的Image creator新功能。2022年6月,GitHub Copilot正式上线。2022年10月,微软宣布将推出视觉设计工具Microsoft designer。随后,在2022年11月30日,OpenAI发布了基于GPT-3.5系列大型语言模型微调而成的全新对话式AI模型ChatGPT。 2023年1月7日,外媒爆料微软计划将OpenAI的AI模型引入Word、PowerPoint、Excel、Outlook等软件。随着合作的深入,微软于2023年2月1日宣布推出Microsoft Teams Premium,由ChatGPT提供技术支持,为Teams的高级付费版本,可提供自动生成会议纪要、生成会议模板等功能。同月,微软短暂上线了由ChatGPT提供支持的新版Bing搜索引擎,随后于2月8日正式上线了新版Bing搜索引擎和Edge浏览器,以提升用户的搜索效率。在2023年3月8日,微软宣布以公共预览形式推出AI计算机视觉模型Florence。最后,在2023年3月17日,微软公布了Microsoff 365 Copilot,计划将GPT-4全面接入微软Office全家桶。 OpenAI选择微软也不单单是商务关系促成,更来源于微软Azure的高性能计算能力。在微软还没有拥抱开源和Linux的时候,为了与Linux这个占据了市场份额超过90%的竞争对手竞争,微软决定在性能上要超越linux,后来在云计算出来以后,微软在InfiniBand和虚拟化作业方面进行了大量的优化,在虚拟化环境中实现了网络性能的无损传输,正因为性能优势,OpenAI也选择了Azure的高性能计算。从本质上看,25瓦左右的脑袋的学习能力要高于插上电就几百上千瓦的大模型,因为给一个小孩看一张老虎照片,很快他就能从成千上万张中筛选出老虎,但还未训练的大模型不行。但大模型有一个优点,就是它利用GPU可以直接复制这些已经存在的知识,然后将学到的知识相互交换以提高效率,这个过程就需要高性能计算。 图3微软、OpenAI大模型+应用演化加速进行中 AI应用加速落地,“AI+办公”增长态势最为明显。随着大语言模型的迅猛发展,人工智能软件应用作为商业化的最直接方式迅速落地。 根据SensorTower发布的《2023年AI应用市场洞察》数据,随着ChatGPT和Stable Diffusion等人工智能算法的不断更新迭代,全球人工智能市场迅速升温。仅在2023年上半年,AI应用的下载量同比增长了114%,突破了3亿次,超过了整个2022年的总下载量。同时,AI应用内购收入同比激增了175%,接近了4亿美元。AI与Chatbot以及AI与图像的结合成为了热门的人工智能发展方向。AI与Chatbot应用的下载量占全球前100名AI应用总下载量的49%,而AI与图像应用的下载量占比为31%。 AI与办公软件的结合成为了这一波人工智能应用浪潮中的核心受益方向。这一波人工智能应用浪潮的引爆点是基于自然语言处理大模型技术的文字创作工具ChatGPT迅速成长为全球热门应用的现象级产品。随后,基于对图像、视频、音频等多模态数据进行处理的大模型应用也迅速推广起来。生成式人工智能天然适用于文字、音视频、图像等内容的自主创作场景,因此可以直接提升现有各类型办公软件的产品能力,推动办公软件的迭代升级。 图4仅2023年上半年,AI应用下载量快速攀升 OpenAI大模型独领风骚,单月访问量一骑绝尘。2020年3月OpenAI推出GPT-3,引发了世界大语言模型研究的浪潮,在此之后,OpenAI不断推出更新版本,于2023年3月14日发布最新的GPT-4,凭借其巨大的模型规模、预训练和微调的训练策略、Transformer架构的优势以及多模态输入支持,一直处于大模型进展的最前沿,在全球各个研究组织推出的大模型排行榜上,GPT模型必定名列前茅。GPT模型在自然语言处理和生成式人工智能领域的应用和研究中发挥着重要的作用,并为人们提供了强大的语言模型和智能助手。美国风险投资a16z对每月访问量前50的生成式AI网络产品进行了排名,其中OpenAI推出的ChatGPT访问量一骑绝尘。截止2023年6月,ChatGPT占据了整个前50名列表月流量的60%,月访问量约为16亿,月用户数为2亿,这也使得ChatGPT成为全球访问量排名第24名的网站 。 除了排名第二的配套平台CharacterAI,没有其他任何一款产品拥有和ChatGPT一样的增长趋势。 图5生成式AI产品月访问量排名如下所示