AI智能总结
计算机行业动态 华西计算机团队2023年10月11日 首席分析师:刘泽晶SAC NO:S1120520020002邮箱:liuzj1@hx168.com.cn 分析师:赵宇阳SAC NO:S1120523070006邮箱:zhaoyy1@hx168.com.cn 核心逻辑 模型层面,GPT-4领先,多模态演进趋势加速。 ChatGPT推出以来,大语言模型(Large Language Model,LLM)技术的发展取得突破性发展,越来越多的大模型犹如雨后春笋般破土而出,目前最为先进的模型为GPT-4,性能大幅领先市面上的其他模型。同时根据founder park,OpenAI估值目前也是此前微软投资时近3倍。 当下LLM模型的规模持续增长,参数量已远远超过千亿级别,多模态崭露头角。1)模型规模的增长带来性能的提升,但是同时对模型的训练和部署也带来了挑战。以Open AI为代表的人工智能公司,已经开始就模型训练和部署提供收费服务,在推动LLM技术发展的同时,为企业带来营业收入。2)OpenAI、Google等大模型厂商或将纷纷推出多模态大模型,打开下游应用想象空间。 应用层面,参照海外落地路径,国内纯模型端、教育、办公、图像、视频、金融、医疗、社交类特别是C端应用值得关注。 部分企业已经开始赚取收入,而新进入的公司仍然在积极拓宽业务的受众范围。LLM技术的发展为其产业链中下游应用端的开发打下了坚实的基础,相关企业针对不同的场景开发应用产品,产品涉及语音、图像、文本和多模态领域,覆盖办公、金融、多媒体、工业制造、社交和营销等多个行业。 国内纯模型端、教育、办公、图像、视频、金融、医疗、社交类应用值得关注。参考海外AI应用成熟度发展情况,我们根据AI收入端、产品端、案例端等综合分析海外垂直应用进展,得到目前纯模型端、办公、图像、视频、金融、社交类应用商业化落地最快,国内模型端相对海外大概滞后1年时间,参照海外应用发展情况,我们认为Q4或是国内应用商业化落地拐点。 受益标的:1)模型端:拓尔思、360、科大讯飞;2)AI+教育:科大讯飞、佳发教育、盛通股份、捷安高科、世纪天鸿、皖新传媒、鸥玛软件;3)AI+办公:金山办公、汉得信息、彩讯股份、赛意信息、泛微网络、致远互联、用友网络、金蝶国际、梦网科技;4)AI+医疗:润达医疗、健麾信息、万达信息;5)图像/视频:万兴科技、美图公司、光云科技、新国都、虹软科技、当虹科技、大华股份、网达软件;6)AI+金融:指南针、同花顺、财富趋势、恒生电子。 风险提示:1)政策落地不及预期;2)技术发展不及预期;3)经济回暖不及预期。 01主要大模型汇总:GPT-4领先,多模态演进趋势加速 模型汇总 1.1 Open AI:打开LLM新纪元,打开LLM新纪元,GPT-4多模态再升级 1.1OpenAI:打开LLM新纪元,GPT-4多模态再升级 GPT-3.5和GPT-4是OpenAI开发的大规模语言模型,目前最受欢迎ChatGPT便是在GPT系列模型基础上开发的,是人工智能(AI)技术的突破,彻底改变了我们与机器的沟通方式。作为LLMs技术的代表,GPT-4是目前公认的性能优越的大规模语言模型,但是其目前仅支持付费使用,基于GPT-3.5的客户端应用目前已经免费开放访问。根据AIGC开放社区,9月21日凌晨,OpenAI在官网宣布,在今年10月份将通过API向ChatGPTPlus和企业版用户提供全新文本生成图片产品——DALL·E3。9月25日,OpenAI宣布,GPT-4现已具备图像和声音处理功能。 GPT-4与GPT-3.5相比下的优势表现 GPT-4比其前身GPT-3.5先进10倍。这种增强使模型能够更好地理解上下文并区分细微差别,从而产生更准确和一致的响应。GPT-4的最大token数量为32000(相当于25000个单词),这比GPT-3.5的4000个tokens(相当于3125个单词)有了显著增加。GPT-4可以通过综合多个来源的信息来回答复杂的问题,而GPT-3.5可能很难将这些点联系起来。GPT-4在理解和体会文本所表达的情感方面,比GPT-3.5具有更大的优势。GPT-4最令人印象深刻的一个能力是它可以理解方言,并对复杂的方言给出准确的回答。 GPT-4相比于GPT-3.5,其在创作方面的能力更加优秀,可以生成更加连贯和富有创造力的故事、诗歌或散文。GPT-4显著提高了理解和处理复杂数学和科学概念的能力,包括求解复杂方程和执行各种数学运算的能力,如微积分、代数和解析几何。GPT-4的编程能力优于GPT-3.5,可以更加高效的编写代码或调试现有代码,提升软件开发人员的工作效率。GPT-4可以分析和理解图片,但是GPT-3.5只能分析文本数据。GPT-4实现了最小化不良结果的机制,从而增加了其回答的可靠性和合规性。 1.1 Open AI:DALL-E 3发布,颠覆AI生成图片技术 DALL-E、DALL-E 2和DALL-E 3是由OpenAI开发的文本-图像模型,使用深度学习方法从自然语言描述中生成数字图像。最初的DALL-E是OpenAI在2021年1月5日的一篇博客文章中披露的,它使用经过修改的GPT-3模型来生成图像。2022年4月6日,OpenAI宣布了DALL-E 2,它是DALL-E的一次版本迭代,旨在以更高的分辨率生成更逼真的图像,它可以巧妙地根据使用者提供的描述和风格来生成图片。2023年9月,OpenAI宣布了他们最新的图像模型,DALL-E3,与上一代DALL-E2相比,其予以图片细节更多的关注。 DALL-E 3计划于2023年10月为ChatGPT Plus和ChatGPT Enterprise客户原生发布到ChatGPT中,并预计在今年晚些时候通过OpenAI的API和“Labs”平台可用。微软也计划在他们的DesignerAPP和图像创建工具中嵌入DALL-E3模型。 根据新智源报道,DALL-E 3已经开始内测,并且内测的效果惊人,与ChatGPT合并,DALL-E3可以不需要prompt,而是由ChatGPT来生成相应的prompt,DALL-E3便可根据相应的prompt来进行图片的绘制,并还可以为其配上相应的图文介绍。 1.2 Google& DeepMind:LLM的奠基者,即将推出Gemini多模态模型 PaLM是谷歌人工智能实验室研发的大规模语言模型,其最大版本参数量已经超过5400亿。PaLM的预训练数据集由7800亿token的高质量语料组成,涵盖了广泛的自然语言用例,其中包括了过滤后的网页、书籍、Wikipedia、新闻、源代码和社交媒体对话数据。PaLM2是在3.6万亿token的数据集上进行训练得到,参数量仅为3400亿,它共有四个版本,分别为Gecko、Otter、Bison和Unicorn。它擅长于高级推理任务,包括代码和数学、分类和问答、翻译和多语言熟练程度,以及自然语言生成,比上一代PaLM具有更加优越的性能。它之所以能够完成这些任务,是因为它的构建方式——将计算最优缩放、改进的数据集混合和模型架构改进结合在一起。PaLM2在设计时也考虑到了隐私和数据安全,研发人员对其潜在危害和偏差、能力以及在研究和产品应用中的下游用途进行了严格评估。它能够加密数据并防止未经授权的访问,这使其成为敏感项目的理想选择,例如构建处理敏感用户信息的安全电子商务网站和平台。PaLM2在大量网页、源代码和其他数据集上进行了预训练,因此它擅长Python和JavaScript等流行编程语言,但也能够用Prolog、Fortran和Verilog等语言生成专门的代码。PaLM2可以将复杂的任务分解为更加简单的子任务,并且比以前的LLM(如PaLM)更善于理解人类语言的细微差别。例如,PaLM2擅长理解谜语和习语,这通常需要理解单词的歧义和比喻意义,而不是字面意义。 1.2 Google& DeepMind:LLM的奠基者,即将推出Gemini多模态模型 Gopher是Google Deepmind在2021年12月份提出的,该模型共有6个版本,参数量从4400万到2800亿。Gopher是在MassiveText数据集上训练得到,该数据集是一个多源大规模英语文本数据集,来源主要包括:网页、书籍、新闻和代码,总共包含23.5亿的文档,约等于10.5TB的文本。 Gopher模型在多个TPU节点上进行训练,每个节点包含1024个TPUv3芯片,节点间采用数据并行和张量并行,由于TPUv3具有快速的跨芯片通信,因此数据和模型并行开销很低。在训练的过程中对梯度进行裁剪,防止梯度消失或者爆炸,保持训练稳定性。 Gopher在152个任务上进行了评估,涉及数学、常识、逻辑推理、通用知识、科学理解、伦理和阅读理解,以及传统的语义建模基准等多个方面。 1.2Google& DeepMind:机器人模型RT-2—机器人多模态GPT时代已至 RT-2建立在视觉-语言模型(VLM)的基础上,又创造了一种新的概念:视觉-语言-动作(VLA)模型,它可以从网络和机器人数据中进行学习,并将这些知识转化为机器人可以控制的通用指令。 7月28日,Google DeepMind宣布其通过以训练AI聊天机器人的方式训练一款机器人控制模型RT-2,相当于机器人版本的ChatGPT。Google DeepMind通过对该模型进行视觉识别和语言识别上的训练,教会了机器人更好的识别物品和理解人类用自然语言发出的命令。 Google DeepMind团队通过直接训练开放词汇视觉问答和视觉对话设计,据Google DeepMind团队介绍,他们在互联网数据上训练了多达55B参数的模型,对6千个机器人进行评估,最后发现RT-2模型能够显著提高机器人场景和指令的泛化能力。 从PaLM-E到以RT-2为代表机器人模型进化迭代,我们认为有望重塑机器人智能化产业链,改善产业格局,助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面极大提升。 1.3 Stable Diffusion:文本到图像的扩散模型 Stable Diffusion是一种革新的文本到图像的扩散模型,其可以根据任何给定的文本输入来生成逼真的图像。该技术培养了一个可以自主和自由产生令人惊叹的图像的环境,为数十亿人提供了一个能够在短短几秒钟内创造出令人叹为观止的艺术作品的平台。 Stable Diffusion是由初创型AI公司Stability AI创建,并于2022年发布,其本质上是一种深度生成人工神经网络,可以在大多数的GPU上快速运行,而与之可比的Midjourney和DALL.E模型只能在云端服务器访问。Stable Diffusion共发生过5次版本的更新迭代,目前最新的版本为2023年6月发布的SDXL 1.0。 Stable Diffusion目前提供的应用端入口有四个: StableDiffusionWebUI:StableDiffusion的浏览器界面,内嵌模型,可以根据文本提示生成图像或使用文本提示修改现有图像。webUI,非常直观,易于使用,具有多种绘画相关辅助功能。web UI是一个很好的方式来探索stable diffusion的可能性,使用者仅需使用鼠标进行选择和设置,并可以体验StableDiffusion的强大功能。PromptGenerator:用于修改StableDiffusionPrompt的辅助工具,可以用于优化客户构建的不恰当的Prompt,改进后的Prompt将会极大的改善StableDiffusion生成图片的质量。PromptGenerator使用先进的算法来生成根据客户特定需求的Prompt,确保生成的图片满足客户的要求。ControlNet:为客户提供了一种改变Stable Diffusion的方式,客户可以