您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:谷歌大模型Gemini惊艳发布 - 发现报告

谷歌大模型Gemini惊艳发布

信息技术2023-12-09刘高畅国盛证券M***
谷歌大模型Gemini惊艳发布

谷歌推出多模态大模型Gemini,多项评测基准达到最佳。12月6日,谷歌宣布推出模型Gemini。第一个版本的Gemini 1.0有3个尺寸:Gemini Ultra—最大、最有能力的型号,适用于高度复杂的任务;Gemini Pro—用于扩展各种任务的最佳型号; GeminiNano—最高效的设备端任务模型。从自然图像、音频和视频理解到数学推理,Gemini Ultra在LLM领域广泛使用的32学术基准中的30个上性能能超过了当前最先进的结果(SOTA)。MMLU基准使用数学、物理、历史、法律、医学和伦理学等57个科目的组合来测试世界知识和解决问题的能力,Gemini Ultra的得分为90.0%,是第一个在MMLU基准上优于人类专家的模型。在多项多模态基准上,Gemini Ultra的性能优于此前的先进模型。谷歌同时发布了效果惊艳的演示视频,展示了Gemini强大的多模态交互能力。演示内容包括根据根据图像纠正拼音音调、对星球图案进行排序、根据车的形状判断下坡速度等。 Gemini多方位赋能谷歌生态,应用潜力无限。1)谷歌宣布聊天机器人Bard将使用Gemini Pro的微调版本进行更高级的推理、计划、理解等。这是Bard自推出以来最大的升级。Bard将在170多个国家和地区提供英语版本,计划在不久的将来扩展到不同的模式并支持新的语言和地点。2)谷歌将Gemini引入Pixel手机。Pixel 8 Pro是首款搭载Gemini Nano的智能手机,它支持录音应用中的“汇总”等新功能。3)谷歌宣布在接下来的几个月里,Gemini将出现在更多产品和服务中,如搜索、广告、Chrome和Duet AI。谷歌已经开始在搜索中试用Gemini,它使搜索生成体验对用户来说更快,同时质量也得到了提高。4)从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。 5)Gemini Ultra计划在明年初推出给开发人员和企业客户。明年初谷歌还将推出Bard Advanced,将Gemini Ultra引入Bard中。5)此前谷歌推出PalM-E模型和谷歌推出RT-2模型用于机器人领域。我们认为作为原生的多模态大模型,Gemini有望在机器人上得到应用。 对标GPT-4,良性竞争或将极大加速AI进步。由于目前Gemini Ultra暂未开放,我们认为Gemini Ultra与GPT-4的能力比较暂不能直接给出结论。据谷歌技术报道,在MMLU基准上GeminiUltra超越GPT-4的得分时,谷歌采用了一种名为CoT@32的评测方式,但如果采用5-shot评测方式,则GPT-4得分更高。多模态能力上,作为原生的多模态大模型,Gemini可以直接输入视频与音频,当前GPT-4V暂不能直接处理视频与音频。算力依赖上,谷歌在推出Gemini的同时,宣布推出TPU系统Cloud TPU v5p,专为训练尖端AI模型而设计。OpenAI背靠股东微软,可由Azure提供算力支持;近期OpenAI与人工智能芯片初创公司Rain签署意向书,将购买总价值5100万美元的AI芯片。在AI应用生态构建上,微软的windows是份额最大桌面端操作系统;在移动端Google Play是最大的应用商店,约占全球所有应用下载量的一半,可用于设备端的Gemini Nano也有利于移动AI应用生态的构建。我们认为Gemini的推出打破了OpenAI在大模型领域绝对领先的地位,良性竞争或将极大加速LLM能力进步,进一步推动各类AI应用落地,并带来更大算力需求。 建议关注: 多模态应用:大华股份、海康威视、金山办公、漫步者、万兴科技、紫天科技、科大讯飞、中科创达、新国都、福昕软件、传音控股、千方科技、虹软科技、当虹科技等。 算力侧:英伟达、中科曙光、海光信息、中际旭创、新易盛、浪潮信息、云赛智联、高新发展、神州数码、利通电子、万马科技、烽火通信、润建股份、南威软件、寒武纪、恒为科技、工业富联等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 一、谷歌推出多模态大模型Gemini,多项评测基准达到最佳 12月6日,谷歌宣布推出模型Gemini。第一个版本的Gemini 1.0有3个尺寸:1. Gemini Ultra—谷歌最大、最有能力的型号,适用于高度复杂的任务。 2. Gemini Pro—用于扩展各种任务的最佳型号。 3. Gemini Nan—最高效的设备端任务模型。 据谷歌官网,从自然图像、音频和视频理解到数学推理,Gemini Ultra在大语言模型(LLM)领域广泛使用的32学术基准中的30个上性能能超过了当前最先进的结果(SOTA)。其中MMLU基准使用数学、物理、历史、法律、医学和伦理学等57个科目的组合来测试世界知识和解决问题的能力,GeminiUltra的得分为90.0%,是第一个在MMLU基准上优于人类专家的模型。 图表1:Gemini在包括文本和编码在内的一系列基准测试中超越了当前最先进的结果 在多项多模态基准上,Gemini Ultra的性能优于此前的先进模型。GeminiUltra在MMLU基准测试中获得了59.4%的分数,该基准测试由跨越不同领域的多模态任务组成,需要深思熟虑的推理。据谷歌官网,目前创建多模态模型的标准方法是为不同的模态训练单独的组件,然后将它们拼接在一起,以粗略地模仿其中的一些功能。这些模型有时可以很好地执行某些任务,例如描述图像,但在更概念化和复杂的推理方面会遇到困难。谷歌将Gemini设计为原生多模态大模型,从一开始就对不同的模态进行预训练。然后用额外的多模态数据对其进行了微调,以进一步完善其有效性。这有助于Gemini从头开始无缝地理解和推理各种输入。 图表2:Gemini在一系列多模态基准测试中超越了当前最先进的结果 谷歌同时发布了效果惊艳的演示视频,展示了Gemini强大的多模态交互能力。演示内容包括根据根据图像纠正拼音音调、对星球图案进行排序、根据车的形状判断下坡速度等。 图表3:纠正鸭子拼音 图表4:排序星球图案 图表5:根据车的形状判断下坡速度 二、Gemini多方位赋能谷歌生态,应用潜力无限 谷歌在推出Gemini的同时,宣布聊天机器人Bard将使用Gemini Pro的微调版本进行更高级的推理、计划、理解等。这是Bard自推出以来最大的升级。Bard将在170多个国家和地区提供英语版本,计划在不久的将来扩展到不同的模式并支持新的语言和地点。 谷歌还将Gemini引入Pixel手机。Pixel 8 Pro是首款搭载Gemini Nano的智能手机,它支持录音应用中的“汇总”等新功能,并在Gboard的智能回复中推出,从WhatsApp开始,明年谷歌将推出更多消息传递应用。 谷歌宣布在接下来的几个月里,Gemini将出现在更多产品和服务中,如搜索、广告、Chrome和Duet AI。谷歌已经开始在搜索中试用Gemini,它使搜索生成体验(SGE)对用户来说更快,在美国,英语延迟减少了40%,同时质量也得到了提高。 从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的GeminiAPI访问Gemini Pro。Google AI Studio是一款基于Web的免费开发者工具,可通过API密钥快速制作原型并启动应用。当需要完全托管的AI平台时,Vertex AI允许通过完全的数据控制来定制Gemini,并受益于额外的GoogleCloud功能,以实现企业安全、安全、隐私和数据治理与合规性。 Gemini Ultra即将推出。谷歌目前正在对Gemini Ultra完成广泛的信任和安全检查,将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra的早期实验和反馈,然后在明年初将其推出给开发人员和企业客户。明年年初,谷歌还将推出Bard Advanced,将Gemini Ultra引入Bard中。 除了以上谷歌已宣布的应用,我们还认为Gemini有望赋能机器人。2023年3月,谷歌推出PalM-E模型,将540B PaLM和ViT-22B结合,用于机器人任务。2023年7月,谷歌推出RT-2模型,是一种新颖的视觉-语言-动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制指令。作为原生的多模态大模型,Gemini有望在机器人上得到应用。 三、对标GPT-4,良性竞争或将极大加速AI进步 由于目前GeminiUltra暂未开放,我们认为GeminiUltra与GPT-4具体的能力比较暂不能直接给出结论。 据谷歌技术报道,在MMLU基准上GeminiUltra超越GPT-4的得分时,谷歌采用了一种名为CoT@32的评测方式,但如果采用5-shot评测方式,则GPT-4得分更高。 图表6:谷歌技术报道各模型评测对比 多模态能力上,作为原生的多模态大模型,Gemini可以直接输入视频与音频,当前GPT-4V暂不能直接处理视频与音频(参考本文图2)。 在算力依赖上,谷歌在推出Gemini的同时,宣布推出迄今为止功能最强大、最高效、可扩展性最强的TPU系统Cloud TPU v5p,专为训练尖端AI模型而设计。OpenAI背靠股东微软,可由Azure提供算力支持;同时据《Wired》报道,近期OpenAI与人工智能芯片初创公司Rain签署了一份意向书,将购买总价值5100万美元的AI芯片,OpenAI首席执行官Sam Altman此前曾对Rain进行过个人投资。 图表7:谷歌数据中心的Cloud TPU v5pAI加速器超级计算机 在AI应用生态构建上,据statcounter统计,2023年11月微软的windows占据桌面端操作系统68.87%份额;在移动端,据BusinessofApps 2023年统计,按应用数量和下载量计算,Google Play是最大的应用商店,约占全球所有应用下载量的一半,可用于设备端的Gemini Nano也有利于移动AI应用生态的构建。 我们认为Gemini的推出打破了OpenAI在大模型领域绝对领先的地位,大模型的良性竞争或将极大加速LLM能力进步,进一步推动各类AI应用落地,并带来更大算力需求。 四、投资建议 建议关注: 多模态应用:大华股份、海康威视、金山办公、漫步者、万兴科技、紫天科技、科大讯飞、中科创达、新国都、福昕软件、传音控股、千方科技、虹软科技、当虹科技等。 算力侧:英伟达、中科曙光、海光信息、中际旭创、新易盛、浪潮信息、云赛智联、高新发展、神州数码、利通电子、万马科技、烽火通信、润建股份、南威软件、寒武纪、恒为科技、工业富联等。 五、风险提示 AI技术迭代不及预期风险:若AI技术迭代不及预期,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。