强于大市(维持) ——计算机行业跟踪报告 谷歌推出Gemini 1.5 Pro版本,性能水平与Gemini 1.0 Ultra类似。2024年2月15日,谷歌再次更新其Gemini大模型至Gemini 1.5代,并推出Gemini 1.5 Pro版本。Gemini 1.5 Pro的性能水平与谷歌至今为止最大的模型Gemini 1.0 Ultra类似。与Gemini 1.0代对比,Gemini1.5 Pro的性能大大超过了Gemini 1.0 Pro,在绝大多数(27/31)的基准测试(benchmarks)中表现更好;而在与Gemini 1.0 Ultra的对比中,Gemini 1.5 Pro在超过一半的基准测试上表现更好,尤其是在多数文本基准测试(10/13)和部分视觉基准测试(6/13)中都表现优于Gemini 1.0 Ultra。3436 投资要点: 建立在MoE架构上,能更高效的训练和服务。Gemini 1.5大模型建立在对稀疏(sparse)混合专家(mixture-of-expert,MoE)架构及Transformer架构领先的研究上,其训练和服务更为高效。传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络。混合专家模型(MoE)主要由两个关键部分组成:1)稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”,每个“专家”本身是一个独立的神经网络;2)门控网络或路由:这个部分用于决定每个token被发送到哪个“专家”。这种“术业有专攻”的架构,能够极大的提高模型的效率,让MoE能够在远少于稠密模型所需的计算资源下进行有效的预训练,因此基于MoE架构的Gemini 1.5在训练和服务上也更为高效。 利润端整体承压,过半标的呈现向好趋势Gemini1.5和Sora相继发布,关注AIGC应用落地及对算力的需求提振 OpenAI推出首个文生视频大模型Sora,引领AI文生视频行业跨越式发展 具备超大容量的上下文窗口,可对大量信息进行复杂推理。Gemini 1.5Pro是一种中等规模(mid-size)的多模态模型,引入了在上下文理解方面的突破性实验特征。Gemini 1.5 Pro除了配有标准的128,000token的上下文窗口,少数开发人员和企业客户还可以通过AI Studio和VertexAI的私人预览版在最多1,000,000个token的上下文窗口中进行尝试和体验。100万个token的上下文窗口容量相当于Gemini 1.5 Pro可以一次性处理1小时视频/11小时音频/超过30,000行代码/超过700,000个单词(word)的信息库,能够对大量的信息进行复杂推理。 投资建议:Gemini 1.5 Pro的超大容量上下文窗口有助于其应用在更多的领域。同时,MoE架构能让模型更高效的训练和服务,也有助于多模型大模型在应用端的加速落地。我们认为MoE架构有望成为多模态大模型的主流应用架构之一,建议关注超大容量上下文长度以及MoE架构助力多模态大模型在应用端加速落地带来的投资机遇,同时继续关注多模态大模型对算力的持续需求。 ⚫风险因素:人工智能产业发展不及预期,应用落地不及预期,AI带来的隐私、版权与技术风险。 正文目录 1 Gemini 1.5 Pro发布,立足MoE架构,性能更加优越...............................................3 1.1谷歌Gemini系列再更新,Gemini 1.5 Pro性能可媲美Gemini 1.0Ultra.........31.2建立在MoE架构上,能更高效的训练和服务..................................................31.3具备超大容量的上下文窗口,可对大量信息进行复杂推理............................4 2投资建议...........................................................................................................................6 3风险提示...........................................................................................................................6 图表1:谷歌Gemini系列产品一览................................................................................3图表2:Gemini 1.5 Pro和Gemini 1.0 Pro及Gemini 1.0 Ultra的对比.........................3图表3:MoE架构原理示意图.........................................................................................4图表4:Gemini 1.5具有超大容量的上下文窗口...........................................................4图表5:Gemini 1.5 Pro可以处理阿波罗11号登月任务402页的记录.......................5图表6:Gemini 1.5 Pro可以识别一部44分钟无声电影中的场景...............................5图表7:Gemini 1.5 Pro可以推理超过100,000行代码..................................................6 1Gemini 1.5Pro发布,立足MoE架构,性能更加优越 1.1谷歌Gemini系列再更新,Gemini1.5Pro性能可媲美Gemini1.0Ultra 谷歌多模态大模型再更新,推出Gemini 1.5 Pro版本。Gemini系列大模型是谷歌的多模态(multimodality)大模型,能够处理跨越文本、图片、音频、视频、代码等多模态信息。此前,谷歌推出的Gemini1.0总共有Nano、Pro、Ultra三个版本。2024年2月15日,谷歌再次更新其Gemini大模型至Gemini1.5代,并推出Gemini1.5Pro版本。 Gemini1.5 Pro的性能水平与谷歌至今为止最大的模型Gemini 1.0 Ultra类似。与Gemini1.0代对比,Gemini1.5Pro的性能大大超过了Gemini 1.0 Pro,在绝大多数(27/31)的基准测试(benchmarks)中表现更好;而在与Gemini 1.0 Ultra的对比中,Gemini1.5Pro在超过一半的基准测试上表现更好,尤其是在多数文本基准测试(10/13)和部分视觉基准测试(6/13)中都表现优于Gemini 1.0 Ultra。 1.2建立在MoE架构上,能更高效的训练和服务 Gemini1.5大模型建立在对稀疏(sparse)混合专家(mixture-of-expert,MoE)架构及Transformer架构领先的研究上,其训练和服务更为高效。传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络。混合专家模型(MoE)主要由两个关键部分组成:1)稀疏MoE层:这些层代替了传统Transformer模型 中的前馈网络(FFN)层。MoE层包含若干“专家”,每个“专家”本身是一个独立的神经网络;2)门控网络或路由:这个部分用于决定每个token被发送到哪个“专家”。例如,在下图中,“More”这个token被发送到第二个专家,而“Parameters”这个token被发送到第一个专家。这种“术业有专攻”的架构,能够极大的提高模型的效率,让MoE能够在远少于稠密模型所需的计算资源下进行有效的预训练,基于MoE架构的Gemini1.5在训练和服务上也更为高效。 资料来源:Hugging Face、Switch Transformers paper,万联证券研究所 1.3具备超大容量的上下文窗口,可对大量信息进行复杂推理 Gemini1.5 Pro是中等规模的多模态模型,具有超大容量的上下文窗口。谷歌现在推出的Gemini1.5Pro是一种中等规模(mid-size)的多模态模型,引入了在上下文理解方面的突破性实验特征。Gemini 1.5 Pro除了配有标准的128,000token的上下文窗口,少数开发人员和企业客户还可以通过AI Studio和Vertex AI的私人预览版在最多1,000,000个token的上下文窗口中进行尝试和体验。100万个token的上下文窗口容量相当于Gemini1.5Pro可以一次性处理1小时视频/11小时音频/超过30,000行代码/超过700,000个单词(word)的信息库。 资料来源:机器之心、腾讯网,万联证券研究所 Gemini1.5 Pro能够对大量的信息进行复杂推理,可以在给定提示内无缝分析、分类和总结大量内容。例如,当给出阿波罗11号登月任务的402页记录时,Gemini 1.5Pro可以推理文档中的对话、事件和细节。 资料来源:机器之心、腾讯网,万联证券研究所 Gemini1.5 Pro能够更好地理解和推理跨模态,可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部44分钟的巴斯特·基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro可以识别44分钟的巴斯特基顿无声电影中的场景。 资料来源:机器之心、腾讯网,万联证券研究所 Gemini 1.5 Pro能够使用较长的代码块解决相关问题。例如,当给出超过100,000行代码的提示时,它可以更好地推理示例、建议有用的修改并解释代码不同部分的工作原理。 资料来源:机器之心、腾讯网,万联证券研究所 2投资建议 Gemini 1.5 Pro的超大容量上下文窗口有助于其应用在更多的领域。同时,MoE架构能让模型更高效的训练和服务,也有助于多模型大模型在应用端的加速落地。我们认为MoE架构有望成为多模态大模型的主流应用架构之一,建议关注超大容量上下文长度以及MoE架构助力多模态大模型在应用端加速落地带来的投资机遇,同时继续关注多模态大模型对算力的持续需求。 3风险提示 人工智能产业发展不及预期,应用落地不及预期,AI带来的隐私、版权与技术风险。 强于大市:未来6个月内行业指数相对大盘涨幅10%以上;同步大市:未来6个月内行业指数相对大盘涨幅10%至-10%之间;弱于大市:未来6个月内行业指数相对大盘跌幅10%以上。 买入:未来6个月内公司相对大盘涨幅15%以上;增持:未来6个月内公司相对大盘涨幅5%至15%;观望:未来6个月内公司相对大盘涨幅-5%至5%;卖出:未来6个月内公司相对大盘跌幅5%以上。基准指数:沪深300指数 我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。 本人具有中国证券业协会授予的证券投资咨询执业资格并登记为证券分析师,以勤勉的执业态度,独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因,