AI智能总结
股票研究/2024.09.20 MoE与思维链助力大模型技术路线破局计算机评级:增持 上次评级:增持 股票研 究 行业专题研 究 证券研究报 告 李博伦(分析师)伍巍(研究助理) 0755-23976516021-38031029 libolun@gtjas.comwuwei028683@gtjas.com 登记编号S0880520020004S0880123070157 本报告导读: Transformer架构大模型对算力成本要求高,一定程度阻碍了大模型研发和应用的进一步创新,随着o1大模型的发布以及MoE架构的成熟,技术路线有望破局。 投资要点: 投资建议:随着Transformer架构大模型在算力侧成本攀升,升级迭代遇到瓶颈,技术路线相关探索有望打造性能更优、应用范围更专更准的AI大模型。推荐标的:科大讯飞、虹软科技、万兴科技、福 昕软件、金山办公、鼎捷软件、紫光股份、浪潮信息,受益标的:昆仑万维、润达医疗。 巨额算力投入成为技术和效益优化的瓶颈,技术路径破局迫在眉睫。从效益端看,基于Transformer架构的模型在训练计算量(trainingFLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在 大模型训练任务中,算力成为必须的基础性资源。但随着模型越来越大,算力成本越来越高,成本飙升源于模型复杂度和数据量攀升对计算资源的需求。Anthropic首席执行官表示,三年内AI模型的训练成本将上升到100亿美元甚至1000亿美元。巨额的大模型训练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤为关键。当前MoE以及OpenAIo1的“思维链”是重要探索实践。 MoE框架是对Transformer架构的优化,关键在于路由策略及微调。其能在不给训练和推理阶段引入过大计算需求的前提下大幅提升模型能力。在基于Transformer的大型语言模型(LLM)中,每个 混合专家(MoE)层的组成形式通常是�个“专家网络”搭配一个“门控网络”G。门控函数(也被称路由函数)是所有MoE架构的基础组件,作用是协调使用专家计算以及组合各专家的输出。根据对每个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和soft式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专家,soft式则包括完全可微方法,包括输入token融合和专家融合。MoE在NLP、CV、语音识别以及机器人等领域表现出色,且在更高性能的大模型推理芯片LPU加持下,MoE模型提升效果显著。 OpenAIo1基于“思维链”的创新推理模式,学会人类“慢思考”,专业领域的效果突出。OpenAIo1相比之前的AI大模型最跨越性的一步在于拥有人类“慢思考”的特质:系统性、逻辑性、批判性、 意识性。在响应用户提出的难题之前,OpenAIo1会产生一个缜密的内部思维链,进行长时间的思考,完善思考过程、意识逻辑错误优化使用策略、推理正确答案。这种深度思考能力在处理数学、编程、代码、优化等高难度问题时发挥重要作用,能够进行博士级别的科学问答,成为真正的通用推理。推理侧的应用模式创新有望在更为专业的领域创造价值应用,从通用的偏娱乐领域逐步过渡到偏严肃的专业领域场景,AI大模型的真正实践价值有望进一步释放,因此o1模型提供的新应用范式和能力维度在大模型技术路线演绎中,具有里程碑意义。 风险提示:技术迭代不及预期,AI应用市场拓展节奏不及预期。 细分行业评级相关报告 计算机《OpenAIo1开启大模型应用新范式》 2024.09.16 计算机《银行间交易自主可控提升行业景气度》 2024.09.03 计算机《自主可控迎内外催化,行业有望超预期》2024.07.22 计算机《示范区落地,交通信息化景气度再获验证》2024.07.25 计算机《萝卜快跑带领自动驾驶进入快速落地期》2024.07.14 目录 1.投资建议3 2.MoE另辟蹊径,有望破局大模型发展瓶颈3 2.1.Transformer路径下,算力资源成为大模型发展的瓶颈3 2.2.MoE框架是对Transformer架构的优化,而非完全替代5 2.3.MoE基于门控函数设计方式可分为多种类型7 2.4.MoE模型效益的关键在于路由策略及微调9 2.5.针对MoE模型训练中的性能问题,LPU设计厂商有望破局10 3.MoE模型降本增效,应用广泛11 3.1.MoE模型在多个赛道表现优异11 3.2.国内外厂商积极应用MoE框架,助力降本增效15 4.OpenAIo1模型提供大模型训练及运用推理新范式17 4.1.大模型OpenAIo1推理侧创新运用“思维链”17 4.2.大模型结合强化学习开启应用推理新范式18 4.3.简单的功能与高昂的成本,o1并非完美无缺18 4.4.o1加速AGI实现,孕育应用蓝海19 5.风险提示20 1.投资建议 投资建议:随着Transformer架构大模型在算力侧成本攀升,升级迭代遇到 瓶颈,技术路线相关探索有望打造性能更优、应用范围更专更准的AI大模型。推荐标的:科大讯飞、虹软科技、万兴科技、福昕软件、金山办公、鼎捷软件、紫光股份、浪潮信息,受益标的:昆仑万维、润达医疗。 表1:推荐标的盈利预测 股票代码股票名称股价(元)EPS(元/股)PE(倍) 2024/9/18 2023A 2024E 2025E 2023A 2024E 2025E 002230.SZ 科大讯飞 33.82 0.28 0.39 0.43 120.79 86.72 78.65 增持 688088.SH 虹软科技 23.86 0.22 0.36 0.48 108.45 66.28 49.71 增持 300624.SZ 万兴科技 40.42 0.64 0.51 0.57 63.16 79.25 70.91 增持 688095.SH 福昕软件 49.73 -1.03 -0.33 0.18 -- -- 276.28 增持 688111.SH 金山办公 181.08 2.86 3.72 4.86 63.31 48.68 37.26 增持 300378.SZ 鼎捷软件 16.33 0.56 0.68 0.85 29.16 24.01 19.21 增持 000938.SZ 紫光股份 18.42 0.74 0.87 1.02 25.06 21.17 18.06 增持 000977.SZ 浪潮信息 31.16 1.1804 1.7 1.98 26.40 18.33 15.74 增持 评级 数据来源:国泰君安证券研究(以上公司盈利预测数据均来自国泰君安证券盈利预测) 2.MoE另辟蹊径,有望破局大模型发展瓶颈 2.1.Transformer路径下,算力资源成为大模型发展的瓶颈 Transformer模型通过扩大计算量(trainingFLOPs)达到更好的性能,算力是重要资源。2020年OpenAI的GPT-3开启大模型时代,此后多家公司快速发布基于Transformer架构的大模型。从架构机制看,Transformer架构 有以下特点:(1)自注意力机制:需要计算每个词与其他所有词之间的相关性,这种计算复杂度随着输入序列长度的增加而呈平方增长,(2)多头注意力机制:为了捕捉不同方面的语义信息,Transformer模型通常使用多头注意力机制,这进一步增加了计算复杂度。(3)层数深:Transformer模型通常具有很多层,每层都需要进行大量的矩阵运算,因此模型需要用到大量算力资源。从效益端看,基于Transformer架构的模型在训练计算量(trainingFLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在大模型训练任务中,算力成为必须的基础性资源。 图1:随着规模增加,模型能力呈现“涌现”现象 数据来源:《EmergentAbilitiesofLargeLanguageModels》 模型越来越大,算力成本越来越高。在算力方面,AI模型公司通常购买算力卡,再使用不同的计算框架和算法等部署大模型的计算集群。从算力供给看,英伟达算力卡需求较大,当前英伟达GPU的拿货能力已经成为大模型公司的核心能力;从需求端看,Transformer类架构模型运算量每两年约翻750倍,远超CV/NLP/Speech模型算力需求增长,更远远超过摩尔定律的速度。随着时间增长,模型运算量增长和芯片性能增长之间的巨大差距需要更好的下游集群策略来弥补,但集群策略将会越来越复杂,花费在算力上的成本也将更高。据第一财经透漏,2023.09-2023.11中贝通信向客户提供AI算力技术服务的单价两个月内上涨了50%。Anthropic首席执行官DarioAmodei在InGoodCompany播客节目中表示,目前正在开发的人工智能模型的训练成本高达10亿美元,且预计从现在开始,三年内AI模型的训练成本将上升 到100亿美元甚至1000亿美元。图2:大模型算力需求增长过快 数据来源:《AIandMemoryWall》 图3:大模型训练成本呈指数级攀升 数据来源:Stanford2024AIIndexReport 成本飙升源于模型复杂度和数据量攀升对计算资源的需求,因此行业应用需求的多样性可以一定程度减弱短期内对基础性大模型的需求。在AI领域,这些成本增长带来的影响各不相同,因为并非所有应用场景都需要最新、最强大的大语言模型。随着众多小型大语言模型替代品的涌现,如Mistral和Llama3,它们有数十亿个参数,不像GPT-4可能具有万亿个参数。且微软也发布了自己的小语言模型(SLM)Phi-3,Phi-3拥有38亿个参数,并且基于相对GPT-4等大语言模型更小的数据集进行训练。小模型尽管可能无法完全媲美大型模型的效能,但小语言模型凭借其精简的体型和训练数据集, 在成本控制方面展现出独特优势。小型、专业化的语言模型如同庞杂系统中的重要组件,为各类细分应用提供关键高效的功能,因此Moe路径或是当前大模型训练及应用演化的重要参考路径之一。 2.2.MoE框架是对Transformer架构的优化,而非完全替代 MoE框架基于一个简单却又强大思想:模型的不同部分(称为专家)专注于不同的任务或数据的不同方面。MoE(MixtureofExperts)类模型使用远少于Transformer架构类模型的算力扩大模型规模,性价比更高。MoE模型架构起源于1991年,2017年google提出《OutrageouslyLargeNeuralNetworks:TheSparsely-GatedMixture-of-ExpertsLayer》中,MoE模型逐渐被关注。2024年1月,OpenAI团队发布Mixtral8x7B的论文,MoE模型成为关注焦点。 传统的Transformer架构主要包括自注意力层和前馈网络层,MoE模型使用稀疏MoE层代替传统Transformer架构中的前馈网络(FFN),相比于Transfromal前馈层的全连接,MoE架构的层连接更加稀疏,因此也被称为稀疏模型。 图4:专家层代替Transformer模型中的FFN层 数据来源:《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleand EfficientSparsity》 MoE层主要包括两部分,即门控层和专家层。门控Gatenet层用于决定哪些token被发送到哪些最相关的专家。门控的输出可以用来解释模型的决策过程,分析哪些专家对特定输入的贡献最大,可解释性更高。门控层的算法决定不同专家的启用情况,不同的算法会带来不同的负载均衡,同时影响模型的稀疏程度。专家experts层通常包括多个专家网络,每个专家本身是一个独立的神经网络,可以被独立设计和训练,负责处理来自门控getenet层分配的不同数据,针对特定的任务优化参数,更好地处理特定领域的任务。 图5:门控gatenet层和专家experts层分工流程不同 数据来源:《Out