您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰海通证券]:AI产业深度:混合专家(MoE)大语言模型持续进化的核心架构基石 - 发现报告

AI产业深度:混合专家(MoE)大语言模型持续进化的核心架构基石

AI智能总结
查看更多
AI产业深度:混合专家(MoE)大语言模型持续进化的核心架构基石

请务ß阅û正文O后ö免¯g部V1 of 480AIï业ý度1混\专ÿÿMoEĀÿ语Š模ß持续ßWö核ß÷构ÿ÷摘要ÿ[Table_Summary]MoEOÏoû动语Š模ßÿLLMĀ持续ßWö核ß÷构ÿ÷,更重YLLMö市|局,ë动AIž域ö多元W竞争与开þ态ö繁ã2随着LLMö竞争åþïUû更高性能与更模ß规模ö追n,其背后e剧增ÿöÿ力r本与¯练开•已r为行业Ó展ö核ßö˜2o背oO,混\专ÿÿMixture of Experts,MoEĀ÷构已从v论探走Uï业应用ö核ß,r为ëó这一y本矛盾ös¿2Û通Ïë耦{参数量与单次ëvï活参数量,为业}ó供了一gÿ力þO持续k展模ß规模1óW~能|öóÛ性ï径2MoE技o最早ÿ追ïó1991年Robert JacobsÜGeoffrey Hinton{人ö开创性ý_,通Ï_入一þ<专ÿ=[络Ü一n<门控=络,ßóû输入数oö选ë性]v,即Ïï活与当_输入最þsö少数专ÿ,幅增ò模ß{参数量ö同÷,o效控vß际«ÿ开•2其<zÿï活=vÏ予了MoE模ß]v]杂1_构数o额ĀïÛßó规模参数k展方面öþ{优ÿ,使其r为oõLLMßóý参数规模与高效ßÿös¿技o2MoE通Ï高效ögþ«ÿ范_,辅ï如Top-kïu{s¿ïuÿ法1多样öŸÿWé略ÿ如辅助损y1专ÿ容量ÖvĀÛ针û性¯练技巧,确ß了LLM幅k展{参数ï容纳广[知Ïö同÷,单次_U传播öß际«ÿ开•ß低于同规模ö稠密模ß2MoErßë耦了模ßö{参数量与即÷«ÿŸÿ,为LLMó供了一gÿ力þO持续óW~能|ös¿ï径22025年,MoE÷构已r为构建顶^语Š模ßö流选ëO一,代表性模ß^ûO穷,全面s证了其_为核ßÿ÷öÿ|2开þ{方面,DeepSeek AIöDeepSeekÿW细þ度专ÿܯ练效÷Nß行了ý度创õĀMeta其Llama 4ÿW中_入qï专ÿ{¿«,o志着流模ßûMoEö全面拥ó2阿Ý巴巴öQwen31腾¯öHunyuan-TurboSÛxAIöGrokÿW{,WMoE与其Þ先ß技oÿ如Mamba÷构1高效注意力Āö\N展ó了丰ßö探2闭þž域,Google其GeminiÿW中明确采用MoE÷构ïóW效÷Üo持超ÿNO文2尽ûMoEßr广泛应用,ï技oÏ面临¯练O稳Û性1高昂ö通ï开•1参数o效性ïÛO游ÿ务微ö¾{核ßsz2学o}Üï业}正从多n维度积极探优Wï径,MoE技o将ïu~能1多模态\1ë适应学nïÛ与AI芯wöý度协同{方面持续ßW,ß一o释放其更力2风ÿó{ÿ1Ā语Š模ßö技oß展OÛ预期22Ā人ý~能行业内外部竞争|局ÛW带göO确Û性23Āÿ法vß能优WOÛ预期{2 目录1. MoE÷构ß于1990年代,其早期探为当_LLMövÓyÛ了v论与ßýÿx...................................................................................................................61.1. MoEë念öóûí通ÏVŒ治O应û]杂模ßsz,yÛ了gþ«ÿöv论ÿ÷........................................................................................................61.2.óW模ß容量与«ÿ效÷o早期MoEö核ß动,_瞻性wY\了当_LLMeŸÓ展ö规模W需n.........................................................................61.3.早期Ó展受Ö于«ÿÍþ与¯练¾˜,但MoEÓ展Ï{中ös¿Ý{碑为后续Ó展g明了方U....................................................................................72. MoE÷构通Ïzÿï活与一ÿWs¿技o,rßoõLLMßóŒ轻ö高效k展...................................................................................................................92.1.专ÿ络与门控络协同ý_,构r了LLM[ø与高效用海量知Ïöÿx..................................................................................................................102.2.zÿï活1~能ïu与ŸÿWéoMoEö核ß技o,q同yÛ了LLM性能óWöÿ÷........................................................................................112.2.1.zÿï活ÿSparse ActivationĀ使ßLLM能够û破参数与ÿ力ö增ÿö˜..............................................................................................................112.2.2.ïuÿ法ÿRouting AlgorithmsĀ_为LLMö~能度ÿÿ,精׏度知Ï库......................................................................................................112.2.3.ŸÿWéÿLoad BalancingĀ略o确ßLLMbo~Þo效ß_ös¿..................................................................................................................132.2.4.¯练略ÿTraining StrategiesĀo高效稳Û¯练MoE LLMöß要ß障..................................................................................................................152.3. GoogleöGShard1Switch TransformerÜGLaM{yÿ性ßý,÷先验证了MoE超规模模ßNöý力........................................................162.4. MoE模ßï更高ö参数k展能力与«ÿ效÷,r为LLM规模WÓ展中优于稠密ÿDenseĀ模ßö选ë........................................................................172.4.1. MoE模ßý_卓ö参数k展能力与«ÿ效÷,规模Wï径N优ÿ~×..............................................................................................................172.4.2. MoE模ß_面临内[开•ý1¯练]杂Û通ï昂贵{sz.......183.流LLM厂商ÿÿëû创õöMoE模ß,rs证其核ßÿ÷w位ößýo潮.........................................................................................................................19 请务ß阅û正文O后ö免¯g部V2 of 48 3.1.流MoE LLMö崛起与ßý创õó供了高性能与高效÷ö强模ß..............................................................................................................................203.1.1. Mistral AIöMixtralÿW模ßÿ2023Āý_卓ö性能与效÷,rßyû了开þž域MoE LLMöŸno杆...................................................203.1.2. DeepSeek AIÿW模ßÿ2024/2025ĀÿW通Ï细þ度专ÿ与¯练创õ,_沿探MoEö¯练效÷与专ÿ{W............................................213.1.3.阿Ý巴巴Qwen3ÿW模ßÿ2025Ā积极ßý高性能通用MoE模ß,探更丰ßö专ÿþ\略..................................................................223.1.4. MetaLlama 4ÿW模ßÿ2025Ā中全面拥óMoE÷构,o志着ÿ外流开þ模ßUzÿW方Uß..........................................................233.1.5. MinimaxöMiniMax-01ÿW模ßÿ2025Ā将MoE与创õ注意力vÿ\,rßÏ能LLMö超ÿNO文]v................................................243.1.6.腾¯混元TurboS模ßÿ2025Ā通ÏMoE与混\÷构协同,为LLMö性能与效÷探õï径.....................................................................253.1.7.小红ndots.llm1模ßÿ2025Āï极w竞争力ö性能r本比,探高效MoEõ_沿............................................................................................263.1.8.丰ßö开þ探q同构r了MoE LLM多元Wö技o态与繁ãoí......................................................................................................................273.2.行业ý}÷²闭þ模ß中积极采用MoE÷构,~其Oÿv缺öz略ÿ|..................................................................................................................283.2.1. Google GeminiÿW明确采用MoE,证ßMoEo其óW效÷与o持超ÿNO文ös¿..........................................................................................293.2.2. xAIöGrokÿW从开þr闭þö迭代,s证MoE_为÷²模ßö持续ß....................................