您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:大模型系列报告(一):Transformer架构的过去、现在和未来 - 发现报告

大模型系列报告(一):Transformer架构的过去、现在和未来

2025-01-19-财通证券赵***
AI智能总结
查看更多
大模型系列报告(一):Transformer架构的过去、现在和未来

证券研究报告 投资评级:看好(维持) €心Ê点 ❖Transformer架构的过去和Ā在ÿ人类大脑在p限的资源条þQ,通过神经元回路的自Ā装和微调,实Ā了高效的信o处理2~了`化信o处理,大脑发展了高效的信o选择和投注机制——注意力,而非依赖超大容à的处理能力2Ÿ着s们对大脑认知机制的深入了解ñ及计算机科学的ßm,研究人员尝试通过算法à化大脑的认知ß能,将人类的思维模式映射到人工智能P2Transformer是一种基于注意力机制的神经网络架构,由Google Brain团队于2017€在论文:Attention Is All You Need;中ð出2通过摒``统循ÿ结构,Transformer利用自注意力机制并行处理序列元素,显著ð升了¯ÿ速度和长距离依赖建模能力2Transformer架构的灵活性,使wr~_多非自然语言处理领域Yß模型构建的基础框架,展Ā出广阔的Þ用前o,包括但O限于能够将O\模态的数据映射到统一的特à表示空间,促ß跨模态Þ用发展2目前,人工智能大模型的ß化要依赖于人工版本的更新2而Ÿ着€术的发展,研究人员k在探索自sß化的模型,使w能够自完善和学`由自身生r的经验,Ð而èú人工智能U更高级的智能发展2`前AI的局限性或在于w学`效率的PQ,而非数据O足2真k的智能O仅是数据à的堆ÿ,而是在于对信o的压缩和ð炼,类似于通过总结第一性原理的方式获×更深层l的智能2 分析师杨烨SAC证书编øÿS0160522050001yangye01@ctsec.com 相s报告 1.:电力信o化研究框架ÿÿ一Ā总章;2025-01-14 2.:英_达GB300含苞à,s注液冷和电源ÿ节;2025-01-14 Transformer架构的未来ÿ}管Transformer凭借着Ā多`势r~如今的流架构,但w并非}善}美,Ïp无法ÿ免的局限性,例如计算复g度高和计算r本高2目前对Transformer架构的未来,要p两条道路,一是被更`ù的全新架构ÿï,Ð是在原p架构基础P通过`化注意力机制等方式ß行升级,à两条道路都是通ß计算复g度更P1计算r本更P1效率更高à个目标2目前研究人员k在ÿ极探索可能×ï或增强Transformer的全新架构,并ð出了数个潜在的ÿï架构,例如RetNet1Mamba1RWKV1Hyena1线性注意力机制等2无论选择哪条路ß,最Ā的目标都是实Ā更高的性能1更强的泛化能力1更P的资源消耗,ñèúAI在更多实×场o中的Þ用,\时¬w更à可持续的n惠化的发展2 3.:智驾o报ÿ车^表Ā强劲,首个Robotaxi法规出炉;2025-01-12 ❖投资建°ÿ短期来看,Transformer架构依然是大模型的流,建°Þ点s注基础¿施领域的公ù,如英_达1海Z信o1寒n纪1`创数据1英维克1中科曙Z1浪潮信o1润泽科€1欧Ø通1曙Z数创等,\时持续s注全球各大模型厂商1学界的创新ß展2 ❖风险ð示ÿ€术迭ïO及预期的风险Ā商业化落地O及预期的风险Ā€策支持O及预期风险Ā全球宏Ê经济风险2 内容目录 1Transformer架构的过去和Ā在............................................................................................................41.1人脑带来的启示ÿ数据的无损压缩..................................................................................................41.2TransformerÞß而生ÿAttention is all you need..........................................................................61.3Transformer的`势ÿ规模扩展1多模态能力...............................................................................92Transformer架构的未来......................................................................................................................122.1Transformer架构的局限性.............................................................................................................122.2Transformer架构的挑战者.............................................................................................................132.2.1RetNet................................................................................................................................................142.2.2Mamba...............................................................................................................................................162.2.3RWKVÿReceptance Weighted Key ValueĀ................................................................................182.2.4Hyena.................................................................................................................................................202.2.5线性注意力机制............................................................................................................................212.3架构展望ÿ更P计算复g度1更Pr本1更高效率....................................................................243投资建°.................................................................................................................................................254风险ð示.................................................................................................................................................25 Ā表目录 Ā1.大语言模型ÿLLMsĀ自ß化概念框架Ā..........................................................................................4Ā2.大语言模型ÿLLMsĀP大脑相似性估计框架的示意Ā..................................................................5Ā3.大语言模型PO\ð示添à策略P大脑相似性.................................................................................5Ā4.大语言模型在处理ÿ极和消极情感文本时P大脑的相似性.............................................................5Ā5. Transformer模型架构...........................................................................................................................6Ā6.注意力机制预测Q一个词汇.................................................................................................................7Ā7.缩点ÿ注意力ÿScaled Dot-Product AttentionĀ原理和Softmax公式......................................8Ā8.多头注意力ÿMulti-Head AttentionĀ原理和MHA公式................................................................9Ā9. Transformer和LSTM在O\参数数à和PQ文长度Q的测试损失............................................10Ā10.流大模型参数àÙ化.....................................................................................................................10Ā11. RNN/LSTM1CNN和Transformer在跨模态任á中的`势1劣势...........................................11Ā12. Transformer架构的计算复g度过高来源于w自注意力机制Softmax Attention.......................12Ā13.大模型参数àO断膨胀,已达1000B.............................................................................................13 Ā14.谷歌CORE ML/AI副总裁Bill Jia在2024€硅谷_源科€€会P接Ø采À..........................14Ā15.潜在的Transformer架构ÿï架构.................................................................................................14Ā16. RetNet的并行P循ÿ过程..........................................................................................................