
投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 5% -5% -15% -25% -35% -46% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 分析师罗云扬 SAC证书编号:S0160522050002 luoyy@ctsec.com 相关报告 1.《计算机行业投资策略与业绩前瞻》 2024-03-25 2.《设备更新激活传统产业,蜕变新质生产力》2024-03-24 3.《华为加大对伙伴激励,关注英伟达新一代芯片进展》2024-03-17 「长上下文」通往AGI的关键模型能力。我们认为,大语言模型的长文本能力可能是通往AGI的必要条件之一。首先,更长的上下文长度可以(i)提升大模型提示工程的潜力、(ii)增强文本的生成能力、(iii)丰富大模型的个性化使用体验。其次,长上下文更多地挑战了模型厂商的工程能力。鉴于自注意力机制固有的“二次代价”以及对长序列中间段信息处理的不稳定性,如何在保持长文本生成效果的同时,平衡对计算力和存储的额外压力,成为了模型厂商需要仔细权衡的难题。针对上述挑战,业界目前已探索出诸如FlashAttention、Templora、SlidingWindow等主流技术解决方案。当前长文本能力的竞争已进入到白热化阶段,100k以上的上下文窗口已经成为通用大模型的标配,有望推进下游应用场景落地,同时激发HBM、网络通信等硬件需求,对大模型的商业化落地、乃至AGI终极目标具有正面的意义。 投资建议:算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:海光信息、协创数据、神州数码、浪潮信息、中科曙光、优刻得等。AI大模型赋能下游应用,C端标准化工具类产品有望率先享受产业红利,建议关注金山办公、科大讯飞、万兴科技、美图公司、同花顺、福昕软件、合合信息(IPO)等。教育垂直领域可能成为落地的先行领域,建议关注佳发教育、鸿合科技等。模型迭代进一步强化对真实世界的理解,自动驾驶、智慧城市等领域有望进一步带动,建议关注德赛西威、均胜电子、海康威视、大华股份、萤石网络等。AI硬件创新潮可期,关注边缘端硬件公司传音控股、漫步者、石头科技等,以及和芯片厂商合作紧密的赋能型公司如虹软科技、中科创达等。工业智能化是AI落地长期可期待领域,关注中控技术、宝信软件、北路智控、柏楚电子等。 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 请阅读最后一页的重要声明! 内容目录 1「长上下文」通往AGI的关键模型能力3 2「算力代价」:成本与效果的平衡5 3投资建议10 4风险提示10 图表目录 图1.国内外主流通用大模型上下文长度一览3 图2.“上下文学习”是本次生成式AI的重要范式转移4 图3.提升模型上下文长度的主流方法5 图4.加长文本对大模型算力消耗会呈平方关系提升6 图5.大模型自回归生成过程解码7 图6.大模型生成过程为访存密集型任务7 图7.Flashattention方法8 图8.Templora方法9 1「长上下文」通往AGI的关键模型能力 Kimi打响国内长上下文竞赛,该单项能力天花板未来有望不断提升。国内初创的大模型公司月之暗面(MoonshotAI)于去年10月推出了首款支持20万字长上下文的C端智能助手Kimi,其强大的中文分析总结能力得到了用户的广泛认可。最近,月之暗面成功获得了超过10亿美金的巨额融资,并启动内测了支持更长的200万字上下文的Kimi。随着月之暗面和Kimi的迅速出圈,阿里通义千问、百度文心一言、360智脑等国内模型公司也纷纷计划推出百万字级别的长文本处理能力。而事实上,全球范围内长文本能力的竞争从去年下半年起就已进入白热化。2023年5月,Anthropic将其Claude模型的上下文窗口从9k提升到了100k,正式打响了长上下文竞赛的第一枪。此后,随着FlashAttention、RoPE等架构优化技术的普及,各家模型厂商纷纷支持的最大上下文长度达到了100k以上,国内如智谱AI、百川智能、零一万物等初创模型公司也纷纷推出了100k+上下文长度的模型产品。由此可见,长上下文已成为了基座模型的不可或缺的重要能力。 图1.国内外主流通用大模型上下文长度一览 数据来源:各公司官网及官方微信公众号,财通证券研究所 上下文长度是衡量模型能力的核心指标。以GPT为代表的自回归单向解码器之所以能成为通用大模型的基础架构,其最核心的范式转移体现在通过上下文去适配下游的各式任务,而非Bert时代下通过微调去对模型做下游任务改造。大模型的上下文窗口可以被看作是模型的一种“记忆力”,如果我们把模型的参数量比 作计算机中CPU的核心数,上下文窗口的大小则好比计算机中的内存(RAM)大小。最重要的是,无损的长文本能力是我们展望大模型应用的核心靶点,是大语言模型迈向AGI的重要一步,这是因为: 1)更大的提示工程潜力:无论是给与智能体Agent多步骤复杂任务指示,还是让模型具备多轮对话的能力,这都依赖于模型支持更长的上下文长度。上下文长度是模型工具使用能力的基础,直接决定了提示工程的潜力。 2)更强的文本生成能力:更长的长文本能力能让模型获得更细致的文本处理和生成能力,通过参考更多的信息减少模型幻觉,有效提升模型的可靠性。 3)更加个性化的使用体验:用户和模型交互的信息具备飞轮效应,而长文本则是“记住”用户与模型互动数据的抓手,是实现模型个性化的必要条件; 图2.“上下文学习”是本次生成式AI的重要范式转移 数据来源:《ASurveyofLargeLanguageModels》(WayneXinZhao,KunZhou等),财通证券研究所 长文本的实现和优化是一个更偏工程性质的挑战。仅仅提升模型的上下文长度并不困难,要么通过(i)在预训练阶段直接使用大量长序列的语料,或是(ii)在一个预训练好的模型上用少量长序列语料去做微调,我们都可以理论上得到一个具备长上下文的模型。但在实践中,实现长上下文更多是一个“保证性能的前提下优化成本”的工程问题,这是因为: 1)过长的输入会使模型在推理时计算和内存资源使用急剧扩大(标准自注意力机制的时间复杂度随序列长度N呈二次方增长,简称O(N^2)) 2)大语言模型的长下文能力呈现一种U型曲线(模型对长文本信息的召回和推理能力在序列的开头和结尾表现更好) 为了攻克上述难题,开发者在实践中尝试了多种方式,包括但不限于更高效的注意力机制(注意力核心的子模块),优化长期记忆(针对KVCache),具备外推 性的位置编码(针对位置嵌入模块),上下文处理(与上下文预/后处理有关)等等。总的来说,实现模型的长文本能力更多是在“降本”上进行探索,这对基座模型公司的工程能力提出了更高的要求。 图3.提升模型上下文长度的主流方法 数据来源:《AdvancingTransformerArchitectureinLong-ContextLargeLanguageModels:AComprehensiveSurvey》(YunpengHuang,JingweiXu等),财通证券研究所 2「算力代价」:成本与效果的平衡 上下文长度难提升的核心原因在于其计算与存储复杂度为O(N^2)。在没有优化的情况下,增加上下文长度会使得算力需求指数级激增。我们日常对大模型推理算力需求测算一般使用公式“2*参数量*Token数”,但回顾OpenAI的原始论文 《ScalingLawsforNeuralLanguageModels》,上述公式仅仅是其中一部分。由于过去大模型的最大上下文长度有限,所以对应的该一部分可忽略。但随着模型不断发展,上下文长度从最初的10k量级如今已经增加到100k,乃至百万级别,以前被忽略的上下文长度增加带来的指数级算力消耗增量变得越来越重要。 图4.加长文本对大模型算力消耗会呈平方关系提升 数据来源:《ScalingLawsforNeuralLanguageModels》(JaredKaplan,SamMcCandlish等),财通证券研究所 增加上下文对显存需求亦是指数级提升。由于大模型参数量大,且是自回归方式,为保证计算效率,避免重复运算,推理过程需要存储KV等中间值,即大模型推理对显存容量需求较大。同时,过去在短上下文长度情况下,生成过程已经成为访存密集型任务,使得产业界对于能够平衡较大存储空间+较快访存速度的HBM需求旺盛。增加上下文长度,会进一步加剧大模型对存储容量以及访存速度的需求。且在没有优化的情况下,上下文长度对存储容量的影响亦为平方关系。 图5.大模型自回归生成过程解码 数据来源:百度智能云技术站,财通证券研究所 图6.大模型生成过程为访存密集型任务 数据来源:百度智能云技术站,财通证券研究所 产业界不断探索降本方法。以FlashAttention为代表的优化方法能够大幅降低推理过程的算力与存储消耗:自从ChatGPT掀起AI浪潮,长文本能力经过一年多时间才逐步实现产业落地,其核心原因就是在大模型中,文本长度对计算和存储消耗影响为O(N^2)。为解决该问题,产业界不断探索相关方案以降低计算和存储消耗。以下介绍两种典型的分别降低存储和计算消耗的方法: 存储侧降本:FlashAttention采用算子融合、分块计算、重计算等方式,减少大模型运行过程中对HBM的访问次数,进而加快计算速度。该方式没有减少计算复杂度,但使得存储的复杂度由O(N^2)降低为了O(N)。 图7.Flashattention方法 数据来源:《FlashAttention:FastandMemory-EfficientExactAttentionwithIO-Awareness》(TriDao,DanielY.Fu等),财通证券研究所 计算侧降本:Templora通过微调出一个临时的模型,将上下文的内容训练进该临时模型中,以此降低长文本带来的算力消耗。通过Templora方法,实验者最多能够降低74.7%的计算FLOPS消耗,以及52.4%的时间延迟。 图8.Templora方法 数据来源:《WithGreaterTextComesGreaterNecessity:Inference-TimeTrainingHelpsLongTextGenerations》(Y.Wang,D.Ma,D.Cai),财通证券研究所 模型效果与成本的平衡。除上述典型方法外,还有如RAG(增强检索生成)、SlidingWindow(滑动窗口)、Multi-QueryAttention(多查询注意力)等一系列方法可以降低长文本带来的计算和存储需求。我们认为,一系列的降本方式或多或少会牺牲模型效果,未来随着上下文长度上限不断提升,在各类辅助方法的帮助下,推理侧的计算与存储需求虽然可能不至于呈平方增长关系,但算力需求的持续提升依然是比较确定的方向。 总的来说,我们认为大语言模型的长文本能力可能是通往AGI的必要条件之一。首先,更长的上下文长度可以(i)提升大模型提示工程的潜力、(ii)增强文本的生成能力、(iii)丰富大模型的个性化使用体验。其次,长上下文更多地挑战了模型厂商的工程能力。鉴于自注意力机制固有的“二次代价”以及对长序列中间段信息处理的不稳定性,如何在保持长文本生成效果的同时,平衡对计算力和存储的额外压力,成为了模型厂商需要仔细权衡的难题。针对上述挑战,业界目前已探索出诸如FlashAttention、Templora、SlidingWindow等主流技术解决方案。当前长文本能力的竞争已进入到白热化阶段,100k以上的上下文窗口已经成为通用大模型的标配,有望推进下游应用场景落地,同时激发 HBM、网络通信等硬件需求,对大模型的商业化落地、乃至AGI终极目标具有正面的意义。 3投资建议 算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国