您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [清华大学]:LLM 时代小模型的应用潜力与挑战 - 发现报告

LLM 时代小模型的应用潜力与挑战

信息技术 2024-12-18 张晓燕,张艺伟,张远远 清华大学 起风了
报告封面

(2024年第18期总第50期) 2024年12月18日 LLM时代小模型的应用潜力与挑战 清华大学五道口金融学院财富管理研究中心 张晓燕张艺伟张远远 【摘要】大语言模型在自然语言处理领域取得了显著成就。然而,由于其高昂的成本和资源消耗,其商业化应用仍处于早期阶段。相比之下,小语言模型凭借较低的训练成本和较小的计算资源需求等优势,展现出很大的潜力。本研究通过分析国内外小模型的发展现状与具体案例探讨了小模型的应用潜力与面临的挑战。研究发现:(1)小模型体型虽小但功能强大,具有成本优势;(2)我国小模型在专业领域中的表现能够超越国外通用模型,同时综合能力大幅提升,具有技术创新性;(3)由于大模型对算 力资源的高需求,我国在资源与技术受限的情况下发展小模型,能够助力我国在全球AI竞赛中脱颖而出。本文为我国AI行业发展提供了战略方向。 ResearchReport December 18, 2024 ApplicationPotential andChallenges ofSmallLanguageModelin the LLMEra Research Center forWealth Management, PBC School of Finance,TsinghuaUniversity Zhang XiaoyanZhang Yiwei Zhang Yuanyuan Abstract:Largelanguage models have made remarkableachievements in the field of natural language processing. However,due to their high cost and resource consumption, their commercialapplication isstill in its early stages. In contrast, small languagemodels have shown great potential due to their advantages such as lowtraining cost and small computing resource requirements. This studyexplores the application potential and challenges of small models byanalyzing the development status and specific cases of small models at home and abroad. The study found that: (1) Small models are smallin size but powerful in function, and have cost advantages; (2) mycountry's small models can outperform foreigngeneral models inprofessional fields, and their comprehensive capabilities are greatlyimproved, which is technologically innovative; (3) Due to the highdemand for computing resources by large models, my country'sdevelopment of small models under the condition of limited resourcesand technology can help my country stand out in the global AIcompetition.This article provides a strategic direction for thedevelopment of my country's AI industry. 目录 一、小模型的发展背景及意义............................1 (一)发展背景..........................................1(二)研究意义..........................................1 二、LLM时代小模型的发展现状..........................2 (一)小模型定义........................................2(二)小模型与大模型比较................................3(三)小模型的发展现状..................................41.国际巨头深耕通用模型,中国企业聚焦多元垂直应用.....42.小模型目前的表现逐渐改善,然而距离大模型依然会有差距63.小模型体型虽小但功能强大...........................8(四)小模型的优势......................................91.拥有巨大的成本优势.................................92.指令微调以满足定制需求............................113.端侧搭配使用......................................124.更低的延迟........................................13 三、小模型的应用案例................................13 四、小模型面临的挑战及解决方案.......................39 五、小模型的未来发展趋势和建议.......................41 (一)发展小模型有助于提升我国在全球科技竞争中影响力....41(二)中国发展小模型的建议..............................41 参考文献............................................43 一、小模型的发展背景及意义 (一)发展背景 随着人工智能的迅速发展,以ChatGPT为代表的大语言模型的出现,在自然语言处理(NLP)领域取得了显著突破。这些大模型凭借其庞大的参数量和训练数据集,能够在多种任务中展现出令人瞩目的性能。然而,大模型虽然具备强大的处理能力,但其高昂的训练成本、复杂的部署要求以及巨大的资源消耗,限制了其在某些领域和场景中的普及和应用。 在此背景下,小语言模型应运而生。与大模型相比,小模型体积较小,计算需求低,训练成本显著降低,同时仍能够完成许多复杂的自然语言处理任务。这使得小模型在多个领域展现出了巨大的潜力和价值,成为人工智能领域的一股新兴力量。 (二)研究意义 面对激烈的全球科技竞赛,我国在人工智能发展的路径上面临技术瓶颈和资源挑战。本文旨在通过案例分析和国内外比较,探索我国发展小模型的应用潜力与挑战,具有理论价值与实践意义:一是为小模型的研究与应用提供指导。通过分析国内外小模型的发展模式、性能表现及技术进步,为科研人员和企业提供了清晰的参考框架和有力的方向指引,推动其在实际应用中落地。 二是为政策制定与战略规划提供参考。在高端芯片受制约、全球竞争日益激烈的背景下,探索我国人工智能的发展路径,明确一条符合我国国情、兼顾效率与效益的发展之路,助力引导资源有效配置,优化产业布局。 二、LLM时代小模型的发展现状 (一)小模型定义 大语言模型(LargeLanguageModel,LLM)目前没有正式的定义,但通常是指由具有许多参数(数十亿个权重或更多)的人工神经网络组成,用于处理自然语言信息的大型人工智能模型。这些模型通过在大规模文本数据上进行训练,学习语言的语法、语义及上下文信息,从而能够理解和生成自然语言并执行多种任务。 小语言模型(SmallLanguage Model,SLM)又被称作专业大模型(SpecificLanguageModel,SLM),是指相对于大型语言模型而言,规模较小、参数数量较少,但在特定任务上表现出色的模型。尽管许多学者主要依据模型参数量与所利用训练数据规模来界定与评估何为大语言模型,然而迄今尚未确立一个被广泛认可的临界标准。 (二)小模型与大模型比较 大模型和小模型各自具有不同的特点和优势。表1从模型参数、训练数据、计算资源需求以及应用场景等角度,比较了大模型与小模型的异同。 从参数数量上来看,大模型通常指具有百万级、千万级甚至亿级参数的神经网络模型,如:GPT-3为175B、ERNIE 4.0 (百度)为100B等。小模型相对于大模型参数数量较少,如:MobileLLM为125M、Phi-3为3.8B等。 从训练数据量来看,大模型需要大量的训练数据来避免过拟合,ChatGPT-4需要大约13万亿tokens的训练数据。小模型由于参数较少,需要的训练数据量也相对较少,Phi-3的训练数据 仅为3.3万亿tokens。 从计算资源需求来看,大模型需要大量的计算资源,如高性能GPU或TPU。小模型计算资源需求较低,可以在普通的CPU上运行,适合在资源受限的环境中使用。此外,小模型的部署相对简单,适合在各种设备上运行,包括移动设备、嵌入式系统和物联网设备。 从应用场景来看,大模型通常用于需要高精度和复杂决策的任务,如自然语言处理、图像识别、复杂的游戏AI等。小模型更适合实时应用、资源受限的环境或简单任务,如移动设备上的语音识别、智能家居控制、简单的预测任务等。 (三)小模型的发展现状 1.国际巨头深耕通用模型,中国企业聚焦多元垂直应用 表2和表3例举了国内外近期发布的小模型,通过对比发现,像微软和Google这样的美国科技巨头专注于提升模型的通用性,致力于通用人工智能的发展路径。然而,这条赛道对于国内的中小企业来说,既“烧钱”又存在瓶颈,因为打磨出一款高水平的通用大模型需要投入大量的时间和资金。 我国的小模型在垂直领域的发展呈现出多元化的态势。除了以百度、阿里、华为、腾讯等巨头厂商深耕通用基础大模型研发, 更多的企业则根据自身产业生态的特点,开发专业化的垂直领域小模型。这类小模型不仅见效快,而且成本更低,为企业提供了灵活高效的发展路径。 中国的小模型更多地呈现出垂直化、应用化的特点,而国外小模型更多的是通用模型,这一现象背后的原因可能有:从成本与技术考量,国外科技巨头拥有强大的算力和数据资源,可以承担通用模型开发的高成本,同时通过多领域应用收回投入;国内以中小企业为主体,它们更倾向于使用低成本、高效率的垂直小模型,符合我国企业的“成本效益”策略。从政策与资源支持来看,国外更多资源集中于基础研究和技术创新,鼓励开发能够覆盖更多场景的通用模型;国内政策强调技术与实体经济的结合,支持行业定制化发展,为垂直小模型提供了良好环境。 2.小模型目前的表现逐渐改善,然而距离大模型依然会有差距 得益于最新的LLM pruning(剪枝)1和Knowledgedistillation(知识蒸馏)2技术,SLM目前的表现逐渐改善,然而距离LLM依然会有差距。表4比较了SLM和LLM在通用、数学、推理、多语言处理任务中的表现,每个模型的性能都是通过Benchmark(标准的基准测试)来衡量的,分数越高代表性能越好。结果显示,SLM取得了显著进步,在一些任务中,SLM得分已经接近一些LLM。但是,SLM在多个任务上的表现依然不及LLM。 资料来源:Meta Llama 3.小模型体型虽小但功能强大 小模型体型虽小但表现优异。例如,微软发布的Phi-3模型是功能强大、具有