行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

LLM 时代小模型的应用潜力与挑战

信息技术 2024-12-18 张晓燕,张艺伟,张远远清华大学起风了

核心观点与关键数据

LLM与SLM对比：大语言模型（LLM）在自然语言处理领域取得显著成就，但成本高昂、资源消耗大，商业化应用处于早期阶段。小语言模型（SLM）凭借低成本、小资源需求等优势，展现出巨大潜力。
国内外发展现状：国际巨头（如微软、Google）聚焦通用模型，中国企业则侧重多元垂直应用。中国小模型在专业领域表现超越国外通用模型，综合能力大幅提升，技术创新性强。
小模型优势：成本优势明显（如Phi-3-Mini成本远低于GPT-4o）；可通过指令微调满足定制需求；适合端侧搭配使用，降低延迟（如Apple Intelligence）；功能强大（如Phi-3系列模型性能优异）。

应用案例

国外案例：Phi-3-Mini在语言理解和生成中表现出色；OpenELM聚焦隐私保护和数据安全，适用于移动设备等终端。
国内案例：智海·三乐用于智能教学，支持知识问答、试题生成和智能导学；夫子•明察提供法律咨询与解答服务；DeepSeek-Coder-V2-Lite擅长代码智能；XuanYuan-6B应用于金融咨询。

挑战与解决方案

挑战：处理复杂任务能力有限；数据质量依赖性强；使用局限性大。
解决方案：增加模型参数量、提升数据集质量、模块化设计、多模型集成等。

未来发展趋势与建议

发展小模型的意义：有助于提升中国在全球科技竞争中的影响力，规避资源和技术限制，实现人工智能领域的突破和产业升级。
中国发展小模型的建议：精准优化与数据赋能打造高效小模型；科技创新与生态建设推动小模型多元化发展。

（2024年第18期总第50期） 2024年12月18日 LLM时代小模型的应用潜力与挑战清华大学五道口金融学院财富管理研究中心张晓燕张艺伟张远远【摘要】大语言模型在自然语言处理领域取得了显著成就。然而，由于其高昂的成本和资源消耗，其商业化应用仍处于早期阶段。相比之下，小语言模型凭借较低的训练成本和较小的计算资源需求等优势，展现出很大的潜力。本研究通过分析国内外小模型的发展现状与具体案例探讨了小模型的应用潜力与面临的挑战。研究发现：（1）小模型体型虽小但功能强大，具有成本优势；（2）我国小模型在专业领域中的表现能够超越国外通用模型，同时综合能力大幅提升，具有技术创新性；（3）由于大模型对算力资源的高需求，我国在资源与技术受限的情况下发展小模型，能够助力我国在全球AI竞赛中脱颖而出。本文为我国AI行业发展提供了战略方向。 ResearchReport December 18, 2024 ApplicationPotential andChallenges ofSmallLanguageModelin the LLMEra Research Center forWealth Management, PBC School of Finance,TsinghuaUniversity Zhang XiaoyanZhang Yiwei Zhang Yuanyuan Abstract:Largelanguage models have made remarkableachievements in the field of natural language processing. However,due to their high cost and resource consumption, their commercialapplication isstill in its early stages. In contrast, small languagemodels have shown great potential due to their advantages such as lowtraining cost and small computing resource requirements. This studyexplores the application potential and challenges of small models byanalyzing the development status and specific cases of small models at home and abroad. The study found that: (1) Small models are smallin size but powerful in function, and have cost advantages; (2) mycountry's small models can outperform foreigngeneral models inprofessional fields, and their comprehensive capabilities are greatlyimproved, which is technologically innovative; (3) Due to the highdemand for computing resources by large models, my country'sdevelopment of small models under the condition of limited resourcesand technology can help my country stand out in the global AIcompetition.This article provides a strategic direction for thedevelopment of my country's AI industry. 目录一、小模型的发展背景及意义............................1 (一)发展背景..........................................1(二)研究意义..........................................1 二、LLM时代小模型的发展现状..........................2 (一)小模型定义........................................2(二)小模型与大模型比较................................3(三)小模型的发展现状..................................41.国际巨头深耕通用模型，中国企业聚焦多元垂直应用.....42.小模型目前的表现逐渐改善，然而距离大模型依然会有差距63.小模型体型虽小但功能强大...........................8(四)小模型的优势......................................91.拥有巨大的成本优势.................................92.指令微调以满足定制需求............................113.端侧搭配使用......................................124.更低的延迟........................................13 三、小模型的应用案例................................13 四、小模型面临的挑战及解决方案.......................39 五、小模型的未来发展趋势和建议.......................41 (一)发展小模型有助于提升我国在全球科技竞争中影响力....41(二)中国发展小模型的建议..............................41 参考文献............................................43 一、小模型的发展背景及意义 (一)发展背景随着人工智能的迅速发展，以ChatGPT为代表的大语言模型的出现，在自然语言处理（NLP）领域取得了显著突破。这些大模型凭借其庞大的参数量和训练数据集，能够在多种任务中展现出令人瞩目的性能。然而，大模型虽然具备强大的处理能力，但其高昂的训练成本、复杂的部署要求以及巨大的资源消耗，限制了其在某些领域和场景中的普及和应用。在此背景下，小语言模型应运而生。与大模型相比，小模型体积较小，计算需求低，训练成本显著降低，同时仍能够完成许多复杂的自然语言处理任务。这使得小模型在多个领域展现出了巨大的潜力和价值，成为人工智能领域的一股新兴力量。 (二)研究意义面对激烈的全球科技竞赛，我国在人工智能发展的路径上面临技术瓶颈和资源挑战。本文旨在通过案例分析和国内外比较，探索我国发展小模型的应用潜力与挑战，具有理论价值与实践意义：一是为小模型的研究与应用提供指导。通过分析国内外小模型的发展模式、性能表现及技术进步，为科研人员和企业提供了清晰的参考框架和有力的方向指引，推动其在实际应用中落地。二是为政策制定与战略规划提供参考。在高端芯片受制约、全球竞争日益激烈的背景下，探索我国人工智能的发展路径，明确一条符合我国国情、兼顾效率与效益的发展之路，助力引导资源有效配置，优化产业布局。二、LLM时代小模型的发展现状 (一)小模型定义大语言模型（LargeLanguageModel，LLM）目前没有正式的定义，但通常是指由具有许多参数（数十亿个权重或更多）的人工神经网络组成，用于处理自然语言信息的大型人工智能模型。这些模型通过在大规模文本数据上进行训练，学习语言的语法、语义及上下文信息，从而能够理解和生成自然语言并执行多种任务。小语言模型（SmallLanguage Model，SLM）又被称作专业大模型（SpecificLanguageModel，SLM），是指相对于大型语言模型而言，规模较小、参数数量较少,但在特定任务上表现出色的模型。尽管许多学者主要依据模型参数量与所利用训练数据规模来界定与评估何为大语言模型，然而迄今尚未确立一个被广泛认可的临界标准。 (二)小模型与大模型比较大模型和小模型各自具有不同的特点和优势。表1从模型参数、训练数据、计算资源需求以及应用场景等角度，比较了大模型与小模型的异同。从参数数量上来看，大模型通常指具有百万级、千万级甚至亿级参数的神经网络模型，如：GPT-3为175B、ERNIE 4.0 (百度)为100B等。小模型相对于大模型参数数量较少，如：MobileLLM为125M、Phi-3为3.8B等。从训练数据量来看，大模型需要大量的训练数据来避免过拟合，ChatGPT-4需要大约13万亿tokens的训练数据。小模型由于参数较少，需要的训练数据量也相对较少，Phi-3的训练数据仅为3.3万亿tokens。从计算资源需求来看，大模型需要大量的计算资源，如高性能GPU或TPU。小模型计算资源需求较低，可以在普通的CPU上运行，适合在资源受限的环境中使用。此外，小模型的部署相对简单，适合在各种设备上运行，包括移动设备、嵌入式系统和物联网设备。从应用场景来看，大模型通常用于需要高精度和复杂决策的任务，如自然语言处理、图像识别、复杂的游戏AI等。小模型更适合实时应用、资源受限的环境或简单任务，如移动设备上的语音识别、智能家居控制、简单的预测任务等。 (三)小模型的发展现状 1.国际巨头深耕通用模型，中国企业聚焦多元垂直应用表2和表3例举了国内外近期发布的小模型，通过对比发现，像微软和Google这样的美国科技巨头专注于提升模型的通用性，致力于通用人工智能的发展路径。然而，这条赛道对于国内的中小企业来说，既“烧钱”又存在瓶颈，因为打磨出一款高水平的通用大模型需要投入大量的时间和资金。我国的小模型在垂直领域的发展呈现出多元化的态势。除了以百度、阿里、华为、腾讯等巨头厂商深耕通用基础大模型研发，更多的企业则根据自身产业生态的特点，开发专业化的垂直领域小模型。这类小模型不仅见效快，而且成本更低，为企业提供了灵活高效的发展路径。中国的小模型更多地呈现出垂直化、应用化的特点，而国外小模型更多的是通用模型，这一现象背后的原因可能有：从成本与技术考量，国外科技巨头拥有强大的算力和数据资源，可以承担通用模型开发的高成本，同时通过多领域应用收回投入；国内以中小企业为主体，它们更倾向于使用低成本、高效率的垂直小模型，符合我国企业的“成本效益”策略。从政策与资源支持来看，国外更多资源集中于基础研究和技术创新，鼓励开发能够覆盖更多场景的通用模型；国内政策强调技术与实体经济的结合，支持行业定制化发展，为垂直小模型提供了良好环境。 2.小模型目前的表现逐渐改善，然而距离大模型依然会有差距得益于最新的LLM pruning（剪枝）1和Knowledgedistillation（知识蒸馏）2技术，SLM目前的表现逐渐改善，然而距离LLM依然会有差距。表4比较了SLM和LLM在通用、数学、推理、多语言处理任务中的表现，每个模型的性能都是通过Benchmark（标准的基准测试）来衡量的，分数越高代表性能越好。结果显示，SLM取得了显著进步，在一些任务中，SLM得分已经接近一些LLM。但是，SLM在多个任务上的表现依然不及LLM。资料来源：Meta Llama 3.小模型体型虽小但功能强大小模型体型虽小但表现优异。例如，微软发布的Phi-3模型是功能强大、具有

点击免费查看完整报告

LLM 时代小模型的应用潜力与挑战

核心观点与关键数据

应用案例

挑战与解决方案

未来发展趋势与建议

你可能感兴趣

传媒行业周报：AI估值模型获共识AI时代关注审美经济驱动的内需与应用

数字时代治理现代化研究报告：大型模型在政府领域的应用实践与展望 (2023)

多环境下的LLM Agent应用与增强

“小零食”投资时代：私募投资的新三板公司哪些具备IPO潜力

新京报网红城市潜力报告·2025暑期篇：小而美时代的文旅新逻辑

大型语言模型（LLM）安全风险、案例与防御策略

Forge应用中Revit模型处理的几个小技巧-康益昇，梁晓冬

2-5 基于双重神经网络的异质性因果效应的模型构建及应用 - 周小羽快手

CSIG图像图形学科前沿讲习班一大模型时代的机器视觉：低空环境智能感知关键技术及应用

阿里云 AI 模型时代的多模态数据存储、管理和应用

LLM 时代小模型的应用潜力与挑战

你可能感兴趣

传媒行业周报：AI估值模型获共识AI时代关注审美经济驱动的内需与应用

数字时代治理现代化研究报告 ： 大型模型在政府领域的应用实践与展望 (2023)

多环境下的LLM Agent应用与增强

“小零食”投资时代：私募投资的新三板公司哪些具备IPO潜力

新京报网红城市潜力报告·2025暑期篇：小而美时代的文旅新逻辑

大型语言模型（LLM）安全风险、案例与防御策略

Forge应用中Revit模型处理的几个小技巧-康益昇，梁晓冬

2-5 基于双重神经网络的异质性因果效应的模型构建及应用 - 周小羽 快手

CSIG图像图形学科前沿讲习班一大模型时代的机器视觉：低空环境智能感知关键技术及应用

阿里云 AI 模型时代的多模态数据存储、管理和应用

数字时代治理现代化研究报告：大型模型在政府领域的应用实践与展望 (2023)

2-5 基于双重神经网络的异质性因果效应的模型构建及应用 - 周小羽快手