您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰君安证券]:电子元器件行业系列四:加速端侧AI推广落地,Deepseek本地部署加速端侧AI推广落地 - 发现报告

电子元器件行业系列四:加速端侧AI推广落地,Deepseek本地部署加速端侧AI推广落地

报告封面

Deepseek的本地部署为用户提供了更高的灵活性和隐私保护,尤其适合对数据安全有较高要求的场景。其模型规模从1.5B到671B不等,其中Deepseek-V3作为最新版本,拥有6710亿参数,每次推理仅激活370亿参数。这种设计不仅遵循了Scaling Law,即参数量越大模型性能越强,还通过混合专家架构等技术优化了计算效率。本地部署对PC硬件提出了较高要求,尤其是对于大模型版本,需要强大的GPU支持和足够的内存与存储空间。随着用户对更大模型的需求增加,PC硬件的升级将成为必然趋势,以确保模型能够高效运行并发挥其最佳性能。 开源模型兴起加速人工智能生态的构建,Deepseek本地部署可构建个人知识库。许多企业已经意识到,与自研基座大模型相比,开源且具有广泛共识的模型更容易构建生态系统。Meta开源的Llama 2模型在GitHub社区吸引了超过4.2万名贡献者,修复漏洞的速度比闭源模型快3倍。此外,开源模型的硬件适配成本更低,例如阿里云的通义千问开源版本支持多种国产芯片,开发者贡献的优化使得推理速度提升了40%。Deepseek蒸馏后表现出色的小模型使本地部署知识库从企业端扩展到个人用户,通过AnythingLLM和Ollama高效且灵活的构建私有化的AI知识管理系统,不仅保护数据隐私而且可以根据特定需求进行定制优化。构建个人本地知识库的意义主要体现在数据隐私保护、资源优化、成本控制和个性化需求满足等方面,使端侧AI真正成为用户的人工智能助手。 在端侧产品设计中,算力和传输为关键因素。端侧产品的侧重点决定了其发展方向和市场竞争力。如果产品侧重于本地计算,SOC的算力将成为主要的增量需求,以满足复杂的计算任务;如果侧重于传输,则SOC功耗和连接能力的升级将更为关键。随着蒸馏模型能力的提升,未来端侧SoC将更加注重模型的本地部署和推理能力。 Scaling Law的存在表明,无论是端侧还是云端,都需要不断提升性能以适应模型规模的扩大和应用需求的增加。端云协同升级将成为未来技术发展的必然趋势。端侧产品需要在有限的硬件资源下实现高效的计算和传输,云端则需要提供更强大的计算能力和存储支持,以满足大规模模型的训练和推理需求。推荐标的:(1)端侧SOC:瑞芯微、恒玄科技、晶晨股份、中科蓝讯。(2)存储:兆易创新。 相关受益:乐鑫科技、全志科技、炬芯科技、中兴通讯。 催化剂。AI模型成本持续下降;AI端侧落地加速。 风险提示。端侧模型落地进展不及预期;AI技术迭代不及预期。 1.Deepseek蒸馏后的小模型能力强,支持本地部署 Deepseek本地部署的硬件要求,根据模型大小有所不同。1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型,671B是基础大模型,它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本和不同使用场景: (1)671B:适用于对准确性和性能要求极高、对成本不敏感的场景,如大型科研机构进行前沿科学研究、大型企业进行复杂的商业决策分析等。 (2)1.5B-7B:适合对响应速度要求高、硬件资源有限的场景,如移动端的简单智能助手、轻量级的文本生成工具等,可快速加载和运行。 (3)8B-14B:可用于一些对模型性能有一定要求,但又没有超高性能硬件支持的场景,如小型企业的日常文本处理、普通的智能客服等。 (4)32B-70B:能满足一些对准确性有较高要求,同时硬件条件相对较好的场景,如专业领域的知识问答系统、中等规模的内容创作平台等。 表1:Deepseek本地部署的硬件要求,根据模型大小有所不同 DeepSeek的本地部署需要借助Ollama工具来完成。Ollama是一个开源工具,支持在本地运行和部署大型语言模型。根据硬件配置选择合适的DeepSeek模型版本。例如,对于入门级部署,可以使用1.5B版本;对于中端配置,可以选择7B或8B版本。 图1:DeepSeek的本地部署需要借助Ollama工具来完成 DeepSeek系列的模型在多个基准测试中展现出了较强的性能。DeepSeek团队证明,大型的推理模式可以被提炼到小模型中,与通过强化学习在小型模型上发现的推理模式相比,这种方法能够带来更好的性能。以下为通过使用DeepSeek-R1生成的推理数据对研究社区中广泛使用的几种密集型模型进行微调而创建的模型。评估结果显示,经过提炼的小型密集模型在基准测试中表现极为出色。 图2:不同模型在多个基准测试上的性能表现 2.Deepseek可高效构建私有化AI知识管理系统 AnythingLLM和Ollama可搭建DeepSeek本地知识库,高效且灵活的构建私有化的AI知识管理系统,不仅保护数据隐私而且可以根据特定需求进行定制优化。 图3:AnythingLLM和Ollama可搭建DeepSeek本地知识库 AnythingLLM是一个功能强大的AI应用程序,支持将本地文档或数据源整合进一个可检索、可对话的知识库。访问AnythingLLM官网下载并安装。安装完成后,创建工作区,并将LLM提供者更改为DeepSeek模型。 在AnythingLLM中,可以上传PDF、TXT、DOCX等格式的文档,这些文档将被提取、分割、向量化,并存储在向量数据库中。通过这种方式,用户可以构建自己的私有知识库,并在问答时自动引用相关文档。 图4:用户可以构建自己的私有知识库,并在问答时自动引用相关文档 构建个人本地知识库的意义主要体现在数据隐私保护、资源优化、成本控制和个性化需求满足等方面。本地知识库将数据存储和处理过程完全保留在本地设备上,有效避免了数据上传到云端可能带来的隐私泄露风险,对于保护个人敏感信息(如财务记录、健康数据等)至关重要。同时,个人可以根据自身需求和偏好对知识库进行定制化,整合多种格式的文档,使其更贴合实际应用场景,从而提高工作效率。 图5:使用DeepSeek+Anythingllm创建个人生活助手 3.端侧芯片部署模型能力将进一步加强 随着蒸馏模型能力的提升,未来端侧SoC将更加注重模型的本地部署和推理能力。蒸馏模型通过将大型模型的知识迁移到小型模型中,显著降低了对硬件资源的需求,使得在端侧设备上运行复杂的AI模型成为可能。DeepSeekR1等模型通过强化学习和模型蒸馏技术,能够在本地设备上实现高效推理,且仅需极少量标注数据即可完成训练。这不仅提高了模型的适应性和灵活性,还降低了部署成本。未来,随着NPU等专用硬件加速器的进一步发展,端侧设备将能够更高效地处理复杂的AI任务。上述趋势将推动AI从云端向本地设备转移,使设备能够在离线状态下独立完成复杂的AI任务,从而提高数据隐私保护和处理效率。 图6:终端侧AI的演进与生成式AI的需求密切相关 众多SoC芯片厂商提供了丰富的AI模型部署解决方案,以满足不同场景下的应用需求。高通的Qualcomm AI Engine结合SNPE工具链,支持多种AI框架的模型转换与优化,广泛应用于其系列SoC中,为移动设备等提供强大的AI推理能力。联发科的NeuroPilot平台则针对其SoC优化,支持TensorFlow、Caffe等框架,助力设备实现高效AI处理。英伟达的TensorRT作为高效的推理优化器,显著降低模型推理延迟,适用于对计算性能要求较高的端侧设备。华为的麒麟系列SoC内置NPU,搭配HiAI平台,为开发者提供了便捷的AI模型部署工具,广泛应用于华为设备。瑞芯微的RKNN-LLM提供了一套完整的工具链,包括模型转换、量化、推理等功能,大大简化了在瑞芯微AI芯片上部署和运行大语言模型的过程。 图7:RKLLM软件栈可帮助用户快速将AI模型部署到瑞芯微芯片上 4.投资建议:Deepseek蒸馏小模型能力强,端侧芯片受益 随着蒸馏模型能力的提升,未来端侧SoC将更加注重模型的本地部署和推理能力。Scaling Law的存在表明,无论是端侧还是云端,都需要不断提升性能以适应模型规模的扩大和应用需求的增加。端云协同升级将成为未来技术发展的必然趋势。端侧产品需要在有限的硬件资源下实现高效的计算和传输,云端则需要提供更强大的计算能力和存储支持,以满足大规模模型的训练和推理需求。推荐标的:(1)端侧SOC:瑞芯微、恒玄科技、晶晨股份、中科蓝讯。(2)存储:兆易创新。相关受益:乐鑫科技、全志科技、炬芯科技、中兴通讯。 表2:推荐公司估值表(截至2025年1月27日) 5.风险提示 端侧模型落地进展不及预期。端侧模型是手机、PC等端侧硬件智能核心,若其落地进展不及预期将影响端侧AI硬件使用体验并对其出货量造成不利影响。 AI技术迭代不及预期。目前AI大模型技术竞争激烈,若DeepSeek技术进展不及预期,将影响其用户使用量,并对服务器算力需求造成一定不利影响