您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京大学]:DeepSeek 私有化部署和一体机 - 发现报告

DeepSeek 私有化部署和一体机

信息技术2025-02-24韩露、王春辉、顾跃、李娜、谢安明、陈钟北京大学段***
AI智能总结
查看更多
DeepSeek 私有化部署和一体机

DeepSeek私有化部署和一体机 AI肖睿团队(韩露、王春辉、顾跃、李娜、谢安明、陈钟)2025年2月24日 •北大青鸟人工智能研究院•北大计算机学院元宇宙技术研究所 摘要 1.本次讲座为DeepSeek原理和应用系列研讨的讲座之一,让大家可以决策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同时了解更专业的企业级部署方法,有助于选择DeepSeek一体机型号,并能理解DeepSeek云服务的工作机制和原理,用好DeepSeek云服务的API调用方法。 2.本讲座的内容分为四个主要部分: ①首先,除了DeepSeek满血版之外,还有各种各样的蒸馏版和量化版,以及DeepSeek的不同专业模型。我们将介绍人工智能大模型的基本概念,以及DeepSeek各个模型的特点与适用场景,对比不同规模模型的性能表现,帮助大家选择最适合自己需求的版本。②其次,对于普通用户在自己的电脑上部署和体验DeepSeek(蒸馏版)的情况,我们会评估和建议硬件要求,演示如何通过Ollama命令行高效部署DeepSeek模型,解决下载过程中可能遇到的常见问题。为了提升在自己的电脑上安装DeepSeek模型后,大家与DeepSeek模型的交互体验,我们还将介绍Open WebUI和Chatbox等前端展示工具的配置与使用方法。③然后,对于专业级的企业部署DeepSeek,或把DeepSeek(蒸馏版和满血版)部署在专业的昂贵的推理机上,本讲座将探讨基于Transformers快速验证和vLLM的高性能部署方案,并提供真实企业基于vLLM的部署DeepSeek-70b的相关数据和经验。④最后,作为补充内容,针对计算资源受限的场景,我们专门设计了"低成本部署"环节,详细讲解Unsloth R1动态量化部署的三种实现路径:基于llama.cpp、KTransformers以及Ollama框架动态量化部署。 3.在技术学习的道路上,优质学习资源至关重要。推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入ai.kgc.cn社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。 目录 02个 人 部 署D e e p S e e k 01人 工 智 能 与D e e p S e e k 03企 业 部 署D e e p S e e k04D e e p S e e k一 体 机 人 工 智 能 与D e e p S e e k PART 01 大模型相关术语 ⚫多模态 ➢文本、图片、音频、视频 ⚫AI工具(国内)➢DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索... ⚫通用模型 ⚫行业模型(垂直模型、垂类模型)➢教育、医疗、金融、办公、安全等 大模型的前世今生 •人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) •运算推理:规则核心;自动化•知识工程:知识核心;知识库+推理机•机器学习:学习核心;数据智能(统计学习方法,数据建模)•常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,…..•人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样•传统神经网络:霍普菲尔德网络,玻尔兹曼机,…..•深度神经网络:深度学习•传统网络架构:DBN,CNN,RNN,ResNet,Inception,RWKV,……•Transformer架构:可以并行矩阵计算(GPU),核心是注意力机制(Attention)•编码器(BERT):多数embedding模型,Ernie早期版本,…….•混合网络:T5、GLM•解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心•生成式人工智能(GenAI):AIGC•DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、火山、……•OpenAI GPT(ChatGPT)、Claude、Llama、Grok、……•Diffusion架构:主要用于视觉模型(比如Stable Diffusion、DALL.E),现在也开始尝试用于语言模型•Diffusion+Transformer架构:例如Sora的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构 大模型的发展阶段 生成模型与推理大模型的对比 •普通大模型是玩知识和文字的,推理大模型是玩逻辑的,至于计算问题,还是找计算器吧 •推理模型也不是万能的,其幻觉通常比生成模型大,很多不需要强推里的场合还是传统的生成模型比较适合 自2024年起,AI肖睿团队便接入DeepSeekV2,持续应用DeepSeek技术体系,历经V2(MoE架构)、V3(MTP)探索,现已在生产项目中接入DeepSeekR1(满血版)。其中,V2和V3都是生成模型,R1为推理模型。 下面,基于我们团队对DeepSeek的技术研究和实战经验,为大家系统梳理这三大模型技术特性,剖析知识蒸馏在各版本提升效率的逻辑,并结合边缘计算、数学编程、中文等场景实例,对比DeepSeekR1各版本模型的计算效率与推理精度的演进,同时说明标准化API/SDK对技术落地的适配机制。 DeepSeek快速出圈 DeepSeek-“服务器繁忙” 2024年12月26日,DeepSeek因推出对标GPT 4o的语言模型DeepSeekV3,首先在美国的人工智能行业内部一起轰动。 2025年1月20日,DeepSeek继续发布对标OpenAI o1的语言模型DeepSeekR1。由于“深度思考”模式生成的答案的过程可视化,完全开源模型参数和技术方案,采用极致的模型架构优化和系统优化手段降低了模型的训练和推理成本,加之完全由中国本土团队制造,让DeepSeek公司和DeepSeekR1模型在蛇年春节前后彻底出圈。 春节之后,随着大量用户的快速涌入,DeepSeek官方提供的模型服务就一直在经历拥堵,它的联网搜索功能间歇性瘫痪,深度思考模式则高频率提示“服务器繁忙”,此类现象让大量用户倍感困扰。 这也揭示了AI时代和互联网时代的底层逻辑的不同:在互联网时代,用户使用一个系统的成本很低,边际成本接近于零,但在AI时代,用户使用一个系统的成本比较高,后天会有大量的算力需求和token消耗,边际成本下降并不明显。 公司与模型介绍 公司简介 DeepSeek于2023年7月成立,是幻方量化孵化出的一家大模型研究机构,团队分布在中国杭州和北京,是中国大模型七小虎之一。 除了DeepSeek之外,其它六家也被投资界称为中国大模型企业六小龙(智谱AI、百川智能、月之暗面、零一万物、阶跃星辰、MiniMax)。 模型的演进历史和特点 三个主要的DeepSeek模型的区别 模型简介DeepSeek-V2 模型简介 DeepSeek-V2模型与DeepSeek LLM 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提升至5.76倍。 设计初衷 DeepSeek-V2旨在解决现有大语言模型训练成本高、推理效率低的问题。通过引入MoE架构,它在保持高性能的同时,大幅降低训练成本和推理时间,为广泛的应用场景提供支持。 核心原理 DeepSeek-V2基于混合专家(Mixture-of-Experts,MoE)架构,将任务分配给多个专家模型,每个专家专注于特定子任务,从而提升性能和效率。模型总参数量为236B,其中21B参数在每个token上被激活,使其在处理复杂任务时更灵活高效。 模型简介DeepSeek-V3 模型简介 DeepSeek V3模型采用的模型架构与V2模型差不多,都采用MLA和MoE。V3在V2的基础上主要是增加了多令牌预测(Multi-Token Prediction, MTP)的训练目标。 我们都知道大模型是自回归模型,在回答问题时,本质上是一个字一个字的预测出来的,而MTP实现了类似同时预测多个字的效果。 •准确地讲,这里不是“字”,是“token”。这里用“字”,主要是便于理解。 模型简介DeepSeek-R1 与以往的研究不同,R1模型通过强化学习而非监督学习的方式显著提升了大模型的在数学和逻辑推理任务中的表现,验证了强化学习在提升模型推理能力上的作用。 通过强化学习自动学习复杂的推理行为(自我验证与反思),然后随着训练的深入,模型逐步提升了对复杂任务的解答能力,并显著提高了模型推理能力。在数学和编程基准测试集上,与open AI-o1模型的表现相当并大幅超越其它现有大模型。 DeepSeek模型优势 DeepSeek模型优势 DeepSeek模型优势 DeepSeek的算法和算力突破 Deepseek官网地址:http://ai.comhttps://chat.deepseek.com •DeepSeek R1达到了跟o1相当、或者至少接近的推理能力,且将推理过程可视化 DeepSeek-R1训练技术全部公开,论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf •它是完全开源的并且还发布论文,详细介绍了训练中所有的步骤和窍门 •DeepSeek深度求索公司是一家纯粹的中国公司 DeepSeek模型特点总结 ⚫基础架构: ➢混合专家模型(MoE):DeepSeek采用MoE架构,通过动态选择最适合输入数据的专家模块进行处理,提升推理能力和效率。 ➢无辅助损失的负载均衡策略(EP):该策略使DeepSeekMoE在不对优化目标产生干扰的前提下,实现各个专家的负载均衡,避免了某些专家可能会被过度使用,而其他专家则被闲置的现象。 ➢多头潜在注意力机制(MLA):MLA通过低秩压缩减少Key-Value缓存,显著提升推理效率。 ➢强化学习驱动(RL):DeepSeek-R1在训练中大规模应用强化学习,将传统的PPO替换为GRPO训练算法,显著提升推理能力。 ➢多Token预测(MTP):通过多Token预测,Deepseek不仅提高了推理速度,还降低了训练成本。 DeepSeek模型特点总结 ⚫训练及框架: ➢FP8混合精度训练:在关键计算步骤使用高精度,其他模型层使用FP8低精度进一步降低训练成本。这一点,是DeepSeek团队在Infra工程上的非常有价值的突破。 ➢长链推理技术(TTC):模型支持数万字的长链推理,可逐步分解复杂问题并进行多步骤逻辑推理。 ➢并行训练策略(HAI):16路流水线并行(Pipeline Parallelism, PP)、跨8个节点的64路专家并行(Expert Parallelism, EP),以及数据并行(Data Parallelism, DP),大幅提升模型训练速度。 ➢通讯优化DualPipe:高效的跨节点通信内核,利用IB和NVLink带宽,减少通信开销,提高模型推理性能。 ➢混合机器编程(PTX):部分代码直接进行使用PTX编程提高执行效率,并优化了一部分算子库。 ➢低成本训练:DeepSeek-V3的训练成本为557.6万美元,仅为OpenAI的GPT-4o等领先闭源模型的3%-5%。 DeepSeek模型特点总结 ⚫社会价值: ➢开源生态:DeepSeek采用开源策略,使用最为开放的MIT开源协议,吸引了大量开发者和研究人员,推动了AI技术的发展。 ➢模型蒸馏支持:DeepSeek-R1同时发布了多个模型蒸馏。虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果,但在实质上帮助用户可以训练更小型的模型以满足不同应用场景需求,也给用户提供更多的抑制了DeepSeekR1满血版模型的能力的小模型选择(虽然