您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:通俗易懂解释Deepseek20250127 - 发现报告

通俗易懂解释Deepseek20250127

2025-01-27 未知机构 故人
报告封面

2025年02月04日20:18 关键词关键词 MOE架构GPT训练成本COT强化学习算力成本软件性能模型性能国产卡AGI推理贡献FP提升版本deep sikGPU产业发展消耗掉算力需求 章节速览章节速览 ● 00:00 Deep Seek技术原理及其对产业影响技术原理及其对产业影响DeepSeek作为换方旗下的公司,在2023年初凭借其持有的大规模GPU 西部科技团队介绍了资源在大模型领域取得的进展。DeepSeek通过发布V1至V3版本模型,引发了市场价格战,显著降低了百万token的成本。尤其在推出采用多步推理的R1版本时,因其免费无限次使用的特性,与GPT4的付费模式形成鲜明对比,展示了Deep Seek在降低成本和技术创新方面的显著成就。 通俗易懂解释通俗易懂解释Deepseek20250127_导读导读 2025年02月04日20:18 关键词关键词 MOE架构GPT训练成本COT强化学习算力成本软件性能模型性能国产卡AGI推理贡献FP提升版本deep sikGPU产业发展消耗掉算力需求 章节速览章节速览 ● 00:00 Deep Seek技术原理及其对产业影响技术原理及其对产业影响西部科技团队介绍了DeepSeek作为换方旗下的公司,在2023年初凭借其持有的大规模GPU 资源在大模型领域取得的进展。DeepSeek通过发布V1至V3版本模型,引发了市场价格战,显著降低了百万token的成本。尤其在推出采用多步推理的R1版本时,因其免费无限次使用的特性,与GPT4的付费模式形成鲜明对比,展示了Deep Seek在降低成本和技术创新方面的显著成就。 ● 03:49 Deep C21 V3技术原理及其创新点解析技术原理及其创新点解析本次讨论详细解析了Deep C21 V3的技术原理及其背后的创新点。首先,介绍了V3基于MOE(Mixture of Experts )架构,这是一种由多个专家模型组成的混合专家模型,通过将每个专家模型分别训练,降低了整体训练所需的算力。其次,提到了使用FP8混合精度训练,即部分数据采用8位精度,部分采用16位精度,以降低训练成本。第三点是创新的pipeline思想,将训练过程拆分为多条pipeline,减少了GPU的冗余时间,进一步降低训练成本。此外,还讨论了推理成本的大幅降低以及大模型技术的持续进步,强调了Deep C21 V3在训练和推理成本控制上的创新和优化。 ● 11:17 DeepSeek R1模型:强化学习在多步推理中的突破模型:强化学习在多步推理中的突破DeepSeek的R1模型因其在多步推理(COT)领域使用纯粹的强化学习(IL )而引起全球关注。与传统的监督式微调(SSFT)不同,R1完全依赖自发的强化学习,证明了在多步推理任务中,仅使用强化学习的可行性。这一成就被认为是迈向AGI(人工通用智能)的重要一步,展示了中国本土科研团队在AI领域的创新能力。R1的这一突破性贡献远超过其低成本实现,预示着未来大模型公司将沿着这一方向发展,标志着中国在AI创新领域的引领地位。 ● 16:52 Deep Seek的贡献与算力需求的螺旋上升关系的贡献与算力需求的螺旋上升关系Deep Seek的重要贡献在于证明了通过强化学习实现复杂问题的链式推理,而无需监督式微调。对于算力需求,尽 管Deep Seek在训练和推理方面降低了对算力的需求,特别是推理部分,但基于大模型性能持续提升的预期,算力需求总体上仍呈螺旋上升趋势。此观点基于比尔盖茨的定律,即硬件成本的下降迅速被软件性能的提升所消耗。此外,国产计算卡由于集群能力的提升,未来在大模型训练中将扮演更重要的角色。成本下降将促进应用爆发,进一步推动推理需求的上升。 ● 22:15深析深析Deep Seek技术进展与投资机会技术进展与投资机会讨论集中于Deep Seek的技术进步及其在算法和工程优化上的贡献,特别是通过强化学习实现复杂问题的推理,被 视为迈向AGI的重要一步。在投资机会方面,强调了随着硬件成本下降和软件性能提升,to B的软件应用领域具有较大潜力,相对涨幅较小,提供了包括鸿海科技、性质软件、金山办公等在内的具体公司标的,建议关注这些与AI紧密相关的to B软件应用企业。 要点回顾要点回顾 Deep Seek技术原理是什么,它对产业有何影响?技术原理是什么,它对产业有何影响? Deep Seek是阿里云旗下的公司,拥有良好的卡基础,在发展过程中通过时间积累和正确方法实现了阶段性成功。其发了四个模型,其中V1和V2版本在市场上引起了价格战,大幅降低了百万token的成本。V3版本虽未引起较大关注,但性能已相当不错。而R1版本采用了多步推理COT的方法,通过创新的非传统手段带来了轰动,并且免费提供无限次使用,相比之下,GPT4等模型则需要付费才能实现无限次使用。 R1版本相比版本相比GPT4有哪些优势?有哪些优势? R1版本在功能上类似于GPT4的0.1版本,采用了多步推理COT的方式,但其免费政策使得Deep Seek在成本对比上取得显著优势。例如,GPT4无限次使用每月需支付200美元,而R1版本则无需付费,这表明Deep Seek在成本控制方面已取得重要成功。 MOE架构之外,架构之外,Deep Seek还采用了哪些降低成本的技术策略?还采用了哪些降低成本的技术策略? 除了采用MOE架构外,Deep Seek还采用了FP8混合精度进行训练,相比全F16精度训练,这样既能保证训练质量又能有效降低对算力的需求。此外,Deep Seek创新性地运用了pipeline思想,将训练过程分割成多条流水线并行运行,这样在数据等待时可以填充其他数据进行训练,大幅减少了GPU的冗余时间,进一步降低了训练成本。 Deep C21和和V3模型采用的是什么架构,它的特点是什么?模型采用的是什么架构,它的特点是什么? Deep C21和V3模型采用了MOE架构,即混合专家模型。该架构由若干个expert组成,每个expert的模型参数较小(如本例中每个expert只有37B),从而降低了训练所需的算力消耗。这种架构使得各模型各司其职,降低了训练和推理所需的算力需求,因此在推出后迅速成为各大模型公司的主流架构。 在大模型技术的发展中,为何在大模型技术的发展中,为何Deep Seek在训练成本上有显著下降,但依然无法实现像在训练成本上有显著下降,但依然无法实现像OpenAI那样的免那样的免费使费使用?用? 虽然Deep Seek在V3版本时单次训练成本有所下降,但它没有将早期探索和尝试新方法、新思路所产生的时间成本计算在内。此外,尽管DeepSeek在推理成本上的下降更为显著,并且运用了诸如MOE、FP8混合精度和拍卖机制等先进技术原理,但其仍需承担一定的GPU冗余时间成本。 而OpenAI目前定价为200美元一个月,其O3 mini版本可以使用,虽然整体成本不如Deep Seek低,但仍促使了OpenAI进行新的尝试。 R1版本为何能轰动世界,它的贡献主要是什么?版本为何能轰动世界,它的贡献主要是什么? R1版本在保持低成本的同时,通过纯粹的强化学习(IL)替代了传统的监督式微调(SSFT),实现了复杂问题的链式推理能力,即COT。这一突破性进展类似于AI自我对弈成为高手而无需人类监督,证明了强化学习在多步推理方面的可行性,这是迈向通用人工智能(AGI)的重要一步,对于整个AI领域具有重大意义。 Deep Seek在大模型发展史上的地位如何?在大模型发展史上的地位如何? Deep Seek通过证明强化学习在COT方面的可行性,已经在大模型的发展历程中写下了浓重的一笔。未来的大模型公司将会沿着Deep Seek开创的方向继续前进,探索更多可能的方向。Deep Seek已经证明了AI自我学习和进化在COT链式推理上的可行性,这标志着人类正朝着AGI的目标稳步迈进。 如何看待目前如何看待目前Deep Seek在实际应用中的表现不如在实际应用中的表现不如OpenAI等公司?等公司? 虽然在实际应用中,用户可能觉得DeepSeek的回答不如OpenAI或豆瓣等公司的回答好,但这并不重要。关键在于Deep Seek所采用的思想和原理,它是AGI方向的重要一步,其贡献远大于节省的成本。综合来看,Deep Seek在降低成本的同时取得优秀成果,证明了中国团队能够做出世界领先的AI突破,这也为中国科技产业和科技股带来了信心和更高的估值潜力。 Deep Seek的最重要贡献是什么?对于算力需求的看法是怎样的?的最重要贡献是什么?对于算力需求的看法是怎样的? Deep Seek最重要的贡献是证明了仅通过强化学习(IL)而不使用SFT监督式微调,即可实现复杂问题的链式推理。整体上,Deep Seek对算力的需求无论是训练还是推理都在下降,其中对推理的算力需求下降更快。然而,如果认为未来算力需求是下降的,这是不正确的,因为大模型性能会持续提升,硬件成本的下降会迅速被软件性能提升所消耗,所以从长期来看,算力需求仍然是向上的。 算力需求与应用之间的关系是什么样的?算力需求与应用之间的关系是什么样的? 算力与应用之间存在螺旋向上的关系。虽然短期看算力成本在下降,但随着大模型性能提升和软件能力增强,长期来看算力需求仍然会上升。对于国产卡而言,由于DeepSeek使用了大量国产卡并取得成功,这不仅证明了国产 卡可以用于大模型训练,还打开了从推理到训练的空间,意味着国产卡未来可能在国内大模型训练和推理中扮演更多角色。 投资机会和标的推荐方面有何建议?投资机会和标的推荐方面有何建议? 投资机会主要集中在受益于算力下降从而带来应用爆发的领域,特别是to b的软件应用。相较于已有所 件、金山办公、合合信息、福星软件、顶级数字等标的,它们基于AI大模型开发智能体,为各类企业提供服务,有望在to b软件应用领域取得更好的发展。