您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:转deepseek对算力需求少是因为在主流大模型如GPT4基础上做了 - 发现报告

转deepseek对算力需求少是因为在主流大模型如GPT4基础上做了

2025-01-27未知机构在***
转deepseek对算力需求少是因为在主流大模型如GPT4基础上做了

先说结论,它是主流大模型的一个快速版,提供了一个性价比方案,类似于用“速写”代替“精细素描”——牺牲部分细节,但核心内容快速呈现。 所以它并不是什么弯道超车,理论上它突破不了主流大模型的水平。 那么性价比是怎么做到的呢? 转:deepseek对算力需求少,是因为在主流大模型(如GPT-4)基础上做了精简和优化。 先说结论,它是主流大模型的一个快速版,提供了一个性价比方案,类似于用“速写”代替“精细素描”——牺牲部分细节,但核心内容快速呈现。 所以它并不是什么弯道超车,理论上它突破不了主流大模型的水平。 那么性价比是怎么做到的呢? 1,结构化稀疏注意力,说人话就是主流大模型全局分析每个词的关联,而它是简单局部分析。 比如阅读理解时,openai是阅读文章的每一个字然后进行总结,而它只读要点,比如标题和首行。 2,混合专家:说人话就是主流大模型在处理问题时会调用全部算力,而DeepSeek则会根据问题的类型,将任务分配给特定的“小模型”。 比如在处理医学问题时,它会调用专门针对医学领域的子模型,而不是使用整个大模型。 相似的还有动态计算路由:说人话就是按需分配算力,传统模型对所有输入均执行完整计算,而DeepSeek预判问题难度,动态调用算力资源。 比如简单问题(如“中国的首都是哪? ”):触发“快速通道”,仅用30%的算力直接输出答案。 复杂问题(如“对比北京与上海的城市规划差异”):调用完整模型深度分析。 3,结构优化与参数共享,说人话就是所谓神经网络就是一层接着一层连续计算,deepseek计算的层数更少,每隔几层复用相同权重,且它提取问题的关键字进行输入。 比如雕刻家打磨一件雕像,传统大模型是反复磨100遍,一遍比一遍更接近人物原貌;而deepseek仅磨50遍,而且仅仅还原关键的面部特征,比如五官的形状,位置大小等,这样高效很多,而且也能认出来相貌。 4,知识蒸馏和剪枝,说人话就是DeepSeek训练时利用主流大模型的结论,这个结论不单单有真实数据,还有大模型的推理数据。 剪枝则是简化一些额外的步骤。 比如物理学,牛顿是从头到尾发现牛顿定律,然后其他人推论出新公式。 物理老师教给学生公式,而且还创造出一些试题,教学生解题思路。 上面的难度是逐级递减的,但并不能说学生可以自如用牛顿公式解题了,水平就和牛顿一样了。 所以,它是站在现有大模型肩膀上的,他有效率和成本优势,但是很难在深度和精确度上超过主流大模型。 再直白点,主流大模型是花100块达到80分的效果,它是花5块达到60-70分效果,也是很牛逼了。