AI智能总结
周末看了些和AI大模型相关的资料,和你们分享下,不一定对。 最近国内爆火的幻方DeepSeek V3大约用十分之一的算力就基本实现了OpenAI最新版本的数理推理能力,被称为大模型界的pdd。 这倒不是因为幻方的技术更好,而是用到了一种叫做“数据蒸馏”的技术。 什么叫做数据蒸馏? (转) 周末看了些和AI大模型相关的资料,和你们分享下,不一定对。 最近国内爆火的幻方DeepSeek V3大约用十分之一的算力就基本实现了OpenAI最新版本的数理推理能力,被称为大模型界的pdd。 这倒不是因为幻方的技术更好,而是用到了一种叫做“数据蒸馏”的技术。 什么叫做数据蒸馏? 个人理解,就是对着标准答案来做作业。 做难题的时候,很多时候都是在试错,就是用各种思路都做一遍,最后找到那个对的。 类似于寻宝的时候有100条路,你可能要把前面99条路都走到尽头,才找到正确的那条。 但假如你预先知道标准答案(宝藏坐标),那很快就可以否定掉大部分路径,比方说坐标告诉你位置在北边,那就可以把通往东南西三个方向的路都直接删除掉。 在大模型领域,水平最领先的探索者不知道标准答案是啥,只能这100条路都走一遍。 但当领先者把答案已经做出来以后,后来者就只需要根据其提供的答案,就可以省略掉大部分的探索过程,所以算力成本只是领先者的几分之一。 嗯,总之“数据蒸馏”介于做作业和抄作业之间,他没有重头来做这个作业,也没有直接把解题过程和答案都抄全了,而是根据已有答案,大大提升自己解题过程的效率,就和经济上的“后发优势”差不多。 当然咯,也不是什么人都能用“数据蒸馏”这个技术,那必须你和领先者水平比较接近才行,领先者100分,你也得有90分,如果只有80分那就算给你答案你也推不出过程。 明眼人看到这里可能都笑了,因为这明摆着对我们最有利。 如果给全世界的AI水平打分,那美国100分,我们90分,其他大部分国家和地区在80分以下。 所以这个技术的存在,就使得即便美国一直领先,我们落后也不会太多,可能也只差半年到一年,这个差距也不小,但可以通过其他方面的努力来弥补,而且所付出的算力成本只需要十分之一。 如果以上推测没太大问题,那未来国内的大模型投资会重新躁起来,各种各样的应用也层出不穷,这当然会给我村带来很多机会。 最近雷军和李想都高调宣布杀入大模型这个领域,可能也是因为看到了这个前景。 这里还是要补充下,“数据蒸发”本质看是一种投机取巧的方法,类似于速成九阴真经,就和人一样,如果一辈子只走对路、没走过错路,实际上能力也是缺失的。 概括就是,在垂直细分领域能力训练上,数据蒸发效率很高;但在通用领域,依然会和领先者有较大差距。 所以巨佬们依然会砸很多钱在算力上,不惜代价来获取领先优势。 2048块H800并非全部训练算力投入。 1)不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。 2)不包括模型架构的探索调试阶段消耗的算力。 DeepSeek V3使用了哪些技术? 模型架构有创新:MLA和DeepSeekMoE。 MLA是DeepSeek独创,V2起引入模型;MoE架构已是主流选择,kimi、Llama 3.1等都使用,DeepSeekMoE颗粒度更细。 训练算法有创新:FP8混合精度训练和Dualpipe。 降低计算复杂度、提升GPU协同效率 为什么训练/推理成本这么低? 1)V3主要涉及的降本技术方案有①MLA机制(降低KV Cache大小)、②DeepSeekMoE架构(降低Flops/参数开销)、③FP8混合精度训练(降低Flops和显存占用)、④蒸馏DeepSeek-R1推理能力(降低后训练RL成本)、⑤MTP模块(提升解码速度)、⑥P/D分离推理(最大化系统计算效率); 2)相较5月发布的V2,MoE的细粒度进一步提升,得益于负载均衡策略和系统层面的大量计算&通信优化;FP8精度的使用是本次V3的重大创新,在此之前FP8数值溢出风险大,叠加MoE训练本身又很不稳定,业内一直没有大规模训练的成功实践;类o1的CoT推理能力直接通过11月发布的R1模型进行蒸馏而得,这解释了为什么后训练只有5k GPU hours算力消耗,不幸的是DeepSeek至今还未公布R1的训练细节;MTP不仅可以在训练时提供更多监督信息,还可以在推理时结合投机采样加速模型解码;推理部署V3在Prefill和Decode阶段采用了完全不同的并行策略,特别是在Decode阶段使用了320张GPU做了专家并行,有效降低解码时延,并缓解负载不均衡的问题 DeepSeek V3创新技术可借鉴,但需考虑模型性能。 训练算力投入和模型性能之间,需要权衡。 DeepSeek V3暂无多模态生成能力。 “算法优化—成本下降—渗透率提升—强化训推投入”正向反馈持续。 通俗的说就是,算法优化后,相同的训练算力投入,能进行更多模型开发尝试,加速模型能力的提升,带动应用爆发,推理算力爆发,模型厂商的ROI提升,会维持算力投入强度。 DeepSeek的分歧,谈谈算力需求 周末重点测试了DeepSeek大模型在逻辑、数学、代码、文本等领域的8个问题,将其生成结果与豆包、Kimi以及通义千问大模型生成的结果进行比较。 通过有限的实测结果发现,DeepSeek总体能力与其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。 例如,在密文解码任务中,DeepSeek是唯一给出正确答案的大模型;而在代码生成的任务中,DeepSeek给出的代码注释、算法原理解释以及开发流程的指引最为全面。 在文本生成和数学计算能力方面,DeepSeek并未展现出明显优于其他大模型之处。 除了基础的体验外,也去Github上学习了他的Technical Report,同步梳理了脑图如下。 不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。 于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少投资者担心训练侧大幅降本,引发算力需求下降。 DeepSeek V3的成功,并不意味着算力需求下降。 实际上是DeepSeek参数有歧义,才造成了市场的误读。 第一,DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的,避开了行业内AI大模型训练过程中的各类问题。 第二,DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销,其训练方法在特定方向的选择也使得其算力成本有所降低。 对算力是利空吗? 1)无论是DeepSeek-V3还是上周发布的OpenAI o3,它们都指向了同一个发展趋势:尽管预训练的“大力出奇迹”现阶段有些撞墙,但模型能力的提升依然在其他维度发生,无论是继续去挖掘Transformer架构的潜力,还是去卷后训练的强化学习,亦或是怼推理时计算。 算力的投入依然会继续增加,只不过阶段性投入的重心从一年前的预训练,转移到了目前的后训练和推理; 2)对预训练的算力需求个人认为也无需过度悲观。 算力通缩(单位token成本下降)在这个行业每天其实都在发生,但我们依然看到算力需求的持续增长。 并且,任何技术的演进也都是周期交替的,假如明年初x.AI用10万卡集群训练出的Grok 3表现惊艳,届时业内又可能重拾对超大规模预训练的热情 从训练到推理、算力需求持续增长 DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要: 1)大量高质量数据的合成及清洗 2)充分的预训练 3)多个MoE专家模型的多次训练 AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,推测仅字节豆包未来就需要50-100万张等效H100算力需求。 算力依然是推动大模型发展的核心驱动力。 DeepSeek-V3通过技术创新和资源优化,大幅降低了成本,展现了算力的高效性。 在该技术路线得到充分验证后,太阳有望驱动相关AI应用的快速发展,应用推理驱动算力需求增长的因素也有望得到增强 应用方面,该案例证明了在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果.这有利于具有特色、成本更低、更适合具体应用场景的模型的开发,后续随着相关AI应用的快速发展,应用推理驱动算力需求增长的因素也有望得到增强。 预期差:国产算力性能和生态突破。