您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Lex Fridman]:Lex Fridman 播客:关于 DeepSeek(全程五小时) - 发现报告

Lex Fridman 播客:关于 DeepSeek(全程五小时)

文化传媒 2025-03-06 Lex Fridman 爱吃胡萝卜的猫 
报告封面

00. DeepSeek导读 Lex Fridman(莱克斯·弗⾥德曼)是麻省理⼯学院(MIT)的⼈⼯智能研究员、播客主持⼈及多领域跨界专家。他出⽣于俄罗斯莫斯科,拥有计算机科学博⼠学位,研究⽅向涵盖深度学习、⾃动驾驶、⼈机交互等,并在MIT教授相关课程。他因⾼质量的访谈播客和极端的⾃律⽣活⽅式⼴受关注,曾采访过埃隆·⻢斯克、扎克伯格等科技界领袖,同时也是巴⻄柔术⿊带选⼿和⾳乐爱好者。 关于他讨论中国AI公司DeepSeek的播客(第459期),主要内容聚焦于以下⼏点: 1.DeepSeek的技术突破 重点分析了DeepSeek的开放权重模型R1和V3,指出其通过混合专家模型(Mixture-of-Experts)和“多头潜在注意⼒”架构显著降低了训练与推理成本,同时保持⾼性能。对⽐OpenAI同期发布的推理模型o3-mini,Lex指出DeepSeek R1以⼗分之⼀的成本实现了同等性能,并认为其开放透明性为⾏业树⽴了新标杆。 2.成本与地缘影响 DeepSeek的低成本得益于硬件优化(如⾃研计算集群)和算法创新,这对全球AI竞争格局产⽣冲击,尤其在中美技术博弈背景下,开放权重模型可能削弱⻄⽅在AI领域的传统优势。播客还讨论了GPU出⼝管制、台积电在芯⽚制造中的⻆⾊,以及AI“技术冷战”的可能性。 3.未来展望 Lex与嘉宾探讨了通⽤⼈⼯智能(AGI)的时间线,认为DeepSeek的低成本路径可能加速技术落地,但需警惕过度⾃主化系统的⻛险。 Lex在社交平台评价称,“DeepSeek时刻”将成为技术突破与地缘博弈交织的历史性事件。该播客完整版可通过Lex Fridman官⽹或中⽂翻译平台(如⼩宇宙FM)获取。 Lex Fridman是我⾮常喜欢的博客主,恰好⼜做了我们DeepSeek的⼀期节⽬,兴趣驱动花费6⼩时+ 200元独⽴实现了视频转翻译⽂稿过程,精⼒有限,正⽂内容⽆法做到⼈⼯校对,还请⻅谅。如果对您有帮助,还望多多打赏多多⽀持,后续可以带给⼤家更多⾼质量内容! 本⽂⼯作流: 视频转⾳频:-yt-dlp/yt-dlp: A feature-rich command-line audio/video downloader⾳频转⽂本:AssemblyAI | Home 翻译:讯⻜⽂档翻译-上传PDF/Word/Excel/PPT格式化:vinta/pangu.js: Paranoid text spacing in JavaScript编辑:Obsidian - Sharpen your thinking排版:墨滴|看颜值的⽂章社区 本⽂代码存档:MarkShawn2020/2025-02-03_lex-fridman-deepseek: Lex Fridman关于DeepSeek播客代码库 全⽂⽬录: 00. DeepSeek导读01.背景介绍02. DeepSeek-R1 and DeepSeek-V303.低成本训练04. DeepSeek计算集群05.对中国的GPU出⼝控制06. AGI时间线07.中国的⽣产能⼒08.美中冷战09.台积电与台湾10.最好的AI GPU11.为什么DeepSeek这么便宜12.间谍13.审查制度14. Andrej Karpathy与强化学习15. OpenAI o3-mini vs DeepSeek R116.英伟达(与它的股票)17. GPU Smuggling(⾛私)18.蒸馏:DeepSeek基于OpenAI的数据进⾏训练19. AI Megaclusters(巨型集群)20.谁是AGI的最后赢家21. AI Agents22. AI与编程23.开源24. Stargate(OpenAI星际之⻔)25. AI的未来 01.背景介绍 Lex Frdiman:以下是与Dylan Patel和Nathan Lambert的对话。 Dylan经营着SemiAnalysis,这是⼀家备受尊敬的研究和分析公司,专注于半导体、GPU、CPU和⼈⼯智能硬件。 Nathan是艾伦⼈⼯智能研究所(Allen Institute for AI)的⼀名研究科学家,也是⼈⼯智能博客“互联”(Interconnect)的作者。 他们都受到⼈⼯智能领域的专家、研究⼈员和⼯程师的⾼度尊重、阅读和聆听。就个⼈⽽⾔,我只是他们两个的粉丝。因此,我利⽤这⼀震撼⼈⼯智能世界的深度探索时刻,作为⼀个机会,与他们坐下来,把⼀切都摆出来。 从DeepSeek、OpenAI、Google、XAI、Anthropic,到英伟达(Nvidia)和台积电(TSMC),再到美中关系、台湾关系以及⼈⼯智能前沿正在发⽣的⼀切,本次对话深⼊探讨了⼈⼯智能⾏业的许多关键⽅⾯。 虽然它的技术含量很⾼,但我们试图通过定义术语、陈述重要概念、明确说明缩略语,以及通常总是跨越⼏个抽象层和细节层次,来确保⼈⼯智能领域以外的⼈仍然可以访问它。 媒体上有很多关于⼈⼯智能是什么和不是什么的炒作。这个播客的部分⽬的是通过胡说⼋道和低分辨率分析来减少炒作,并详细讨论这些东⻄是如何⼯作的,以及其含义是什么。 另外,如果我可以的话,请允许我评论⼀下新的OpenAI o3-mini推理模型,我们在谈话中期待着它的发布,它确实是在其功能和成本与我们的预期相当之后发布的。 正如我们所说的,OpenAI o3-mini确实是⼀个伟⼤的模型,但应该指出的是,DeepSeek R1在基准测试中具有类似的性能,仍然更便宜,并且它揭示了o3-mini所没有的思维推理。它只显示了推理的摘要。另外,R1是开源的⽽o3-mini不是。 顺便说⼀句,我有机会玩o3-mini。我觉得o3-mini,特别是o3-mini High⽐R1更好。尽管如此,就我个⼈⽽⾔,我发现Claude Sonnet 3.5是最好的编程模型,除了我将使⽤o1-pro进⾏头脑⻛暴的棘⼿情况。 ⽆论哪种⽅式,更多更好的⼈⼯智能模型将会出现,包括来⾃美国和中国公司的推理模型。它们将继续改变成本曲线,但DeepSeek Moment确实是真实的。我认为,五年后,它仍将作为科技史上的⼀个关键事件被⼈们铭记,部分原因是地缘政治影响,但也有其他原因。 正如我们在这次对话中从多个⻆度详细讨论的那样,这是Lex Fridman的播客。为了⽀持它,请在描述中查看我们的赞助商。 现在,亲爱的朋友们,这是Dylan Patel和Nathan Lambert。很多⼈都想了解中国的DeepSeek⼈⼯智能模型。所以让我们把它摆出来。 Nathan,你能描述⼀下DeepSeek V3和DeepSeek R1是什么吗,它们是如何⼯作的,它们是如何训练的? 让我们先看⼤图,然后再放⼤细节。 02. DeepSeek-R1 and DeepSeek-V3 Nathan Lambert:是的。因此,DeepSeek V3是来⾃中国的DeepSeek的⼀种新的专家混合Transformer语⾔模型。他们在模型中有⼀些新的细节,我们将进⼊。很⼤程度上,这是⼀个开放的权重模型,它是⼀个指令模型,就像你在ChatGPT中使⽤的⼀样。他们还发布了所谓的基础模型,这是在这些训练后的技术之前。如今,⼤多数⼈都在使⽤指令模型,这些模型在各种应⽤程序中都得到了应⽤。我相信这是在12⽉26⽇或那⼀周发布的。⼏周后,1⽉20⽇, DeepSeek发布了DeepSeek R1,这是⼀个推理模型,它确实加速了很多讨论。这个推理模型有很多重叠的训练步骤来DeepSeek V3。令⼈困惑的是,你有⼀个叫做V3的基本模型,你做了⼀些事情来得到⼀个聊天模型,然后你做了⼀些不同的事情来得到⼀个推理模型。我认为很多⼈⼯智能⾏业正在经历这种通信的挑战,OpenAI正在取笑他们⾃⼰的命名⽅案。他们有GPT4O,他们有OpenAI01,还有很多类型的模型。所以我们将分解它们中的每⼀个。训练中有很多技术细节,从⾼⽔平到具体,每⼀项都要经历。 Lex Frdiman:这⾥有很多地⽅我们可以去,但也许让我们先去公开举重。开放权重的模型意味着什么?开源通常有哪些不同的⻛格? Nathan Lambert:是的,这个讨论在⼈⼯智能领域已经持续了很⻓时间。⾃从ChatGPT以来,它变得更加重要,或者⾃从2022年底的ChatGPT以来,它变得更加重要。开放权重是公认的术语,当语⾔模型的模型权重在互联⽹上可供⼈们下载时,这些权重可以有不同的许可证,这是你可以使⽤模型的有效条款。在开源软件中有来⾃历史的许可证。有些许可证是由公司设计的,特别是所有的Llama,DeepSeek,Qwen,Mistral。这些流⾏的名字在开放的重量模型有⼀些⾃⼰的许可证。这很复杂,因为不是所有相同的模型都有相同的术语。最⼤的争论是什么使模型开放的重量。我们为什么要说这个术语?有点拗⼝。它听起来很接近开源,但它不⼀样。关于开源⼈⼯智能的定义和灵魂,仍然有很多争论。开源软件在⾃由修改⽅⾯有着丰富的历史,你可以⾃由地使⽤⾃⼰的软件,不受任何限制。这对⼈⼯智能的意义仍在定义中。所以我在艾伦⼈⼯智能研究所⼯作。我们是⾮营利组织。我们想让⼈⼯智能对所有⼈开放。我们试图引领我们认为是真正开源的东⻄。在社区中没有完全达成⼀致,但对我们来说,这意味着发布训练数据,发布训练代码,然后也有像这样的开放权重。我们将⼀次⼜⼀次地深⼊模型的细节,因为我们试图更深⼊地了解模型是如何训练的,我们会说数据处理,数据过滤,数据质量是模型质量的⾸要决定因素。然后很多训练代码是决定训练时间和实验速度的决定因素。因此,如果没有完全开源的模型,你可以访问这些数据,很难知道或者很难复制。因此,我们将讨论DeepSeek V3在⼤部分GPU时间上的成本数字,以及您⾃⼰可以⽀付多少租⾦。但如果没有数据,复制成本将会⾼得多。代码也是⼀样。 Lex Frdiman:我们也应该说,这可能是前沿模型中⽐较开放的模型之⼀。所以就像在这个完整的范围内,可能是最完整的开源,就像你说的,开放代码,开放数据,开放权重,这不是开放代码,这可能不是开放数据,这是开放权重,许可是MIT许可。我的意思是在不同的模型中有⼀些细微的差别,但就开源运动⽽⾔,它是免费的。他们都是好⼈。 Nathan Lambert:是的,DeepSeek在传播对⼈⼯智能的理解⽅⾯做了出⾊的⼯作。他们的论⽂⾮常详细地描述了他们所做的事情。对于世界各地的其他团队来说,他们在提⾼⾃⼰的训练技术⽅⾯是⾮常可⾏的。我们将更多地讨论许可证。DeepSeek R1模型具有⾮常宽松的许可证。它被称为麻省理⼯学院许可证。这实际上意味着商业使⽤没有下游限制,没有⽤例限制。您可以使⽤模型的输出来创建合成数据。这⼀切都太棒了。我认为最接近的同⾏是像Llama⼀样的东⻄,你有重量,你有技术报告。技术报告对Llama来说⾮常好。去年阅读量最⼤的PDF⽂件之 ⼀是《Llama 3》。但在某些⽅⾯,它的可执⾏性略低。它在训练细节上的细节较少,情节较少等等。Llama 3许可证⽐MIT更严格。然后在深海海关许可证和骆驼许可证之间,我们可以进⼊整个兔⼦洞。我想在我们做细节之前,我们会确保我们想要进⼊许可证的兔⼦洞。 Lex Frdiman:是的。我的意思是,应该说明的是,DeepSeek对Llama和OpenAI上的其他所有⼈施加了压⼒,以推动开源。这就是你提到的开源的另⼀⾯,那就是有多少关于它的细节被公布。所以你对代码背后的⻅解有多开放。⽐如技术报告有多好?他们的⼿是波浪形的还是有实际的细节?这是DeepSeek做得很好的事情之⼀,因为他们公布了很多细节。 Nathan Lambert:是的,特别是在DeepSeek V3中,这是他们的训练前⽂件,他们⾮常清楚,他们正在对许多不同级别的技术堆栈进⾏⼲预。例如,为了获得⾼效的训练,他们在NVIDIA芯⽚的CUDA层或以下进⾏修改。我⾃⼰从来没有在那⾥⼯作过,世界上有⼏个⼈做得很好,他们中的⼀些⼈在DeepSe