行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Lex Fridman 播客：关于 DeepSeek（全程五小时）

文化传媒 2025-03-06 Lex Fridman 爱吃胡萝卜的猫 

DeepSeek R1 技术突破

DeepSeek R1 模型通过混合专家模型（MOE）和“多头潜在注意力”架构，在保持高性能的同时显著降低了训练与推理成本。与 OpenAI 同期发布的推理模型 o3-mini 相比，DeepSeek R1 以十分之一的成本实现了同等性能，并因其开放透明性为行业树立了新标杆。

成本与地缘影响

DeepSeek 的低成本得益于硬件优化（如自研计算集群）和算法创新，这对全球 AI 竞争格局产生冲击，尤其在中美技术博弈背景下，开放权重模型可能削弱西方在 AI 领域的传统优势。播客还讨论了 GPU 出口管制、台积电在芯片制造中的角色，以及 AI“技术冷战”的可能性。

未来展望

Lex 与嘉宾探讨了通用人工智能（AGI）的时间线，认为 DeepSeek 的低成本路径可能加速技术落地，但需警惕过度自主化系统的风险。

中国的生产能力

中国拥有前所未有的能力，可以建立数量惊人的 AI 算力，其工业能力远远超过美国。美国通过出口管制试图减缓中国 AI 的发展，但中国正在加速追赶，并在其他领域取得进展。

美中冷战

随着 AI 技术的快速发展，美中关系正逐渐走向冷战。美国试图通过出口管制来控制 AI 技术的传播，以确保其在全球的领先地位，而中国则试图打破这一限制，并发展出自己的 AI 生态系统。

台积电与台湾

台积电在半导体行业中扮演着至关重要的角色，其先进的制造技术为全球众多科技公司提供芯片。美国试图通过限制对台积电的访问来打击中国 AI 的发展，但台积电在美国国内复制其成功仍然面临着挑战。

最好的 AI GPU

H20 GPU 在浮点运算性能方面有所下降，但在内存带宽和内存容量方面有所提升，更适合推理任务。美国对 GPU 出口管制的不断升级，以及中国对芯片制造能力的提升，都对中国 AI 的发展产生了重要影响。

为什么 DeepSeek 这么便宜

DeepSeek R1 模型的低成本主要得益于其模型架构创新和高效的训练方式。OpenAI 虽然拥有更强大的模型，但由于其商业模式和定价策略，其推理成本远高于 DeepSeek。

间谍

虽然 DeepSeek 模型是开源的，但这并不意味着它不能被用于恶意目的。模型本身并没有进行数据窃取，但其开放性也引发了对潜在间谍活动的担忧。

审查制度

DeepSeek 模型存在一定的审查风险，但其开放性和透明性使其更容易进行审查和校准。通过在训练和推理过程中引入多个阶段的审查和校准，可以有效降低模型被滥用的风险。

Andrej Karpathy 与强化学习

Andrej Karpathy 认为，深度学习中的突破主要来自于模仿学习和强化学习两种方法。DeepSeek R1 模型通过强化学习技术，能够进行更深入的推理和思考，并展现出类似 AlphaGo 的“顿悟”时刻。

OpenAI o3-mini vs DeepSeek R1

OpenAI o3-mini 模型在推理性能方面表现出色，但其成本也相对较高。DeepSeek R1 模型在推理速度和成本方面都具有优势，并且其开放性使其更易于被研究和改进。

英伟达（与它的股票）

DeepSeek R1 模型的发布引发了市场对英伟达的担忧，其股票价格也出现了下跌。英伟达作为 AI 硬件领域的领导者，其未来发展仍然充满不确定性。

GPU Smuggling（走私）

中国通过多种方式获取受限的 GPU，包括走私和合法途径。美国政府的出口管制措施虽然取得了一定成效，但中国仍然能够获取大量 GPU，并建立强大的 AI 算力。

蒸馏：DeepSeek 基于 OpenAI 的数据进行训练

DeepSeek 通过蒸馏技术，利用 OpenAI 模型的输出进行训练，从而在保持高性能的同时降低训练成本。这种做法引发了关于模型知识产权和道德问题的讨论。

AI Megaclusters（巨型集群）

全球各大科技公司都在积极建设巨型 AI 集群，以推动 AI 技术的快速发展。这些集群的规模和复杂性不断升级，对电力、冷却和网络等方面提出了巨大挑战。

谁是 AGI 的最后赢家

OpenAI 和谷歌被视为 AI 领域的领导者，但其未来发展仍然充满不确定性。Meta、微软等公司也在积极投入 AI 领域，并试图从 AI 技术中获益。

AI Agents

AI 代理能够独立解决任务，并适应不确定性，其在各个领域的应用前景广阔。虽然目前 AI 代理的应用还处于早期阶段，但其发展潜力巨大。

AI 与编程

AI 技术将对软件工程产生深远影响，并推动软件工程成本的下降。AI 代理可以帮助程序员更高效地完成工作，并加速软件开发过程。

开源

DeepSeek R1 模型的开源发布推动了开源 AI 运动的发展，并为 AI 社区提供了更多可用的资源和工具。未来，开源 AI 将在 AI 生态系统中发挥越来越重要的作用。

Stargate （OpenAI 星际之门）

OpenAI 的“星际之门”项目旨在加速 AI 基础设施的建设，并推动 AI 技术的快速发展。该项目获得了多家科技公司的投资，并将在全球范围内建设多个巨型 AI 集群。

AI 的未来

未来几年，AI 技术将继续快速发展，并推动各个领域的创新和变革。人类需要积极应对 AI 带来的挑战，并利用 AI 技术创造更美好的未来。

00. DeepSeek导读 Lex Fridman（莱克斯·弗⾥德曼）是麻省理⼯学院（MIT）的⼈⼯智能研究员、播客主持⼈及多领域跨界专家。他出⽣于俄罗斯莫斯科，拥有计算机科学博⼠学位，研究⽅向涵盖深度学习、⾃动驾驶、⼈机交互等，并在MIT教授相关课程。他因⾼质量的访谈播客和极端的⾃律⽣活⽅式⼴受关注，曾采访过埃隆·⻢斯克、扎克伯格等科技界领袖，同时也是巴⻄柔术⿊带选⼿和⾳乐爱好者。关于他讨论中国AI公司DeepSeek的播客（第459期），主要内容聚焦于以下⼏点： 1.DeepSeek的技术突破重点分析了DeepSeek的开放权重模型R1和V3，指出其通过混合专家模型（Mixture-of-Experts）和“多头潜在注意⼒”架构显著降低了训练与推理成本，同时保持⾼性能。对⽐OpenAI同期发布的推理模型o3-mini，Lex指出DeepSeek R1以⼗分之⼀的成本实现了同等性能，并认为其开放透明性为⾏业树⽴了新标杆。 2.成本与地缘影响 DeepSeek的低成本得益于硬件优化（如⾃研计算集群）和算法创新，这对全球AI竞争格局产⽣冲击，尤其在中美技术博弈背景下，开放权重模型可能削弱⻄⽅在AI领域的传统优势。播客还讨论了GPU出⼝管制、台积电在芯⽚制造中的⻆⾊，以及AI“技术冷战”的可能性。 3.未来展望 Lex与嘉宾探讨了通⽤⼈⼯智能（AGI）的时间线，认为DeepSeek的低成本路径可能加速技术落地，但需警惕过度⾃主化系统的⻛险。 Lex在社交平台评价称，“DeepSeek时刻”将成为技术突破与地缘博弈交织的历史性事件。该播客完整版可通过Lex Fridman官⽹或中⽂翻译平台（如⼩宇宙FM）获取。 Lex Fridman是我⾮常喜欢的博客主，恰好⼜做了我们DeepSeek的⼀期节⽬，兴趣驱动花费6⼩时+ 200元独⽴实现了视频转翻译⽂稿过程，精⼒有限，正⽂内容⽆法做到⼈⼯校对，还请⻅谅。如果对您有帮助，还望多多打赏多多⽀持，后续可以带给⼤家更多⾼质量内容！本⽂⼯作流：视频转⾳频：-yt-dlp/yt-dlp: A feature-rich command-line audio/video downloader⾳频转⽂本：AssemblyAI | Home 翻译：讯⻜⽂档翻译-上传PDF/Word/Excel/PPT格式化：vinta/pangu.js: Paranoid text spacing in JavaScript编辑：Obsidian - Sharpen your thinking排版：墨滴|看颜值的⽂章社区本⽂代码存档：MarkShawn2020/2025-02-03_lex-fridman-deepseek: Lex Fridman关于DeepSeek播客代码库全⽂⽬录： 00. DeepSeek导读01.背景介绍02. DeepSeek-R1 and DeepSeek-V303.低成本训练04. DeepSeek计算集群05.对中国的GPU出⼝控制06. AGI时间线07.中国的⽣产能⼒08.美中冷战09.台积电与台湾10.最好的AI GPU11.为什么DeepSeek这么便宜12.间谍13.审查制度14. Andrej Karpathy与强化学习15. OpenAI o3-mini vs DeepSeek R116.英伟达（与它的股票）17. GPU Smuggling（⾛私）18.蒸馏：DeepSeek基于OpenAI的数据进⾏训练19. AI Megaclusters（巨型集群）20.谁是AGI的最后赢家21. AI Agents22. AI与编程23.开源24. Stargate（OpenAI星际之⻔）25. AI的未来 01.背景介绍 Lex Frdiman：以下是与Dylan Patel和Nathan Lambert的对话。 Dylan经营着SemiAnalysis，这是⼀家备受尊敬的研究和分析公司，专注于半导体、GPU、CPU和⼈⼯智能硬件。 Nathan是艾伦⼈⼯智能研究所（Allen Institute for AI）的⼀名研究科学家，也是⼈⼯智能博客“互联”（Interconnect）的作者。他们都受到⼈⼯智能领域的专家、研究⼈员和⼯程师的⾼度尊重、阅读和聆听。就个⼈⽽⾔，我只是他们两个的粉丝。因此，我利⽤这⼀震撼⼈⼯智能世界的深度探索时刻，作为⼀个机会，与他们坐下来，把⼀切都摆出来。从DeepSeek、OpenAI、Google、XAI、Anthropic，到英伟达（Nvidia）和台积电（TSMC），再到美中关系、台湾关系以及⼈⼯智能前沿正在发⽣的⼀切，本次对话深⼊探讨了⼈⼯智能⾏业的许多关键⽅⾯。虽然它的技术含量很⾼，但我们试图通过定义术语、陈述重要概念、明确说明缩略语，以及通常总是跨越⼏个抽象层和细节层次，来确保⼈⼯智能领域以外的⼈仍然可以访问它。媒体上有很多关于⼈⼯智能是什么和不是什么的炒作。这个播客的部分⽬的是通过胡说⼋道和低分辨率分析来减少炒作，并详细讨论这些东⻄是如何⼯作的，以及其含义是什么。另外，如果我可以的话，请允许我评论⼀下新的OpenAI o3-mini推理模型，我们在谈话中期待着它的发布，它确实是在其功能和成本与我们的预期相当之后发布的。正如我们所说的，OpenAI o3-mini确实是⼀个伟⼤的模型，但应该指出的是，DeepSeek R1在基准测试中具有类似的性能，仍然更便宜，并且它揭示了o3-mini所没有的思维推理。它只显示了推理的摘要。另外，R1是开源的⽽o3-mini不是。顺便说⼀句，我有机会玩o3-mini。我觉得o3-mini，特别是o3-mini High⽐R1更好。尽管如此，就我个⼈⽽⾔，我发现Claude Sonnet 3.5是最好的编程模型，除了我将使⽤o1-pro进⾏头脑⻛暴的棘⼿情况。⽆论哪种⽅式，更多更好的⼈⼯智能模型将会出现，包括来⾃美国和中国公司的推理模型。它们将继续改变成本曲线，但DeepSeek Moment确实是真实的。我认为，五年后，它仍将作为科技史上的⼀个关键事件被⼈们铭记，部分原因是地缘政治影响，但也有其他原因。正如我们在这次对话中从多个⻆度详细讨论的那样，这是Lex Fridman的播客。为了⽀持它，请在描述中查看我们的赞助商。现在，亲爱的朋友们，这是Dylan Patel和Nathan Lambert。很多⼈都想了解中国的DeepSeek⼈⼯智能模型。所以让我们把它摆出来。 Nathan，你能描述⼀下DeepSeek V3和DeepSeek R1是什么吗，它们是如何⼯作的，它们是如何训练的？让我们先看⼤图，然后再放⼤细节。 02. DeepSeek-R1 and DeepSeek-V3 Nathan Lambert：是的。因此，DeepSeek V3是来⾃中国的DeepSeek的⼀种新的专家混合Transformer语⾔模型。他们在模型中有⼀些新的细节，我们将进⼊。很⼤程度上，这是⼀个开放的权重模型，它是⼀个指令模型，就像你在ChatGPT中使⽤的⼀样。他们还发布了所谓的基础模型，这是在这些训练后的技术之前。如今，⼤多数⼈都在使⽤指令模型，这些模型在各种应⽤程序中都得到了应⽤。我相信这是在12⽉26⽇或那⼀周发布的。⼏周后，1⽉20⽇， DeepSeek发布了DeepSeek R1，这是⼀个推理模型，它确实加速了很多讨论。这个推理模型有很多重叠的训练步骤来DeepSeek V3。令⼈困惑的是，你有⼀个叫做V3的基本模型，你做了⼀些事情来得到⼀个聊天模型，然后你做了⼀些不同的事情来得到⼀个推理模型。我认为很多⼈⼯智能⾏业正在经历这种通信的挑战，OpenAI正在取笑他们⾃⼰的命名⽅案。他们有GPT4O，他们有OpenAI01，还有很多类型的模型。所以我们将分解它们中的每⼀个。训练中有很多技术细节，从⾼⽔平到具体，每⼀项都要经历。 Lex Frdiman：这⾥有很多地⽅我们可以去，但也许让我们先去公开举重。开放权重的模型意味着什么？开源通常有哪些不同的⻛格？ Nathan Lambert：是的，这个讨论在⼈⼯智能领域已经持续了很⻓时间。⾃从ChatGPT以来，它变得更加重要，或者⾃从2022年底的ChatGPT以来，它变得更加重要。开放权重是公认的术语，当语⾔模型的模型权重在互联⽹上可供⼈们下载时，这些权重可以有不同的许可证，这是你可以使⽤模型的有效条款。在开源软件中有来⾃历史的许可证。有些许可证是由公司设计的，特别是所有的Llama，DeepSeek，Qwen，Mistral。这些流⾏的名字在开放的重量模型有⼀些⾃⼰的许可证。这很复杂，因为不是所有相同的模型都有相同的术语。最⼤的争论是什么使模型开放的重量。我们为什么要说这个术语？有点拗⼝。它听起来很接近开源，但它不⼀样。关于开源⼈⼯智能的定义和灵魂，仍然有很多争论。开源软件在⾃由修改⽅⾯有着丰富的历史，你可以⾃由地使⽤⾃⼰的软件，不受任何限制。这对⼈⼯智能的意义仍在定义中。所以我在艾伦⼈⼯智能研究所⼯作。我们是⾮营利组织。我们想让⼈⼯智能对所有⼈开放。我们试图引领我们认为是真正开源的东⻄。在社区中没有完全达成⼀致，但对我们来说，这意味着发布训练数据，发布训练代码，然后也有像这样的开放权重。我们将⼀次⼜⼀次地深⼊模型的细节，因为我们试图更深⼊地了解模型是如何训练的，我们会说数据处理，数据过滤，数据质量是模型质量的⾸要决定因素。然后很多训练代码是决定训练时间和实验速度的决定因素。因此，如果没有完全开源的模型，你可以访问这些数据，很难知道或者很难复制。因此，我们将讨论DeepSeek V3在⼤部分GPU时间上的成本数字，以及您⾃⼰可以⽀付多少租⾦。但如果没有数据，复制成本将会⾼得多。代码也是⼀样。 Lex Frdiman：我们也应该说，这可能是前沿模型中⽐较开放的模型之⼀。所以就像在这个完整的范围内，可能是最完整的开源，就像你说的，开放代码，开放数据，开放权重，这不是开放代码，这可能不是开放数据，这是开放权重，许可是MIT许可。我的意思是在不同的模型中有⼀些细微的差别，但就开源运动⽽⾔，它是免费的。他们都是好⼈。 Nathan Lambert：是的，DeepSeek在传播对⼈⼯智能的理解⽅⾯做了出⾊的⼯作。他们的论⽂⾮常详细地描述了他们所做的事情。对于世界各地的其他团队来说，他们在提⾼⾃⼰的训练技术⽅⾯是⾮常可⾏的。我们将更多地讨论许可证。DeepSeek R1模型具有⾮常宽松的许可证。它被称为麻省理⼯学院许可证。这实际上意味着商业使⽤没有下游限制，没有⽤例限制。您可以使⽤模型的输出来创建合成数据。这⼀切都太棒了。我认为最接近的同⾏是像Llama⼀样的东⻄，你有重量，你有技术报告。技术报告对Llama来说⾮常好。去年阅读量最⼤的PDF⽂件之⼀是《Llama 3》。但在某些⽅⾯，它的可执⾏性略低。它在训练细节上的细节较少，情节较少等等。Llama 3许可证⽐MIT更严格。然后在深海海关许可证和骆驼许可证之间，我们可以进⼊整个兔⼦洞。我想在我们做细节之前，我们会确保我们想要进⼊许可证的兔⼦洞。 Lex Frdiman：是的。我的意思是，应该说明的是，DeepSeek对Llama和OpenAI上的其他所有⼈施加了压⼒，以推动开源。这就是你提到的开源的另⼀⾯，那就是有多少关于它的细节被公布。所以你对代码背后的⻅解有多开放。⽐如技术报告有多好？他们的⼿是波浪形的还是有实际的细节？这是DeepSeek做得很好的事情之⼀，因为他们公布了很多细节。 Nathan Lambert：是的，特别是在DeepSeek V3中，这是他们的训练前⽂件，他们⾮常清楚，他们正在对许多不同级别的技术堆栈进⾏⼲预。例如，为了获得⾼效的训练，他们在NVIDIA芯⽚的CUDA层或以下进⾏修改。我⾃⼰从来没有在那⾥⼯作过，世界上有⼏个⼈做得很好，他们中的⼀些⼈在DeepSe

点击免费查看完整报告

Lex Fridman 播客：关于 DeepSeek（全程五小时）

DeepSeek R1 技术突破

成本与地缘影响

未来展望

中国的生产能力

美中冷战

台积电与台湾

最好的 AI GPU

为什么 DeepSeek 这么便宜

间谍

审查制度

Andrej Karpathy 与强化学习

OpenAI o3-mini vs DeepSeek R1

英伟达（与它的股票）

GPU Smuggling（走私）

蒸馏：DeepSeek 基于 OpenAI 的数据进行训练

AI Megaclusters（巨型集群）

谁是 AGI 的最后赢家

AI Agents

AI 与编程

开源

Stargate （OpenAI 星际之门）

AI 的未来

你可能感兴趣

农林牧渔：《关于做好2016年农业生产全程社会化服务试点工作的通知》点评-农业综合服务商是农业企业发展的重要方向

姚顺雨3小时播客听后感1关于AIAgent的演进与核心能力

软件电信教育关于AI陪伴和AI应用的一些观察思考Deepseek影响评述20250310

本营关于算力租赁的调研纪要某巨头业务模式详拆DeepSeek对

全程直击SEMICON，核心公司动态SEMI【上修半

政策关注农业规模经营和农户增收，大田全程方案有望受益

【风口研报·公司】受益大宗原料市场价格上半年的全程上涨，公司今年盈利能力迎来快速修复，叠加积极分红的历史基因，分析师看好公司红利..

植物生长调节剂行业龙头，作物全程方案发展空间广阔

海通硬科技（金属+汽车）【特斯拉Q2电话会议全程翻译】<

电商营销新方案——全网全程的效果整合营销