行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

如何让 DeepSeek 发挥实战价值 – Create 2025百度AI开发者大会–20250425

2025-04-25 未知机构刘银河

核心观点

大模型技术正经历从能听会说看到、能思考、能执行的关键跃迁，但如何跨越成本、场景、工程化三种鸿沟是关键问题。
DeepSeek 通过模型系数化、小模型训练蒸馏、大小模型组合等技术，在效果和成本之间取得平衡，为 DeepSeek 发挥实战价值提供启示。
DeepSeek 的核心技术在于模型系数化，通过超吸收的 MOE 模型结构，在训练和推理上都实现了极致的性能优化，包括使用更少的参数、并行分布专家、混合精度训练、流水线并行等。
为了进一步提升效果，DeepSeek 推动了 Time2Vec 和 RE 推理模型的发展，通过生成更多思考的 head 来提升答案准确性，并通过大规模强化学习激发模型的推理能力。
百度智能云千帆和百个平台为 DeepSeek 的产业化落地提供技术支撑，包括模型开发和应用开发所需的工具链，以及算力支持。
DeepSeek 引发了模型与基础设施的协同创新范式，百度智能云通过软硬协同优化，极致降低 DeepSeek 的部署成本，包括自动配比的 PD 分离式架构、专家负载均衡策略、大规模 MPP 支持、芯片层面优化等。
NVIDIA SDK 对 DeepSeek 进行了优化，包括训练推理优化、数据处理优化、推理服务优化等，并推出了 Damoer 服务，支持 PD 分离和推理加速。
DeepSeek 的火爆加速了产业落地，百度智能云千帆模型开发平台全面支持 DeepSeek 模型服务和开发，帮助企业进行创新。
DeepSeek 推动了企业级智能应用的开发范式变革，通过重新设计 AI In-three，跑通深度推理模式，实现同时降本增效。
DeepSeek 带来了前所未有的用户流量，推动了开发者从技术可行性转向场景落地。
百度智能云应用开发平台与 DeepSeek 结合，实现了 AI 搜索、Agent 框架、工作流、RAG 等能力的升级。
头部开发者基于 DeepSeek 和百度智能云千帆模型开发平台开发了私人版的 DeepSeek RE，用于信息收集和报告生成。
百度智能云客运服务营销应用 Redebase C 融合了 DeepSeek，实现了让 AI 更懂业务语言，并通过对话仿真自叠带系统提升效果。
极客公园创始人总裁张鹏、百度智胜研发架构师董大祥、Transfersec 创始人 CEO 张晓辉就 DeepSeek 落地中的协同与挑战进行了圆桌对话。

关键数据

百度智能云千帆平台日均调用量已达 16 亿规模，企业应用开发数达到 100 多万。
DeepSeek RE 推理模型通过强化学习，准确率提升至 28%。
DeepSeek 一键蒸馏在数学竞赛场景上，成本降低了 30%。
百度智能云千帆平台支持 DeepSeek 满血版的相关模型蒸馏工作。
百度智能云千帆平台支持离线批量推理，价格是在线服务 API 的 40%。
百度智能云千3 DeepSeek 一体机内置了千帆模型开发平台和千帆应用开发平台，并加入了企业文档抽取、企业合同审核等开箱即用的应用。
百度智能云客粤旺服务营销一体化平台支持全旅程营销，并通过人机协同提升效果。
百度智能云端到端语音语言大模型首次面向 to B 企业落地，就在客粤旺产品中。

研究结论

DeepSeek 的出现推动了大模型技术的快速发展，加速了产业落地，为企业创新提供了新的机遇。
百度智能云千帆和百个平台为 DeepSeek 的产业化落地提供了强大的技术支撑，帮助企业降低成本、提升效果。
DeepSeek 的落地需要考虑成本、性能、稳定性等因素，需要平台和工具链的支撑。
未来模型的发展趋势是多模态、具备思考能力，并且会根据不同场景提供不同尺寸的模型。
创业团队需要关注用户场景，创造有意义的角色，并利用平台提供的工具和资源，将 DeepSeek 应用于实际业务中。

如何让 DeepSeek 发挥实战价值 - Create2025百度AI开发者大会-20250425_原文 2025年04月27日 21:27 发言人1 00:00Esek发挥实战价值分论坛。发言人1 00:03当前大模型技术正经历从能听会看到、能思考、能执行的关键跃迁，但如何跨越成本、场景、工程化三种鸿沟？今天我们聚焦实战价值这一核心命题，通过十位行业先锋的硬核分享，解密技术落地中的真挑战与最优点。发言人1 00:25首先让我们有请百度智能型千番大模型研发负责人吴建林，为我们开启大模型落地的效果与成本，dec创新的启示，掌声有请。发言人1 00:55大家下午好，很高兴能有这个机会来和大家分享一下百度智能云在解决大模型落地过程中效果和成本问题的一些技术突破。发言人1 01:09也包括我们从deep sik最近的一些创新中得到的启示。发言人1 01:15大家在实际做大模型落地的时候，往往会提很多要求。发言人1 01:21这里面包括场景效果要好，推理成本要低，推理速度要快。这个就是大家常说的既要又要还要这个既要又要含药，说它是很难被同时做到，主要的原因就是场景效果要好的话，我们通常需要模型的参数量要大。发言人1 01:41 但如果模型的参数量大，我们对应的这个推理成本就很难很低，对应的速度也会比较慢，围绕这个问题，大家在有各种尝试的方案，最早的一些尝试就是通过模型系数化的方案。发言人1 02:00 在大模型训练的过程中，我们的参数规模是在持续增大的，带来的性能和成本的问题就变成了一个挑战。发言人1 02:10 模型参数的系数化，通过MOV的这种结构，让我们看到了能够在更大的模型参数基础上保持比较低的特意成本的这样一个可能性。发言人1 02:22第二个方案就是我们做小模型的训练蒸馏，把大模型的能力蒸馏到小模型里面，实现推理的降本。发言人1 02:32如果业务场景很复杂，我们也需要做大小模型的组合，完成复杂的业务场景的应用，实现性能和效果的自由组合。发言人1 02:45Deep sik的核心技术主要是在刚才上面说的第一个模型的系数化上。发言人1 02:51通过超吸收的MOE模型结构，deep CK在推训练和推理上都实现了极致的性能优化。发言人1 02:59具体的训练上包括首先模型结构是超越吸收的那在推理过程中就使用了更少的参数，这样得带到了更低的推理成本。发言人1 03:10同时这么多的稀疏专家也会被并行的分布在不同的卡上，进一步提高训练的冲突。发言人1 03:18也有FP8的混合精度训练，通过低精度的训练来提高这个训练的冲突。发言人1 03:24也通过流水线并行，进一步提高在流水线过程中训练的效率。发言人1 03:32在推理方向上，首先肯定也是超吸收的贸易结构带来的更多的优势。发言人1 03:36同时也有大规模的多机专家并请了方案。发言人1 03:40 这个正面提到的大规模是和训练相比，就是在推理阶段，如果我们要把抵扣掉的这个推理吞吐做上去，我们需要把专家分散在更多的卡上，类似于默认的我们要分配在256张卡上去，把所有的专家，每个专家一张卡，来进一步提高这个抵扣的阶段的推理吞吐量。发言人1 04:01 同时在推理过程中，也可以做计算和通信的双流lap，实现推理性能的极致优化。发言人1 04:07 这个很依赖于我们在推理过程中的专家并行和专家均衡的做到什么程度。发言人1 04:13知识这一切是需要做prefer和抵扣的分离和推理。发言人1 04:16这个也是现在业界的最佳实践。发言人1 04:20百度智能云在这个性能优化的最佳实践上，我们通过上面这些技术的突破，相比于默认的这个部署方案，我们的推理吞吐提升了20倍，延迟降低到原来的2分之1。发言人1 04:37上面是关于性能部分效果，我们也看到了新的提升的机会。发言人1 04:43主要是做time gay，就是让大模型在推理阶段通过生成更多的思考的头肯，来提升最终答案的准确性。这个事情其实很早叶姐就在尝试，最早是通过pm的工程COT的发通过提示大模型在回答问题之前先一步步的做思考，来最终得到一个更准确的答案。发言人1 05:07还有通过多次采样对一个问题让模型生成十个答案，最后把出现次数最多的那个答案作为最终答案来返回，来提高这个回答的准确性。发言人1 05:21最近的一些尝试是在做生成时的搜索。发言人1 05:24就是我们在生成这个答案的过程中，通过搜索的方法来找出来自由的答案。发言人1 05:31典型的像白斯欧文，就是说在模型生成这个答案的过程中，一次生成三个，然后通过一个奖励模型来判别到底哪一个答案是最好的，最终把这个答案返回出去。发言人1 05:44也有做这个lok hd的前项搜索。发言人1 05:47就在生成当前多个talking的时候，让每一个多个候选投恳的时候，让每个候选tok都往前多看几部，然后选一个多看几部以后效果最好的最好的那个图肯作为当前的图肯。发言人1 06:03这也是在做time gay时常用这些技术，就是用更多的测试时的时间来拿到更好的效果。发言人1 06:11上面那些方案都是外在的，通过一些技术手段来做好testers gay。发言人1 06:19模型自己能不能内发的去生成逻辑推理的过程，然后把time它的效果发挥到极致呢？发言人1 06:29这里面deepCKRE的这个推理模型给我们了一些提示，通过大规模强化学习的方法来激发模型的推理能力。发言人1 06:38模型的推理能力和人类的推理是类似的，它表现在几个方面。发言人1 06:44为了解决一个复杂的问题，人首先看到问题以后，需要做一些规划，看看把这个问题能拆解成几步。发言人1 06:54在每一步解决的过程中，也可以进行反思，看看我当前这个阶段是不是能最终得到问题的答案。发言人1 07:00如果不能的话，我是不是要回退到上面某一步，重新尝试。发言人1 07:05也可以做验证，就我当前的这个结果是不是最好的。发言人1 07:08同时也可以做探索，进行不同方案的尝试。发言人1 07:13要让模型表现出来类似于人的这样的推理能力，我们技术上经历了两个阶段。发言人1 07:20第一阶段是通过模板的方式教导模型去学会思考。发言人1 07:25这个比较典型的就是reagent方案。发言人1 07:29这个大家如果做过a lt的，同时应该对这个方案比较了解。发言人1 07:34他把人的这个推理过程分为思考、行动、观察、再思考、再行动、再观察这样的模板。发言人1 07:44然后通过这种模板的方式教会模型去做思考。发言人1 07:49类似的还有麦等等这样的一些技术方案，都是用在不同的场景下。发言人1 07:54这个方案有一个明显的天花板，就是因为人的这个思考和推理，它不是固定模板，它的自由度很大。发言人1 08:01那到第二阶段，我们就再尝试一个通过奖励模型来激发模型的推理能力的一个技术路线。发言人1 08:09这也是DPC的RE推理模型的对原始的这个想法这个事情要做好的话，依赖于几个因素。发言人1 08:18首先是要有一个准确的奖励，同时要推理能机构的推理能力要足够强。发言人1 08:27最后模型的强化学习的训练的样本要大。发言人1 08:34强化学习效果的上限是受奖励系统的创新决定的。发言人1 08:41通用的奖励系统本身分为两类，一类是通用的奖励系统，我们主要是解决一些没有客观答案的这些问问题。发言人1 08:50这个奖励系统也经历了从判别式就判别一个问题的答案是不是好的，到深层式就解释这个答案为什么好这样的一个过程的转化。发言人1 08:58同时专业的奖励是最近被大家越来越关注的一个方向。针对这个不同的领域，我们有没有可能把不同领域的专家的知识变成奖励的反馈信号，来提升模型在对于领域的效果。发言人1 09:16这里面像代码数学、逻辑推理是典型的可以产生确定奖励的一个系统。发言人1 09:23 金融医疗的领域专家也会有更多的反馈，能够提升模型进一步的效果。发言人1 09:29要实现在特定场景下的效果的优化，我们通常依赖于一个应用场景的端到端的奖励反馈闭环。发言人1 09:40 人类反馈强化学习的这个技术方案其实已经出现了好几年了，但到现在一直没有真正的反映人类的价值观，更多的是反映了大模型公司的数据标注人员，他们给你们现在就反馈。发言人1 09:56规则驱动的这个大模型强化学题方案给我们提供了一个新的机会，使得我们把大模型的这个硬核的和实际场景的反馈能紧密的结合在一起。发言人1 10:10通过实际场景的反馈来提高大模型在这个场景上的效果。发言人1 10:17百度智能云支撑大模型的产业化落地，千帆和百个平台做了很多技术上的工作。发言人1 10:28前方平台支持大家做这个模型开发和应用开发。发言人1 10:33其中包括模型开发需要的数据洞察、数据蒸馏模型蒸馏以及应用开发需要的应用编排，以及智能器框架等等。百个平台为大模型开发提供算力支持，这边包括训练和推理的加速，以及国产芯片的深度优化，同时也在做一些讯推一体的城市。我们相信通过百度智能云，百个千帆这样的平台，能够在支持大家做好业务的场景里面，提供效果好、成本低、速度快的这个解决方案，实现打通大模型落地的最后一公里。发言人1 11:17谢谢，感谢吴老师的精彩分享。发言人1 11:20针对deep sic与基础设施的协同有哪些创新呢？发言人1 11:25 接下来掌声有请百度智能型AI计算部主任架构师李世勇为我们共同解析deep it引发的模型与基础设施的协同创新范式，有请。发言人1 11:47好的，大家下午好，非常高兴能来这里给大家做分享。发言人1 11:55我今天分享的主题是说要去做软硬协同的优化，来极致的降低deep sec的部署成本。发言人1 12:03刚才建明老师应该从一个更加系统的角度来说，跟我们分享了一下deep sec给整个业界它带来的一些创新，还有一些反思。发言人1 12:13作为我们这种AI inf的旧设施的从业者来说的话，这个deep sek带来的那种震撼也是相当大的。发言人1 12:20因为deep sec它的这模型在设计过程中，就刚开始的时候就充分考虑了AI音服方面的一些诉求。发言人1 12:29我们简单的回顾一下，大概有这几个点。发言人1 12:32首先它是通过MLA这种架构，显著的降低了我们在推理部署的过程中，这种KVcch对我形成的容量还有IO带宽的一个需求。发言人1 12:42另外它也是一个MOE的模型架构，这样的话我们在训练还有推理的过程中，所需要参与计算的参数量下降了一个数量级。发言人1 12:52最后其实一个非常有意思的一个功能，我觉得对于一个英孚英孚的角度来说是非常兴奋的。发言人1 12:58它延伸的去支持了投机式的推理。发言人1 13:01因为为什么呢？发言人1 13:02就是说大模型在刚开始出来的时候，大家就在讨论能否通过一个小的模型去预估一些大模型的输出。发言人1 13:10但在以往的这种工作中，我们一般都要自己去训练一个小的模型或者小的结构。发言人1 13:17 这种效果还有成本，还有难度，其实都是非常不理想的。发言人1 13:21但是deep sec在这一点上，它的原生的就支持了这种投机推理的这种模型的一个训练。发言人1 13:28所以使得模型的训练效率还有推理效率又上了一个台阶。发言人1 13:33有这么好一个模型，就deepsec其实我们大家都应该感受到，不管它的效果，还有它在整个设计过程中，对于英孚就基础设施方面一些诉求的充分考虑。发言人1 13:44但是我们刚拿到这个模型的时候，其实我不知道有没有在在场

点击免费查看完整报告

你可能感兴趣

如何让 DeepSeek 发挥实战价值 – Create 2025百度AI开发者大会–20250425

核心观点

关键数据

研究结论

你可能感兴趣

Create 2025 AI开发者大会：推动模型调用成本进一步下探和应用生态繁荣

新三板智报第九期：全球首个专注于AI开发者大会开幕，让人工智能赋能各行各业

海外/TMT行业人工智能：百度AI大会点评：唤醒万物，成就开发者

百度：AI开发者大会—无人驾驶Apollo3.0发布纪要20180704

百度AI开发者大会纪要：开放与赋能