如何让 DeepSeek 发挥实战价值 - Create2025百度AI开发者大会-20250425_原文 2025年04月27日 21:27 发言人1 00:00Esek发挥实战价值分论坛。 发言人1 00:03当前大模型技术正经历从能听会看到、能思考、能执行的关键跃迁,但如何跨越成本、场景、工程化三种鸿沟? 今天我们聚焦实战价值这一核心命题,通过十位行业先锋的硬核分享,解密技术落地中的真挑战与最优点。 发言人1 00:25首先让我们有请百度智能型千番大模型研发负责人吴建林,为我们开启大模型落地的效果与成本,dec创新的启示,掌声有请。 发言人1 00:55大家下午好,很高兴能有这个机会来和大家分享一下百度智能云在解决大模型落地过程中效果和成本问题的一些技术突破。 发言人1 01:09也包括我们从deep sik最近的一些创新中得到的启示。 发言人1 01:15大家在实际做大模型落地的时候,往往会提很多要求。 发言人1 01:21这里面包括场景效果要好,推理成本要低,推理速度要快。 这个就是大家常说的既要又要还要这个既要又要含药,说它是很难被同时做到,主要的原因就是场景效果要好的话,我们通常需要模型的参数量要大。 发言人1 01:41 但如果模型的参数量大,我们对应的这个推理成本就很难很低,对应的速度也会比较慢,围绕这个问题,大家在有各种尝试的方案,最早的一些尝试就是通过模型系数化的方案。 发言人1 02:00 在大模型训练的过程中,我们的参数规模是在持续增大的,带来的性能和成本的问题就变成了一个挑战。 发言人1 02:10 模型参数的系数化,通过MOV的这种结构,让我们看到了能够在更大的模型参数基础上保持比较低的特意成本的这样一个可能性。 发言人1 02:22第二个方案就是我们做小模型的训练蒸馏,把大模型的能力蒸馏到小模型里面,实现推理的降本。 发言人1 02:32如果业务场景很复杂,我们也需要做大小模型的组合,完成复杂的业务场景的应用,实现性能和效果的自由组合。 发言人1 02:45Deep sik的核心技术主要是在刚才上面说的第一个模型的系数化上。 发言人1 02:51通过超吸收的MOE模型结构,deep CK在推训练和推理上都实现了极致的性能优化。 发言人1 02:59具体的训练上包括首先模型结构是超越吸收的那在推理过程中就使用了更少的参数,这样得带到了更低的推理成本。 发言人1 03:10同时这么多的稀疏专家也会被并行的分布在不同的卡上,进一步提高训练的冲突。 发言人1 03:18也有FP8的混合精度训练,通过低精度的训练来提高这个训练的冲突。 发言人1 03:24也通过流水线并行,进一步提高在流水线过程中训练的效率。 发言人1 03:32在推理方向上,首先肯定也是超吸收的贸易结构带来的更多的优势。 发言人1 03:36同时也有大规模的多机专家并请了方案。 发言人1 03:40 这个正面提到的大规模是和训练相比,就是在推理阶段,如果我们要把抵扣掉的这个推理吞吐做上去,我们需要把专家分散在更多的卡上,类似于默认的我们要分配在256张卡上去,把所有的专家,每个专家一张卡,来进一步提高这个抵扣的阶段的推理吞吐量。 发言人1 04:01 同时在推理过程中,也可以做计算和通信的双流lap,实现推理性能的极致优化。 发言人1 04:07 这个很依赖于我们在推理过程中的专家并行和专家均衡的做到什么程度。 发言人1 04:13知识这一切是需要做prefer和抵扣的分离和推理。 发言人1 04:16这个也是现在业界的最佳实践。 发言人1 04:20百度智能云在这个性能优化的最佳实践上,我们通过上面这些技术的突破,相比于默认的这个部署方案,我们的推理吞吐提升了20倍,延迟降低到原来的2分之1。 发言人1 04:37上面是关于性能部分效果,我们也看到了新的提升的机会。 发言人1 04:43主要是做time gay,就是让大模型在推理阶段通过生成更多的思考的头肯,来提升最终答案的准确性。 这个事情其实很早叶姐就在尝试,最早是通过pm的工程COT的发通过提示大模型在回答问题之前先一步步的做思考,来最终得到一个更准确的答案。 发言人1 05:07还有通过多次采样对一个问题让模型生成十个答案,最后把出现次数最多的那个答案作为最终答案来返回,来提高这个回答的准确性。 发言人1 05:21最近的一些尝试是在做生成时的搜索。 发言人1 05:24就是我们在生成这个答案的过程中,通过搜索的方法来找出来自由的答案。 发言人1 05:31典型的像白斯欧文,就是说在模型生成这个答案的过程中,一次生成三个,然后通过一个奖励模型来判别到底哪一个答案是最好的,最终把这个答案返回出去。 发言人1 05:44也有做这个lok hd的前项搜索。 发言人1 05:47就在生成当前多个talking的时候,让每一个多个候选投恳的时候,让每个候选tok都往前多看几部,然后选一个多看几部以后效果最好的最好的那个图肯作为当前的图肯。 发言人1 06:03这也是在做time gay时常用这些技术,就是用更多的测试时的时间来拿到更好的效果。 发言人1 06:11上面那些方案都是外在的,通过一些技术手段来做好testers gay。 发言人1 06:19模型自己能不能内发的去生成逻辑推理的过程,然后把time它的效果发挥到极致呢? 发言人1 06:29这里面deepCKRE的这个推理模型给我们了一些提示,通过大规模强化学习的方法来激发模型的推理能力。 发言人1 06:38模型的推理能力和人类的推理是类似的,它表现在几个方面。 发言人1 06:44为了解决一个复杂的问题,人首先看到问题以后,需要做一些规划,看看把这个问题能拆解成几步。 发言人1 06:54在每一步解决的过程中,也可以进行反思,看看我当前这个阶段是不是能最终得到问题的答案。 发言人1 07:00如果不能的话,我是不是要回退到上面某一步,重新尝试。 发言人1 07:05也可以做验证,就我当前的这个结果是不是最好的。 发言人1 07:08同时也可以做探索,进行不同方案的尝试。 发言人1 07:13要让模型表现出来类似于人的这样的推理能力,我们技术上经历了两个阶段。 发言人1 07:20第一阶段是通过模板的方式教导模型去学会思考。 发言人1 07:25这个比较典型的就是reagent方案。 发言人1 07:29这个大家如果做过a lt的,同时应该对这个方案比较了解。 发言人1 07:34他把人的这个推理过程分为思考、行动、观察、再思考、再行动、再观察这样的模板。 发言人1 07:44然后通过这种模板的方式教会模型去做思考。 发言人1 07:49类似的还有麦等等这样的一些技术方案,都是用在不同的场景下。 发言人1 07:54这个方案有一个明显的天花板,就是因为人的这个思考和推理,它不是固定模板,它的自由度很大。 发言人1 08:01那到第二阶段,我们就再尝试一个通过奖励模型来激发模型的推理能力的一个技术路线。 发言人1 08:09这也是DPC的RE推理模型的对原始的这个想法这个事情要做好的话,依赖于几个因素。 发言人1 08:18首先是要有一个准确的奖励,同时要推理能机构的推理能力要足够强。 发言人1 08:27最后模型的强化学习的训练的样本要大。 发言人1 08:34强化学习效果的上限是受奖励系统的创新决定的。 发言人1 08:41通用的奖励系统本身分为两类,一类是通用的奖励系统,我们主要是解决一些没有客观答案的这些问问题。 发言人1 08:50这个奖励系统也经历了从判别式就判别一个问题的答案是不是好的,到深层式就解释这个答案为什么好这样的一个过程的转化。 发言人1 08:58同时专业的奖励是最近被大家越来越关注的一个方向。 针对这个不同的领域,我们有没有可能把不同领域的专家的知识变成奖励的反馈信号,来提升模型在对于领域的效果。 发言人1 09:16这里面像代码数学、逻辑推理是典型的可以产生确定奖励的一个系统。 发言人1 09:23 金融医疗的领域专家也会有更多的反馈,能够提升模型进一步的效果。 发言人1 09:29要实现在特定场景下的效果的优化,我们通常依赖于一个应用场景的端到端的奖励反馈闭环。 发言人1 09:40 人类反馈强化学习的这个技术方案其实已经出现了好几年了,但到现在一直没有真正的反映人类的价值观,更多的是反映了大模型公司的数据标注人员,他们给你们现在就反馈。 发言人1 09:56规则驱动的这个大模型强化学题方案给我们提供了一个新的机会,使得我们把大模型的这个硬核的和实际场景的反馈能紧密的结合在一起。 发言人1 10:10通过实际场景的反馈来提高大模型在这个场景上的效果。 发言人1 10:17百度智能云支撑大模型的产业化落地,千帆和百个平台做了很多技术上的工作。 发言人1 10:28前方平台支持大家做这个模型开发和应用开发。 发言人1 10:33其中包括模型开发需要的数据洞察、数据蒸馏模型蒸馏以及应用开发需要的应用编排,以及智能器框架等等。 百个平台为大模型开发提供算力支持,这边包括训练和推理的加速,以及国产芯片的深度优化,同时也在做一些讯推一体的城市。 我们相信通过百度智能云,百个千帆这样的平台,能够在支持大家做好业务的场景里面,提供效果好、成本低、速度快的这个解决方案,实现打通大模型落地的最后一公里。 发言人1 11:17谢谢,感谢吴老师的精彩分享。 发言人1 11:20针对deep sic与基础设施的协同有哪些创新呢? 发言人1 11:25 接下来掌声有请百度智能型AI计算部主任架构师李世勇为我们共同解析deep it引发的模型与基础设施的协同创新范式,有请。 发言人1 11:47好的,大家下午好,非常高兴能来这里给大家做分享。 发言人1 11:55我今天分享的主题是说要去做软硬协同的优化,来极致的降低deep sec的部署成本。 发言人1 12:03刚才建明老师应该从一个更加系统的角度来说,跟我们分享了一下deep sec给整个业界它带来的一些创新,还有一些反思。 发言人1 12:13作为我们这种AI inf的旧设施的从业者来说的话,这个deep sek带来的那种震撼也是相当大的。 发言人1 12:20因为deep sec它的这模型在设计过程中,就刚开始的时候就充分考虑了AI音服方面的一些诉求。 发言人1 12:29我们简单的回顾一下,大概有这几个点。 发言人1 12:32首先它是通过MLA这种架构,显著的降低了我们在推理部署的过程中,这种KVcch对我形成的容量还有IO带宽的一个需求。 发言人1 12:42另外它也是一个MOE的模型架构,这样的话我们在训练还有推理的过程中,所需要参与计算的参数量下降了一个数量级。 发言人1 12:52最后其实一个非常有意思的一个功能,我觉得对于一个英孚英孚的角度来说是非常兴奋的。 发言人1 12:58它延伸的去支持了投机式的推理。 发言人1 13:01因为为什么呢? 发言人1 13:02就是说大模型在刚开始出来的时候,大家就在讨论能否通过一个小的模型去预估一些大模型的输出。 发言人1 13:10但在以往的这种工作中,我们一般都要自己去训练一个小的模型或者小的结构。 发言人1 13:17 这种效果还有成本,还有难度,其实都是非常不理想的。 发言人1 13:21但是deep sec在这一点上,它的原生的就支持了这种投机推理的这种模型的一个训练。 发言人1 13:28所以使得模型的训练效率还有推理效率又上了一个台阶。 发言人1 13:33有这么好一个模型,就deepsec其实我们大家都应该感受到,不管它的效果,还有它在整个设计过程中,对于英孚就基础设施方面一些诉求的充分考虑。 发言人1 13:44但是我们刚拿到这个模型的时候,其实我不知道有没有在在场