AI智能总结
(第四版) 语义出版与知识服务实验室武汉大学信息管理学院武汉大学出版研究院 执笔人:许诺、孟紫永、周格妍、本小群 目录 一、DeepSeek博三要历能、针点 1.技术数路.2.分品蒸量的饮赖性与数据来要的合焦性风险.. 123.数据厚程,堆综改洽等合既性问通未充分决12 二, Ceepseek 与 0senti 的比表.14 三,Deepseck与其预国产大模至均比致,....20. (一)遥合专家款构(McE)与参数或模效续合价货20(二)送化学习够动的推理糖力与动态思性性.27(三)资侧延配注与实时推理效率的平衡.21(四)多模态交互的军直实城深焦繁合 (五)开混生态与点本效益内发重实破(六》上下文推理与动态资分配的协同先化22四,对人工智能交展可能产生的影明23(-一)人工智能技术发展的关键节点和重要划新(二)Ceepseek可使对人工等建发展产生约影响251.开创了低庆本详综大语言模型的发总速路.262.加速全球A研完与利用,保造设术共享与创新263.本地事署和运算损供了人工智格的安全在用方案4进一少则中美之同在人工管能领成的竞争..275.可能引发新一验的作理,法事和文化安全等27 1.创街先每与率期系素302.多元主体录网排进313.工具险能与总度应合31 (二)对如识至成的影响33 1.为中文识生产要供倪利2.低庆本实现知试结神化。343.真效准动如识创新34 1.审校专内客化化的整能化.352.知识加工的动态化与社程可提化 3.需性知识的强过化与个性化知识服务 1.个恒化策荐与情准能述.372.跨语言传辅与全球化治发.37. 384,实醇态告指为动态传摄,... 38 六,出版单位可采取对策建议38 1.模型自身素2.单化内部人力资理、内容资理、全业文化等因表47 (1)出版从业人员大模函如识能力准各4.(2)数保资产和数字内率资源龄准备.41(3)势模关注大模型和人工智能应用42 (二)出股单位逐用大模型可速择的三和路公43 1.全和有,自训第.442.轻舒需,调接1453.无等,用上47 (三)出股车位女何利用大模型优化生产理保48 1.作者票务49513.者限多. 52 (四)出股单位支付利用大模型创业态与董务50 1.数旁资产价值挖提,.532.实现应用场录创新553.跨界量合能力整理七、多等文家.61 2015年6月11日,一家名为幻方量化的会融科技企业在杭州注册或立,该公司致力于运用先进的统计分析、数学模型和算法来进行市场交易和投资决策。2023年4月;幻方量化宣布进军大模型领域,并于三个月后孵化出全资控股的AI公司“深度求索”(英文名DecpScek),创始人为浙汇大学校友文锋,幻方量化作为一家以量化资为核心的私募基金,需要大量的数据分析和市场测察,而DeepSeek则以其强大的技术能力为幻方提供支持。在灯方量化的资源支持下,DeepSeek建立了先进的超级计算集荐,有效降低了术投入的成本,使其在大模型市场中的竞争力不俗。 DeepSeek大模型于2023年8月首次充相,经过内部测试后,于2023年10月推出开放平台,开放大模型API,2023年12月,DeepSeek大模型推出多模态模型,并持续选代优化,2024年2月:DeepSeek大模型API升级至v3版本,并推出DeepSeekChat网页版和移动端App,2024年12月26日,灯方量化推出了DeepSeek-V3版本,允许用产免费使用,性能比房GPT-40模型,然后立即对其开源。2(25年1月20日,DeepSeek正式发布推理大模型DeepScek-R1,其各项能力已经比肩0penaI-o1正式版,一经推出就案动关国科技股,1月27日,DeepSeek应用登项苹果中国区和美国区应用商店免费APD下载排行榜。31日,英伟达、亚马逐和微款三家巨实企业,在同一天定市接入DeepScck-R1,载至2025年2 月11日,DeepSeek已经上线了8个大模型,分别是DeepScek-R1,DecpScek-V3,DeepScckCoderV2DeepSeek-VLDeepSeekV2DeepSeek-Coder:DeepSeekMath fu DeepSeekLLMll 本报告将从DoepScek-R1的主要功能特点、其与OpenaIo1-ini的比较、其对人工智能和出版行业发展可能产生的影哨等方面对其展开对论,以提出出版行业的应对策略。 --、DeepSeek的主要功能、特点 (一)动能概述 DcepScck-RI是由DcepScck-AI团队开发的第一代推理优化大语言模型(LargeLanguugeModel,LLM),专注于通过强化学习(ReinfofcementLearning,RL)提升模型的复杂任务推理能力,2025年1月20日,深度求索(DeepScek)公司正式发市DeepSeek-R1 模型:并间步开源模型权重,该模型基于DeepSeek-V3-Base构:通过多阶段训练和冷启动数据优化, 显著增强了数学、编程、科学逻辑及事实性知识间答等领城的性能. 在功能应用方面,DeepSeek-R1模型直接服务于用户和开发者,涌益了智能对话、文本生成、话义理解,计算推理、代碍生成与补全等多个场量,如图1所示,此外,该模型支持文件上传功能,能够有效扫描并读取各类文件及图像中的文字信息。DeepSeck-R1不仅继承了DeepSeek累列漠型的基础功能,如文本生成,语义理解等,还通过特定的强化学习策略,显善提升了其在处理复杂推理任务时的性能,为了提高实用性和部著灵活性,DccpSeck-R1采用了模型压缩技术,:实现了高数准理和本地化部署,满足了企业级应用对于数据安全和低延退的需求、L (二)技术特点 1.高效的模型架构设计 DcepScek-R1训练漠型架构更加高效,首先,该模型运月希疏注意力机制(SparseAttentionMechanism,SaN):通过减少注意力计算中的穴余交互(如局部注意力或稀疏连接),降低计算复杂度和显存占用.其次,该模型采用滤合专家模型(MixturcofExperts,NoE),动态激活部分参数(如每个输入仅调用少数专家块),在保持模型容量的同时减少计算量,降低训练和推理成本,再次,该模型采用参数共享与模决化设计:复用部分网举层或引入共享权重机制,压缩模型体积,报升资源利用率,将模型权重从FP32转换为INT8/INT4等低精度格式:降低差理时的计算和存储占用,比外,该模型还采用模型剪枝,缓存批处理等方式提升效能减少成本。 2.训练框架优化 基用16路管道并行(PP)、64路专家并行(EP)以及ZeRO-1数景并行(DP)。设计DualPipe算法,有效减少管道气泡,实现计算和通信阶段的重叠;定制商效的对节点全对全通内校,充分利月IB和NVLink带宽;优化内存占用,使得无需使月昂资的张量并行(TP)就能进行训练,硬件部署方面,推理部署于800集群,预填充阶段由4个节点32个GPU组最小部薯单元,解码阶段由40个节点320个GPI组成最小部罩单元、合理配遣并行方式, 3.多阶投训练流程 DcepScck-R1采用了包含两个强化学习阶段和两个整督微调(SupervisedFine-Tuning:SFT)阶段的多阶段训练方法。首先,利用数千条长思维链款据对DeepSeek-V3-Base模型进行了徽调,为强化学习的初始阶段提供了基础,接着,通过推理导向的题化学习训练,进一步强了模型的推理能力,在强化学习训练稳定后,通过拒绝采样的方式收集新的数据,并结合其他领域的数据对模型进行了再次微调、最终,进行了-一轮强化学习训练,以确保模型在推理能力和符合人类偏好方配达到更优的表现。 4.强化学习算法:CRPO框架 DeepSeek团队采用维相对策略优化(GroupRelative PolicyOptinization,GRPo)替代传统近端策略优化(Proxina1Policyoptinization;PPo)算法,通过组内奖励标准化降低训练成本,针对数学推理等长程依赖任务,GRPD引入分投奖慰机制。例如在求解方程时,对变量分离,代数变换,结果验证等关键步骤设置中问奖励信,有效缓解了最终结果反馈的延逐间题。实验表明,相比PPO算法,GRPO在相同训练资源下实现训练速度提升3.2倍,且在MATH(数学竞赛)数据集上的PaSs1准确率提升19.7个百分点, 5.冷启动数据的有效利用 冷启动数据(ColdStartData)是指在模型训练初期使用的小规模,高质量数据,用于快速引导模型理解任务的基本模式, 可以为后续大规模训练或强化学习提供基础能力。为了解决前期模型存在的可读性差、语言器合等间想,DccpScck团队通过少样本提示。模型生成,人工标注等方式构建并改了一批具有可读性强,融入人类先验知识等特点的冷启动数量。这些冷启动数据的利月显著提升了模型的性能,并使得模型的输出格式更加规范,便于用户使用和理解。 6.奖励模型的构建 奖动模型(RewardModel)是强化学习中用于评估模型行为并给予相应奖励反馈的部分,用以指导模型学习优化策略以实现目标,在首期训练时:DccpScck团队采月了基于规则的奖期系统,其中包含准确性奖励(AccuracyRewerd)和格式奖励(FormatReward)。准确性类励极据模型输出与参考答案的匹配程度,或在特定评测脚本下运行结果是否正碘来定义;而格式奖励确保慎型雅理过程遵继一的模板,在推理格式合规时给予额外奖缺,在进一步训练中,还引入了语言一致性奖励(LanguageConsistencyReward),解决推理过程中的语言混合间题。 了.知识蒸留技术 知识蒸窄(KnowlcdgcDistillation)是一种模型压缩技术,通过构建“教师-学生”的师徒传承体累:将复杂教师模型(TeacherModel)中隧含的知识迁移到精简学生模型(StudentModel),为赋予小模型推理能力,DeepSeek团以以DeepSeek-R1为教师模型生成80万条高质量推理数据,直接对Qwen与Llamg 累列小模型进行监督微调,实验表明,蒸后的小模型推理能力显著优于同类模型自主RL(ReinforcementLearning,强化等习)训练结果,例如,Qwen-32B蒸假模型在AIME2024上的正确率(72.6%)逐超自主RL训练的Qwen-32B-2ero(47.0%),验证了知识迁移的有效性。 (三)优劳分析 DecpSeek-R1在性能、技术创新和成本三方面展现出显著优势:与0penAI的旗舰模型4o和o1相比具有“物关价廉还开源的特点。 在性能方面,其通过商效的模型案构设计和算法优化,实现了低延逐与高吞吐量的平衡,在复杂推理任务处理中表现出色,无其在数学、代码和要辑难理领域达到国际项尖水平,在数学竞赛AIE2024中,其p4Ss1得分率达到79.8%,并在MATII-500基准测试中取得97.3%的高分,Codeforces上的E10评级达到2,029,展现了强大的间题拆解与逐辑推演能力,同时:其动态思维链技术支持数万字级内部推理过程能够自主拆解复杂间题并验证烫辑,输出结果的可解释性显著提升。在教育类基准测试(如MMLU、MMLU-PrO、GPQ4)中,RI通过大规模强化学习优化,在STEM相关问题的准确性上超越前代模型DccpScck-V3,此外:其长文本处理能力在FRAMES间答任务中表现突出,凸显了文格分析与AI驱动搜家的落力。 注:图2至面比较了5个模型,可以把终儿个摊至两两分为一组,第一组是DeepSec3最原始前R1模型和Upen41的o1模,这需个模至伴量都比致大;第二是DeepSeck-R1的328容0pen4I0t的to1两个模量,热f)着是高过的小类型;第三组是[eapSeek3,旧为BeepSeek31是从BleepSeek3英编未的,表观