刘翃腾讯云TI平台资深产品经理 DeepSeek模型很强大,为什么还要精调 指令遵循问题 推理效率问题 过度推理问题 腾讯云TI平台TI-ONE:面向实战的大模型开发平台 大模型应用AI基座 专属模型产出 私有API调用 DeepSeek全系模型部署 从算力,模型,调用接口完全自主可控的部署方案,服务于前端AI应用 精调训练–面向实战 企业级训练工具 模型部署–高效稳定 核心收益 长上下文(64~128K) 主流开源大模型 超大模型启动加速 独享GPU算力集群 DeepSeek全系模型 应用场景–AI搜索与角色扮演 AI搜索 角色扮演 问题:AI搜索场景在表格检索、数据库检索效果不佳,答案准确率期望进一步提升 问题:V3/R1原模型在角色扮演场景下存在括号文学 单一、重复等问题,效果不佳 方案:集成R1优化阅读理解能力,同时使用DeepSeekcoder训练Text2SQL模型 方案:基于V3模型SFT精调角色扮演专属模型 效果: 效果: ✓提升模型对角色指令遵循能力 ✓提供中间思考过程,提升答案准确率5%以上,并且支持长上下文(128K tokens)的多轮交互 ✓借助V3拥有更全、更新的知识储备激发出更丰富的剧情、更准确的IP角色对话 ✓表格检索和数据库检索的效果提升6%以上 应用场景–知识问答 问题:V3/R1原模型有较强的先验知识,指令遵循弱,导致不按内部文档库回答,例如忽略业务场景过度推理、超出已知内容时根据模型自身知识回答等情况 方案:结合指令遵循和阅读理解数据对V3/R1进行SFT/DPO训练 效果:指令遵循增强 应用场景–交互式Agent 问题:V3/R1指令遵循能力较差,表现为“不听话” 方案一:仅利用R1长思维链,借助Instruct模型(如qwen2.5-72B-Instruct、LLaMA3.3-70B-Instruct等)给出最终答案 方案二:结合Agent关注的指令遵循能力数据集使用SFT、DPO/GRPO微调R1或R1蒸馏版模型 效果: 效果: 应用场景–交互式Agent 问题:V3/R1指令遵循能力较差,表现为“不听话” 方案一:仅利用R1长思维链,借助Instruct模型(如qwen2.5-72B-Instruct、LLaMA3.3-70B-Instruct等)给出最终答案 方案二:结合Agent关注的指令遵循能力数据集使用SFT、DPO/GRPO微调R1或R1蒸馏版模型 效果: 效果: 谢谢观看