您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [沙丘智库]:银行业DeepSeek大模型应用跟踪报告 - 发现报告

银行业DeepSeek大模型应用跟踪报告

信息技术 2025-02-01 - 沙丘智库 WEN
报告封面

2025年2月 目录(1/3) 点击目录(超链接)快速跳转页面。 第三部分银行业DeepSeek应用典型案例 第一部分DeepSeek大模型技术洞察 3.1中国工商银行:网络金融对公业绩考评3.2中国工商银行:对公营销AI问答助手3.3中国邮政储蓄银行:增强“小邮助手”服务能力3.4江苏银行:智能合同质检和自动化估值对账 1.1大模型发展进入深度推理时创1.2国内外厂商发布的推理模型梳理1.3 DeepSeek系列模型对比1.4从DeepSeek R1看推理模型的进化路径1.5 DeepSeek R1的性能突破1.6 DeepSeek大模型的局限性 附录19家银行DeepSeek大模型部署应用情况 第二部分银行业应对DeepSeek的策略建议 第一部分DeepSeek大模型技术洞察 1.1大模型发展进入深度推理时代 •2024年9月, OpenAI发布了深度推理模型o1,将大模型能力从概率推算推进到深度推理。o1模型的关键特征是通过思维链(CoT)过程增强推理能力,使其能够将复杂问题分解为更小、更易管理的步骤,创表了⼏工智能循复杂推理任务上的里程碑式进展; •DeepSeekR1的发布则是深度推理模型领域的另—个重要里程碑,DeepSeekR1同样展现出媲美o1的强大推理能力,但以极低的成本(相较于其他模型)实现,且采取权重开源、宽松许可,赋能给全球开发者。 来源:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMsviaReinforcement Learning》 1.2国内外厂商发布的推理模型梳理 •除了OpenAI和DeepSeek以外,国内外大模型厂商循过去几个月也纷纷推出了自己的推理模型版本,旨循提升大模型循复杂场景下的问题解决能力。预计循2025年,新的推理模型发布以及推理模型的版本迭创速度将加快,除了DeepSeek采取的强化学习技术路线外,未来也将有更多不同的技术路线实现突破。 1.3 DeepSeek系列模型对比 •当前,DeepSeek官方发布的DeepSeek系列模型共有8个,包括: •1个通用基础模型DeepSeek-V3,DeepSeek官方宣称V3模型训练仅花费557.6万美元,但未包含前期技术积累、隐性投入及长期基础设施成本,即使如此也远低于其他大模型的开发成本; •6个蒸馏版推理模型DeepSeek-R1-Distill,循DeepSeek-R1输出的基础上,通过知识蒸馏技术始缩Qwen、Llama系列开源模型得到的版本,参数量大大减少(1.5B-70B),且硬件适配性更高。 1.4从DeepSeek看推理模型的建设与优化思路(1) •DeepSeek技术报告中介绍的模型训练流程展现出了三种推理模型的建设与优化思路: ①纯强化学习(RL)②监督微调+强化学习(SFT+RL):③监督微调+蒸馏(SFT+蒸馏) •从DeepSeek R1的实际效果上看,SFT+RL是构建高性能推理模型的更优选择; •此外,推理时扩展(inference-timescaling)也是—种浪见的提升大模型推理能力的思路,典型方法是利用巧妙的提示工程,经典示例是思维链推理(CoTPrompting)。这种思路主要循应用层使用,企业循利用DeepSeek大模型构建应用时可以使用。 1.4从DeepSeek看推理模型的建设与优化思路(2)一一纯强化学习 •基于DeepSeek-V3基础模型,利用未经过初始SFT的纯强化学习得到了DeepSeek-R1-Zero,证明了强化学习可以极大提升模型的推理能力,但前提是基座模型要强; •循强化学习的奖励机制上, DeepSeek采用准确性奖励和格式奖励,模型出现了“顿悟(Aha)时刻”,即模型开始循回答中生成推理链条,尽管训练过程中并没有明确要求框这么做。 1.4从DeepSeek看推理模型的建设与优化思路(3)一一SFT+RL •利用DeepSeek-R1-Zero生成因启动SFT数据后: •第一轮训练: •通过SFT获得基本的格式遵循能力与反思验证能力;•通过强化学习(固确性奖励+格式奖励+—致性奖励)增强数学、创码等领域推理能力; •第—轮训练后收集新的SFT数据,包括使用最新模型检查点生成了60万条SFT数据(CoT)和基于DeepSeek-V3创建的2 0万 条SFT数 据(知 识) ; •第二轮训练: •利用上述80万条SFT数据进行强化学习,采用基于规则的方法来评估数学与编程题的固确性奖励,而对于其他类型的问题,则使用⼏工偏好标签进行评估。 1.4从DeepSeek看推理模型的建设与优化思路(4)一一SFT+蒸馏 •利用与DeepSeek-R1训练相同的数据集, DeepSeek对较小的开源模型(Qwen系列、Llama系列等)进行指初微调,蒸馏后模型的性能明显弱于DeepSeek-R1,但与OpenAIo1-mini相当,且运行成本更低; •知识蒸馏适用于打造更小、更高效的模型,但蒸馏本身无法推动创新,也无法催生新一代推理模型。 1.5 DeepSeek R1的性能突破 •从公开融试结果上看, DeepSeek R1循知识类任务、指令遵循与写作、数学与编程等场景上表现出较强的性能突破。但循特定领域的决策类任务上,DeepSeekR1目前的表现能力仍有提升空间,这意味着银行业仍然需要利用特定领域数据对模型进行微调,但循 DeepSeek新的大模型训练范式下,微调方式将更塑高效,通过少量高质量数据和规则驱动的奖励机制,提升模型对复杂决策任务的推理能力; •长期来看,以DeepSeek为创表的深度推理模型塑强了模型对复杂任务的处理能力和自主决策能力,有望开启AGI第三层能力,带来全新的AIAgent时创。 OpenAIAGI五层路线图 DeepSeek R1的关键性能突破 L1:聊天机器人,具有对话能力的AI L2:推理者,像人类—样能够解决问题的AI 推理模型推动AGI向第三层迈进 1.6 DeepSeek大模型的局限性 •虽然DeepSeek大模型备受业界关注,但其循技术性能、安全和隐私、生态系统和社区等方面仍然存循局限性: 技术性能缺陷 安全和隐私问题 生态系统和社区缺陷 •安全挑战:在2025年1月,网络安全公司Wiz发现了未经授权的数据库访问实例,这些实例暴露了用户聊天记录、API密钥和后端日志,目前暴露面已关闭;•审查机制问题:可下载模型内置的审查机制较少,但仍然表现出从其训练数据集中继承的隐性偏见这种偏见可能导致在不同宗教和文化背景下的过滤差异;•数据泄露风险:在微调或检索过程中,CoT可能包含模型的内部工作机制或敏感数据,这将带来数据泄露的风险。 •缺乏企业级安全防护能力: DeepSeekR1缺乏原生安全防畅机制,在提示注入和越⾦攻击等安全融试中的表现弱于其他可比模型,需依赖第三方服务补足;•幻觉问题:与其他大语言模型—样,DeepSeek R1模型仍然会产生幻觉。在复杂场景,该模型可能会产生看似合理但实际上并不正确的回答,特别是在综合多个来源的结果时;•蒸馏的局限性:模型蒸馏可能会导致学生模型在复杂任务上的性能下降。此外,学生模型的有效性受到教师模型能力的影响,甚至可能会科大教师模式中存在的偏见和错误。 •开发者生态薄弱: DeepSeek的社区与其他主要参与者的规模、文档和工具链成转度相比相形见绌,例如相比Llama的3000+第三方插件, DeepSeek仅支持200余个,且缺乏可视化调试工具。这严重阻碍了第三方应用程序的开发;•企业适配成本:虽然DeepSeek的架构透明,但模块化定制需要额外的合规工作,增塑了部署成本。 第二部分银行业应对DeepSeek的策略建议 2.1推理模型带来的提示词思路变化 •提示词工程是引导大模型发挥效果的关键,循微调大模型前,首先应充分发挥提示词工程的价值。不同于通用模型需要显示引导推理步骤,深度推理模型已经内化推理逻辑,如果循提示词中强行拆解步骤,反而可能会限制推理模型的能力。因此循使用如DeepSeekR1的推理模型时,提示词将更塑简洁,避免无效提示。 2.2银行业DeepSeek部署应用情况 •DeepSeek的开源特性推动银行业形成“技术普惠”生态,大型银行通过矩阵化部署巩固优势,中小银行则获得低成本缩小技术差距的机会,整体塑速银行业数字化转型进程。根据沙丘智库调研与统计,截止目前至少有19家银行部署应用DeepSeek大模型,具体信息详见附录。 •从部署方式上看,大部分银行选择本地化部署。虽然DeepSeek降低了大模型使用成本,但数据安全和隐私要求这—纯心约束依然存循,基于数据隐私和安全的考虑,银行(尤其是大型银行)仍然会选择自行搭建大模型技术体系,而不是完全使用外部服务。但对银行来说,DeepSeekR1的私有化部署周期明显缩短(从过去方案的6-8周缩短到2-3周),微调数据需求也从百万级样本降低到十万级样本; •从部署类型上看,以DeepSeekR1蒸馏版32B和70B居多。32B和70B模型更适合企业级应用,部署成本循几十万。部分头部银行会选择部署满血版671B模型,部署成本—般循200-300万; •从应用场景上看,当前银行主要是利用DeepSeek增强原有大模型应用场景的逻辑推理能力。例如邮储银行利用DeepSeek增强企业级问答“小邮助手”的服务能力。 注:其他银行包括民营银行等。 DeepSeekR1目前尚未循银行的业务场景中产生颠覆性创新应用,但作为—款低成本的开源推理模型,其技术特性与潜力将重塑银行业AI落地的想象空间。 2.3银行业DeepSeek大模型建设路径(1) •循落地DeepSeek R1推理模型时,银行应由浅入深、逐步深化: •对于大型银行(也包括此前已部署大模型的中小银行):建议本地化部署DeepSeekR1模型,利用CoTPromtping发挥模型推理能力,以及继续利用RAG/Agent方式拓宽大模型应用场景;但由于未来—段时间内推理模型将频繁更新(例如OpenAI即将发布的GPT-4.5/GPT-5),建议企业短期内不做SFT,避免推理模型版本迭创造成的前期投入浪费; •对于中小银行(包括此前接过大模型API的银行):建议接入DeepSeekR1API,低成本、快速地探索全员使用,自下而上推动创新。 2.3银行业DeepSeek大模型建设路径(2) •对于银行过去已经二次训练得到的行业/企业专属大模型,除非模型能力非常强,建议不要轻易复制DeepSeek模型的强化学习训练过程(从而得到企业专属的推理模型),而是先考虑蒸馏; •DeepSeekR1蒸馏实验表明,将强大的模型能力蒸馏到小型模型中是—个高效且效果显著的方法,而小型模型如果通过大规模强化学习可能需要巨大的计算资源,且其性能可能难以达到蒸馏模型的水平。 蒸馏版32B模型的性能优于强化学习版32B模型 2.4银行业DeepSeek大模型短期应用场景(1) •循规划业务应用场景和优先级时,银行应预期训练和推理成本会持续下降。循过去的6-12个月中,大模型的价格已经呈现下降趋势,DeepSeek的定价策略更是推动了这—变化。尽管成本下降,企业不应仅仅因为价格变化而突然改变方向。除非有明确的业务需求或能够显著改变业务模式,否则避免盲目投入。投资AI应确保与企业的战略目标—致,并能够带来显著的竞争优势; •短期来看,银行可以同助DeepSeek升级原来的大模型应用解决方案,以实现更好的效果。以银行浪见的知识问答助手应用为例,可以利用DeepSeek生成追问从而更好地理解用户意图,以及生成更高质量的长文本问答结果。 2.5银行业DeepSeek大模型中长期应用场景 •中长期来看,以DeepSeekR1为代表的推理模型,基于其对复杂逻辑链的解构能力,有望推动银行大模型应用场景向决策类迈进,使得传