AI智能总结
蚂蚁集团:大模型应用可信框架助力企业构建可信AI体系 Sophia Wang, CISSP IDC观点 生成式人工智能(GenAI)技术的浪潮正以前所未有的速度席卷千行百业,在催生新质生产力、重塑业务流程的同时,也彻底改写了企业安全风险的版图。尤其是当大模型及其驱动的智能体从实验室走向规模化产业应用时,其内生复杂性使得企业的运营管理难度与安全暴露面快速扩大。在企业级终端用户部署过程中,诸如模型幻觉、内容安全、数据安全等问题亟需解决。 构建端到端的可信AI体系是破局的核心。可信AI体系是一项需要从企业战略层面进行规划设计,并与业务目标深度融合的系统性工程。企业需将安全、治理左移,结合企业的AI风险评估,把安全、数据治理与合规放到首位执行。具体来说,构建有韧性的AI治理方案对于建设可信、安全的AI体系至关重要。大模型作为企业AI系统的重要组成部分,也将在企业整体的AI治理框架中分阶段、分步进行全生命周期的安全管控。其中,数据隐私与安全、透明度和可解释性、AI合规、模型监控与验证、偏差检测和缓解将作为AI治理的核心内容落地执行,助力企业构建可信AI体系。 关于厂商概述 本篇IDC厂商概述介绍了蚂蚁集团的公司概况,以及其提出的DKCF大模型应用可信框架的定义、内容和最佳实践,以便企业更好地了解DKCF框架理念,并为其未来的大模型应用可信建设提供指导。 市场综述 近年来,生成式AI已经成为全球最火热的技术和话题之一,通过技术的快速发展迭代,大语言模型、智能体等生成式AI技术在各行业快速渗透,助力企业业务提质增效。IDC预测,到2030年,人工智能将为全球带来22.3万亿美元的经济收入,占2030年全球GDP的3.7%。与此同时,伴随大模型、智能体在金融、政务、医疗、能源等行业应用落地不断加深,最终用户网络的攻击面进一步增大,引入了诸多全新的、动态的安全风险。举例来说,医疗聊天机器人的基座模型可能会由于意图判断失误、专家知识不足等原因提供过时甚至错误的信息给到用户,导致延误治疗等严重后果。在网络安全领域,攻击者会利用大模型的幻觉特性构建虚假信息网络,诱导大模型做出危险判断和动作等。因此,最终用户在落地大模型时,模型幻觉、可信推理、可信执行、访问安全、内容安全等均是其亟需解决的核心痛点。IDC最新调研显示,超过54%的最终用户对于大模型幻觉的问题表现出担忧,大模型训练、推理、反馈全流程的可信是最终用户用好大模型和智能体的根本(见图1)。 全球用户关注的大模型与智能体风险 今年3月,哥伦比亚大学数字新闻研究中心针对主流AI搜索工具进行的专项测试发现,这些工具在新闻引用方面的平均错误率达到60%。一些研究显示,AI并不擅长辨别"新闻事实来自哪里",会出现混淆信息来源、提供失效链接等问题。更令人担忧的是,随着模型规模的扩大,某些类型的幻觉问题不仅没有改善,反而呈现加剧趋势。 全球各国也已经关注到了大模型应用可信问题的重要性,美国国家标准与技术研究院(NIST)发布的《人工智能风险管理框架》、欧盟制定的《人工智能法案》,以及中国颁布的《生成式人工智能服务管理暂行办法》,均对生成式AI生成内容的真实性、准确性等提出了要求,明确了管理者需对其做到尽职关心。上述法律法规共同指向一个核心:企业需要为其部署的大模型、智能体应用的可信度负责。蚂蚁集团的DKCF大模型可信应用框架对于大模型执行过程中的可信问题给出了具体的应对思路和方法,尤其在处理模型幻觉上,其对最终用户的大模型可信应用实践提供了指导。 蚂蚁集团DKCF大模型可信应用框架综述 公司概览 蚂蚁集团起步于2004年诞生的支付宝,经过多年发展,已成为世界领先的互联网开放平台。蚂蚁集团通过科技创新,助力合作伙伴,为消费者和小微企业提供普惠便捷的数字生活及数字金融服务。其持续开放产品与技术,助力企业的数字化升级与协作,同时在全球广泛合作,服务当地商家和消费者实现"全球收""全球付"和"全球汇"。蚂蚁集团的业务板块 包括数字支付、数字互联、数字金融、数字科技及全球化。蚂蚁集团全栈布局大模型,百灵大模型已完成备案,万卡异构集群,千亿规模参数和万亿级语料,处于中国大模型第一梯队。 大模型在行业里首次实现了"人造智力引擎",但如同智能车仅靠引擎无法完整落地,智能车安全运行还需"电池""电控""底盘"等多系统协同支持。"引擎""电池""电控"和"底盘",推动行业大模型安全可信,从而助力大模型应用变革,推动越来越多的专业行业迎来智力革命。下文将具体阐述蚂蚁集团提出的DKCF大模型可信应用框架。 蚂蚁集团DKCF大模型可信应用框架概述 大模型应用领域的挑战 当前,金融、医疗等用户在落地大模型应用时面临着诸多的可信挑战,包括大模型在提供决策支持或知识服务时,由于其基于概率的生成模式导致答案选择错误、虚构内容生成等问题。大模型应用到专业领域的过程中主要面临以下挑战: ▪推理核验缺失:推理残差指模型在执行推理任务时预测输出与真实结果之间的偏差。推理核验指模型可以主动识别出给定信息不足,或意识到模型本身的能力不足以做出正确决策。网络安全等专业领域决策过程要求严格的论证基础,因此大模型应当具备推理核验能力,以免决策结果出现预期外幻想。但当前大模型及其应用不具备推理核验能力,在决策中容易因为缺少足够的给定信息而产生幻觉。例如,大模型在进行医疗诊断辅助时,可能会在给定病历信息不完整或症状描述模糊的情况下,仍然输出一些看似有理有据但实际不够准确的诊断建议。DKCF框架针对大模型面临的推理核验挑战设计专门的核验模块,主动验证大模型给出的决策结论是否依据用户的输入,以及大模型给出的结论是否存在逻辑关系。 ▪知识工程不足:专业知识是指在专业领域、行业或学科中积累的系统化知识和技能,这些知识通常包括该领域的基础理论、研究方法、实践经验、专业术语等。仅当大模型具备专业知识时,它才能在专业领域做出正确的回答或者决策。但通用大模型的语言能力来自于对广泛的基础知识学习,对专业领域的知识掌握不足,导致当大模型遇到专业问题时难以用基础知识给出专业的决策。因此大模型对"专业概念"精准掌握并给出区分于"砖家"的正确决策结论,是大模型在专业领域获得成功应用的关键。DKCF框架中设计了专业知识工程模块,让通用大模型具备领域专家知识。 ▪数据工程不足:大模型应用的决策依赖充足的数据,在数据不足的时候无法做出正确的决策。例如,在网络安全等专业领域,大模型在判断员工使用查看公司代码库这种行为是否属于正常行为时,由于缺少员工身份信息、代码库类别信息、员工使用的浏览器类型等信息,无法做出正确的决策。针对此类大模型做威胁检测时数据不足的情况,DKCF引入切面按需采集检测所需数据。切面可以实时下发数据采集需求,补充模型决策所需数据。 ▪反馈循环低效:反馈是现代控制系统的核心机制。大模型架构默认基于增强训练的反馈循环效率非常低,大模型的监督微调(supervisedfinetuning, SFT)和基于人类反馈的强化学习(reinforcementlearning fromhumanfeedback, RLHF)等迭代需要巨大的时间开销和资源开销,难以高效内化场景知识的变更。SFT通常是耗时天级别的,RLHF的时间成本高于SFT一个数量级。这也是大模型在行业应用面临 的一个严重问题。针对反馈循环遇到挑战,DKCF设计了一种轻量级的反馈循环方法,使得大模型可以快速通过反馈循环迭代知识。 这些问题的根源在于缺乏一个全面考虑大模型应用特性的可信框架,而仅靠单一技术改进难以根本解决。鉴于此,蚂蚁集团提出DKCF大模型可信应用框架,助力企业构建可信任的大模型应用。 DKCF大模型可信应用框架定义 DKCF大模型可信应用框架,是针对大模型在金融、医疗、安全等专业领域应用提出的一种集充足数据(data,D),专业知识(knowledge,K),能力协同(collaboration,C),高效反馈(feedback,F)为一体的大模型可信应用框架。其中,D代表丰富的数据源,确保大模型依赖充分的数据给出决策结果,解决大模型面临推理核验方面的挑战;K表示高质量行业知识库,解决大模型面临的领域知识不足导致决策错误的问题;C表示通过精细规划将复杂任务解构为更易操控和解决的子任务,解决专业领域复杂任务决策导致幻觉的问题;F指通过构建一个闭环的业务流程使推理结果有效指导大模型决策,解决大模型在反馈循环上面临的低效问题。总体来说,DKCF框架通过整合不确定性量化机制,使大模型能够自我评估其输出的确定性水平,以此来减少无依据的决策。此外,借助于专业知识图谱与大模型的深度融合,如蚂蚁集团的OpenSPG项目,DKCF框架增强了领域知识的精确度和实时性。 其中DKCF在能力协同模块和高效反馈模块使用了高阶程序技术(HOP)。HOP是一种新颖的任务融合描述与执行的语言,它结合了编程语言的精确执行能力与自然语言的知识表达优势,承载了专业领域的关键知识和实践并将其自动化。HOP可以用于能力协同模块的任务编排以及高效反馈中的核验,整体提升大模型应用的可靠性。 DKCF大模型可信应用框架核心内容 图2为大模型应用可信框架DKCF,该框架主要分为四大模块,分别为充足数据(D)、专业知识(K)、能力协同(C)和高效反馈(F),这四个模块共同完成专业领域决策任务。 具体来说,DKCF框架的核心内容如下: ▪充足数据:大模型给出正确的决策需要依赖充分的数据,当缺乏充分、及时的数据时,大模型可能会胡说八道(输出错误结果),因此需要确保数据链路通畅,关键数据能够按需获得。DKCF框架采用了平行切面灵活的切点植入技术,可以按需灵活地获得各类系统数据、业务数据等,此外DKCF还引入了通识数据、领域通用数据、领域专有数据等非系统数据源。 ▪专业知识:大模型给出概念的准确与否,是区分大模型"专家"和"砖家"的基本界限。大模型在专业领域发挥专家的作用给出精确的概念描述需要专业的知识供给。DKCF设计了专家知识供给模块建设行业高质量知识库,并且DKCF还会自动将专家知识汇聚成领域知识图谱,保障它的准确性、完备性和可计算性,并做相关的验证。 ▪能力协同:面对不同专业领域中的复杂任务场景时,基于单一智能体的解决方案因其领域特定知识局限、掌握技能单一而渐显其局限性。多智能体利用多样化的、具有不同能力的单智能体之间进行交互,允许多个单智能体进行任务规划、编排与协作,可以有效处理不同专业领域中复杂任务。任务规划是多智能体复杂体系的基石,大模型实现任务规划不仅需要高度的智力密集型推理,还必须实现跨专业领域的知识融合。HOP的实践表明,在复杂任务中确定性的过程和逻辑,依然使用编程语言描述,对于涉及知识概念模糊匹配的部分使用自然语言来描述,已经成为实现高效任务规划的有效策略。因此,DKCF框架设计能力协同模块,使用HOP将复杂任务解构为更易操控和解决的子任务,并借此发挥多智能体的协同优势,从而在根本上增强大模型在行业应用中的执行效率与问题解决能力。 ▪高效反馈:当前多数大模型应用在未经充分核验的前提下执行专业领域的多级推理任务时,导致错误率显著(据统计,该错误率高于30%),这凸显了核验以及反馈机制的迫切性。但当前大模型在整合反馈信息方面不如人意,无论是通过有监督微调还是基于人类反馈的强化学习等迭代策略都无法有效整合信息。特别是在对即时 响应高度敏感的应用场景中,现有反馈机制的局限性被进一步放大。DKCF引入HOP的核验机制构建一个闭环的业务流程,使得推理结果能有效驱动并指导数据的进一步收集和供给,从而提升大模型应用的可靠性。 基于DKCF的可信推理 DKCF框架中的充足数据模块解决了大模型面临推理核验方面的挑战,它提供了丰富的数据源确保大模型依赖充分的数据给出决策结果,以免决策结果出现幻觉;专业知识模块解决了大模型面临的专业知识工程方面的挑战,它设计了专家知识供给模块建立高质量行业知识库,并且会自动将专家知识汇聚成领域知识图谱,保障它的准确性、完备性和可计算性,并做相关