AI智能总结
保险业拥有丰富的数据分析传统,逐步将先进分析整合到其系统和流程中,以彻底变革保险生命周期的各个方面。我们现在正处于生成式AI广泛应用的关键转折点,我们预计通过在财产险领域实施生成式AI,将对许多客户体验和应用产生变革性影响。 生成式AI在整个保险生命周期中的潜在应用范围广泛,涵盖销售、产品设计、定价、承保决策、理赔管理以及损失预防等领域。 然而,生成式AI的增长潜力也带来了若干新的数据隐私和安全挑战,这些挑战威胁到客户信任。我们将详细讨论的两个挑战是生成式AI模型中的数据泄露和数据幻觉。 为了把握众多机遇并应对生成式AI带来的挑战,本文将解释Guidewire在生成式AI方面的策略,重点涵盖以下几个方面: 数据隐私和安全挑战 数据隐私 数据隐私包括保护个人信息以及负责任地管理数据的收集、共享和使用方式。长期以来,保障数据安全一直是优先事项,通过采用数据同意、数据最小化、目的限制、数据加密和数据访问技术来实现。随着机器学习和生成式AI的发展,数据隐私变得尤为重要,尤其是在AI技术与应用迅速增长的背景下。 生成式AI为保险公司提供了重新定义自身并以整体方式为客户提供、股东和社会带来增强价值的 exceptional 机会。可以说,其长期影响将是变革性的,而短期内的影响也将是深远的。 数据安全 数据安全涉及保护数字信息、系统和网络免受未授权访问、披露、篡改或破坏。其主要目标是确保数据的机密性、完整性和可用性,通过有效的身份验证、授权和加密实践来实现。 该行业一直在探索各种数据安全方法,包括基于角色的访问控制(RBAC)、细粒度的列行级访问控制以及静态数据加密,适用于结构化和半结构化数据。然而,将这些方法应用于更为常见的生成式AI用例中的非结构化数据仍然颇具挑战性。 在对象存储中确保无结构数据的安全性鉴于其庞大的规模、缺乏内在组织、没有固有的层次结构、粗粒度、多样的访问模式以及元数据挑战,变得异常复杂。在生成式AI的背景下,无结构数据嵌入在提示上下文中,保护敏感信息需要采取专门措施,如在保持语义意义的前提下过滤敏感数据,确保语言模型能够有效地理解上下文。 - 珠穆朗玛峰集团 , 由安永会计师事务所(EY US) 支持 数据信任挑战由生成 AI 放大 数据泄漏 数据泄露是指敏感信息从组织内部系统无意间或未经授权地暴露、传输或披露到外部环境。历史上,数据泄露的原因包括安全漏洞、人为错误或恶意活动。 数据泄露的担忧随着生成式AI的出现而增加,鉴于这些高级模型的复杂性质及其内容生成能力。来自OpenAI和其他公司的企业许可承诺保护数据安全。然而,如ChatGPT等公开实施方式涉及用户提交的数据进行重新训练,这在实际案例中(如三星事件)放大了数据泄露的风险。 经济学家韩国版报道了三星员工三次无意间将敏感信息泄露给ChatGPT的事件。 在一个实例中, 雇员将机密源代码粘贴到聊天中以检查错误。 另一名员工与 ChatGPT 共享代码并 “请求代码优化 ”。 第三方分享了一次会议的录音以转录成会议笔记用于汇报,而这些信息现在已经暴露在外界,可供ChatGPT进行学习和处理。1 上述高级架构图用于说明数据隐私、安全以及各种生成式AI模型的集成情况。值得注意的是,我们对生成式AI的基础方法集中在谨慎利用现有的基础生成式AI模型上,并采用先进的技术来处理上下文相关的知识,或微调基础模型。这一决策是由客户偏好、特定业务案例所需的预期准确度以及成本考虑之间的平衡所驱动的,反映了我们在实施生成式AI解决方案时的方法。 在Guidewire,我们致力于探索新兴的生成式AI能力,并始终关注客户的安全与偏好,承诺走在负责任的发展道路上。这一承诺将引导我们在寻找符合我们伦理原则的技术解决方案时的方向。 我们致力于负责任的生成式AI,彰显了我们对全面透明度的承诺,确保数据隐私、安全、准确性和伦理始终优先于我们的各项努力。 对数据信任和安全的承诺 在Guidewire,我们认识到客户对我们数据的信任程度之深——这种信任是我们的核心价值准则之一,即诚信,不可或缺的部分。 我们致力于保护客户数据的承诺坚定不移,并符合我们在详细说明中列出的监管要求。信任与安全中心2. 虽然信任与安全中心强调了我们持久的安全原则,但行业对生成式AI相关的这些原则仍持疑问态度。为了阐明这一点,我们将阐述一些指导我们在生成式AI领域行动的机会。 客户承诺 为了确保我们在服务和产品中对客户数据的使用提供透明度,我们将与客户在合同中达成某些承诺。这些合同详细列出了我们的隐私和安全承诺。 安全的创成式 AI 网关 补充我们在信任与安全中心详细说明的数据传输实践,我们的生成式AI战略围绕建立一个集中的生成式AI网关(GenAI Gateway)的原则展开。提出的生成式AI网关概念可能包括两层多租户身份验证和授权系统,为安全集成客户应用程序与各个生成式AI模型的独特端点提供了机会。生成式AI网关的监控概念可能包括初始阶段的使用、成本和吞吐量监控,并将探索更多机会以纳入模型评估和性能组件。 数据匿名化 增强数据传输过程中数据安全原则,在数据传输过程中探索机会以主动减少提示和训练数据中的敏感数据。这种独特的无状态PII处理方法的概念在于对发送给GenAI语言模型的内容进行匿名化处理,并从GenAI模型中重新注入响应。重新注入过程可能涉及系统地将每个匿名化标记替换为实际标记的过程,这一过程将在Guidewire的私有网络中进行。 在部署过程中涉及敏感或专有细节。这些模型的优势在于它们能够提供对数据模式的一般性理解,而无需针对特定实例进行定制,从而通过基于广泛且非特定的知识运作来防止数据泄露。 无论Guidewire和我们的客户选择哪种GenAI模型选项,我们旨在将整个PII处理过程保留在虚拟私有网络(VPC)内。 GenAI 模型租约 在专用任务特定微调单租户模型的情况下,该概念可能涉及为每个租户定制特定任务的独立微调模型,从而强调隔离并防止数据交叉污染。 我们的GenAI模型部署方法围绕两个关键原则展开:利用共享多租户基础模型和采用专用的任务特定微调单租户模型。 在共享多租户基础模型的情况下,数据泄露被认为不太可能发生,因为预训练的基础模型最初是在多样化的数据集上进行训练以学习广泛模式,并遵循不使用或微调客户特定数据的原则,强调了数据隐私和安全的总体原则。未经特定数据的训练或微调,它们缺乏获取细微信息的能力,从而消除了无意中泄露的风险。 对于这两种部署原则,设计概念的核心政策是避免从提示和上下文中保留数据,认识到最小化无意中数据暴露风险的重要性。在整个多租户通用人工智能环境中,指导原则强调对客户特定信息的数据隔离、隐私和严格的控制。 为了重申,我们对生成式AI的方法旨在在现有第三方提供的通用模型和针对特定任务或客户进行微调的模型之间寻求一个审慎的权衡。这种权衡由客户偏好、特定业务场景下的预期准确性、数据安全性和成本考量之间的平衡驱动。为了有效应对这一权衡,我们提出的生成式AI网关设计提供了灵活性和可扩展性,旨在允许无缝切换我们AI模型库中的不同生成式AI模型。 如果我们的客户倾向于采用第三方生成式AI供应商,Guidewire可以在合同限制内谨慎且透明地利用这些外部平台。这包括遵循道德数据使用实践,确保客户数据不用于生成模型训练,保持零留存政策,并严格执行数据隐私和安全标准以降低数据泄露的风险。 虽然第三方生成式人工智能(GenAI)模型可能因其快速的功能发布而受到更广泛社区的青睐,但我们帮助确保客户数据安全的机会凸显了利用AWS Bedrock和在Guidewire Cloud平台上部署微调模型的重要性。使用AWS Bedrock模型有助于确保客户的数据保留在Guidewire的私有网络中,如所规定的那样。3. 当特定业务在执行领域特定任务时需要增强的准确性和一致性,我们的方法可能涉及在AWS云平台上部署细调模型。如前所述,提出的GenAI网关概念应确保对这些任务和客户特定的细调模型的安全访问,并优先考虑数据安全,以减轻数据泄露的风险。 针对精度和目的优化生成式 AI 检索增强生成 (RAG) 持续在此领域进行研究和实验继续推动技术进步。检索增强生成(RAG)以其独特的approach显著提高了生成AI应用的准确性。RAG结合了生成和基于检索的方法,利用大规模数据集中的先验知识。其在生成过程中检索和整合信息的能力优化了输出,使其在自然语言理解、总结以及问答任务等多种应用场景中更加准确、上下文相关且连贯。 在生成式人工智能领域,我们将优先考虑与业务需求相匹配的内容准确性。在实验阶段,我们的方法整合了前沿的技术和框架,如传统自然语言处理(NLP)模型的融合用于预处理、检索增强生成(RAG)、监督微调(SFT)方法,包括全微调或参数高效微调(PEFT)以优化任务特定的文本生成,并在实验和生产中采用生成式人工智能模型评估框架。 这些战略方法不仅能够提升生成式AI(GenAI)的准确性,还能有效减少数据幻觉。我们对伦理数据使用的坚定承诺确保了客户信任是他们寻求创新且可靠的生成式AI解决方案的核心。 全微调 这种方法通过在模型训练过程中提供任务特定的数据和指导来细化生成型AI基础模型的准确性。这种定制化的方法减少了数据幻觉,提高了精确度,适应用户偏好,减轻偏见,并允许快速适应新任务,确保在各种应用场景中输出更加准确且上下文相关的内容。 传统自然语言处理 (NLP) 在大语言模型的时代,传统的自然语言处理(NLP)算法依然至关重要,因为它们在语言分析和语言理解方面有着 proven 的记录。这些算法为各种语言任务提供了稳定性和可靠性。此外,这些算法还作为大语言模型的宝贵预处理步骤,解决噪声问题并结构化数据以优化性能。它们的可解释性和透明性使其在法律或监管等需要透明度的领域中具有优势。 Fine-tuning 整个模型以保持任务间的灵活性可能会遇到“灾难性遗忘”,即无意中丢失超出指定说明的知识。这种方法连同增强的计算和内存需求,可能会使模型变得过度专业化,从而限制其整体实用性。 我们的策略将传统的自然语言处理(NLP)算法与大型语言模型相结合,创造一种协同融合,充分利用稳健、可解释且有效的自然语言处理管道的优势。 参数高效微调 (PEFT) 客户可以选择退出 AI 这种 Approach 通过优化模型参数子集而非整个模型来提升生成式 AI 模型的准确性,从而克服了整体模型微调的一些挑战。 尽管盖威克致力于负责任的AI实施,并且AI旨在简化保险旅程和价值链,我们认识到并非所有客户都倾向于采用AI。对于这类客户,盖威克通过软件打包方式允许客户选择不采用其产品组合中的特定功能。 专注于效率,该方法通过最小的调整定制模型,从而减少计算和内存需求。它确保生成准确且上下文相关的结果,并能高效地适应特定应用场景。 Conclusion 反思来看,生成式人工智能(GenAI)的增长为各行各业带来了转型潜力,特别是在保险行业。虽然它能够从专有数据中解锁巨大的价值,但也同时引发了数据信任方面的诸多关切。先进生成式人工智能模型的复杂性加剧了数据隐私、数据安全、数据泄露、大型语言模型生成数据的准确性以及伦理数据使用等方面的许多担忧。 每种方法都有其自身的优点和权衡。鉴于该领域研究实验的迅速发展,选择哪种方法取决于任务的具体需求、手头的资源以及对计算效率与任务特异性之间偏好权衡的选择。 GenAI 模型评估与监测 在生成型人工智能(GenAI)动态发展的背景下,稳健的大语言模型(LLM)评估指标的重要性不容忽视。无论是实验阶段还是生产环境,选择合适的评估指标以及建立比较和跟踪这些指标的框架,在衡量文本生成任务的效果方面发挥着关键作用。 担忧持续存在,尤其是在由生成式人工智能(GenAI)引入范式转变的情况下,强调了数据治理和安全实践不断适应的必要性。我们旨在突出Guidewire在负责任实践方面的重要角色