AI智能总结
值得信赖的AI/ML用于患者分析和研究 PM360获奖技术,实现AI安全、隐私优先建模,并具备持续监控与监督功能 目录 222333444456667889101011111213致谢13安全输出7联邦学习用于人工智能/机器学习患者在分析和研究中的负责任的创新对 AI/ML 的更高关注采用原则性、AI安全的AI/ML方法人工智能安全的人工智能/机器学习移动物理基础通过联邦建模连接人工智能和数据保护收集限制和数据最小化使用限制和目的说明安全防护措施问责与监督开放与透明理解联邦学习的数據旅程数据源摄入:假名化和隔离水平联邦学习:生成合成趋势垂直联邦学习:AI安全AI/ML超越去标识化:管理重建风险利用合成趋势进行人工智能/机器学习管理重建风险AI治理和隐私操作(AI PrivOps):一个集成的治理职能持续监控AI特权OP指标无暴露的监督人介入机制用于问责病人分析和研究伦理委员会结论 本文概述了我们的面向人工智能(AI)和机器学习(ML)的方法,该方法能够抵御当今的威胁格局,并为可持续创新提供蓝图。这是我们在医疗保健应用及其他领域提高可防御性人工智能标准的方式,代表着一种从传统数据实践转向将人工智能安全作为设计特征的转变。 采取一种原则性的、AI安全的方法来处理AI/ML 患者在分析和研究中的负责任的创新 想象一个未来,用于健康和健康应用的人工智能/机器学习模型在每一层都被主动设计,具备弹性和安全性。敏感数据保持安全,系统漏洞和风险在暴露之前得到管理,并且洞察力被提取和使用而不泄露。这是人工智能和数据保护的新前沿,其架构专门为鲁棒性、可信度和可用性而构建,同时不牺牲分析能力。 生命科学正被人工智能(AI)和机器学习(ML)所改变。但随之而来的是一个关键问题:我们如何在不失信任、透明度或控制权的情况下,从敏感健康数据中释放价值?在人工智能/ML时代,传统的安全措施已不足以应对,因为微妙模式可能在意想不到的方式中被使用——或被误用。在医疗保健领域,风险尤其高,因为数据效用必须与严格的保护相平衡。 这份白皮书介绍了一种以AI安全为核心的系统架构的新型、原则性方法。该方法由屡获殊荣的IQVIA合成趋势引擎驱动。我们的方法基于三个基础支柱:合成数据抽象、联邦学习架构以及集成AI治理和隐私操作。 强大的去识别方法,可以去除识别信息,但行业缺乏对标准化实践的广泛采用。这种缺乏固定标准的情况为探索前瞻性方法提供了空间,特别是考虑到需要应对的日益突出的AI/ML威胁。随着AI/ML和其他新兴技术重塑格局,需要更复杂的策略来平衡AI/ML与数据保护,并进行负责任的使用。 合成数据抽象传统模型依赖原始数据,增加了风险表面积。我们的方法不依赖原始数据,而是使用AI安全降维技术将高维信号转换为不可逆的趋势向量。合成趋势捕获有用模式以保持分析效用,并通过设计最小化下游重建风险,接近零暴露。这使跨隔离数据集的分析实现推断桥接。 对 AI/ML 的更高关注 这份白皮书介绍了一种由IQVIA开发的以隐私优先和AI安全为特点的可防御人工智能架构。为了应对人工智能和数据保护的担忧,该平台结合了合成数据抽象、联邦学习和集成的人工智能治理和隐私运营(AI PrivOps)监控,以实现安全有效的AI/ML,而不会泄露机密性。 联邦学习架构与其将数据聚合到中央存储库中,我们的系统采用了一种联邦架构,其中源数据在安全环境中被隔离。原始数据永远不会离开其来源,并且仅组合本身是AI安全的合成趋势用于建模。去中心化计算确保尊重数据主权,显著降低了暴露和未经授权访问的风险,同时仍然允许进行协作分析。 该解决方案通过输入转换、不可逆性和潜在空间建模等架构特性来实施人工智能和数据保护。该系统符合 ISO/IEC 42001 人工智能管理系统等全球标准,以及美国国家标准与技术研究院(NIST)的框架,确保持续监督,最大限度地降低人工智能/机器学习风险,并推动可辩护的人工智能。这种方法满足了不断发展的监管和组织期望,并为道德医疗人工智能创新设定了新的基准。 这一监管演变强调了对安全设计、与组织目标一致、并能适应不断变化的监管要求的AI系统的需求。患者分析和研究,特别是健康信息的二次利用,因涉及敏感的健康相关数据以及输出结果将影响患者护理和结果,而受到数据保护机构越来越多的审查。担忧可能包括公平性、透明度,以及个人健康洞察被不负责任地使用或缺乏充分保护时可能带来的风险。 人工智能治理与隐私操作:每 数据流的每个步骤都受严格政策管理以及技术强制执行的监督机制那些被跟踪并相应管理的,包括连续监控和可审计日志端到端可追溯性。隔离环境,基于角色的访问控制,以及可靠的审计追踪确保数据仅用于其预期目的目的,与企业级保持一致治理和风险管理策略。 这种方法是针对当今的威胁格局所作出的回应——包括诸如AI模型逆向、数据重建、链接攻击以及分布式系统中的数据滥用等风险——并为可持续创新提供了蓝图。这是我们为医疗保健应用和其他领域设定可防御性AI标准的方式,代表着从传统数据实践转向全新范式,其中AI安全成为设计特性。 IQVIA的方法旨在直接解决这些担忧。通过使用合成趋势、联合建模和持续监控,我们最大限度地减少了数据暴露,同时实现了高质量的病人洞察。一个伦理委员会可以提供额外的问责层,确保我们符合监管预期,并为医疗保健中负责任和值得信赖的AI使用设定新标准。 人工智能安全的人工智能/机器学习移动物理基础 人工智能已经改变了健康和保健行业的格局,使得创新解决方案得以实现,从而提升患者成果、简化临床研究以及提高患者参与以健康为中心的干预措施。随着对数据驱动个性化和结合智能的健康和保健用例的需求不断增长,复杂分析、跨平台标识符和概率建模的兴起引发了关于人工智能和数据保护的紧迫问题。 通过联邦建模连接人工智能和数据保护 艾昆纬的联邦建模方法将人工智能安全性和隐私保护的原则转化为具体的系统行为。该平台通过嵌入式架构控制和数据处理策略将这些原则具体化。我们方法中数据保护的核心工程概念——输入变换、不可逆性和潜在空间建模——在设计上与人工智能安全性和隐私保护相结合,确保技术性能和原则性数据使用。 在全球范围内,人工智能驱动的应用程序预计将应对日益复杂的监管环境。人工智能和数据保护正成为交汇的优先事项,新的和不断发展的法律、法规和政策指南强调基于风险的AI治理、公平性、透明度和问责制。全球框架和国家法律都在塑造人们对健康数据收集、分析和使用的期望——特别是在人工智能引入数据泄露、推理或滥用等新风险的情况下。 收集限制和数据最小化 通过输入转换,IQVIA确保仅保留重要属性。在预处理过程中,会排除具有高风险重建或低建模效用特征。数据在外部进行假名化并早期抽象,减少收集需求 详细的原始输入。从群体级别的统计抽象中推导出的合成趋势在实践中反映了这一原则:模型仅使用必要的部分——不多也不少。 问责与监督 每项建筑策略都嵌入在一个更广泛的治理模型中,该模型支持持续监督。输入转换管道被版本控制和记录。与不可逆性阈值相关的风险评估被存储并定期审计。潜在空间模型被审查以评估漂移和滥用风险。这些控制措施确立了可追溯性和机构问责制。伦理委员会也可以承担监督和监控的角色,以确保我们与监管预期保持一致,并持续更新伦理规范。 使用限制和目的说明 不可逆性加强了原始输入和模型使用之间的界限。系统设计为,为人工智能/机器学习收集的数据只能用于批准的目的。例如队列分数或患者分段的输出,会附带元数据以限制下游使用特定上下文和时间段。通过使输出仅可用于预定应用,不可逆性便能够实现目的限制的严格执行。 开放与透明 IQVIA 主动发布其建模管道文档,包括数据如何被转换、抽象和受保护。客户和合作伙伴可以访问非敏感模型谱系报告,并且可以请求模型用途和范围的概述性解释。这些工作在不泄露受保护的IP或损害隐私保护的情况下支持了知情信任。 安全防护措施 潜在空间建模通过移除任何与原始数据的语义可追溯性,增加了一个有意义的安防层。使用抽象化、非人类可读的嵌入来创建合成趋势,可以防止即使是授权人员也无法重建敏感特征或行为。结合传统的访问控制、加密环境和审计追踪,这种方法体现了技术和组织安全防护的双重保障。 这些映射一起表明,IQVIA的技术战略与隐私规范保持一致,并将其具体实施。这种联邦建模方法在设计上考虑了隐私并确保了人工智能安全。 联邦学习用于人工智能/机器学习 在 IQVIA 的联邦建模方法中,源数据是去中心化的,标识符被屏蔽,并且仅使用合成抽象进行建模。为了在集中控制和去中心化创新之间取得微妙的平衡,我们使用与更广泛的数据网格策略一致的数据结构,我们称之为安全健康织物如图1所示。 每个工作区生产自己的数据产品,这些产品独立于其他产品进行开发、测试和验证,从而增强了安全性和专业性。 安全健康结构内的独立工作空间受稳健协议管理,这些协议符合最高的数据保护和人工智能安全标准。通过人工智能代理实现的自动化能够实时管理和执行这些协议,而人在回路中的检查点和运营监控系统确保了人工智能代理被用于管理人工智能驱动工作流程的责任感和信任。安全健康结构不仅是一个数据管理系统,它还充当了一个基础架构,用于在医疗保健中安全高效地部署、管理和扩展人工智能应用。 安全健康织物配置的设计是围绕创建独立的工作空间,使各个团队能够在紧密结合的技术框架内自主运行。这种设置支持根据特定需求开发定制的人工智能应用程序,同时保持整体架构的安全性和治理标准。 理解联邦学习的数據旅程 图2展示了系统中的整体数据流程。联邦学习过程中有四个关键阶段:源数据摄取、水平联邦学习、垂直联邦学习和安全输出。 数据源摄入:假名化和隔离 去识别化转换,以符合围绕数据使用和共享的监管和组织期望。遵循这些流程,个人数据流被摄入并维护在具有强数据分离和访问控制措施的隔离环境中。 在入口点,每个数据流在摄入前都会进行假名化处理。假名化会使用具有无内在含义且属于联邦建模过程内部的唯一、随机假名来替换敏感标识符。为了最大限度地分离职责并增强信任,此功能可由中立的第三方提供方(TTP)处理,确保内部团队或下游流程永远不会访问唯一标识符。根据设计,假名化可以支持确定性连接(相同的输入始终映射到相同的输出,能够在数据集之间实现一致的匹配)或概率性连接(允许使用可配置程度的模糊性进行匹配,以适应自然数据的变化)。 水平联邦学习:生成合成趋势 在隔离环境中,每个数据流独立进行处理,将原始特征转换为合成趋势,这些趋势是抽象的信号,它们捕捉的是群体级别的模式而不是个体级别的细节。这通过水平联邦学习完成,我们在不同数据集之间按列对齐数据。我们使用自动编码和矩阵分解等方法来计算每个数据集的统计数据,例如均值,然后将它们合并起来以得出全局洞察。 这种模型训练与推理之间的分离是故意的:模型训练受到高度限制,仅在严格的治理和自动化下支持探索性分析和特征细化。推理过程是独立的、可审计的,并且被剥夺了特征生成逻辑的访问权限,确保模型在训练后的应用不会被逆向工程为关于个体或群体行为的洞察。 这些方法配置为保留重要信号,但丢弃可能导致重构原始数据的特殊痕迹。为了进一步加强保护,我们可以在转换过程中应用差分隐私。差分隐私向数据或汇总统计引入受控的、经过数学校准的噪声。差分隐私确保单个个人的数据不会显著影响结果,使得根据嵌入推断敏感细节或识别参与者实际上变得不可能。 这个两阶段模型生命周期(采样训练随后是广泛推理)进一步加强了隐私边界,限制了谁可以看到趋势数据以及系统“学习”它的深度。 假名化的健康特征被转换为行为趋势向量(代表特征之间的重要模式和关系)。这些向量保留了健康特征的见解,而不会保留个人记录。在隔离环境中,不同的健康信息来源(例如,医疗或处方索赔)被独立转换为合成趋势向量,这些向量保留了有意义的健康见解(例如,合成医疗趋势或合成处方趋势)。 安全输出 在使用建模过程的结果进行决策或对外共享之前,会进行严格的输出验证过程。这涉及通过应用数据聚合、噪声