[世界经济论坛]：在联合数据联盟模型中共享敏感健康数据：八步指南

热门搜索：

在联合数据联盟模型中共享敏感健康数据：八步指南

信息技术2020-07-30世界经济论坛劣***

在联合数据联盟模型中共享敏感的健康数据八步指南I N S I G H T R E P O R T七月是2 0 在联合数据联盟模型中共享敏感的健康数据2内容3前言4介绍6步骤 1 建立和维持信任9 步骤 2 联合确定联合方法的问题11第 3 步调整激励措施和组织能力13步骤 4 确定资源——团队领导和资金15步骤 5 确定政策中的制度差异或差距17步骤 6 创建联盟治理模型20步骤 7 构建数据21步骤 8 部署 API 技术22结论23附录23致谢24尾注© 2020 世界经济论坛。版权所有。不得以任何形式或通过任何方式（包括影印和录制）或通过任何信息存储和检索系统复制或传播本出版物的任何部分。在联合数据联盟模型中共享敏感的健康数据32020 年 7 月在联合数据联盟模型中共享敏感健康数据八步指南前言大规模访问敏感的健康数据将推动研究、创新和患者结果根雅达那世界经济论坛医疗保健转型负责人，塑造健康和医疗保健的未来阿诺德·伯纳特世界经济论坛塑造健康和医疗保健的未来负责人在世界经济论坛上，我们将数据视为助长第四次工业革命之火的氧气。它很容易获得并且是必要的，但是如果使用不当，它会产生危险和不受欢迎的结果。对如何保护有价值的数据，尤其是敏感的个人数据的担忧是许多国家和机构数据政策的核心。我们看到一个复杂的尤其是围绕健康数据发展的动态数据政策格局；在推进研究、创新和患者结果所需的程度上共享数据变得越来越复杂。在与 COVID-19 大流行作斗争中，需要快速提供对健康数据的访问，同时保护患者隐私和数据安全，这一点从未像现在这样紧迫。本文是论坛工作的一部分，旨在为政策制定者、医疗保健专业人员和第四次工业革命的领导者创建可操作的资源，以在全球范围内驾驭复杂和敏感的健康数据政策。论坛正在测试一个联合方法 - 远程访问数据集，无需从其安全的原始位置移动数据 - 作为访问加速诊断四个国家的罕见病患者所需的不同基因组和健康数据集的实用方法。联合数据系统本身并不是什么新鲜事物，但它们开始更频繁地用作访问多国和多管辖区世界中多样化的不同数据存储库的解决方案。能够快速和安全访问不同的数据集加快了收集洞察力并为精准医学方法提供护理决策的能力，该方法使用数据来推动对患者疾病进行更加个性化和量身定制的诊断和治疗。只有与“打破健康数据障碍”项目的合作伙伴一起，才能就如何建立联合数据联盟提供实用建议，该项目是论坛精准医学项目组合的关键。加拿大、澳大利亚、英国和美国的四个基因组学机构不知疲倦地进行了艰难的对话，并建立了为这八步指南提供信息的治理模型。我们赞扬他们的领导。本指南还形成对论坛的数据共享倡议的重要投入，重点关注第四次工业革命中数据治理的新模式。最近发布的跨境数据流动路线图：新数据经济中的面向未来的准备和合作明确建议政府应承认联合数据学习是一种有效的手段跨境数据（洞察）共享，不应被立法阻止。需要积极努力，以激励政府官员、商界领袖和民间社会成员建立现实世界的试点，并支持对联合数据系统进行持续和积极的试验，特别是在它们最有价值的情况下。在联合数据联盟模型中共享敏感的健康数据4介绍通过联合财团访问全球健康数据将揭示疾病的原因和治疗方法在当前第四次工业革命时代，数据是我们最宝贵的资源。1 我们这个时代的五家领先公司——Alphabet、亚马逊、阿里巴巴、Facebook 和微软——依靠数据来推动他们成功的企业。数据也是一种资源医疗保健生态系统，可以提高全球患者的医疗保健和医疗保健服务的标准、质量和结果。但是，健康生态系统如何使用数据？随着医疗保健数据量的增加，基因组数据和其他类型的敏感健康数据提供了有关如何诊断、治疗和一般管理最复杂和破坏性疾病——但前提是我们可以查看全球人口的数据。基因组数据是一种特别有价值的健康数据，因为它代表了人类（以及几乎所有生物体）称为脱氧核糖核酸 (DNA) 的遗传物质，它存储了指示我们身体如何运作的“主密码”。超过 99% 的遗传密码在所有人中都是相同的，如果没有办法梳理大量数据，就很难找出对疾病研究、诊断和治疗有用的遗传密码中的“故障”或特定的微小差异。框 1 为什么选择基因组数据？基因组数据代表我们共享的 DNA，可以在称为基因测序的过程中分解成机器可读的格式。在基因测序过程中，DNA 被分解成四种化学碱基（腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶）进行分析。每个人类 DNA 由大约 30 亿个碱基组成。2每个人都有这样的 DNA，由数十亿个碱基代表，但只有通过使用大量 DNA 的比较模式才能更多地了解我们共享的 DNA，更重要的是，我们的 DNA 如何影响甚至预测我们的健康。这是因为超过 99% 的碱基在所有人中都是相同的，这使得在较小的数据集中更难以辨别任何差异。与碱基相比，基因是个体独一无二的 DNA 碱基组合遗传的单位。基因的大小可以从几百个 DNA 碱基到每个基因超过 200 万个碱基不等。3在基因组数据的庞大规模和复杂的健康数据政策监管环境中，汇总此类数据以改善患者预后都很复杂。人类基因组（您的基因组是您体内 DNA 的总和或您的遗传数据的总和）代表大约 100 吉字节 (GB) 的数据，相当于大约100,000 张数码照片。 2011 年，我们的测序容量达到了 13 万亿个碱基，这相当于两英里的 DVD 堆叠在数据存储中（在数据存储迁移到云之前的那个时代用于存储）。然而，到 2018 年，人类基因组（大约 30 亿个碱基）可以装在一张 DVD 光盘上——而不是 2011 年跨越两英里的数百张光盘。4存储人类基因组变得越来越容易、体积更小、成本更低。将基因组数据与硅进行比较Valley 的摩尔定律指出，计算机的速度每 18 个月翻一番，但大小减半，基因组数据的存储容量比摩尔定律快四倍。5以研究人员和临床医生可以用来改善患者结果的方式聚合大型基因组数据集是复杂的，部分原因是来自国家和机构基因测序工作的大量基因组数据。人类基因组（你的基因组是 DNA 的总和在你的身体或你的基因数据的总和）代表大约 100,000 张数码照片。现在大约需要一天的时间来排序大部分一个人的基因组需要数百美元，而 2003 年需要 13 年和 10 亿美元。国家和机构正在对数十万人进行测序。 2018 年，英国宣布完成了 100,000 个来自国家卫生服务患者的序列。然而，由于数据保护法和健康数据隐私法规的复杂性，访问所有这些数据仍然是一个挑战。在联合数据联盟模型中共享敏感的健康数据5联合数据系统是一种很有前途的方式，可以访问必须保留的健康数据，包括基因组数据在一个国家或机构内部，因为它们的敏感性。世界经济论坛全球精准医学委员会在其 2020 年 5 月的精准医学愿景声明中指出，数据共享和互操作性方面的差距是阻止更广泛地采用更加个性化的医疗保健方法的关键。6精准医疗取决于总体健康数据的可用性。特别是对于基因组数据，存储和分析的成本通常比测序的实验室成本更高。如果数据的使用超出其对单个患者的初始诊断能力，则存储、处理和分析数据的成本在全球患者利益方面是合理的。7访问和使用敏感的健康数据和基因组信息以充分发挥其潜力需要谨慎和创造力，并通过强有力的治理协议来指导这一过程。为应对健康数据跨境访问治理的挑战，世界经济论坛于 2018 年 7 月至 2020 年 7 月领导了“打破健康数据障碍”项目。该项目测试了如何建立和运行分布式联合数据系统在具有明确治理优化运营效率、患者隐私和数据安全的国家/地区实现可持续发展。联合数据系统是一种很有前途的方法，可以访问健康数据，包括基因组数据，由于它们的敏感性，这些数据必须保留在一个国家或机构内部。尽管联合健康和基因组数据集的例子越来越多，但如何与一组机构实际创建联合数据系统尚不清楚。8允许访问数据集在技术上并不是特别困难，但在如何在机构之间形成必要的关系以实现信任和透明度以及在联盟模型中持续、可预测的操作方面存在更大的挑战。论坛与澳大利亚（澳大利亚基因组学健康联盟）、加拿大（Genomics4RD）、英国（Genomics England）和美国（Intermountain Healthcare）密切合作，创建并领导了一个多利益相关者社区，支持这些机构完成确定如何最大化收益和最小化风险联合基因组数据以诊断罕见疾病。9为了联合数据，必须组建一个机构联盟。如图 1 所示，这个八步指南提炼了从打破障碍到健康数据项目的工作中学到的知识，以建立一个联合数据联盟，以便使用来自全球分布式数据的基因组数据来诊断罕见病放。还鼓励其他机构将此联合数据联盟模型用于其他用例。在创建这样一个利用敏感健康数据的数据联盟之前，仔细规划这样一个联盟并仔细考虑如何有效地制定和实施清晰的治理结构至关重要。全球联合数据联盟为改善患者结果和医疗保健提供途径提供了巨大的机会，但也需要强大的安全性，不断改进政策以提供针对不良行为者、数据泄露或其他类型可预防风险的保护措施。数字 1构建联合数据联盟的八个步骤步骤1：建立信任第 8 步：部署技术第2步：定义问题第 7 步：结构数据联合数据联盟第 3 步：调整激励措施第 6 步：创建治理模型第4步：识别资源第 5 步：识别制度差距18273645 在联合数据联盟模型中共享敏感的健康数据6建立和维持信任建立信任比以往任何时候都更加重要，需要合适的合作伙伴、彻底的关系建立和领导团队的支持第一步，也是似乎决定联合数据联盟成败的唯一组成部分，是与已确定的进入数据联盟的潜在合作伙伴建立信任。在合作伙伴之间建立信任也是建立成功的数据联盟最耗时的组成部分。一个名为 Trust :: Data Consortium 的新数据框架的创建者——其中包括麻省理工学院、联合国、怀特众议院网络安全倡议和论坛——认为当今的社会结构并不容易适应可以利用自主、动态、数字反馈机制的集成系统的新现实。我们的社会结构难以适应数字方法，这可以阐明数据共享系统之间的信任通过透明地跟踪何时以及如何访问或交换数据。10 换句话说，尽管许多技术解决方案旨在鼓励数据共享合作伙伴之间的可信赖行为，一旦联盟成立并运行，在关系开始时建立信任仍然取决于我们的日常社会结构和感知的社会关系。1.1确定财团合作伙伴然而，在开始与合作伙伴建立社会关系之前，为数据联盟选择正确的合作伙伴非常重要。确定最佳合作伙伴需要了解另一家机构的起源、战略目标和其对潜在数据联盟合作伙伴的研究目标——以及这些目标是否与贵机构的类似指标一致。在关系开始时进行彻底的审查过程无法通过快速的网站检查甚至是电话来促进，而是需要一系列的面对面会议。在“打破健康数据障碍”项目开始时，论坛发现需要多次反复讨论和重申目标在有可能继续讨论伙伴关系的细节之前，每个潜在的机构。亲自前往潜在合作机构的所在地简化了发现过程潜在合作伙伴将贡献给数据联盟的日常运营和团队规范。在本次推荐的面对面会议（或一系列会议）中，讨论以下内容很重要：(1)每个机构目前正在收集什么类型的数据； (2) 每个机构如何通过行为守则或其他方式开展日常运营指导文件； (3) 每个机构如何控制或不控制其短期和长期资金。没有什么比一群潜在合作伙伴在不了解彼此的动机、机构优先事项和数据资产的情况下互相说“是”更能伤害财团基金会的了。确保在机构优先事项或能力范围内可实现承诺的行动或结果也很重要。11步骤1 在联合数据联盟模型中共享敏感的健康数据71.2鼓励信任并优先建立关系与潜在合作伙伴建立信任至关重要，但如何建立信任因地区而异。取决于地理位置、开放性、能力、尊重和类似的价值观提供了不同的可信度社会线索。《哈佛商业评论》解释说，在北美和欧洲，信息开放，允许“信任但验证”的能力是最常见的策略。因此，评估健康数据联盟或其他数据联盟的潜在合作伙伴在这些地区，让合作伙伴核实每个人都在以透明和诚实的方式行事是至关重要的。如图 2 所示，提出一些您所在机构的一些成员已经知道答案的开放性问题（并因此非正式地仔细检查信息来源）是建立对北美或欧洲文化的基本信任水平的最可靠方法。然而，在东亚国家，通常需要声誉通过展示成功的业绩记录来建立能力。在中东和南亚国家，口号

点击免费查看完整报告