您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ITIF]:克服美国数据共享的障碍 - 发现报告

克服美国数据共享的障碍

信息技术2023-09-25ITIFE***
克服美国数据共享的障碍

作者:Gillian Diebold | 2023年9月25日 在美国,公共和私营部门行为者都面临着数据共享的法律、社会、技术和经济障碍,阻碍了急需的创新和发现。过于严格的数据隐私法和缺乏技术标准阻碍了教育和医疗保健等领域的特定行业数据共享,过去实验的失败导致了信任和数据孤岛的缺乏。本报告详细介绍了与数据共享相关的挑战和步骤。S.政策制定者可以克服这些障碍,为所有美国人带来数据的社会和经济利益。 经济和社会的无数方面可以通过更好的数据来改善。数据使人们和组织能够更好地了解世界,并利用这种理解做出更好的决策,无论大小。更好的数据将帮助研究人员了解如何最好地治疗传染病,以及哪些干预措施最有可能减轻贫困。更好的数据将使科学家能够改善对极端天气事件和自然灾害的预测。更好的数据将使教育工作者了解哪种教学实践最适合哪种学生。 但是更好的数据需要更多的数据共享,并且在正确的时间将正确的数据发送到正确的位置并不总是容易的。例如,一个政府机构可能需要由另一个政府机构或私营部门的公司持有的数据。组织可能需要在使用或重用数据之前传输、聚合或组合数据集。 然而,法律、社会、技术和经济障碍可能会阻碍数据共享。当组织无法获得已经由 另一个组织,他们必须在没有它的情况下继续(导致次优服务)或再次收集它(造成重复成本最终转嫁给消费者和纳税人,以及为个人创建额外的个人信息请求)。此外,数据共享的持续障碍可能会极大地抑制新兴的AI经济。例如,大型语言模型的潜力与其训练数据一样大。因此,有效的数据共享机制对于个人和组织克服这些障碍并获得数据的社会和经济利益至关重要。 虽然美国的许多组织确实共享数据,无论是在内部,通过与其他各方的既定协议,还是通过数据经纪人,仍然需要更多的数据,特别是在高价值领域。经济的某些部分,包括医疗保健,金融服务和教育,尽管存在数据驱动创新的潜力,但共享的数据却少于它们的预期。这是由于数据共享带来的各种挑战。例如,某些部门的隐私法,如医疗保健中的HIPAA(健康保险可携性和责任法案),往往更具限制性,而不是允许,导致组织回避共享信息,以避免因违规而受到处罚的风险。同样,反数据倡导者加剧了人们对数据共享的恐惧和不信任,创造了一个人们反对数据共享的环境。 此外,数据共享对参与行为者来说可能是昂贵的,并且可能需要复杂的技术组成部分,资源不足的领域不太可能优先考虑这些组成部分。 如果不改变政策,美国将继续走向数据孤岛— —一个数据被隔离的低效世界,数据的好处受到限制。数据孤岛是存在于封闭系统中的信息库,通常与组织或其他组织的其余部分隔离开来,与其他数据集不兼容。1数据共享涵盖了各种可能性:一端是数据孤岛,数据保持孤立和不共享,另一端是数据协作,数据在组织之间自由流动,没有使用限制。美国需要更多地转向数据合作,而这样做将需要克服这些法律、社会、技术和经济障碍。它将采取协调一致的政府行动,以实现默认数据共享和消除普遍的隐私担忧。具体来说,政策制定者应该:。 改革现有的数据保护法律,以减少数据共享的法律障碍;指导主要联邦机构创建数据共享合同模型,以简化法律协议;创建数据扫盲计划,以帮助社区了解数据的好处以及如何安全地共享数据; 使消费者能够轻松地捐赠他们的数据,特别是在医疗保健和教育等高影响力领域; 在高影响领域制定数据标准;以及 识别和解决数据碎片所有权阻止编译有价值的数据集的实例。 共享数据的障碍 美国面临更广泛的数据共享的法律、社会、技术和经济障碍。州一级的消费者数据保护法律拼凑而成,加上过于严格的国家部门特定法律,阻碍了医疗保健和教育等领域数据驱动创新所需的数据共享。此外,隐私狂热者已经将许多关于数据共享的神话嵌入到社会中,导致社会怀疑。集体行动问题也困扰着数据共享,需要为行业参与者提供一套新的激励措施。最后,并非所有组织都在技术上具备有效共享数据的能力,缺乏数据和元数据格式化的国家标准继续阻碍跨组织的共享。 法律障碍 长期以来,保护个人信息的隐私一直是美国和世界各地有关数据的法律的主要动机之一。因此,与数据共享有关的大多数法律障碍都围绕着隐私。一些法律障碍阻止政府数据共享,而另一些法律障碍则阻止医疗保健或教育等领域的数据共享或有关儿童的数据。需要明确的是,在这些领域收集的数据通常具有高度敏感性,确实需要充分的保护。但敏感数据通常也有最大的潜力创造广泛的社会和经济效益。 法律障碍通常会产生管辖权孤岛,这可能使合并和汇总政府机构之间的数据以及制定有针对性的计划变得困难。例如,住房和城市发展部(HUD)为全国所有连续护理(COC)计划收集了大量数据。2但是每个COC程序都在无家可归的管理信息系统中收集自己的数据。由于管辖规则和匿名化挑战,COC通常无法与HUD共享该数据。3 此外,在美国,数据共享通常需要获得个人的同意,其法律要求可能很广泛,有时甚至不清楚。美国缺乏统一的同意定义,不同的联邦和州法律使用不同的定义拼凑而成。由于合规成本或责任问题,这两种情况都可能抑制数据共享。4政府和私人组织 必须获得个人的直接同意,在某些情况下,必须重新获得同意,这可能是一个资源密集型过程。 表1展示了美国限制数据共享的关键规定S.联邦法律。特别是,联邦隐私法主要侧重于保护某些类型的组织收集的数据,包括学校、金融机构、医疗保健提供者和政府机构。例如,《家庭教育权利和隐私法案》(FERPA)为与第三方共享教育数据的机构提供了规则,以保护学生的隐私。5 如表1所示,有许多U。S.限制数据共享的联邦法律。虽然这些法律都包括例外,但它们在限制的确切程度和严格性方面有所不同。例如,1974年的《隐私法》限制了未经个人书面同意或有12个例外的情况下政府机构之间的数据共享。这些例外情况包括: 需要在机构内部了解要求FOIA披露常规使用人口普查局统计研究国家档案馆执法请求个人的健康或安全国会政府问责办公室法院命令收债法 最重要的是,《隐私法》限制了“匹配计划”或机构数据库的交叉比较,以确定联邦资格 福利计划。代理商只能在通知个人后匹配记录,并给他们机会质疑所使用信息的准确性。11在《隐私法》的豁免中,机构经常使用“常规使用”豁免来不仅在执行机构之间而且与执法部门共享信息。12 GLBA、HIPAA、FERPA和COPPA都专注于数据收集的特定领域。像《隐私法》一样,它们通常默认遵守有限的披露,但包括一些允许在有限情况下共享数据的豁免。例如,HIPAA允许将数据用于12个国家优先目的,如公共卫生活动。13此外,大多数隐私法包括对执法部门访问数据的某种形式的豁免。 同时,这些法律可能会产生意想不到的后果。例如,HIPAA包括“最低必要”要求,这意味着医疗保健专业人员不应再共享特定目的或功能所需的任何健康数据。14这种类型的最小化条款可能会无意中阻碍基因组学等领域的重要研究,在这些领域,某些种族和种族在关键数据库中的代表性已经不足。15 同样,FERPA的限制限制了包括政府官员在内的研究人员在未经事先同意的情况下访问包含健康信息的教育记录。16这可能包括心理健康评估,这反过来会限制对自闭症谱系障碍和注意力缺陷/多动症(ADHD)等事物的研究和理解。使用COPPA,即使在必要或非常有益的应用中,例如使用edtech进行远程学习,这些义务也可能是限制性的。17 尽管美国仍然缺乏全面的联邦隐私法,但诸如《美国数据隐私和保护法》(ADPPA)之类的立法提案仍然对数据共享构成障碍。首先,大多数立法提案将为消费者数据增加额外的数据隐私规则,但它们不会减少或协调现有的基于行业的数据保护规则,如HIPAA或FERPA。其次,他们将把现有的一些数据共享限制扩展到更多类型的数据。例如,国会研究服务发现,ADPPA将包含数据共享的“最低必要”条款,类似于HIPAA隐私规则。18诸如选择同意,数据最小化和目的规范要求之类的规定旨在限制而不是促进数据的使用和共享。这些类型的要求保护了数据中的个人利益,但无助于促进社会利益。 尽管存在这些缺点,但一项全面的隐私立法将减轻与国家隐私法拼凑相关的挑战,并为公共和私人组织提供一套明确的规则。但是,如果它不是为了实现适当的数据共享而设计的,它将阻碍智能社会的出现。 社会障碍 社会支持和反对在政策中起着重要作用。人们对数据收集的不信任和对整个技术的敌意越来越大,这影响了立法,进而影响了组织开展数据共享事业的能力。19这种缺乏信任源于各种来源,包括美国和国外的反数据联盟,以及历史数据共享项目缺乏透明度。 对社会“数据化”的反对已经在美国蔓延开来,在美国,对大科技的日益浓厚的敌意也导致了对限制性隐私立法的呼吁增加。20重要的是,那些不信任任何处理其数据的组织(即隐私原教旨主义者)的人正在利用最新的反技术叙事来支持他们的反对意见,并创造一种政治氛围,这种政治氛围对使用数据的组织不利,即使是出于积极目的,例如解决流行病或寻找失踪儿童。21一些国会议员,例如参议员埃德·马基(D - MA),试图禁止某些数据收集活动,例如政府基于监视能力和歧视潜力使用生物识别技术。总体而言,尽管大多数美国人都是“隐私实用主义者”,他们愿意在隐私和个人利益之间进行权衡,但这些普遍的态度会产生深远的影响。22 潜在的社会反弹可能会阻止公司分享他们拥有的数据,即使这些数据对其他人有用。例如,大型信用卡公司的用户交易数据集对美国非常有用S.政府在某个时间点理解美国经济。但是,隐私反弹的威胁可能会阻止该信用卡公司进行合作,因为它可能会被指控监视其用户。正如方框1中的IBloom案例所表明的那样,辩论中最响亮的声音通常占上风。 方框1:InBloom的持久遗产 2011年,教育技术领域探索了一个大规模协作平台来汇总美国各地的教育数据的可能性。由比尔和梅琳达·盖茨基金会牵头,名为InBloom的教育数据信托项目获得了超过1亿美元的资金和支持,但该项目在启动后的一年内就关闭了。23出了什么问题? IBloom平台旨在成为数据共享和课程的集中式平台,以解决阻碍学校数据集互操作性的数据孤岛的挑战。该平台将创建共享数据标准。它还将为新供应商创造更多进入edtech领域的机会,最终目标是改善全国学生的学习成果。但是,许多因素导致了公众的强烈反对和该项目的反对。 失败,即根深蒂固的隐私问题和对数据驱动教育的敌意。24该项目明显缺乏社区对话,这只会加剧对透明度和问责制的关切。此外,反对派团体对该项目的迅速行动做出了严厉的反应,引发了人们对学生数据使用的担忧,包括可能将此类数据出售给第三方进行有针对性的广告。事情的真相变得无关紧要,IBloom的主要利益相关者在一年内退出。 IBloom为当今教育领域的数据共享提供了重要见解。由于该项目的内爆,edtech已趋向于封闭的专有数据系统拼凑而成。隐私倡导者继续使用IBloom作为避免集体数据共享模型的理由。然而,今天封闭的教育数据体系延续了IBloom提倡的同样缺乏透明度的现象。 技术壁垒 有时,由于超越任何社会障碍或法律限制的技术壁垒,数据共享不会发生。数据共享通常需要能够以多种格式接收、聚合和分析来自各种来源的数据的基础设施。缺乏数据格式化的通用标准会阻碍共享数据的互操作性和可用性。此外,数据质量问题可能会加剧互操作性挑战;缺乏元数据标准也加剧了数据共享的技术挑战。 数据互操作性确保不同的服务可以一起交换和使用信息。25它要求共享数据的服务彼此理解和合作。例如,互操作性意味着患者可以在可能具有不同技术基础设施的医疗保健系统之间移动,而不会失去对其电子健康记录的访问。26因此,数据共享需要兼容的数据格式化标准,超出机器可读性的基准。缺乏通用标准是数据聚合和纵向数据集创建的主要障碍。27例如,当不同的机构以不同的方式衡量泥石流、烟雾或干旱等变量时,这种缺乏可能会妨碍理解社区对自然灾害的抵御能力。28此标准问题也适用于元数据,或包括数据内容、数据来源和收集方法的数据集描述。不一致的元数据格式也可能限制二次使用和数据集的互操作性。 当数据标准到位时,数据驱动