热门搜索：

缩小数据鸿沟，实现更公平的美国数字经济

信息技术2022-08-22ITIF劣***

数据中心的创新1缩小数据鸿沟，实现更公平的美国数字经济由Gillian Diebold | 2022年8月22日在美国，获得许多公共和私人服务，包括金融、教育和医疗保健部门的服务，与数据有着错综复杂的联系。但是，并非所有美国人都能公平地收集足够的数据，这带来了新的挑战：数据鸿沟，即并非每个人都收集了足够多的关于他们或他们的社区的高质量数据，因此无法从数据驱动的创新中受益。本报告概述了美国的数据鸿沟，并就政策制定者如何解决这些不平等问题提供了建议。介绍技术进步使收集、处理和使用数据比以往任何时候都更便宜、更容易。这些数据有助于个人、企业和政府做出更好的决策，而数据驱动的创新是促进社会和经济繁荣的关键途径。但是，在一个经济机会、政府服务和医疗保健结果与数据错综复杂的世界中，个人和社区如何在数据集中反映出来，以及他们如何使用关于自己的数据集会极大地影响他们充分参与数据经济的能力。数据拥有者和没有数据的人之间正在出现鸿沟，这些数据鸿沟会极大地影响个人和社区。虽然学术界、民间社会和公共部门的许多人已经考虑过数字鸿沟的影响，例如宽带、移动设备或计算机接入方面的差异，但很少有人探索数据鸿沟或考虑采取步骤来解决它。数据中心的创新2数据鸿沟是指由于缺乏对个人或社区数据的收集或使用而可能导致的社会和经济不平等。数据鸿沟可以通过多种方式表现出来。某些地方的人们可能面临更大的环境风险，因为收集有关其环境条件的数据的传感器数量不足。同样，患者可能接受的医疗不足，因为他们的人口统计在临床试验数据中的代表性不足。其他时候，一些学生获得的教育机会欠佳，因为学区缺乏跟踪和衡量教育计划与结果之间联系的系统。这些数据鸿沟可能由于不同的原因而出现，包括缺乏资源、政治压力或法律和监管问题。正如数据创新中心（Center for Data Innovation）在其2014年的报告《美国数据贫困的兴起》（The Rise of Data Poverty in America）中首次写道的那样，一些美国人将出生在利用健康信息学的医院，就读于由学习分析驱动的学校，并在“智能”社区生活和工作，这些社区使用数据来最大化他们的经济，社会和环境繁荣。但其他人不会，关于他们自己和社区的数据稀缺将意味着他们将无法从日益数据驱动的世界的优势中受益。数据收集和使用方面的这些不平衡导致数据鸿沟，政策制定者应优先解决这些数据不平等问题。本报告概述了美国的数据鸿沟，并建议政策制定者应采取的行动，以确保所有美国人公平公正地代表和使用数据。首先，报告界定了数据鸿沟，并将其置于更熟悉的数字鸿沟的对话中。它确定了数据鸿沟持续存在的几个领域，从人口和地理数据差距到不公平的数据系统实例。最后，它为政策制定者如何解决数据鸿沟提出了九项建议：● 通过为代表性不足的社区制定有针对性的外展计划来提高联邦数据质量。● 加强非政府数据的数据质量。●确保政府和民间社会之间的数据收集和监测方法具有可比性。● 支持提高众包和私营部门数据的利用率并将其纳入官方数据集。●改进重要 AI 数据集的文档和质量，以减少结果有偏差的情况数量。● 从核心联邦机构提供资金，以弥合数字鸿沟和数据鸿沟。数据中心的创新3● 指示联邦机构更新或建立数据策略，以确保数据收集融入不同的社区。● 修订联邦数据战略（FDS）以确定数据分歧并指导机构行动。● 建立一个两党联邦委员会来研究数据鸿沟。理解数据分数据鸿沟是指收集和使用足够数据的个人和社区与没有收集和使用足够数据的个人和社区之间的差距。随着数据驱动的经济和社会的不断发展，那些没有足够数据的人会发现许多服务对他们的效果较差。考虑医疗保健：没有详细电子健康记录（EHR）的患者将无法从健康分析中受益，因此可能会获得次优护理;没有可穿戴医疗设备的患者将不会收到有关健康异常的警报，因此可能无法获得挽救生命的治疗;属于基因数据库中代表性不足的群体的患者将无法从精准医疗中受益。简而言之，数据鸿沟意味着不仅某些数据驱动的服务不适用于某些人和群体，而且数据驱动的决策甚至可能对他们有害。如果不采取行动，数据驱动的世界将把其中一些个人和社区抛在后面。技术的进步总是创造这种可能性。有时这是因为新技术是只有高收入人群才能负担得起的“奢侈品”。私人飞机、豪华汽车、高端娱乐系统和其他类似产品都属于这一类。其他时候，这些技术是，或者至少应该是每个人都能够获得的大众物品，特别是当技术在社会中传播时。想想手机、空调、电力和家用电器。解决数据鸿沟需要对理想与实际进行一系列考虑，并非所有数据鸿沟都需要同等的努力来缩小，也不应具有相同的优先级。在数据驱动的世界中，数据公平是最重要的，这意味着基线数据系统具有代表性的分析，并得出准确，可操作的见解。当数据分歧影响公共产品时，缩小这些差距应该是重中之重。政府的目标是为其所有选民服务。诸如政府调查未覆盖某些社区或城市政府分布不均的智能传感器等情况应成为高度优先事项。同样，美国应该努力实现系统数据的普遍性，因为数据鸿沟的后果在这些领域造成了最大的伤害风险。例如，无论收入水平如何，所有社区都应存在数据驱动的教育系统。在其他领域，例如数据中心的创新4可穿戴智能设备，获得完全平等可能代价高昂，并最终减损更广泛的目标。电气化最初造成了城市和农村地区生活水平的差异。汽车的兴起创造了依赖汽车的社区，使那些没有车辆的人难以生活和工作。互联网的发展造成了数字鸿沟，其中在获取信息技术（IT）、互联网使用和数字技能方面的差异可能造成重大不利因素。数据鸿沟与过去的技术鸿沟相似，因为对某些人来说，后果是他们将不公平地获得数据经济的好处。然而，数据分裂的原因以及它的解决方案是独一无二的，因为数据与其他商品不同。电力和互联网接入是可替代的商品。对于大多数消费者来说，他们从一个供应商那里获得的电力和互联网服务与另一个供应商相同。虽然有人可能更喜欢劳斯莱斯而不是起亚，但就提供基本交通工具而言，车辆也大多可以互换。但数据是不可替代的;一组位与另一组位不同。向个人提供其他人的数据，例如另一个人的健康记录，并不能帮助他们满足自己的医疗保健需求。在提供解决方案时，这些差异很重要。例如，决策者试图通过努力增加互联网服务和计算机的获取和可负担性来缩小数字鸿沟。但是，解决数据鸿沟需要重新思考如何收集和提供不同个人和群体在数据经济中蓬勃发展所需的独特数据集。数据鸿沟是数据集不完整或缺失的结果，包括那些不能充分代表某些人群的数据集，无法分类以满足不同人群的需求，没有解决相关问题，或者质量不足以满足特定目的。个人从许多不同的来源产生大量数据，包括物联网（IoT）连接的传感器、可穿戴设备和支付交易。因此，数据鸿沟可能会对个人在金融服务、环境监测、教育和医疗保健等部门获得使用数据的许多好处产生严重影响。随着数字经济中服务越来越依赖数据，数据拥有者和没有数据之间将继续出现差异。此外，数据鸿沟不仅涉及数据集本身的定量信息，还涉及数据收集方法。例如，政府调查为所有联邦统计数据提供了核心收集方法。但数据鸿沟也与系统数据收集有关，数据中心的创新5例如医疗保健和信用数据。数据收集也可以指通过物联网连接的设备（如智能家电或邻里安全系统）收集传感器数据。解决数据鸿沟不仅意味着解决统计调查中的代表性问题，而且意味着在所有这些新兴领域的数据收集方面。在某些情况下，数据收集和使用不平衡可能导致的社会和经济不平等将非常极端，以至于某些人和群体可能会经历“数据贫困”，其中缺乏关于自己和社区的信息会对一个人的生活质量产生重大负面影响。1数据贫困在某种程度上是一种现象，因为随着技术的成熟和发展，被认为是足够的数据会随着时间的推移而变化。数据划分有两个重要方面，每个方面在个人和群体层面都很重要：数据代表性和数据可用性。数据质量包括准确性、及时性、精确性和完整性等多个维度，它影响着数据代表性和数据可用性。数据质量差是导致数据鸿沟持续存在的一个重要因素。图1：数据在个人和集团两级的代表性和可用性的影响代表性的数据数据可用性对单个数据集是不准确的个人不能使用需要自己数据的服务数据不准确地反映集团组无法使用需要有关其数据的服务代表性的数据数据代表性是指给定数据集充分描述更大人口特征的程度。非代表性数据集要么完全排除某个总体，要么排除有关该总体的详细信息。例如，假设图 2 显示了一个列出美国选民及其政党的代表性数据集。在该图中，表2显示了将一个群体完全排除在数据集之外的情况，因为不隶属于两个主要政党的选民被完全排除在外。表 3 显示了数据集如何包含有关某个群体的不完整信息：列出了少数族裔政党的选民，但列出了有关其特定政党的详细信息个体层面组级别数据中心的创新6隶属关系被排除在外。这两种情况都可能导致个人或团体在数据中不可见。图2:非代表性数据集的例子数据可用性数据可用性是指一个人可以为给定目的使用足够数据的程度。数据可能由于多种原因而不可用，包括因为从未收集过数据、已收集但未保留数据，或者已收集和保留数据但不能用于其他原因，例如技术或法律限制。缺乏数据可用性意味着数据不能用于给定的应用程序或服务。数据可用性取决于数据的预期用途，不同的个人和群体有不同的数据需求。例如，美国东南部的社区可能对检测飓风更感兴趣，因此需要来自风暴潮汐传感器的更多数据，而西海岸的社区可能更感兴趣。数据中心的创新7在检测地震时，因此需要来自地面运动传感器的更多数据。数据可用性对于个人和团体的“数据财富”都至关重要。在数字经济中，数据是一种生产要素，就像土地、劳动力和资本一样，使企业能够做出更好的决策，更有效地生产商品和服务。2数据也是一种必要的资源，就像社会资本一样，个人可以利用它们做出更好的决策，并利用服务来过上更快乐、更健康、更令人满意的生活。数据可用性为个人和社区提供了更大的代理和机会。把影响个人和团体的数据在个人层面上，缺乏代表性意味着数据集不能准确地代表一个人。缺乏可用性意味着一个人无法使用需要自己数据的服务。同样，在组级别缺乏代表性意味着数据集不能准确反映组。缺乏可用性意味着组无法使用需要有关其数据的服务。一般来说，数据鸿沟存在于一个频谱上，一些美国人落在一端，收集或使用的数据完全包括他们，或者另一端，它完全排除了他们。但对于大多数个人和群体来说，数据鸿沟存在于一个梯度上，其中收集或使用的关于他们的数据包括他们的一些信息，但不是全部，他们可能遭受这些不平等的程度各不相同。在图2的例子中，代表性不足导致关于个别选民和少数族裔政党的信息不足。要在实践中看到数据划分的这些要素，请考虑一个城市决定在其五个社区中的四个社区安装过敏原监测站，以收集有关草和杂草花粉密度的实时数据。该市开发了一个应用程序，以便其公民可以根据他们的EHR数据预测他们当天是否会经历过敏。在个人层面，如果个人的 EHR 中没有关于其过敏的数据，则会出现基于可用性的数据鸿沟。没有这些数据，他们就无法使用移动应用程序。对于居住在没有监测站的社区居民，在个人层面也出现了基于缺乏代表性数据的数据鸿沟。他们可能会收到对他们所在地区花粉水平的不准确预测，并被迫对户外时间做出不明智的决定。在集团层面，还存在数据可用性问题。由于该市仅收集有关草和杂草花粉的数据，因此没有关于无法有效使用移动应用程序的树木花粉过敏患者的数据。同样，这些数据也不能代表所有类型的花粉过敏。如果城市规划者使用这些数据来预测景观美化决策的影响，他们可能会忽略对被排除在外人群的影响。在此示例中，数据中心的创新8缩小数据鸿沟需要几个步骤，包括1）确保每个花粉过敏的人都将这些信息记录在他们的EHR中，2）收集树木花粉密度数据，3）收集城市所有社区的数据。表4:数据划分的一个例子个人对居住在不受监控的社区的个人的不准确预测对于没有带有过敏信息的电子健康记录的人，无法预测类型的数据分数据划分通常分为三类：系统数据、地理数据或人口统计数据。在这些类别中，数据划分可能是各种原因的结果，包括数据集中的代表性不足、由于数据无法分解而在数据集中不可见、数据质量差以及用于给定目的的数据不足。当个人或社区在数据中反映不足时，无论是来自联邦统计数据中的计数还是数据收集技术的

点击免费查看完整报告