[城市研究所]：使用插补来分解种族平等数据的道德和同理心：建议和标准指南

热门搜索：

使用插补来分解种族平等数据的道德和同理心：建议和标准指南

信息技术2021-07-07城市研究所北***

研究报告使用插补来分解种族平等数据的伦理和同理心建议和标准指南K. Steven Brown LesLeigh Ford Shena Ashley 与 Alena Stern 和 Ajjit Narayanan2021 年 7 月RACI AL E QUIT Y AN AL YT ICS L AB 关于城市学院非营利性城市研究所是一家领先的研究机构，致力于开发基于证据的见解，以改善人们的生活并加强社区。 50 年来，Urban 一直是对复杂的社会和经济问题进行严格分析的可靠来源；为政策制定者、慈善家和从业者提供战略建议；以及为所有人扩大机会的新的、有前途的想法。我们的工作激发了有效的决策，促进了公平并提高了人们和地方的福祉。版权所有 © 2021 年 7 月。城市研究所。允许复制此文件，归属于城市研究所。蒂姆·梅科的封面图片。内容独立声明 27 A C K N OW L E DG M E N T S致谢本报告由罗伯特伍德约翰逊基金会资助。我们感谢他们和我们所有的资助者，他们使 Urban 能够推进其使命。所表达的观点是作者的观点，不应归因于城市研究所、其受托人或其资助者。资助者不决定研究结果或城市专家的见解和建议。有关城市研究所资助原则的更多信息，请访问 urban.org/fundingprinciples。作者要感谢 Megan Randall 在该项目过程中的出色项目管理； Graham MacDonald 和 Kathy Pettit 审查并提供有用的反馈；以及 Jahnavi Jagannath、Jacqueline Rayfield 和 Yipeng Su 对这个项目的广泛贡献。我们还要感谢本项目的受访者付出的时间和见解，并为本报告中的思想提供信息。相关和单独发布的横向扫描中提供了受访者名单和额外的感谢。四使用插补来分解种族平等数据的伦理和同理心经常用于为政策和实践提供信息的公共数据集发布了不允许使种族和民族在访问和结果方面的差异可见的汇总数据。为了更好地了解社区的政策需求和关注点，我们认为数据收集者和数据所有者、研究人员和决策者应该增加数据分解，即数据按详细的子组报告关键变量和结果。在本报告中，我们重点关注对种族和族裔亚群（包括黑人、拉丁裔、亚裔美国人、太平洋岛民和美洲原住民）的数据进行分解的必要性，尽管理想情况下数据会提供更多的特异性，包括民族和族裔。数据分解有很强的伦理和实际原因。人们可以使用分类数据来明确怀疑但未发现差异的地方和政策领域，可以让人们更好地在数据中看到自己，从而了解他们的挑战和机遇并为自己辩护，并可以促进更多公平公正地分配资源。缺乏适当分类的数据已经损害了有色人种社区。 COVID-19 大流行引起了人们对实时分类数据的需求的更多关注和早该关注。1 因此，越来越多的数据科学家和研究人员，比如我们自己，正在关注数据分解（Markle Foundation 2021）。随着这种做法的发展，2我们认为，它应该伴随着对与应用不同方法策略相关的伦理风险进行强有力的讨论，该策略的重点是使用插补来更好地理解种族和民族信息在很大程度上缺失或缺失的数据中的种族和民族差异。为此，我们通过我们对该领域的经验和采访以及一个案例研究（Stern 和 Narayanan 2021）制定了一套针对数据分析师和数据消费者的建议和标准，这些建议和标准围绕如何以道德和民族的方式估算种族和民族信息。同理心。这项工作是由种族平等分析实验室领导的项目的一部分, 它旨在为当今的变革推动者提供数据和分析，以推进有助于纠正持续存在的结构性种族主义的社会和经济政策。我们相信，更深思熟虑、具有种族意识的政策和实践已经 2E TH I C SAND E M P A T H Y I N U S I N G I M P U TA T I ON T O D I S A G R E G A TE D A T A为黑人、拉丁裔、美洲原住民、亚裔美国人、太平洋岛民和其他社区创造机会和繁荣的新途径的能力，以及及时、可靠的数据对于设计具有种族意识的解决方案以及控制决策者和机构对使压迫性制度长期存在的选择负责。本报告有四个主要部分。第一个概述了插补，为什么它是分类数据和具有种族意识的政策制定的重要且必要的工具，以及如何以道德和同理心来处理它。第二部分探讨了研究人员、政府官员、社区领袖和其他利益相关者在考虑和应用按种族和民族分类的估算数据时应该提出的几个关键问题。这些问题涉及谁应该参与，插补是否以及何时是分解数据和收集有关种族和民族的更详细信息的正确方法，以及如何在更明确地关注伦理应用的情况下进行分类插补。第三部分考虑如何确定插补是否是正确的分解方法，第四部分根据我们从景观扫描和案例研究中吸取的教训概述了该领域的建议和标准。最后，尽管本报告侧重于使用插补来更好地理解种族和民族的差异，但这里的经验教训可以更广泛地应用于其他领域，因为性别、年龄、残疾和其他特征的可见度或分类有限。什么是插补以及如何通过道德和同理心来处理它？在统计领域，插补长期以来一直用于填补数据集中缺失的信息（Rubin 1996）。为了避免产生可能产生无效、不准确结果的统计偏差估计，研究人员可以使用不同的方法来解决缺失数据，方法是在某些条件下完全删除数据，或者使用插补作为一种方法来开发合理的近似值来填充缺失的信息数据（Donders 等人，2006 年）。尽管在整个统计和数据科学中使用了一系列特定的方法（例如，单一与多重插补、热甲板与分类和回归树），但它们涉及相同的总体方法：在数据集或样本中获取有信心和相对完整性观察到的信息人口，并使用这些数据来推断数据中看起来相似但缺少一些关键信息的其他人或单位。 E TH I C SAND E M P A T H Y I N U S I N G I M P U TA T I ON T O D I S A G R E G A TE D A T A3使用插补分解数据尽管插补主要用于为数据集中的不完整变量填充数据，但它也可用于整合或附加数据集，甚至创建新变量——如种族和民族。例如，为了产生一组估计一个人可能的种族或民族的概率，兰德公司领导的一个团队设计了一种称为贝叶斯改进姓氏地理编码的方法，并从人口普查（Elliott 等人 2009；Fremont 等人 2016）。3插补是解决缺失数据或添加新变量（例如种族和民族）的一种相对有效的方法。对于如此重要的识别特征，拥有完整的自我报告信息是黄金标准，收集新数据以在信息缺失或不存在时获取该信息将是理想的。但是，由于财务成本或时间限制以及为积极的政策辩论或拟议立法提供信息的紧迫性，收集新数据通常不切实际。在某些情况下，收集或获取有关种族和民族的数据面临着更高的障碍，这可能是由于长期存在的制度化做法（例如，种族未在 IRS/税收数据中收集），或者是由于有效的法律或监管障碍而无法获取这些数据。信息（例如，未在信用数据中收集的种族）。鉴于研究人员经常使用他们既没有收集也没有完全控制的二级和管理数据源，插补、数据集成和匹配实践更普遍地可能不仅是最快和最具成本效益的选择，而且是识别和了解数据中潜在的种族和民族差异。可以提供有关差异的存在和复杂性或通知政策的重要见解的数据集可能不包含有关种族的信息。鉴于种族和族裔以及许多政策领域的结果之间的关系，有人可能会争辩说，即使在最初没有包含在表格或问卷中的种族和族裔变量的数据集中，关于种族和族裔的信息也是“缺失”的。诸如贝叶斯改进姓氏地理编码和填充缺失信息的多重插补等插补方法是强大的工具，可用于提供对种族和民族识别信息不完整或完全不存在的关键数据源的访问。联邦政府和其他机构的研究人员已成功应用此类方法，包括收集有关 COVID-19 的数据。（Anson-Dwamena、Pattah 和 Crow 2020；CFPB 2014；Fremont 等人 2016）。当准确和合乎道德地应用时，这些方法和它们提供的数据可以帮助研究人员、政策制定者和倡导者更好地了解种族和民族差异的深度，并制定政策和实践来解决这些问题。然而，重要的是，这些统计和数据科学技术涉及风险，尽管文献普遍讨论了高级数据分析方法中的伦理问题以及算法应用程序更多 4E TH I C SAND E M P A T H Y I N U S I N G I M P U TA T I ON T O D I S A G R E G A TE D A T A特别是（AECF 2020；Lee、Resnick 和 Barton 2019），它在使用和应用估算的种族和族裔数据进行政策应用时提供的解决这些问题的指导要少得多。以道德和同理心对待归责道德归责需要权衡在现有数据中添加新信息的风险和收益，并与相关社区合作，考虑应用这些数据可能对身份在数据中更具代表性和更明显的群体和个人造成的危害。需要明确的是，在讨论伦理插补时，我们并不是要暗示那些使用插补来改进或整合种族和民族信息的研究人员没有权衡他们工作的伦理影响。确实，很多人都有。相反，我们认为所有使用插补来开发变量来分析基于群体的差异的研究人员都应该考虑其伦理影响以及将参与和问责作为数据准备和方法严谨性作为其工作的核心的必要性。我们强调的两件事是需要解决可能对人们和社区造成的伤害，以及需要对他们的担忧产生同理心。研究人员、数据科学家和政府官员越来越多地识别和整合与数据集成工作和工具以及更广泛地实现数据公平的尝试相关的一组关键潜在风险（详见下文）。围绕数据集成和数据分析的伦理问题主要涉及以下方面（这些风险在有关数据匹配和集成的文献中也经常提到）：通过使用不适当的输入数据和/或方法来歪曲社区将数据用于伤害有色人种的目的侵犯隐私和重新识别的风险，特别是对于较小或较少数据可见的人群（例如美洲原住民）不考虑或不提供知情同意将有色人种和社区排除在其数据所有权以及研究过程和方法的决策之外用于生成或附加种族和民族标识符的复杂方法（例如机器学习和数据链接和集成）共享许多这些更广泛的挑战，但也带来了明显的风险。尽管研究危害和减轻危害的方法的工作主体 E TH I C SAND E M P A T H Y I N U S I N G I M P U TA T I ON T O D I S A G R E G A TE D A T A5算法和大数据总体上正在增长，4它缺乏对数据科学家、统计学家和研究人员在使用插补、匹配或相关方法来填补缺失的种族和民族数据时遇到的道德风险领域的具体指导（AECF 2020；Hawn Nelson、Jenkins、Zanti、Katz 和 Berkowitz 等） al. 2020）。在我们试图强调归责的伦理检查点的研究中（Randall、Stern 和 Su 2021），我们发现文献和该领域缺乏关于如何解决以下问题的实用指导：鉴于估算数据是估计数据，而不是直接观察到的或第一人称报告的数据，结果不准确的可能性增加平衡准确性与用例估算的适用性难以让人们解释方法和分析过程的复杂性没有审查委员会的机构之外的研究人员和数据科学家缺乏问责结构（可以在没有检查点或数据使用协议的情况下使用二手数据进行估算）在尝试对要代表的人表达同理心时，在使用插补的含义方面，该领域也存在差距。插补的目的是填补数据空白。如果插补被用来更好地理解种族分布或差异（不仅仅是填补缺失的数据），那么研究人员或分析师如何考虑谁在寻找填补这些数据空白？他们如何让这些人参与进来，并将他们的兴趣和目标纳入分析过程？除了更常见的道德风险（例如，侵犯隐私），社区领袖、倡导者和一部分研究人员还呼吁增加和更深思熟虑的社区参与和社区影响力，其中一些人呼吁社区对数据和整个研究过程（Milner 和 Traub 2021）。研究人员更多地使用社区参与的方法，让社区成员直接参与研究问题和用例的开发，并在定量分析师和社区代表之间提供定期检查点，以讨论进展并在必要时改进流程。在社区参与的方法中，参与和授权的社区成员帮助解释结果并决定适当的应用程序。4依赖定量方法的研究人员，特别是那些使用二手数据源的研究人员，可以完成他们的分析并

点击免费查看完整报告