您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[城市研究所]:使用插补来分解种族平等数据的伦理和同理心,一个插补信用局数据的案例研究 - 发现报告
当前位置:首页/行业研究/报告详情/

使用插补来分解种族平等数据的伦理和同理心,一个插补信用局数据的案例研究

使用插补来分解种族平等数据的伦理和同理心,一个插补信用局数据的案例研究

研究报告使用插补来分解种族平等数据的伦理和同理心估算信用局数据的案例研究阿莱娜·斯特恩 Ajjit Narayanan与 Steven Brown、Graham MacDonald、LesLeigh Ford 和 Shena Ashley 一起 2021 年 7 月种族平等 AL YT I CS 实验室 关于城市学院非营利性城市研究所是一家领先的研究机构,致力于开发基于证据的见解,以改善人们的生活并加强社区。 50 年来,Urban 一直是对复杂的社会和经济问题进行严格分析的可靠来源;为政策制定者、慈善家和从业者提供战略建议;以及为所有人扩大机会的新的、有前途的想法。我们的工作激发了有效的决策,促进了公平并提高了人们和地方的福祉。版权所有 © 2021 年 7 月。城市研究所。允许复制此文件,归属于城市研究所。蒂姆·梅科的封面图片。 内容独立声明 43 A CK N OW L E D GM E N TS致谢本报告由罗伯特伍德约翰逊基金会资助。我们感谢他们和我们所有的资助者,他们使 Urban 能够推进其使命。所表达的观点是作者的观点,不应归因于城市研究所、其受托人或其资助者。资助者不决定研究结果或城市专家的见解和建议。有关城市研究所资助原则的更多信息,请访问 urban.org/fundingprinciples。作者要感谢 Megan Randall 出色的项目管理; Jahnavi Jagannath、Jacqueline Rayfield 和 Yipeng Su 对 Ethics and Empathy 项目的贡献; Graham MacDonald 和 Aaron Williams 对开发插补方法的重大贡献; Graham MacDonald、LesLeigh Ford 和 Steven Brown 为本报告草稿提供了宝贵的反馈; Aaron Williams 和 Chris Davis 提供了出色的代码审查; Claire McKay Bowen、Rob Santos 和 Breno Braga 就插补方法提供反馈; Allison Feldman 用于创建方法可视化; Wes Jenkins 和 Zach VeShancey 提供了出色的编辑。四 使用插补来分解种族平等数据的伦理和同理心按种族和民族分类数据是揭示种族特权和压迫制度的关键方法。1 正如奥斯汀市首席股权官 Brion Oaks 告诉城市研究所的那样,“只有当城市可以分割数据时,我们才能看到真正发生的事情。聚合可以掩盖现实。”2但许多高价值数据集并不收集或报告种族和民族信息。例如,信用局数据中缺少此类信息,这阻碍了检查信用评分如何影响种族住房所有权差距以及挑战在招聘中使用信用筛选的努力。3插补是一个强大的工具,通过将种族和民族标识符附加到缺乏该信息的数据集上来分解数据。尽管未能按种族和民族分类数据可能会对黑人、原住民和其他有色人种造成相当大的伤害,但使用插补填补数据空白的努力可能会带来相同甚至更大的伤害,尤其是在没有主动关注的情况下公平。本报告描述了我们从一个案例研究中吸取的经验教训,在该案例研究中,我们主动将种族和民族归咎于具有全国代表性的征信机构数据样本中的公平性。我们围绕三个“道德检查点”组织这些课程,在这些检查点我们检查我们的源数据集、我们的插补方法,以及由此产生的种族和民族插补,以发现潜在的种族偏见和不准确。在每个检查点,我们都会分享我们如何尽可能减轻偏见,并透明地传达任何无法减轻的偏见;我们还讨论了如何确定未缓解的风险何时高得无法接受,因此需要终止估算数据的生产或使用。尽管本报告侧重于如何实施这些道德检查点,但同样重要的是参与该过程的研究人员以及让团队对检查点结果负责的制度结构。对于研究人员而言,从研究过程的一开始就与受影响的社区合作并在每个检查点与他们合作以识别潜在风险并权衡这些风险与分类数据对其社区的潜在好处是至关重要的。此外,从一开始,研究人员应建立制度结构,例如社区咨询委员会,赋予社区成员影响估算过程的权力,并让研究人员对遵循伦理检查点的结果负责。在开始任何插补过程之前,我们建议 2U S I N G I M PUT A T I ON T O D I S A G RE GA T E D A TA FOR RA CI A L E QU I T Y研究人员查阅我们的道德和同理心标准指南,以获取有关创建多元化团队和问责结构的指导,以确保本报告中概述的道德检查点产生公平的结果。背景虽然插补可用于多种情况——例如,在已经提供此信息的数据集中插补缺失的种族和民族值——但我们专注于使用插补在缺乏种族和种族信息的数据集上生成全新的种族和民族变量。种族。在行政数据中估算种族和民族的最广泛使用的方法是贝叶斯改进姓氏地理编码,这是兰德公司为美国卫生与公众服务部开发的,也被平等机会就业委员会和消费者金融保护局使用(CFPB)。涉及此工具的最新方法 Medicare 贝叶斯改进姓氏地理编码 2.0 在校准的贝叶斯框架(多项逻辑回归模型)中结合了基于地址的姓名、行政数据和人口普查数据,以估计每个记录的种族和民族的概率。数据集。多重插补,涉及创建插补种族和民族变量的多个副本或暗示,是许多公共数据产品中使用的另一种标准程序,例如 SIPP 综合测试版、全国儿童健康调查和消费者调查财务(SCF)。多重插补允许研究人员在评估结果的稳健性时分析由输入数据源的不确定性和插补过程导致的变化。方法我们使用多重插补将组合的种族和民族变量添加到来自主要信用局的 2013 年数据集,该数据集代表 2% 的美国有信用记录的成年人随机样本。首先,我们使用人口普查局 2011-2015 年五年美国社区调查 (ACS) 估计,根据他们报告的邮政编码和年龄,计算信用数据中每个人属于每个种族/族裔群体的概率,利用贝叶斯改进姓氏地理编码方法的地理空间插补组件。有了这些概率,我们随机分配了一个种族/民族组值。然后,我们多次重复整个插补过程,以产生分配的种族/民族变量的多个副本或暗示。我们的方法考虑了 ACS 人口计数估计的不确定性以及基于一组概率随机分配种族/民族值的固有不确定性。这个过程的具体步骤在图 1 中进行了概述,我们的方法的详细说明可以在附录 A 中找到。 U S I N G I M PUT A T I ON T O D I S A G G RE GA T E D A TA F OR RA CI A L E QU I T Y3图1我们如何将种族和民族归入信用局数据资源:城市研究团队;由艾莉森·费尔德曼设计的视觉效果。城市学院 4U S I N G I M PUT A T I ON T O D I S A G RE GA T E D A TA FOR RA CI A L E QU I T Y道德归责检查点我们概述了我们在数据插补过程之前、期间和之后使用的三个检查点。我们使用这些检查点来识别和解决我们的方法可能引入偏见的领域,并评估由此产生的种族/民族变量是否适合用于公平分析。这些检查点和我们讨论的风险并不是插补所独有的;鉴于数据不完善和分析选择受限的现实,任何数据分析都不可避免地存在一定程度的偏差。在没有分类数据的情况下做出的政策决定也容易产生相当大的偏见,因此往往会伤害有色人种社区和其他历史上被边缘化的群体,他们的现实被汇总所掩盖。在决定是否继续或终止插补过程时,研究人员应权衡任何未缓解偏差的潜在危害与未插补分类数据的潜在危害。我们在本报告中的目的不是阻止估算种族和民族数据的潜在生产者和用户,而是为他们提供工具,以识别潜在的偏见来源,尽可能减轻偏见,并透明地传达任何剩余的偏见如何限制道德使用结果数据。检查点 1:在插补之前,审核输入数据的偏差数据伦理倡导者已经提供了大量证据,证明数据分析有可能对输入数据源中存在的种族偏见进行编码。由于输入数据和分析输出(在我们的例子中是估算的种族/民族变量)之间的转换层,这种风险在机器学习或插补等复杂方法中更难检测到。因此,当收集数据集在插补之前,我们审核了以下每个输入数据源的偏差:信用局数据:2013 年美国所有有信用记录的人的 2% 随机样本,由主要信用局提供。我们使用一个人的邮政编码(或缺少邮政编码时的县)和年龄变量进行插补。美国社区调查数据:42011-2015 五年 ACS 按种族/族裔和地理年龄划分的人口数量估计。5消费者金融保护局信用隐形数据:来自 CFPB 的数据,关于美国按种族和年龄划分的没有信用记录的人(即“信用隐形人”)的百分比(Brevoort、Grimm 和 Kambara 2015)。 U S I N G I M PUT A T I ON T O D I S A G G RE GA T E D A TA F OR RA CI A L E QU I T Y5我们使用以下三个问题检查了每个数据集的潜在偏差。数据集是否准确地代表了它旨在测量的潜在人群?结构性种族主义如何导致不具代表性?潜在偏差的一个来源是感兴趣人群的某些子组在给定数据集中的代表性可能过高或过低。而且,在许多情况下,结构性种族主义可能会导致数据在系统上无法代表有色人种社区。例如,对有色人种社区的过度监管可能会导致逮捕数据过多地代表这些社区,而不是准确地代表潜在人群中犯罪的真实流行率。我们审查了每个数据集的文档和方法,并与每个数据集的专家用户讨论了潜在的偏见。我们得出的结论是,在我们的每个数据集中,涉及过度代表性和代表性不足的偏见不太可能是一个重要问题。尽管在十年一次的人口普查中低估有色人种社区是一个已知问题,但人口普查局采取了广泛的措施来减轻不答复的潜在影响并保持 ACS 的代表性,使其成为人口统计估计的记录数据源。我们使用的征信机构数据是具有全国代表性的 2% 成人随机样本,其信用记录由全国主要征信机构提供。 CFPB 数据比较了 ACS 中的人口数量和来自主要信用局的 CFPB 代表性样本,以计算按年龄组和种族/民族细分的信用不可见的全国人口百分比。尽管我们确定这些数据集都具有足够的代表性,但重要的是要承认结构性种族主义会影响人们获得信贷的机会,并导致有色人种的信贷不可见率更高,6从而固有地限制了信用记录在了解有色人种社区财务状况方面的有用性。不具代表性的另一个维度是用于插补的数据集是否准确地反映了数据中所代表的人们的生活经历。例如,我们承认 ACS 数据中可用的种族/族裔类别(我们因此将其用作我们的种族/族裔类别进行估算)可能无法准确反映信用局数据中代表的人们自我识别的方式,并且可能隐藏组内的重要差异。7虽然我们不能缓解由于 ACS 数据的限制,这种不具代表性,我们可以记录和交流潜在数据用户的这种担忧。插补中使用的所有数据集是否代表相同的人群?即使所有输入数据集都完美地代表了它们的目标人群,如果目标人群在数据集之间存在差异,则插补可能不太准确。在我们的案例研究中,我们采取了几个步骤来调整 6U S I N G I M PUT A T I ON T O D I S A G RE GA T E D A TA FOR RA CI A L E QU I T Y我们的输入数据集的人口。首先,在征信机构数据中,我们必须排除 ACS 数据中未包含的来自美国领土的 4,302 条记录。8其次,我们发现 ACS 数据衡量的是美国成年人的总人口,而信用局数据衡量的是成年人的人口有信用记录.这些人群之间的差异因种族和民族而异:CFPB 关于信用隐形的数据显示,9.4% 的白人成年人是信用隐形的,相比之下,14.8% 的黑人成年人和 15.8% 的西班牙裔成年人是信用隐形的。我们使用种族/民族和年龄的 CFPB 数据来调整 ACS 人口计数,以反映具有信用记录的人口(我们在下面的检查点 2 中进一步讨论)。如果没有这个缓解步骤,我们可能会在估算的种族/民族变量中过多地代表黑人和西班牙裔群体,尽管这个步骤有我们努力透明的限制交流以下。我们还考虑使用 2013 年消费者财务调查中的估算值,即在全国范围内按种族和民族划分的学生债务、车辆债务和其他分期付款债务的家庭比例,