您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[布鲁金斯学会]:确定基于机器学习的自动招聘中人类评分员的系统差异(英) - 发现报告
当前位置:首页/行业研究/报告详情/

确定基于机器学习的自动招聘中人类评分员的系统差异(英)

确定基于机器学习的自动招聘中人类评分员的系统差异(英)

本工作文件可在线获取:https://www.brookings.edu/center/center-on-regulation-and-markets/2022 年 6 月工作文件确定基于机器学习的自动招聘的人类评分者的系统差异Mike H. M. Teodorescu、Nailya Ordabayeva、Marios Kokkodis、Abhishek Unnam 和 Varun Aggarwal布鲁金斯学会监管和市场中心创建并促进严格的经济学术研究,为监管政策制定、监管过程以及经济市场的有效和公平运作提供信息。该中心提供独立的、无党派的监管政策研究,广泛应用于微观经济领域。 披露提供数据访问权限的组织 Aspiring Minds(2020 年被 SHL 收购)有机会审阅了这份工作文件的内容。 Varun Aggarwal 是 SHL 的首席人工智能官。除上述内容外,作者没有从任何公司或个人那里获得对本文的财务支持,也没有从任何对本文具有经济或政治利益的公司或个人那里获得资金支持。除上述内容外,作者目前不是与本文有经济或政治利益的任何组织的官员、董事或董事会成员。 确定基于机器学习的自动招聘的人类评分者的系统差异1迈克·H·M·特奥多雷斯库波士顿学院卡罗尔管理学院,马萨诸塞州栗山 02467,mike.teodorescu@bc.edu奈利亚·奥尔达巴耶娃卡罗尔管理学院,波士顿学院,马萨诸塞州栗山 02467, ordabaye@bc.edu马里奥斯·科科迪斯波士顿学院卡罗尔管理学院,马萨诸塞州栗山 02467,kokkodis@bc.edu阿布舍克·乌南Aspiring Minds,一家 SHL 公司,印度古尔冈,abhishek.unnam@aspiringminds.com瓦伦·阿加瓦尔Aspiring Minds,一家 SHL 公司,印度古尔冈,varun@aspiringminds.com抽象的公司通常利用自然语言处理与其他机器学习 (ML) 工具相结合,通过基于预先编码的技能数据库的自动简历分类来评估潜在员工。然而,通过编码对候选人群体的无意偏见,自动化的热潮可能会适得其反。我们对来自两个不同国家的人类评估员进行了两项实验,以确定文化差异如何影响招聘决策。我们使用由一家为财富 500 强公司进行招聘评估的国际技能测试公司提供的招聘材料。该公司使用机器学习进行基于视频的面试评估,根据口头和视觉提示自动对求职者进行评分。我们的研究有三个目标:将视频访谈的自动评估与人类评分者对相同访谈的评估进行比较,以评估它们之间的差异;检查人类评分者的哪些特征可能导致他们的评估出现系统性差异;并提出一种使用自动化来纠正人工评估的方法。我们发现人类评分者之间可能存在系统性差异,如果在训练时进行测量,其中一些差异可以通过 ML 工具来解释。1 人工智能和新兴技术的经济和监管系列监管和市场系列 特奥多雷斯库、奥尔达巴耶娃、科科迪斯、乌纳姆、阿加瓦尔:纠正自动招聘算法中的人为偏见21.介绍选人本来就很难(Klazema 2018),因为很难预测候选人在面试观察设置之外的表现——候选人的潜在特征(Kokkodis 2018、Geva 和 Saar-Tsechansky 2016)。简历和推荐信提供了可观察到的特征,例如技能或学位资格(Kokkodis et al.2015,阿比纳夫等人。 2017)。由于日益动态的趋势和自动化的进步,这些观察到的特征是高度异质的,因为新技能现在诞生了,旧技能比以往更快地消亡(Autor et al. 1998, Autor 2001, Kokkodis and Ipeirotis 2016, Institute of Business Value 2019, Kokkodis 和 Ipeirotis 2020)。潜在申请人特征是申请人对所列技能和资格的真实知识和能力(Geva 和 Saar-Tsechansky 2016,Kokkodis 和 Ipeirotis 2020)。总而言之,观察到的资格的异质性与未观察到的申请人素质相结合,创造了一个高度不确定的环境;雇主根据开放要求和评分者特征之间的适合性评估做出招聘决定,其中确定招聘工具培训集的评分者的属性可能不为雇主所知。最近的经济学文献表明,基于品味的歧视可能是招聘偏见的重要原因(Cowgill 和 Tucker 2019)。通过降低搜索成本来促进招聘决策(Pathak 等人。 2010,布林约尔松等人。 2011 年,Fleder 和 Hosanagar 2009 年)为了提高招聘结果,许多组织投资于先进的机器学习算法。 自然语言处理算法通过自动简历分类评估潜在员工(Bollinger et al. 2012, Cowgill 2020) 基于预先编码的技能数据库 (Nadkarni 2001, Lai et al. 2016)。 然后,人类决策者使用这些机器评估来有效地过滤和识别每个开口的最佳候选者(Kokkodis 等人。 2015,阿比纳夫等人。 2017 年,霍顿 2017 年)。 尽管此类算法成功地降低了搜索成本并提高了招聘效率,但它们通常会通过编码对候选人群体的无意偏见而适得其反。 例如,亚马逊招聘工具歧视女性求职者(Dastin 2018),而施乐招聘算法歧视社会经济地位较低的求职者(O'Neil 2016)。 尽管有大量关于算法公平性的文献(Kusner et al. 2017,卡恩斯等人。 2017,陈等人。 2019)和机器学习的整体公平性(FATML 2019),人为偏见传递到训练数据中仍然是机器学习中的一个问题,并且在面试中主观素质很重要的招聘中尤其相关(Mann and O'Neil 2016)。通过推荐招聘仍然是一种有价值的工具,因为现有员工推荐的候选人通常表现更好,并且在被录用后离开公司的可能性较小。 特奥多雷斯库、奥尔达巴耶娃、科科迪斯、乌纳姆、阿加瓦尔:纠正自动招聘算法中的人为偏见3(Burks 等人,2015 年)。公平标准,例如人口平等、分类准确性平等、机会均等、机会均等等(机器学习文献中有 20 多个公平标准,但尚未就每种情况下应使用哪些标准达成共识——参见 Mehrabi 等人. 2021),通常用于确定算法是否对特定的受保护群体有偏见,例如基于性别、年龄、婚姻状况、残疾状况等(关于受保护属性的文献很多,例如 Hardt等人 2016,Ajunwa 2019,Awwad 等人。2020,特奥多雷斯库等人。 2021)。 不幸的是,在实践中,很难满足受保护属性组合的公平标准(子组公平,参见 Kearns 等人。 2018 年,特奥多雷斯库和姚明,2021 年)。 此外,众所周知,理论上不可能同时满足三个或更多的群体公平标准(不可能定理,Pleiss 等人。 2017 年,乔德乔娃和罗斯 2018 年)。 最近的工作提出了机器学习工具的人机增强作为为数据和任务选择适当公平标准的潜在解决方案(Awwad et al. 2020,特奥多雷斯库等人。 2021),尽管伦理学的相关文献表明,利益相关者对公平的看法,例如本文设置的自动面试系统的申请人,对于采用该工具至关重要,并且在现有文献中尚未得到很好的理解(Tarafdar et人。 2020,莫尔斯等人。 2021)。 鉴于公平标准的所有这些限制,我们建议量化人类评分者的特征如何导致训练数据的系统差异,并尝试在训练机器学习工具之前纠正这些差异,因为事后更正(即。e.,在训练算法之后运行公平标准,以确定算法是否根据特定的受保护属性公平)仅基于公平标准并不总能得出解决方案(Teodorescu 和 Yao 2021)。在 Teodorescu 和 Yao (2021) 中,使用标准预测算法针对几个流行的公平标准分析了一个公开可用的信用数据集,并且在某些受公平标准保护的属性的组合下,没有找到最优值。我们确定训练数据中特定于评分者的系统差异的方法不同于事后应用于机器学习算法的标准公平标准。在测试评分者之间的任何系统差异之前,我们使用公平标准来确定受保护属性类别之间是否存在任何差异,并在我们的实验样本上使用基线神经网络算法。在使用一组针对评分者的问题进行进一步分析后,我们发现训练数据中可能存在系统的评分者特定差异,如果测试 特奥多雷斯库、奥尔达巴耶娃、科科迪斯、乌纳姆、阿加瓦尔:纠正自动招聘算法中的人为偏见4在训练机器学习模型之前适当地进行,如回归模型结果所示。这里的技术也可以在招聘环境之外使用,因为对个人评分者性格属性的调查是基于心理学文献中众所周知的测试中人类偏好的通用问卷,并且可以在评分者之前应用执行分类任务,例如选择雇用谁。为了研究和比较机器学习与人类评估,来自国际技能测试公司的大学研究团队和行业研发团队合作进行了这项研究,将学术研究文献的经验与算法设计和软件工程经验相结合(Aspiring Minds 已合作在本研究中创建一个实验,以确定对训练算法至关重要的评分者的潜在个性特征和个人偏见如何影响候选人的招聘分数。)招聘分数与候选人特征相结合,形成基于机器学习的训练数据自动面试算法。该公司的研究合著者提供了该软件的实验版本,它允许我们关闭某些功能,以便在候选人级别运行受试者间实验1.该公司(Aspiring Minds,SHL 的子公司)专门从事各种技能的招聘评估,包括英语水平、计算机编程技能、客户服务技能等。它代表其签约的大公司对数百万潜在员工进行这些评估。该公司还运行一个基于视频的面试评估平台,该平台根据口头和视觉提示自动对申请人进行评分。在我们的研究中,该公司分享了机器学习评分者的匿名视频和评估值。有人可能会合理地问,在提出招聘建议时,人机评估和机器评估有何不同?为了调查这个问题,我们将机器评估与对同一申请人的人工评估进行比较2.我们进行了两项行为实验(一项针对美国参与者,一项针对在印度招募的参与者),随机分配涉及不同性别和社会经济背景的人类参与者(人类评估者)。实验有两个目标:(1) 确定人对候选人评价的系统性差异,这可能是由面试方式和评价者的个人特征相结合造成的——如果存在这种差异,则表明至少有一些评价者表现出偏见;2 这里的受试者间条件是评分者被随机分配到仅在特定条件下查看候选人,例如仅查看音频、仅文本或仅视频的面试。这种变化以及使用不同的训练集需要该软件的实验版本,该软件由行业合作伙伴 Aspiring Minds 根据与学术团队 PI 的研究谅解备忘录创建。 特奥多雷斯库、奥尔达巴耶娃、科科迪斯、乌纳姆、阿加瓦尔:纠正自动招聘算法中的人为偏见5(2) 探讨此类差异是否会导致人为与机器生成的候选人评估之间的差异,从而可能影响招聘结果。为了解决第一个目标(i。e.,检查面试方式和个人特征的影响),参与者被随机分配到三个主题间条件之一,在这些条件下,他们评估以以下形式呈现的相同候选人面试:(1)没有视觉或音频的文本响应线索(纯文本条件),(2)在没有视觉线索(音频条件)的情况下的口头反应,或(3)视频反应(视频条件,这可能会最大程度地揭示评估者的偏见)。 除了检查访谈方式的影响外,我们还评估了评估者的个人层面特征,这些特征以前与评估中的常见偏见有关。 具体来说,我们管理了经过验证的个体差异量表,这些量表可以揭示求职者评估中的人类偏见。 其中包括:(1) 算术,包括认知反射测试,通常用于评估个人的认知能力和对直觉与审慎思维模式的依赖(Frederick 2005, Peterset al. 2006 年,韦勒等人。 2013); (2) 对情感的信任是一种信息,它可以捕捉个人在判断和决策中对其情感反应的依赖(Avnet 等人。 2012); (3) 最大化与满足倾向,它捕捉到个人以牺牲效率为代价寻求最佳决策的倾向与为获得效率而接受足够好的结果的意愿(Schwartz 等人。2002); (4) 右翼威权主义,它抓住了个人对传统等级制度和权威的认可以及贬低地位低下群体的倾向 (Rattazzi et al. 2007);以及 (5) 爱国主义、文化