您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ITIF]:批评者错了:NIST数据显示,最好的面部识别算法既不是种族主义也不是性别歧视。 - 发现报告
当前位置:首页/行业研究/报告详情/

批评者错了:NIST数据显示,最好的面部识别算法既不是种族主义也不是性别歧视。

信息技术2020-01-27ITIF港***
批评者错了:NIST数据显示,最好的面部识别算法既不是种族主义也不是性别歧视。

批评者是错的:NIST数据展示了最好的面部识别算法既不是种族主义和性别歧视作者:迈克尔·麦克劳克林和丹尼尔·卡斯特罗 |2020年1月仔细研究NIST新报告的数据,发现最好的面部识别算法世界是高度准确的,并且在错误率方面差异很小不同人口群体的阳性或假阴性读数。介绍美国国家标准与技术研究院(NIST)最近发布了一份报告,检查了不同人口群体中面部识别算法的准确性。这NIST报告发现,最准确的算法在所有人口统计中都非常准确组。但NIST测试了来自全球供应商和实验室的近200种算法允许任何人提交算法进行测试 - 并且由于它测试的许多算法表现出一些偏见,一些新闻媒体和活动家误导性地得出结论 面部识别系统是种族主义和性别歧视的帽子。1 但仔细观察数据会发现情况有所不同。面部识别技术比较人脸图像以确定它们的相似性,从而技术表示使用相似性分数。该技术通常执行以下两种类型的一种比较。第一个比较称为一对多或识别搜索,其中该技术使用探测图像搜索图像数据库以查找潜在的匹配项。这第二次比较被称为一对一或验证搜索,因为技术比较两个图像来确定其中人脸的相似性。在许多情况下,图像中的人脸如果相似度分数达到或超过匹配阈值,则被视为匹配,这是一个数字运算符分配表示可接受的最小相似性分数。该技术具有许多商业和非商业用途,并可能集成到更多的产品和未来增强安全性、提高便利性、提高效率的服务,如帮助寻找人口贩运受害者,加快乘客通过机场安检的速度,以及萎靡不振的个人使用伪造的身份证明。2NIST使用四种类型的算法评估了算法的假阳性和假阴性率图片,包括面部照片,申请移民的个人的申请照片福利、签证照片和进入美国的旅行者拍摄的照片。美国国家情报研究院的报告显示:信息技术与创新基金会 |2020年1月第1页 ▪ 最准确的识别算法在两者之间具有“无法检测”的差异人口群体3▪ 最准确的验证算法具有低误报和低漏报在大多数人群4▪ 对于不同的人口统计数据,算法可以有不同的错误率,但仍然很高准确的重要发现如下所述,NIST发现最准确的算法 - 这应该是唯一的政府系统中使用的算法没有显示出明显的人口偏见。为例如,17 种性能最高的验证算法具有相似的准确性水平黑人女性和白人男性:黑人女性的假阴性率为0.49%或更低(相当于错误率低于1/200)和白人男性的0.85%或更低(相当于 200 中的错误率小于 1.7)。5虽然最准确的算法没有显示出明显的人口统计学偏见,但它也是事实。NIST测试的大多数算法通常在男性和肤色较浅的人。然而,重要的是要认识到有一个明显的最佳和最差算法之间的差异。与假阴性率相比在性能最高的算法中,黑人女性和白人男性不到1%性能最低的算法的假阴性率高达99百分比。6 考虑到NIST允许任何人提交算法进行测试,从拥有生产系统的大公司到小型公司算法尚未离开实验室的研究小组 - 即使算法是经过测试的未纳入市售产品中。最准确的识别算法在两者之间具有无法检测到的差异人口统计资料NIST发现一些高度准确的算法具有假阳性的人口统计学差异它们是如此之小,以至于对于一对多搜索来说是“无法检测到的”。7 此外,对于大多数算法中,黑人男性的假阴性率低于白人男性,其中有几个是最高的算法对白人女性的假阴性率高于白人男性。8一些算法还提供了跨人口统计群体的统一相似性分数,这意味着算法提供相似的匹配和非匹配分数,不分种族和性别。9 统一的分数表明如果运营商应用,这些算法将具有较小的人口统计差异阈值。但不同的阈值会影响人口差异。例如,至少六种最准确的识别算法对黑人男性的假阳性率更高在一个阈值上比白人男性低,但黑人男性的假阳性率低于白人男性另一个阈值。10最准确的验证算法具有低误报和误报在大多数人口最准确的验证算法在大多数情况下具有较低的误报和误报人口。例如,当NIST应用阈值以使算法具有错误白人男性的阳性率为0.01%,超过17种最准确算法的一半以上信息技术与创新基金会 |2020年1月第二页 黑人男性、亚洲男性和白人的假阳性率为 0.03% 或更高女性。11 这相当于算法错误地匹配这些个体三次或更少每 10,000 次与冒名顶替者进行比较,而白人每 10,000 次比较中就有一次男性。在另一个阈值上,七个顶级算法显示白人男性、黑人男性、亚洲男性和白人女性。12 在这个阈值,一些算法黑人女性或亚裔女性的假阳性率为 0.003% 或更低,而白人女性的假阳性率更低男性假阳性的几率0.001%。13对于最准确的验证算法,假阴性也很低。17 个中的 5 个准确的算法在所有人口统计中的假阴性率不到百分之一当NIST应用将假阳性率设置为0.01%的阈值时组。14 同样的,最好的验证算法在各国的假阴性率不到百分之一和人口群体。例如,Visionlabs-007算法低于1%。几乎所有国家和人口群体的过境假阴性率应用程序图像。有两个例外——45岁以下的索马里和利比里亚妇女。尽管如此,该算法对这些组中每个组的假阴性率低于1.4%。对于不同的人口统计数据,算法可以有不同的错误率,但仍然是高度准确与另一组相比,某些算法在一组上的表现不同,但仍然保持正确所有种族和性别的阳性和真阴性准确率均高于 99%。15因为这些算法的错误率非常低,所以绝对差异很小如果用相对术语表示,可能看起来很大。例如,荷兰公司的算法VisionLabs,Visionlabs-007,其国籍的假阴性率高出四倍在(索马里人)上表现最差,而不是在国籍(萨尔瓦多人)上表现最差。16尽管如此,该算法对来自索马里。另一个例子是来自Camvi的验证算法的性能差异,一个总部位于硅谷的公司,为白人男性和美洲印第安女性提供服务。在一个特定的阈值,该算法的假阳性率是美洲印第安人的 13 倍比白人女性。17 但在这个阈值下,该算法几乎没有一个以上的错误。每 10,000 次冒名顶替者与其他美国人进行比较的美洲印第安女性匹配印度女性。同样,大多数验证算法的假阴性率更高女人比男人。但NIST指出,这“是一种边际效应——也许98%的女性。仍然经过正确验证,因此效果仅限于不到 2% 的比较算法验证失败。”NIST的数据上下文最近关于圣地亚哥执法部门如何使用面部识别的报道 2012-2019还可以帮助将NIST的数据置于上下文中。2018年,各执法实体对包含 180 万张面部照片的数据库进行了 25,102 次查询。18 执法人员使用的技术包括试图确定一个人是否有犯罪记录并试图发现缺乏身份识别的个人的身份。这些用例可能是一对多搜索。执法部门没有跟踪该计划的成功,不清楚系统注册了多少误报或漏报,以及有多少次有配或非交配的搜索——在搜索中,个体的图像不是在圣地亚哥的数据库执行。信息技术与创新基金会 |2020年1月第3页 但是我们可以考虑一些场景来粗略估计如何最准确算法可能会在圣地亚哥这样的城市执行,假设圣地亚哥的图像和硬件NIST的类似的质量。19 在第一种情况下,我们假设所有 25,102 个探测器执法部门使用的图像在 180 万张面部照片的数据库中有匹配(一个不太可能发生的事件),并且执法部门没有应用阈值来限制误报或负面(也不太可能)。NEC-2,NIST在2019年初测试的最佳识别算法报告,未能将正确的候选人列为最有可能匹配的候选人,只有 0.12% 的搜索包含 300 万个个人图像的数据库时的时间。20 在这率,该技术将成功地在圣地亚哥列出正确的个人在 25,000 次搜索中,搜索作为最有可能匹配的 24,970 次,失败 30 次。在第二种情况下,让我们假设执法部门应用了一个阈值,允许一个每 1,000 次非伴侣搜索误报。在这个速率下,NEC-3的假阴性率0.26%。我们还假设在 25,000 多个探测图像中,有一半在数据库和那一半不匹配。在这种情况下,算法将具有记录了 13 个误报和 33 个假阴性。结论面部识别技术的开发人员和用户、执法部门和立法者可以采取促进面部识别技术的开发和负责任使用的几项行动。首先,开发人员应继续提高不同人群的准确率,包括多样化他们的数据集。21 其次,政府应该制定标准它部署的系统的准确性。第三,执法要有标准它在面部识别搜索中使用的图像质量,这可能会影响面部的准确性识别算法。22 四、人脸识别技术的用户要谨慎选择适合其目标的匹配阈值。最后,立法者应考虑执法部门通常如何使用该技术以及误报的不同含义以及制定法规时的假阴性。在大多数执法场景中,法律执法部门正在使用面部识别技术返回可能的嫌疑人名单人类审查。当算法产生误报或误报时,会产生不同的影响假阴性。在许多情况下,受试者可以在面部识别时进行第二次尝试识别识别系统产生假阴性。这种含义不同于误报,可能允许个人访问他们不应进入的设施。最后,虽然社会中没有种族、性别或其他类型的歧视的容身之地,但禁止面部识别,除非它在每个可以想象的组中执行完全相同的操作是不切实际,会限制对社会有价值的技术的使用。许多面部批评者识别技术抱怨技术不够准确,却拒绝给予具体说明他们认为什么足够——拒绝为行业设定明确的目标——这表明他们并不认真想要改进技术并反对它其他的原因。理性的人可能不同意何时适合使用面部识别,但事实很明显,该技术可以高度准确。正如之前的NIST报告所显示的那样,许多的算法准确率超过 99%,正如新报告所示,对于最佳算法来说,人口统计数据之间的差异很小。23信息技术与创新基金会 |2020年1月第4页 关于作者Michael McLaughlin是信息技术与创新的研究分析师基础。他研究和撰写与信息技术相关的各种问题以及互联网政策,包括数字平台、电子政务和人工智能。迈克尔毕业于维克森林大学,主修未成年人沟通政治、国际事务和新闻。他在以下机构获得了传播学硕士学位斯坦福大学,专攻数据新闻。丹尼尔·卡斯特罗是ITIF副总裁兼ITIF数据创新中心主任。他研究兴趣包括健康IT,数据隐私,电子商务,电子政务,电子投票,信息安全和可访问性。在加入ITIF之前,卡斯特罗曾在政府问责办公室,负责审计 IT 安全和管理控制各种政府机构。他拥有乔治城大学的外交服务学士学位和卡内基梅隆大学信息安全技术与管理硕士。关于ITIF信息技术与创新基金会(ITIF)是一个非营利性、无党派的专注于技术创新和交叉的研究和教育机构公共政策。被公认为世界领先的科技智库,ITIF的使命是制定和推广政策解决方案,加速创新和促进生产力刺激增长、机会和进步。欲了解更多信息,请访问www.itif.org。信息技术与创新基金会 |2020年1月第5页 尾注1.汤姆·希金斯“'种族主义和性别歧视'面部识别摄像头可能导致虚假逮捕,”《每日电讯报》,2019年12月20日,https://www.telegraph.co.uk/technology/2019/12/20/racist-sexist-facial-recognition-cameras-could-lead-false-arrests。2.汤姆·西蒙尼特,“面部识别如何打击儿童性贩运”,《连线》,6月19日,2019, https://www.wired.com/story/how-facial-recognition-fighting-child--trafficking/;“人脸识别在美国机场抓捕假护照用户”,美国之音新闻,2018年8月24日,https://www.voanews.com/silicon-valley-technology/face-recognition-nabs-fake-passport-user-us-airport。3.我们将最准确的识别算法定义为具有 20 种算法将正确的个人置于第一级的最低假阴性识别率在 NIST 的 9 月份搜索包含 1200 万人图像的数据库时2019年鉴定报告。NIST提供了十个按种族和性别划分的错误特征数据在其最近的报告中。因此,我们分析了NEC-2, NEC-3, 视觉实验室-7, 微软-5, 依图-5, 微软-0, Cogent-3, ISystems-3,神经技术-5和NTechLab-6;帕特里克·格罗瑟、梅颜和凯伊