您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[赛迪]:建立标准,发现和管控人工智能存在的偏差 - 发现报告
当前位置:首页/其他报告/报告详情/

建立标准,发现和管控人工智能存在的偏差

2022-06-13-赛迪自***
建立标准,发现和管控人工智能存在的偏差

-1-2022年6月13日第23期总第542期建立标准,发现和管控人工智能存在的偏差【译者按】2022年3月,美国国家标准与技术研究所(NIST)发布《建立标准,发现和管控人工智能存在的偏差》报告。报告认为,人工智能中的偏差问题会对个人、组织和社会产生一系列负面影响,需要采取社会技术的系统方法加以应对。报告介绍了人工智能偏差的概念,分析了由此产生的各类危害与挑战,并建议从数据集、测试评估验证环节、人为因素三个关键维度制定初步的人工智能治理社会技术框架,进而提出了相应的操作指南。赛迪智库信息化与软件产业研究所对报告进行了编译,期望对我国有关部门有所帮助。【关键词】人工智能偏差标准治理 -2-随着人工智能(AI)系统更多参与跨行业及关键领域应用,其技术流程中普遍存在的偏差问题可能会造成有害影响,这给社会公平及AI系统的公众信任埋下了隐患。然而,当前社会对于人工智能偏差的认知尚不充分,应对人工智能偏差有害影响的尝试仍然集中在计算性因素上,比如数据集的代表性和机器学习算法的公平性。这类补救措施对于减少偏差至关重要,但还远远不够。人为因素、系统性的制度因素以及社会因素也是人工智能偏差的重要来源,但目前却未被重视。要成功应对人工智能偏差的挑战,就需要考虑所有形式的偏差。为此,本文介绍了人工智能偏差的概念及分类,讨论了偏差产生的原因及带来的挑战,并从数据集、测试评估验证环节和人为因素三个方面为制定详尽的社会技术指导路线提供了初步指南。一、人工智能偏差:背景和术语(一)人工智能偏差相关概念1、人工智能偏差的定义统计性定义:在技术系统中,偏差通常都被理解为一种统计现象。与随机误差不同,偏差是一种通过对统计结果进行系统性扭曲从而破坏其代表性的效应。国际标准化组织(ISO)将偏差更广泛地定义为:“参考值偏离事实的程度”。因此,当AI系统表现出系统性的失准行为时,就可被认定存在偏差。这种统计 -3-性视角并未充分涵盖或揭示AI系统中存在偏差所造成的全部风险。法律性定义:对人工智能偏差的讨论不能脱离美国法律体系中针对偏差的处理办法,以及偏差与解决歧视和公平性的法律法规之间的关系。目前,对于不允许的歧视性偏差,法院一般会采取差别对待或差异性影响两种方式进行定义。监管机构与法院尚没有统一的办法来衡量所有不允许的偏差。认知和社会背景:人工智能系统设计和开发的团队将他们的认知偏差带入流程,致使偏差普遍存在于各项假设中。若系统性偏差存在于制度层面,则会影响到机构或团队的结构和决策流程的掌控者,带来人工智能生命周期中的个人和群体启发性偏差与认知/感知偏差。同时,终端用户、下游决策者和政策制定者做出的决策也会受到这些偏差的影响。由于影响人类决策的偏差通常是隐性且无意识的,因此无法轻易地通过人为控制或意识纠正进行限制。2、人工智能偏差的类别 -4-图1:人工智能偏差的类别 -5-系统性偏差:系统性偏差也被称为制度性偏差或历史性偏差,源自特定机构的程序或做法,其运作方式致使某些社会群体处于优势地位或受到青睐,而其他社会群体则处于劣势地位或受到贬抑,如制度性种族主义和性别歧视。这些偏差来源于人工智能使用的数据集,乃至贯穿人工智能生命周期,存在于更广泛的社会制度规范和流程中。统计性和计算性偏差:统计性和计算性偏差源自样本不能代表总体所导致的误差。这些偏差由系统性错误而非随机性错误所导致,而且在没有偏见、偏袒或歧视意图的情况下也可能发生。这些偏差存在于开发人工智能应用所使用的数据集和算法过程中,当算法针对某一类型的数据进行训练且无法进行外延时,偏差就会产生。人为偏差:人为偏差反映的是人类思维中的系统性误差,这些误差源于启发性原理数量有限以及基于简单判断进行数据预测。人为偏差往往是隐性的,而且很可能与个人或群体如何感知信息以进行决策或填补缺失或未知信息有关,仅仅提高对偏差的认识并不能确保对它的限制。这类偏差无处不在,贯穿人工智能生命周期中的机构、群体和个人决策过程,乃至人工智能应用部署后的使用过程。 -6-(二)人工智能偏差的危害一方面,当利用人工智能提供决策支持时,若没有人工操作员对其进行相关约束,机器学习模型常常会由于“认知不确定性”和“偶然不确定性”等影响而造成糟糕表现。而且目前用来捕捉这些模型的有害影响及其他后果的方法既不精准也不全面。另一方面,机器学习系统能否依照人类社会的价值观进行学习和操作仍是一个亟待研究和关注的领域。系统性偏差和隐性偏差可能通过训练时使用的数据,以及支撑人工智能委托、开发、部署和使用方式的制度安排与做法而带入。同时,统计/算法偏差以及人为偏差存在于工程与建模过程本身,而无法正确验证模型性能使这些偏差在部署过程中暴露无遗。这些偏差与个人的认知偏差相冲突,若不加以应对,可能会形成一个复杂而有害的混合体,对个人和社会造成远超传统歧视性做法的负面影响。(三)应对人工智能偏差危害的新视角:社会技术视角传统堆叠技术解决方案并不能充分反映人工智能系统的社会影响,仅从计算角度试图解决偏差存在局限性。因此,要将人工智能扩展到公共生活的方方面面,需要将人们的视角从纯技术角度拓展为实质上的社会技术视角,站在更宏大的社会制度层面来思考人工智能。通过社会技术视角来重新构建与人工智能相关的各项因素, -7-具体包括三个维度:数据集;测试评估、确认及验证(TEVV)1;参与式设计及“人在回路”等人为因素。以上几个维度可以更全面地理解人工智能的影响和贯穿其生命周期的种种关键决策,并实现偏差的动态评估、了解影响偏差大小的条件及偏差间相互作用的机制。同时,实现个人、群体和社会需求的兼顾,还需要广泛的学科和各相关方充分参与。(四)更新后的人工智能生命周期为了使人工智能相关技术人员将人工智能生命周期过程与人工智能偏差类别联系起来,有效促进对偏差的发现和管控,本文给出了一个四阶段人工智能生命周期(图2)。图2:人工智能开发生命周期设计启动前阶段:该阶段主要是进行规划、问题说明、背景研究和数据识别。此阶段核心在于确定有话语权或控制权的个人1人工智能开发生命周期中的部分环节。 -8-或团队来进行相关问题的决策。这些早期决策及其决策者可以反映出机构环境中的系统性偏差。此外,系统性偏差也反映在设计启动前所选择的数据集上。所有这些偏差都会以复杂的形式影响后期阶段和决策,并导致结果的偏差。设计和开发阶段:该阶段通常从分析要求和可用数据开始,并以此为基础进行模型设计或选择。在设计过程中,应当通过兼容性分析找出潜在的偏差来源,并评估和调整偏差应对措施。在开发过程中,机构应定期评估偏差,发现流程的完整性及应对措施的有效性。最后,在开发阶段结束、正式部署之前,有必要对偏差应对措施进行全面评估,以确保系统保持在预先设定的范围。在模型正式发布和部署前,其总体模型规格必须包括已被确定的偏差来源、已实施的应对技术以及相关的性能评估。部署阶段:该阶段是AI系统发布和使用阶段。技术团队应当实施持续监控,并制定详细的策略和程序来处置系统的结果和行为。可能需要对系统进行重新训练以纠正其副作用,甚至关停系统,以确保其应用不会造成非预期的影响或危害。测试和评估阶段:该阶段贯穿整个人工智能开发生命周期。此阶段鼓励所有机构对一切可能受到偏差影响的AI系统组件及功能进行持续测试和评估,以确保评估的平衡性与全面性。如果得到的结果不符合预期,则应将其反馈到模型的设计启动前阶 -9-段,对模型设计的任何拟议变更均应与新的数据和要求一起接受评估,然后开始新一轮的设计和开发,确保此前发现的所有问题均得到解决。二、减轻人工智能偏差面临的挑战与建议(一)人工智能偏差中的数据集1、数据集方面存在的挑战人工智能的设计和开发高度依赖大规模数据集,这种需求可能会引导研究人员、开发人员和从业人员更在乎数据集的可用性或可得性,而无论其合适与否。结果是,当现成的、却不能完全代表目标总体样本的数据集被反复用作训练数据时,系统性偏差也可能会表现为可得性偏差2。同时,即使数据集有代表性,也仍可能表现出历史性偏差和系统性偏差。由于受保护属性的隐藏信息可以通过代理或潜在变量推导出来,揭露出个人和群体的非必要信息,因此基于这些变量的模型仍然会对个人或某一类人造成负面影响,可能会造成歧视。当终端用户与AI系统发生交互时,这些不当或不完善的早期设计与开发决策使得该过程容易受到额外的统计性偏差或人为偏差的影响。例如,算法模型可能仅建立在最活跃用户的数据之上,其创建的后续系统活动可能也并不反映目标或真实用户群2指人们往往根据认知上的易得性来判断事件的可能性,而忽视对其他信息的关注进行深度发掘,从而造成判断的偏差。 -10-体。此外,反馈环路可能会将误差进一步放大,使得随后的训练数据全部来自于最活跃用户,进而将造成潜在的有害影响。2、数据集方面的改进建议应对统计性偏差:应对人工智能偏差的一个主要趋势是关注建模过程中所使用数据集的全面统计特征。对于算法模型来说,常见的算法技术都假设变量是单峰的。然而,数据却往往是异构和多峰的。因此,无论模型是用于基准测试、预测还是分类,必须记录和交流人工智能结果的适用性存在的局限。此外,在数据集的迁移使用时还需特别注意数据集分布中的潜在差异,并关注其对模型的不公平性与误差产生的影响。应用社会技术方法:人工智能建模需要结合地区具体地理特征,因此,需要对机器学习应用中数据集的使用加以调整,以适应其部署环境中的所有社会技术因素。在设计阶段,社会技术分析带来了对某一现象的动态或特征性社会异变的深刻理解。这有助于更好地制定出问题分析框架,并对数据集合适与否做出评估。开发阶段的社会技术视角有助于选择数据源和属性,并明确将影响评估作为算法准确性的补充。关注人为因素与数据集的相互作用:构建人工智能应用基础模型时,设计和开发团队关于使用哪些数据集的决定和假设会加剧数据集中存在的系统性、制度性偏差。同时,在数据选择、管 -11-理、准备和分析过程中,人为偏差也会造成一定影响。例如,注释训练数据的人员可能会带入其自身的认知偏差;相关人员清洗数据源与变量时也会按照自己的理念行事;数据分析决策在边缘化总体样本中存在收集偏差。以上人工智能偏差和公平性的问题需要解决。此外,需记录人为偏差的潜在来源,以提升人工智能模型描述的透明度和可解读性。(二)对人工智能偏差进行测试评估、确认及验证时的注意事项1、TEVV(测试评估、确认及验证)方面存在的挑战机器学习过程中的预测不确定性:机器学习存在两种类型的预测不确定性:“认知不确定性”和“偶然不确定性”。“认知不确定性”常在参数计算中出现。由于数学问题上的解值具有非唯一性,当真实数据与训练数据的分布不匹配时,可能会影响已部署的深度学习系统的行为,导致有害偏差。“偶然不确定性”代表数据中固有的不确定性,是预测不确定性中不可再分的部分。例如,训练数据集的标签分配过程中的不确定性。大型语言模型的发展带来挑战:大型语言模型在深度学习中的重要性不断增加,但其在“认知不确定性”和“偶然不确定性”方面造成了重大挑战。依赖大量未经整理的网络数据会增加偶然不确定性。 -12-模型设计与数据处理流程的偏差问题:为了让AI系统确认建模的侧重点,技术人员在对数据进行分类和排序时往往会将背景信息扁平化处理,并对不可观察现象进行量化处理,这一操作可能会导致有害偏差。同时,软件设计师和数据科学家对系统性能进行优化的过程,也可能会在无意中成为人工智能系统偏差的来源。此外,在模型选择过程中忽略背景信息也可能会导致子群体的结果有偏差。相应地,使用群体汇总数据预测个人行为的系统可能会导致结果出现偏差。这些无意中对某些因素加权后得出的算法结果,可能会加剧和固化社会的不平等。算法复杂性的偏差问题:出于成本与实现难度的考虑,技术人员所使用的通常都是参数较少的简单模型。然而,这类模型对训练数据的限制性假设通常不兼容有细微差别的统计资料,可能会加剧统计性偏差。复杂模型通常用于文本图像等非线性、多模态数据,这种模型捕捉的潜在的系统性偏差可能难以识别和预测。系统验证的有效性问题:在系统验证环节可能会出现许多困难和缺陷。系统测试往往缺少真实数据、或者噪声标签及其他注释因素,这