您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:使用大型语言模型进行定性分析可能会引入严重的偏见(英) - 发现报告
当前位置:首页/行业研究/报告详情/

使用大型语言模型进行定性分析可能会引入严重的偏见(英)

文化传媒2023-11-01世界银行淘***
使用大型语言模型进行定性分析可能会引入严重的偏见(英)

政策研究工作文件10597使用大型语言模型进行定性分析可能会引入严重的偏差Julian Ashwin Aditya Chhabra Vijayendra Rao发展经济学发展研究小组 2023 年 11 月授权公开披露授权公开披露 政策研究工作文件系列传播了正在进行的工作结果,以鼓励就发展问题交换意见。该系列的目标是快速得出发现,即使演示文稿还不够完善。论文带有作者的姓名,应相应地引用。本文表达的发现、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行 / 世界银行及其附属组织的观点,也不代表世界银行执行董事或它们所代表的政府的观点。Abstract大型语言模型 ( LLM ) 正在迅速变得无处不在,但对社会科学研究的影响尚未得到很好的理解。本文询问 LLM 是否可以帮助我们分析来自开放式访谈的大量定性数据,并将其应用于孟加拉国 Cox 's Bazaar 的流离失所罗兴亚人访谈的笔录。分析发现,在使用 LLM 注释文本时需要非常谨慎,因为存在引入偏见的风险,这可能导致误导性推论。这里指的是技术意义上的偏差,即错误。LLM 在注释面试成绩单时所做的就面试对象的特征而言不是随机的。在具有灵活编码的高质量人类注释上训练更简单的监督模型导致比 LLM 注释更少的测量误差和偏差。因此,考虑到一些高质量的注释是必要的,以便评估 LLM 是否引入偏差,本文认为,在这些注释上训练定制模型可能比使用 LLM 进行注释更可取。本文是发展经济学发展研究小组的产品。这是世界银行为开放其研究并为世界各地的发展政策讨论做出贡献的更大努力的一部分。政策研究工作文件也发布在 http: / / www. worldbank. org / prwp 的 Web 上。可以通过 vrao @ worldbank. org 与作者联系。由研究支持团队制作政策研究工作文件 10597 使用大型语言模型进行定性分析可能会引入严重的偏差∗马斯特里赫特大学Aditya Chhabra 世界银行Vijayendra Rao†世界银行关键字:大型语言模型, 定性分析, ChatGPT, Llama 2, 文本即数据, 愿望, 罗兴亚人, 孟加拉国JEL 代码 :C63 C89 O11Introduction大型语言模型 ( LLM ) 在社会科学研究中越来越多地用于分析和注释文本数据 ( Gilardi 等人。, 2023 年 ) 。随着 LLM 变得越来越容易获得和流行,我们可以预期,将会有一种诱惑来使用它们来分析开放式访谈数据,例如遵循解释性分析方法的定性研究人员 ( Small 和 Calarco,2022 ) 使用的数据。这依赖于训练有素的社会科学家进行的仔细,细致入微的编码 ( Deterig ad Waters,2018 ) 。这种定性分析是人类学和社会学等领域的核心,现在有大量关于使用自然语言处理 ( NLP ) 方法分析社会学定性数据的文献正在迅速扩展 ( Boiowsi 和 Nelso ,2022 年 ),定性分析和 NLP 现在也越来越多地应用于经济学等更定量的领域 ( Rao,2023 ) 。从开放式的 , 深入的访谈中生成的数据可能与 NLP 文献中经常使用的基准数据集非常不同 , 以验证诸如英语推文和新闻或产品评论之类的建模方法。这是因为定性研究通常在∗作者感谢世界银行的 “变革知识计划 ” 和世界银行 - 难民署强迫流离失所联合数据中心的财政支持。 Sudarshan Aittreya 为该项目提供了宝贵的研究援助。†通讯作者 : vrao @ worldbank. org 2特定上下文对解释数据很重要的方式,并使用 “灵活 ” 开发的代码进行分析,这些代码可以非常细微和复杂。这在非西方社会中是一个特殊的问题,因为 LLM 已被证明与来自西方,受过教育,工业化,富裕和民主 ( WEIRD ) 社会的人最相似 ( Atari 等人。, 2023),我们的示例应用程序属于这一类。我们采访了一个非常具体的主题 ( 儿童的愿望 ),涉及非常具体的人群 ( 罗兴亚难民及其在孟加拉国的东道主 ),他们在 LLM 培训的培训数据 ( 或 NLP 文献中使用的数据更广泛 ) 中没有很好的代表。我们发现,在这种情况下,使用 LLM 注释文本是潜在的危险。我们测试了三种不同的 LLM ( ChatGPT 和 Meta 的 Llama 2 的两个版本 ),发现它们在注释中产生的预测误差相对于访谈对象的特征不是随机的。这可能会在以后的分析中导致误导性结论,如图 5 所示。基于 LLM 注释的统计分析可以导致与基于人类专家注释的效果非常不同的估计效果。因此,有一些高质量的专家注释是至关重要的,即使只是评估 LLM 是否引入了偏见。鉴于需要一些高质量的注释来评估 LLM 是否会引入偏差,我们认为在这些注释上训练定制模型比使用 LLM 更可取。我们展示了 iQal,这是我们与其他人一起开发的一种方法 (Ashwi 等人。, 2022 ) 通过在小的人类注释样本上训练监督模型来分析大 N 定性数据,不仅在样本外预测精度方面比 LLM 表现更好,而且引入的偏差要少得多。LLM 可以通过生成更大的训练集来帮助此过程 ( i 。Procedres.Dai 等人提出的数据扩充。(2023)),但我们只在少数情况下找到边际效益的证据。这表明了一种潜在的方法,可以将解释性定性分析的细微差别和 “反身 ” 质量与大量代表性样本相协调。至关重要的是,我们认为 LLM 和其他 NLP 方法有助于和扩展传统的定性分析,而不是取代它。为了创建以细致入微的和上下文感知的方式捕获跨文档的重要和有趣的变化的编码树, 没有替代品来仔细阅读这些文档的至少一个子集。我们的申请基于对流离失所的罗兴亚人及其在孟加拉国考克斯集市的孟加拉国东道主的开放式采访。这些采访的重点是主题的愿望和抱负为他们的孩子 ( 卡拉德,2018 ) 以及他们实现这些目标的能力,我。Procedres.他们的航行能力 (Appadrai,2004) 。在 Ashwi 等人中对它们进行了详细分析。( 2022 ),因此我们不会在这里讨论数据收集或相关社会科学文献的细节。这些访谈的实质内容对本文的方法论贡献并不重要,但重要的是要注意,尽管 “野心 ” 可以通过产生定量数据的结构化问题很好地捕获,但愿望和导航能力是微妙的,复杂的概念不容易定义在结构化调查中捕获。正是在处理这些概念时,开放式访谈和解释性定性分析才是有价值的。与其他研究相比,概念的复杂性和细微差别可能会在解释 LLM 在注释访谈中的不良表现方面发挥作用,而其他研究的注释任务则更为直接。Procedre梅隆等人。( 2022 年 ) 。以前的工作表明,LLM 可能胜过众包人类注释 ( Gilardi 等人。, 2023),甚至是众包平台上相当大比例的工人可能正在使用 LLM 完成任务 (Veselovsy 等人。, 2023 年 ) 。我们的结果与这些并不矛盾,因为对于许多注释任务, LLM 确实可以执行得很好,并为研究人员节省了众包的费用和复杂性。 However, or reslts do sggests that researchers shold to be aware of the possibility of biases itrodced by LLM aotatio, particlarly o data where a aced, cotext derstadig of the docmets is eeded; LLM,像其他类型的机器学习模型一样,反映了他们接受训练的数据 ( Kears 和 Roth,2020 年 ),而定性分析增加价值的许多背景都需要理解这些训练数据中可能无法充分表示的社区和概念。The paper is structured as follows. The returns of this Section discuss this paper ’ s contribution 3在相关文献的背景下。然后,第 2 节非常简要地介绍了我们的带注释的访谈笔录数据集。第 3 节描述了我们使用 LLM 进行注释 ( 3.1 ) 的方法以及由 Ashwi 等人介绍的监督 NLP 方法。(2022),我们称之为 IQal 前进 (3.2) 。Sectio 4 the describes LLM - based ot - of - sample performace i compared to iQal (4.1) ad the shows that LLM itrodces more bias ad illstrates this cold case researchers to draw icorrect coclsios (4.2).第五节结束了。2数据和定性分析采访笔录,数据收集和定性编码过程在 Ashwi 等人中进行了详细解释。(2022),所以我们在这里只做一个非常简短的描述。我们抽样的人口是居住在考克斯巴扎尔营地的流离失所的罗兴亚人和当地的孟加拉国居民。除了包括人口统计和经济状况问题在内的标准家庭调查外,数据还包括 2, 407 次开放式访谈的笔录,这些访谈涉及受试者对长子的期望。采访是在孟加拉语或罗兴亚人进行的,然后将其转录为孟加拉语,但我们将机器翻译为英语。面试采用非结构化的问答 ( QA ) 形式,将面试官和主题配对。访谈平均长 12.6 个 QA 对,每个 QA 对的平均答案长 13.7 个字。基于对转录本子集的仔细阅读,并遵循 “灵活编码 ” 过程 ( Deterig ad Waters,2018 年 ),开发了一个编码树,其中包括 25 个可能重叠的类别,其中 19 个我们在本文中重点介绍。附录 A 中显示了每个代码的完整描述以及示例。继 Callard ( 2018 ) 之后,在父母为孩子表达的 “梦想 ” 的背景和性质中,调整了抱负和抱负之间的区别。例如,儿童的具体和可衡量的梦想 (e 。g 希望孩子成为医生,老师,企业家或特定的教育目标 ) 被用作野心的定义,而无形的,价值导向的目标 ( 例如g 希望孩子有尊严地生活或成为一个好人 ) 被归类为愿望。愿望分为 “宗教 ” 和“ 世俗 ” 。野心分为七个主要类别 - 教育 ( 进一步分为高,低,中立和宗教 ),世俗工作,婚姻,创业,移民,职业培训和无野心。虽然在采访中的任何时候都有野心和抱负,但 “渴望的能力 ” 或导航能力仅限于讨论父母计划或能够为孩子实现梦想的事情。导航能力被编码为七个子代码 - 低和高的 “能力 ”,低和高的“ 预算 ”,低和高的 “信息意识 ” 和对上帝的依赖。在我们的 2, 407 份访谈笔录样本中 , 789 份由训练有素的社会学家 ( Ashwin 等人 ( 2022 ) 论文的合著者 ) 根据这种编码结构手动注释。注释是在 QA 对级别定义的 , 允许我们在 QA 级别将每个注释表示为二元分类问题。3Methods在本节中,我们首先解释如何使用 LLM 来注释我们的访谈笔录。然后,我们简要描述了 iQal 方法,该方法在我们的专家人类注释上训练监督模型,以及我们如何结合 iQal 使用 LLM 进行数据增强。我们测试了三种不同的 LLM - OpeAI 的闭源 ChatGPT ( gpt - 3.5 - trbo ),以及 Meta 的两个开源 LLM,Llama - 2 ( 13b ) 及其微调的 “聊天 ” 变体 ( Tovro 等人。, 2023 年 ) 。基础 Llama - 2 在公开的在线数据源上进行了预训练。然后在公开可用的指令数据集和超过 100 万个人类注释上对聊天变体进行微调。这种微调旨在使用诸如具有人类反馈的强化学习 ( RLHF ) 之类的技术使模型与人类偏好保持一致。ChatGPT 也使用 RLHFFor 所有三个 LLM 进行微调,我们的方法。 4图