AI智能总结
使用大型语言模型进行定性分析可能会引入严重的偏差 JulianAshwinAdityaChhabraVijayendraRao 政策研究工作文件10597 Abstract 大型语言模型(LLM)正在迅速变得无处不在,但对社会科学研究的影响尚未得到很好的理解。本文询问LLM是否可以帮助我们分析来自开放式访谈的大量定性数据,并将其应用于孟加拉国Cox 's Bazaar的流离失所罗兴亚人访谈的笔录。分析发现,在使用LLM注释文本时需要非常谨慎,因为存在引入偏见的风险,这可能导致误导性推论。这里指的是技术意义上的偏差,即错误。 LLM在注释面试成绩单时所做的就面试对象的特征而言不是随机的。在具有灵活编码的高质量人类注释上训练更简单的监督模型导致比LLM注释更少的测量误差和偏差。因此,考虑到一些高质量的注释是必要的,以便评估LLM是否引入偏差,本文认为,在这些注释上训练定制模型可能比使用LLM进行注释更可取。 政策研究工作文件系列传播了正在进行的工作结果,以鼓励就发展问题交换意见。该系列的目标是快速得出发现,即使演示文稿还不够完善。论文带有作者的姓名,应相应地引用。本文表达的发现、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事或它们所代表的政府的观点。 使用大型语言模型进行定性分析可能会引入严重的偏差∗ 马斯特里赫特大学Aditya Chhabra世界银行Vijayendra Rao†世界银行 JEL代码:C63 C89 O1 1Introduction 大型语言模型(LLM)在社会科学研究中越来越多地用于分析和注释文本数据(Gilardi等人。,2023年)。随着LLM变得越来越容易获得和流行,我们可以预期,将会有一种诱惑来使用它们来分析开放式访谈数据,例如遵循解释性分析方法的定性研究人员(Small和Calarco,2022)使用的数据。这依赖于训练有素的社会科学家进行的仔细,细致入微的编码(DeterigadWaters,2018)。这种定性分析是人类学和社会学等领域的核心,现在有大量关于使用自然语言处理(NLP)方法分析社会学定性数据的文献正在迅速扩展(Boiowsi和Nelso,2022年),定性分析和NLP现在也越来越多地应用于经济学等更定量的领域(Rao,2023)。 从开放式的,深入的访谈中生成的数据可能与NLP文献中经常使用的基准数据集非常不同,以验证诸如英语推文和新闻或产品评论之类的建模方法。这是因为定性研究通常在 作者感谢世界银行的“变革知识计划”和世界银行-难民署强迫流离失所联合数据中心的财政支持。SudarshanAittreya为该项目提 特定上下文对解释数据很重要的方式,并使用“灵活”开发的代码进行分析,这些代码可以非常细微和复杂。这在非西方社会中是一个特殊的问题,因为LLM已被证明与来自西方,受过教育,工业化,富裕和民主(WEIRD)社会的人最相似(Atari等人。,2023),我们的示例应用程序属于这一类。我们采访了一个非常具体的主题(儿童的愿望),涉及非常具体的人群(罗兴亚难民及其在孟加拉国的东道主),他们在LLM培训的培训数据(或NLP文献中使用的数据更广泛)中没有很好的代表。 我们发现,在这种情况下,使用LLM注释文本是潜在的危险。我们测试了三种不同的LLM(ChatGPT和Meta的Llama2的两个版本),发现它们在注释中产生的预测误差相对于访谈对象的特征不是随机的。这可能会在以后的分析中导致误导性结论,如图5所示。基于LLM注释的统计分析可以导致与基于人类专家注释的效果非常不同的估计效果。因此,有一些高质量的专家注释是至关重要的,即使只是评估LLM是否引入了偏见。鉴于需要一些高质量的注释来评估LLM是否会引入偏差,我们认为在这些注释上训练定制模型比使用LLM更可取。 我们展示了iQal,这是我们与其他人一起开发的一种方法(Ashwi等人。,2022)通过在小的人类注释样本上训练监督模型来分析大N定性数据,不仅在样本外预测精度方面比LLM表现更好,而且引入的偏差要少得多。LLM可以通过生成更大的训练集来帮助此过程(i。Procedres.Dai等人提出的数据扩充。(2023)),但我们只在少数情况下找到边际效益的证据。这表明了一种潜在的方法,可以将解释性定性分析的细微差别和“反身”质量与大量代表性样本相协调。至关重要的是,我们认为LLM和其他NLP方法有助于和扩展传统的定性分析,而不是取代它。为了创建以细致入微的和上下文感知的方式捕获跨文档的重要和有趣的变化的编码树,没有替代品来仔细阅读这些文档的至少一个子集。 我们的申请基于对流离失所的罗兴亚人及其在孟加拉国考克斯集市的孟加拉国东道主的开放式采访。这些采访的重点是主题的愿望和抱负为他们的孩子(卡拉德,2018)以及他们实现这些目标的能力,我。Procedres.他们的航行能力(Appadrai,2004)。在Ashwi等人中对它们进行了详细分析。(2022),因此我们不会在这里讨论数据收集或相关社会科学文献的细节。这些访谈的实质内容对本文的方法论贡献并不重要,但重要的是要注意,尽管“野心”可以通过产生定量数据的结构化问题很好地捕获,但愿望和导航能力是微妙的,复杂的概念不容易定义在结构化调查中捕获。正是在处理这些概念时,开放式访谈和解释性定性分析才是有价值的。与其他研究相比,概念的复杂性和细微差别可能会在解释LLM在注释访谈中的不良表现方面发挥作用,而其他研究的注释任务则更为直接。Procedre梅隆等人。(2022年)。 以前的工作表明,LLM可能胜过众包人类注释(Gilardi等人。,2023),甚至是众包平台上相当大比例的工人可能正在使用LLM完成任务(Veselovsy等人。,2023年)。我们的结果与这些并不矛盾,因为对于许多注释任务,LLM确 实 可 以 执 行 得 很 好 , 并 为 研 究 人 员 节 省 了 众 包 的 费 用 和 复 杂 性 。However, or reslts do sggests thatresearchers shold to be aware of the possibility of biases itrodced by LLM aotatio, particlarly o data where a aced,cotext derstadig of the docmets is eeded; LLM,像其他类型的机器学习模型一样,反映了他们接受训练的数据(Kears和Roth,2020年),而定性分析增加价值的许多背景都需要理解这些训练数据中可能无法充分表示的社区和概念。 Thepaperisstructuredasfollows.ThereturnsofthisSectiondiscussthispaper’scontribution 在相关文献的背景下。然后,第2节非常简要地介绍了我们的带注释的访谈笔录数据集。第3节描述了我们使用LLM进行注释(3.1)的方法以及由Ashwi等人介绍的监督NLP方法。(2022),我们称之为IQal前进(3.2)。Sectio 4the describes LLM - based ot - of - sample performace i compared to iQal (4.1) ad the shows that LLM itrodces morebias ad illstrates this cold case researchers to draw icorrect coclsios (4.2).第五节结束了。 2数据和定性分析 采访笔录,数据收集和定性编码过程在Ashwi等人中进行了详细解释。(2022),所以我们在这里只做一个非常简短的描述。我们抽样的人口是居住在考克斯巴扎尔营地的流离失所的罗兴亚人和当地的孟加拉国居民。除了包括人口统计和经济状况问题在内的标准家庭调查外,数据还包括2, 407次开放式访谈的笔录,这些访谈涉及受试者对长子的期望。采访是在孟加拉语或罗兴亚人进行的,然后将其转录为孟加拉语,但我们将机器翻译为英语。面试采用非结构化的问答(QA)形式,将面试官和主题配对。访谈平均长12.6个QA对,每个QA对的平均答案长13.7个字。 基于对转录本子集的仔细阅读,并遵循“灵活编码”过程(Deterig ad Waters,2018年),开发了一个编码树,其中包括25个可能重叠的类别,其中19个我们在本文中重点介绍。附录A中显示了每个代码的完整描述以及示例。继Callard(2018)之后,在父母为孩子表达的“梦想”的背景和性质中,调整了抱负和抱负之间的区别。例如,儿童的具体和可衡量的梦想(e。g希望孩子成为医生,老师,企业家或特定的教育目标)被用作野心的定义,而无形的,价值导向的目标(例如g希望孩子有尊严地生活或成为一个好人)被归类为愿望。愿望分为“宗教”和“世俗”。野心分为七个主要类别-教育(进一步分为高,低,中立和宗教),世俗工作,婚姻,创业,移民,职业培训和无野心。虽然在采访中的任何时候都有野心和抱负,但“渴望的能力”或导航能力仅限于讨论父母计划或能够为孩子实现梦想的事情。导航能力被编码为七个子代码-低和高的“能力”,低和高的“预算”,低和高的“信息意识”和对上帝的依赖。 在我们的2, 407份访谈笔录样本中,789份由训练有素的社会学家(Ashwin等人(2022)论文的合著者)根据这种编码结构手动注释。注释是在QA对级别定义的,允许我们在QA级别将每个注释表示为二元分类问题。 3Methods 在本节中,我们首先解释如何使用LLM来注释我们的访谈笔录。然后,我们简要描述了iQal方法,该方法在我们的专家人类注释上训练监督模型,以及我们如何结合iQal使用LLM进行数据增强。我们测试了三种不同的LLM -OpeAI的闭源ChatGPT(gpt - 3.5 - trbo),以及Meta的两个开源LLM,Llama - 2(13b)及其微调的“聊天”变体(Tovro等人。,2023年)。基础Llama - 2在公开的在线数据源上进行了预训练。然后在公开可用的指令数据集和超过100万个人类注释上对聊天变体进行微调。这种微调旨在使用诸如具有人类反馈的强化学习(RLHF)之类的技术使模型与人类偏好保持一致。ChatGPT也使用RLHFFor所有三个LLM进行微调,我们的方法。 Note:该图显示了针对“愿望:宗教”代码向LLM给出的示例说明。这些结果作为单个提示提供给LLM,但是为了清楚起见,我们在这里将说明分为三个部分,如颜色所示。第一部分(绿色)描述任务并给出代码的定义。标记的示例(蓝色)有助于LLM理解手头的任务,通常被称为“少量学习”。对于每个示例,我们还提供了注释的推理(红色),以便LLM也被要求解释为什么它应用某个标签,这被称为“思想链”提示。第二个框显示了要注释的QA对的示例,随后的框显示了三个LLM对此提示的响应。 提示保持一致。 3.1使用LLM的注释 我们遵循一些公认的做法,以提高LLM在注释我们的面试笔录时的有效性。我们提供了一个提示,其中包括LLM的精确指令,并采用“少量学习” (Brow等人。,2020年)以及“思想链”提示(魏等人。,2022),如下所述。对于每个代码,我们创建了详细的文本指令,类似于人类注释者的指令。这些说明包括足够的细节,以确保模型原则上完全了解编码转录本所需的具体标准和定义。每个代码和每个问答对都由LLM独立注释。通过结合少量学习和CoTP,我们符合最佳实践,并为LLM提供了准确注释的好机会。以前的工作表明,使用这些技术可以帮助LLM在文本注释任务中超越人群工作者(Gilardi等人。,2023年)。 在给LLM某个任务时,选择给它的提示可以对它的性能产生实质性的影响。我们为模型提供了每个代码所代表的内容以及如何在对话中识别其存在的全面介绍。这