您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国际货币基金组织]:加强 IMF 经济学培训 : 基于 AI 的定性学习者反馈分析 - 发现报告

加强 IMF 经济学培训 : 基于 AI 的定性学习者反馈分析

2024-08-02 国际货币基金组织 记忆待续
报告封面

加强IMF经济学培训:基于AI的定性学习者反馈分析 Andras Komaromi, Xiaomin Wu, Ran Pan, Yang Liu, Pablo Cisneros, AnchalManocha, Hiba El Oirghi WP / 24 / 166 货币基金组织工作文件描述了作者正在进行的研究,并发表了这些论文,以引起评论并鼓励辩论。基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执行董事会或基金组织管理层的观点。 2024AUG IMF工作文件 能力发展研究所 加强国际货币基金组织经济学培训:人工智能驱动的定性学习者反馈分析由安德拉斯·科马罗米、吴晓敏、冉潘、杨柳、巴勃罗·西斯内罗斯、Anchal Manocha, and Hiba El Oirghi * Oussama Kanaan授权发行2024年8月 货币基金组织工作文件描述了作者正在进行的研究,并发表了这些论文,以引起评论并鼓励辩论。基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执行董事会或基金组织管理层的观点。 摘要:国际货币基金组织(IMF)扩大了其在线学习计划,提供100多个大规模在线开放课程(MOOC),以支持全球经济和金融决策。本文探讨了人工智能(AI),特别是大型语言模型(LLM)的应用,以分析这些课程参与者的定性反馈。通过对专家注释的文本数据进行预训练的LLM进行微调,我们开发了有效地对开放式调查响应进行分类的模型,其准确性与人类编码器相当。这些模型在多种语言(包括英语,法语和西班牙语)中的强大性能证明了其多功能性。分析的主要见解包括对较短的模块化内容的偏好,不同性别的差异以及语言障碍对学习成果的重大影响。这些和其他来自非结构化学习者反馈的发现有助于国际货币基金组织在线课程的不断改进,与能力发展目标保持一致,以增强全球经济和金融专业知识。 推荐引用:Komaromi, A., Wu, X., Pan, R., Liu, Y., Cisneros, P., Manocha, A., Oirghi, H. (2024). Enhancing IMF EconomicsTraining: AI - Powered Analysis of Qualitative Learner Feedback, IMF Working Papers, WP / 24 / 166. 工作文件 加强IMF经济学培训:基于AI的定性学习者反馈分析 Wu Xiaomin, Andras Komaromi, Ran Pan, Yang Liu, Pablo Cisneros, AnchalManocha, and Hiba El Oirghi1 Contents 6.6.16.2 7. 1.Introduction 作为其更广泛的能力发展(CD)任务的一部分,国际货币基金组织(IMF)通过各种方式向成员国提供面向政策的经济和金融培训。长期以来,货币基金组织的培训课程和讲习班都是在传统的教室环境中提供的。自1981年以来,国际货币基金组织的经济学家在全球范围内教授了7, 000多门课程,并在面对面和现场虚拟教室中培训了200, 000多名国家官员。随着培训需求的增长和技术支持的自主学习成为主流,国际货币基金组织开始尝试在线课程:不仅允许扩大培训范围,而且扩大其覆盖范围。 国际货币基金组织在线学习(OL)计划自2013年成立以来呈指数级增长。截至2024年5月,IMF在edX平台上以六种语言提供了100多个大规模开放在线课程(MOOC)。该计划已注册了来自全球的210, 000多名活跃参与者,其中三分之一以上的参与政府官员来自撒哈拉以南非洲,突显了其在增加CD交付范围方面的价值。 IMF学习团队收集参与者对大量课程(以下称为IMFx课程)的反馈,以了解培训的接收方式以及需要改进的领域。反馈调查包括定量和封闭式响应以及开放式响应,以获取有关学习者经验以及在线培训的优势和劣势的定性信息。本文介绍了国际货币基金组织的学习专家如何开始使用人工智能(AI),特别是大型语言模型(LLM),从越来越多的非结构化定性数据中获得见解。 为了有效地处理开放式问题,我们结合了预先训练的LLM和 监督分类任务中的人工标记文本响应。首先,学习专家创建了一个框架来对文本响应进行分类,并手动标记数千个数据点。其次,我们用简单的分类层附加了一个仅编码器的LLM。分类器接收文本响应的向量表示(或嵌入),并且学习预测由专家定义的类别。最后,我们在手动标记的数据上训练了这个深度神经网络。 我们的模型优于几个简单的基准,其可靠性与人类编码器相当。例如,与搜索精心选择的关键字相比,该模型具有更高的准确性。有趣的是,当被要求按照相同的准则对相同的响应进行编码时,该模型与人类编码器的一致性与人类之间的一致性水平密切相关。我们还表明,LLM在多语言语料库上的预训练使其能够跨语言提供相似的性能,尽管数量相当低。分类任务的非英语训练数据。 我们还检查并改进了模型的校准,以更好地评估其预测的不确定性。在没有进一步调整的情况下,神经网络分类器不适合于对其输出的概率解释。特别是,我们发现我们的分类器在其最终预测类别中往往缺乏信心。我们应用后处理步骤将模型的原始置信度分数映射到预测正确的概率。该调整后的概率可以是有用的,例如,对于设计用于调查响应的人类审查的决策规则。 尽管本文重点介绍了所开发模型的技术细节和性能,但我们通过两个示例说明了反馈评估系统的价值。首先,我们表明,较短和模块化的学习内容更适合IMF在线学习者,提供了女性参与者特别赞赏的灵活性。 其次,我们从定性调查答复中提供的证据表明,国际货币基金组织为使课程适应非英语语言所做的努力提高了培训的效率和覆盖面。 最终,我们的语言模型实现了对定性学习者反馈的大规模分析。由于数据量大且不断增长,因此对学习者的书面评论进行手动注释和处理是不切实际的。然而,通过AI语言模型,我们可以获得对MOOC参与者的偏好和看法的有趣见解,有助于改进和更好地定位在线培训。 本文的其余部分结构如下。第2节和第3节介绍了影响衡量的框架和工具,以及在开发基于人工智能的方法之前已经实施的反馈评估的手动过程。第4节介绍了基于对专家分类文本响应的预训练LLM进行微调的自动分类模型的开发。在第5节中,我们讨论了模型的性能及其预测的不确定性。最后,第6节提供了在模型的帮助下得出的初步见解。 2.衡量培训影响和学习者体验 监测和评估IMFx课程影响的广泛框架遵循Kirkpatrick(1976)模型,该模型是工作场所培训评估的完善标准。该模型区分了衡量和理解培训影响的四个层次:参与者反应、学习、行为变化和结果(图1)。 IMFx培训的1级和2级评估在完成在线课程期间和之后立即进行。参与者获得的知识和技能是通过相同的课程前和课程后测试来衡量的,该测试提供了有关学习收获的信息(2级)。参与者对课程的反应,例如对有用性,优势,劣势和适用性的感知,是通过课程后调查(1级)来衡量的。行为调查每两年进行一次,以衡量所获得知识的应用。 day - to - day work and to identify enablers and barriers for application on the job (Level 3). In addition, asurvey is conducted for participants who sign up for online courses but do not complete them. This non -completing participer survey provides the 课程后(1级)调查捕获了大量关于参与者自我报告满意度的定量和定性信息以及人口统计信息。问卷使用Cvet的调查功能进行管理,包括封闭式(固定替代)问题和开放式问题,参与者可以输入任何文本(附录I)。该调查的回复率超过20%,与类似的MOOC反馈调查(Tzeg,Lee,Hag,Hag和Lai,2022)相比具有优势。每三个月有超过7, 000名参与者用六种语言回答。大多数文本。回答是英语,但很大一部分是法语(10%)和西班牙语(6%),而葡萄牙语,阿拉伯语和俄语约占1%。 虽然定量响应的分析可以使用标准的统计软件包自动化,但要理解以前需要费力的手动审查和编码的定性数据。下一节概述了手动编码过程,并阐述了应用自然语言建模技术提高效率的论点。 3.定性答复的手动审查 调查中的开放式问题寻求学习者对课程的优缺点,内容上的差距以及培训对受访者工作职责的有用性的看法。参与者还可以分享任何其他改进意见或建议。这些完全开放形式的问题没有有效的单词限制,但是大多数回答都很短,平均长度为13个单词。表1提供了对五个定性问题中每一个的一些代表性答复。 为了严格地将定性反馈纳入课程评估,开发了手动编码过程。阅读评论可以提供对学习者观点的详细见解,但是 如果不对这些信息进行系统分类,就很难确定对课程评估和改进有用的模式。为了应对这一挑战,由六名学习专家组成的小组通读了六门课程的评论(总计185项调查和700多项个人评论),并通过迭代讨论确定了每个问题的一组经常提到的主题。 表2总结了强度问题的编码指南,并确定了主题,描述和代表性回答的示例。在描述课程的优势时,参与者通常会提到材料的质量或组织,内容的相关性或适用性,讲师的专业知识以及参加IMF在线培训的便利性。所有问题的完整码本包含在附录II中。 每个评论都从码本中分配了相关代码(通常是一个或两个,不超过三个),并具有在边缘情况下建立共识的机制。有时学习者在单个响应中解决了一个以上的主题。尽管允许程序员使用多个代码,但在实践中,收到的评论少于5% 一个标签。尽管遵循相同的编码准则,但是人类分类不可避免地包含主观因素,并且不同的编码器可以将不同的标签分配给相同的响应。为了确保一致性,每当指定的编码者对响应进行分类有疑问时,就会将其升级为至少由三名团队成员组成的小组,他们对最终标签做出了共识决定。大约4%的评论通过了此小组审核。 这种精心设计的手动标记过程需要大量资源,突出了通过自然语言处理技术实现自动化的潜在好处。在2022年6月至2023年2月之间,一组学习专家总共花费了大约90个小时对89门课程的15, 000多条评论进行分类。这项庞大的初始投资产生了大量的人类标记的文本数据,这使得通过微调预先训练的大型语言模型来进行自动化试验变得可行。 4.自动化与LLM 预训练的大型语言模型(LLM)已被证明可以显着降低处理定性用户反馈的成本。例如,LLM通常用于从冗长的客户评论中自动提取关键主题和观点,从而节省大量人力。由于预先训练的LLM已经编码了句法和语义语言特征,因此可以仅使用有限数量的人类标记数据对它们进行有效的微调。 许多自然语言处理(NLP)任务的一个流行选择是来自变形金刚(BERT)模型的双向编码器表示(Devli,Chag,Lee和Totaova,2018)。在预训练期间,在大量文本语料库上优化编码以实现两个目标:掩蔽词预测和下一个句子预测。在掩蔽词预测中,模型试图猜测句子中随机隐藏的(掩蔽的)词。在下一个句子预测中,模型试图确定训练语料库中的一个句子是否跟随另一个句子。已经表明,对这两个简单任务的优化会产生捕获重要语言特征的编码。 建立在通用BERT架构上,可以为许多下游NLP任务有效地训练模型。BERT的最后一个隐藏层产生每个令牌和整个序列的上下文化嵌入(向量表示),可以将其馈送到其他层进行进一步转换。通过在预训练模型,BERT可以进行微调以执行特定的任务,例如情感分析或主题分类。微调时,预训练BERT模型的权重为 基于特定任务标记的训练数据与附加层一起更新。生成的模型继承了BERT的一般语言理解,但其性能针对给定任务进行了优化。 在我们的应用程序中,我们在BERT的基础体系结构上添加了一个分类头,以便对手动编