AI智能总结
11125 Martín De SimoneFederico Tiberti Maria Barron Rodriguez Federico ManolioWuraola Mosuro Eliot Jolomi Dikoru 摘要政策研究工作论文11125政策研究工作论文系列发布研究进展中的成果,以鼓励关于发展的思想交流:问题。该系列的一个目标是快速发布研究结果,即使演示文稿不够完美。这些论文包含了:作者的名字,并应相应地进行引用。本文中表达的研究结果、解释和结论完全是作者的。它们不一定代表国际复兴开发银行/世界银行的看法。其附属机构,或世界银行执行董事或其代表政府的机构。本研究评估了在尼日利亚中等教育中利用大型语言模型进行虚拟辅导的项目影响。通过随机对照试验,该项目部署了由GPT-4驱动的Microsoft Copilot,以支持学生在六周内进行英语语言学习。干预措施在一个包含与尼日利亚课程内容相一致的英语主题、人工智能知识以及数字技能的评估中,显示出0.31个标准差的显著提升。其对主要关注结果——英语——的影响为0.23个标准差。本文是教育全球部门的成果。这是世界银行更大范围提供研究开放获取并促进全球发展政策讨论的努力的一部分。政策研究工作论文也发布在http://www.worldbank.org/prwp的网站上。作者可通过desimone@worldbank.org、ftiberti@worldbank.org、mbarronrodriguez@worldbank.org、fmanolio@worldbank.org、wmosuro@worldbank.org和edikoru@worldbank.org联系。 由研究支持团队制作 成本效益分析显示,存在显著的学业提升,相当于1.5至2年的“常规教学”学习时长,将干预措施定位为改善学习成果最具成本效益的项目之一。异质性效应分析表明,虽然该项目惠及了基准能力分布范围内的所有学生,但最大的效益体现在女性学生以及初始学业成绩较高的学生身上。研究结果强调,人工智能辅助教学,在设计和使用得当的情况下,能够在资源匮乏的地区的教育领域产生变革性影响。 ´Martın De Simone, Federico Tiberti, Maria Barron Rodriguez, uraola Mosuro, Eliot Jolomi Dikoru.Federico Manolio, W†从粉笔到聊天机器人:评估生成式人工智能对尼日利亚学习成果的影响*团队感谢世界银行的谢尔扎达·拉蒂夫和哈里勒·敦达尔教育实践经理。团队对乔恩·奥萨·奥维韦博士和詹妮弗·艾苏安的协作表示感谢。在整个试点实施期间,以及感谢Alex Twinomugisha、Robert Hawkins和Cristobal Cobo对干预措施提供的支持。该团队感谢为该论文的先前版本提供评论的人员,包括David Evans、Halsey Rogers、Carolina Lopez、Francisco Haimovich和Daniel。Rodriguez-Segura、Noah Yarrow、Juan Baron和Lucas Gortazar。该团队承认获得了Mastercard Foundation的资金支持。†De Simone: 世界银行。电子邮件:mdesimone@worldbank.org。Tiberti: 世界银行。电子邮件:ftiberti@worldbank.org。Barron: 世界银行。电子邮件:mbarronrodriguez@worldbank.org。Manolio: 世界银行。电子邮件:fmanolio@worldbank.org。Mosuro: 世界银行。电子邮件:wmosuro@worldbank.org。Dikoru: 世界银行。电子邮件:edikoru@worldbank.org。关键词:大型语言模型、自适应学习、人工智能、教育技术、中学教育、因材施教。JEL分类:C93, I21, J24, O15, O33. 1 引言其次,我们检验了由某些预处理特征引起的效应异质性。我们呈现了三组主要结果。首先,我们发现被选入参与该项目的学生的最终评估成绩比干预结束后交付的评估高出0.31个标准差。我们发现该评估的所有部分都存在强烈的统计显著意向治疗(ITT)效应:英语技能(其中包含大部分问题,0.24σ), 数字技能 (0.14σ), 人工智能技能 (0.31σ) 和每位学生考试的项目反应理论(IRT)复合分数(0.26σ)。我们还证明,干预措施在第三学期的常规英语课程考试中产生了强有力的积极结果。这个结果很重要,因为考试中评估的内容比干预期间所涵盖的内容更广泛,并且包括了全年的内容。我们计算了入选该项目的干预效应(ITT效应)对第三学期考试成绩的影响为0.21个标准差。本文探讨了生成式人工智能,特别是大型语言模型(LLM),是否能够帮助解决该问题。我们评估了尼日利亚一项为期六周的课外辅导项目,该项目使用公开可用的LLM(ChatGPT-4)来支持学生学习英语。来自贝宁城九所公立学校的一年级中学生被邀请参加;在这批学生中,52%的合格学生表达了兴趣,参与者从中随机选取。被分配到干预组的参加者在计算机实验室参加了十二次90分钟的课程,并在教师的指导下参与与课程相关的活动。我们采用随机对照试验(RCT)设计来估计该项目对学习成果的因果影响。在他具有里程碑意义的1984年研究中,Bloom证明接受一对一辅导的学生平均比在传统课堂环境中的同龄人表现优异两个标准差。Bloom,1984). 后续研究一致证实了一对一辅导的显著益处 (Nickow 等人,2020然而,挑战在于大规模实施一对一辅导既成本高昂,大多数教育系统也难以负担。布鲁姆将这一挑战称为“两西格玛问题”:如何在具有成本效益的方式下,大规模复制个性化辅导的收益。全球教育领域正面临学习危机。根据学习贫困指数,低收入和中等收入国家的约70%的10岁儿童无法阅读和理解适龄文本。世界银行,2022). 这些学习上的差距不断累积,并在中学阶段变得尤为突出,这一点有大量的国际、区域和国家评估作为佐证。 2 3研究结果结合成本分析表明,该计划具有很高的成本效益。为期六周的试点项目产生了相当于常规情况下1.5至2年学习收益的提升。该计划每投入100美元可产生3.2个等效学习年(EYOS),超越了众多可比干预措施。以学习调整学习年(LAYS)作为分析指标,该计划可产生高达0.9年的高性能教育年。与来自低收入和中等收入国家的证据进行基准比较时,该试点计划位列解决学习危机最具成本效益的解决方案之中。第三,我们开展剂量反应分析。我们估计局部平均处理效应(LATE)估计值,重点关注实际参与干预课程的影响,治疗组平均参与率为72%。利用参与数据,我们估计剂量反应关系,发现参与天数与学习成果改善之间存在强烈的线性关联,每增加额外一天参与的效果量约为0.031个标准差。进一步分析预测,延长项目时长将带来显著收益,估计参与一整学年(取决于参与率)可使效果提升1.2至2.2个标准差。我们的研究为旨在识别试图根据学生水平定制教学(无论使用技术与否)的项目的效果的文献的不同分支做出了贡献。为应对这一挑战所做的努力包括开发“适切教学水平”(TaRL)方法,该方法已证明在印度、肯尼亚、加纳和赞比亚等环境中能够提高学习成果(Banerjee等人,2016). TaRL的实施方式 varied,从将学生从课堂中带出 (Banerjee等人,2007), tracking classrooms (Duflo 等。,2011), 提供校外额外的教学时间(Banerjee等人,2016), 以及雇用志愿者而不是教师(Banerjee等人,2008).然而,由于TaRL项目具有劳动密集型的特点,扩大这些项目仍然具有挑战性。这一挑战在全球教师短缺的情况下尤为突出,尤其是在撒哈拉以南非洲地区。最近估计表明,到2040年,该地区的国家每年将需要增加21%的中学教师(Evans and Mendez Acosta,即将到来). 教师短缺是处理效应在所有基线绩效水平上均为正且具有统计显著性,但在先前表现较好的学生中更为显著。类似地,处理效应在整个社会经济地位代理指标分布上均为正且具有统计显著性,但在社会经济地位较高学生中更为显著。最后,处理效应在女学生中更为显著,弥补了她们基线绩效的不足。 4一些自适应学习方案利用人工智能(AI)来调整以适应学生的水平,但它们主要依赖于模式识别和预测算法,根据包含数千个项目的题库为学生提供与其水平相符的练习。生成式人工智能的最新进展为使用软件教学提供了一个有前景的途径,同时通过使用自然语言与学生保持更类人的互动。尽管取得了这些成功,适应性学习项目仍面临若干挑战。首先,大多数项目并未部署在世界最具挑战性的教育环境中,特别是在撒哈拉以南非洲地区,这引发了对外部效度的疑问。其次,这些项目通常依赖专有软件,其中既包括固定成本也包含按学生计算的成本,这使得它们在资源受限的环境中难以规模化推广。近年来,适应性学习软件通过利用技术模拟一对一辅导,已成为解决辅导项目可扩展性问题的潜在方案。研究表明,计算机适应性学习系统可以提升学习成果。例如,一项针对印度中学生个性化技术辅助课后教学的研究报告称,在4.5个月期间,数学成绩提升了0.37个标准差,哈里语成绩提升了0.23个标准差(Muralidharan等人,2019一个在柬埔寨针对小学生数学教学的研究发现,由于学生每小时的学习效率提高,对认知技能产生了影响。Ito et al.,2021). 在萨尔瓦多,用于适应性学习的软件被证明是有效的。¨环境具有异构类别和资质较差的教师 (Buchel等人,2022). 中国的实验也发现对标准化数学成绩有积极影响(Lai et al.,2015a) 和普通话 (Lai et al.,2015b), 包括在常规学校时间内实施的情况(Mo等,2014). 在厄瓜多尔,使用适应性学习软件四个月的可能性导致了数学标准化考试成绩的显著正面影响(Angel-Urdinola 等人,2023).其他没有采用实验方法的研究也估计了类似软件程序的正效应,例如乌拉圭的一个项目显示数学测试分数提高了0.2个标准差(Perera和Aboal,2019).大多数考察教育领域中生成式AI的研究都已在发达国家和实验室环境中进行,评估了短期互动的影响(Kumar et al.,2023). 在意大利,研究发现大型语言模型(LLMs)通过作业支持对学习成果有积极影响(Vanzo 等人,2024). In进一步加剧了高离职率问题,并且二级水平所需的专业知识需求使得TaRL项目实施更加困难。 5仅有少数研究评估了生成式AI在辅导学生方面的效果。在加纳,每周获得一小时手机访问权限并被允许通过短信应用使用AI驱动的数学辅导工具进行独立数学学习的学生,其成绩提升幅度远超未获得访问权限的学生,其效应量为 ¨0.36 (Henkel et al.,2024). 一项最近在土耳其进行的研究表明,包含仅四次的干预措施显示,虽然大型语言模型(LLMs)可以改善数学学习成果,但如果它们被用作“拐杖”而非导师,则可能在长期内对学习产生不利影响(Bastani 等人,2024). 在实验室环境下进行编码课程时,也发现了类似的效果。Lehmann et al.,2024). 这项研究表明,在使用旨在保护学习的提示来配合大型语言模型时,产生了更积极的影响。Bastani等人,2024).此项干预措施的调查结果强调了针对发展中国家,特别是撒哈拉以南非洲地区学习危机所包含的若干关键政策启示。该计划在学习成果方面展现出显著影响,即使面临互联网中断和停电等挑战,突显其在师资严重短缺和资源受限环境下的潜力。采用大型语言模型的AI辅导项目可通过提升教师生产力和提供个性化学习体验来补充传统教学,尤其在与指导性提示、教师监督及课程内容相协调时更显有效。该干