AI智能总结
伊琳娜·尤伦卡*,‡,1,马库斯·库内施*,†,1,凯文·麦基§,1,丹尼尔·吉利克§,1,朱绍健†,1,萨拉·威尔特伯格§,1,舒布汉姆·米林德·帕尔1,凯瑟琳·赫尔曼·1,丹尼尔·卡森伯格§,1,阿维什卡·布胡普尚1,安吉特·阿南德·1,米鲁纳·皮斯拉尔·1,斯蒂芬妮·陈§,1,丽莎·王§,1,珍妮弗·1,帕尔萨·马穆迪赫·1,阿里亚·里斯贝克·1,高3,安德里亚·胡伯·1,布雷特·威尔特郡1,加尔·埃利丹‡,2岁,罗尼·拉宾·2,贾斯敏·鲁比诺维茨†,4岁,阿米特·皮塔鲁4,麦克·麦卡利斯特3,朱莉娅·威尔科夫斯基3,大卫·崔·8,罗伊·恩格尔伯格2,丽丹·哈克蒙·2,阿德瓦·莱文·2,雷切尔·格里芬·5,迈克尔·西尔斯·5,菲利普·巴尔·6,米娅·梅萨尔·3,玛娜·贾布尔·3,阿尔斯兰·乔杜里·1,詹姆斯·科汉·3,斯里格·,斯里格1,尼尔·萨兰·1本·布朗·1,迪兰·戈鲁尔·§,1,斯维特拉娜·格兰特·1,雷切尔·桥本·3,劳拉·魏丁格·1,胡杰鲁·1,陈恩·3,库巴·多莱基·3,坎弗·阿克布卢特·1,麦克斯韦·比勒斯基·1,劳拉·卡尔普, Wen-xinDong3,NahemaMarchal1,KelsieVanDeman4,HemaBajajMisra3,MichaelDuah5,MoranAmbar2,AviCaciularu2,SandraLefdal1,ChrisSummerfield7,JamesAn1,Pierre-Alexandrekamenny1,AbhinitMohdi3安妮·黑尔·5,韦恩·安德森·5,路易斯·科博·1,尼夫·埃夫隆†,2岁,穆克塔·阿南达·3,沙基尔·穆罕默德·1,莫琳·海曼斯·3,祖宾·加赫拉马尼·1,约西·马蒂亚斯·2,本·戈梅斯·3和莱拉·易卜拉欣·1 *同等贡献,†技术主管,‡研究主管,§工作流主管,1GoogleDeepMind,2GoogleResearch,3Google,4Google创意实验室,5亚利桑那州立大学,6隆德大学,牛津7大学,8人类学,在GoogleDeepMind工作期间进行的工作 世界面临的一个主要挑战是提供公平和普及的优质教育。生成人工智能(genAI)的最新进展使人们对新技术的潜力感到兴奋,新技术可以为每个学习者提供个人导师,为每个老师提供助教。然而,这个梦想的全部范围尚未实现。我们认为,这主要是由于将教学直觉用语言表达到genAI提示中存在困难,并且缺乏良好的评估实践,而定义优秀教学法的挑战加剧了这一点。在这里,我们展示了我们与学习者和教育工作者合作的工作,将学习科学中的高级原则转化为实用的七种不同的教育基准,涵盖定量,定性,自动和人工评估;并开发一套新的微调数据集,以提高双子座的教学能力,LearnLM-导师介绍。我们的评估表明,在许多教学方面,教育工作者和学习者始终优先选择learnlm-tutor而不是及时调整的双子座。我们希望这项工作可以作为开发全面的教育评估框架的第一步,并且这可以使AI和EdTech社区迅速取得进展,以最大程度地发挥AI在教育中的积极影响。 1.导言 人工智能(AI)大约70年的历史是范式转变之一:从符号系统到贝叶斯方法,再到深度学习,在过去的几年里,生成AI(genAI)-大型基础模型在互联网上可用的大量媒体上进行训练,以获得一系列令人印象深刻的通用功能,从而(大多数时候)能够对任何用户提示或询问提供有用的响应。每一次范式转变都带来了一系列独特的希望、机遇和挑战。然而,当前的人工智能时代是前所未有的:人工智能比以往任何时候都更容易获得(因为它只需要通过自然语言进行提示),比以往任何时候都更有能力,而且似乎比以往任何时候都更快地改进。关于如何利用这项技术实现最大社会效益的问题自然会出现。 参与:学习者反馈 |图1发展LearnLM-导师:我们负责任地发展genAI教育的方法概述。粗体箭头表示开发流程,虚线箭头表示信息流。我们的方法以参与开始和结束。我们首先回答以下问题:“我们试图帮助谁?”,“他们关心什么?”,“谁是所有相关的利益相关者?”,并将他们纳入我们的开发过程。这为我们的模型改进工作的优先级以及我们全面评估基准的开发提供了信息。这些进一步通过快速的基于自动评估和较慢的基于人工评估的迭代循环来通知模型改进(以及彼此)。最后,我们将模型部署到真实用户中,以进一步告知我们的研发工作,并反馈到参与阶段。我们使用这种方法来开发对话AI导师learnlm-tutor。评价(教师偏好):本报告介绍的七个评价基准之一。它表明,教育者更喜欢learnlm-tutor,而不是提示[1]将Gemini1.0作为大多数测量的教学属性的基础。部署(ASU自习室):learnlm-tutor与参加编程入门课程的ASU自习室学生之间的示例对话。参与(学习者反馈)来自ASU自习室学生的采访报价,该学生在课程中使用了learnlm-tutor。我们使用访谈来获得有关导师的有效性和安全性的定性反馈。 世界面临的主要挑战之一是缺乏普遍和公平的优质教育[2]。教育是一个关键的经济驱动力[3]和向上社会的促进者 流动性[4];然而,即使在COVID-19大流行之前,低收入至中等收入国家的所有10岁儿童中有53%正在经历学习贫困[5],美国40%名学区负责人将他们的教师短缺描述为“严重”或“非常严重”[6]。这一流行病进一步加剧了教育程度和教师保留方面的长期问题,对那些来自弱势背景的人产生了不成比例的影响[5,6]。 大流行后AI一代的崛起引起了不同的反应。一方面,它似乎有望实现知识和教育的民主化:学生是该技术的早期采用者和顶级用户[7],而genAI正在主导EdTech领域[8]。另一方面,人们对这种技术在教育环境中的滥用提出了一些担忧[7,9]。例如,为大多数最新EdTech系统提供动力的genAI模型并未针对教学法进行明确优化。相反,模型被训练成“有帮助的”[10-14],但这种有用的具体定义可能经常与教育学和学习不一致。例如,学生可以很容易地得到作业的直接答案,而不是通过他们自己的工作,以获得预期的实践。通过提示一代人工智能模型获得答案,似乎是“专家”信息的可用性也给学生一种在实现之前就掌握的错觉,这可能最终导致工作场所的问题[9,15]。 本报告描述了我们为教育用例优化genAI的第一步。特别是,我们专注于1:1的对话辅导,并为此用例提出了一个全面的评估协议。我们专注于对话式辅导,因为我们认为它是最具影响力和最通用的用例之一,并且因为它需要将许多重要的教育功能集成到单个系统中。一位优秀的对话式人工智能导师有可能增强学习者(通过为他们提供即时反馈并适应他们的个人需求)和老师(通过增加他们的影响力并减轻他们的工作量)的教育体验。我们专注于评估,因为很明显,学习科学(见3.1节)、教育技术(见3.2节)和教育人工智能(见4.2节)之间(甚至内部)缺乏共享框架,这样的框架可能比任何单一产品都能取得更大的进步。此外,有效的教学成功措施是优化人工智能解决方案的先决条件,而人工智能解决方案需要这样的信号来“爬山”。我们的主要贡献如下: 1.我们描述了我们负责任地发展人工智能教育的方法(图1),这是由道德和政策文献[16-26]提供的。我们强调参与式(2节)和多学科的研究方法,汇集了教育学,认知科学,人工智能,工程,伦理和政策方面的专家,以及最终的利益相关者-学生和教师-将学习科学的见解转化为Gemini1.0的务实和有用的教学改进[10]。 2.我们介绍了learnlm-tutor,这是一种基于Gemini1.0的新的基于文本的AI导师,针对1:1的会话辅导进行了进一步的微调(3节),并表明我们在及时调整的Gemini1.0上改进了其与教育相关的功能。3.我们开发了一套全面的七个教学基准(定量和定性,并使用人类和自动评估;图2),旨在从各个角度评估对话式AI导师的表现。作为案例研究,我们将这些评估应用于及时调整的[1]Gemini1.0和learnlm-tutor,为教学进步提供了一系列证据。我们还讨论了更有针对性的评估的例子,并描述了我们如何使用它们来发展LearnLM-导师的特定教育能力,如评估实践(第8.1节)和对程序性家庭作业问题的反馈(第8.2节)。我们的综合方法超越了解决更常见的问题“它有效吗?”(定量研究),还包括“它如何以及为什么有效?”(定性研究)和“它会为每个人工作吗?”(参与性研究),符合 |图2第4.3.2节中介绍的评价分类概述,该分类是本报告中介绍的七个教学评价基准的基础。每个基准在分类法中的位置都是独一无二的,并且具有自己的好处和挑战。这些不同的基准共同提供了对AI导师教学能力的更全面的看法。括号中的数字表示描述每个特定基准的部分编号。 福斯特等人。[21]。 4.最后,我们讨论了我们工作的局限性以及安全性,道德和政策含义。我们的道德和安全方法超越了通用人工智能指南,因为我们开发了针对教育的干预措施(9节)。 作为一个社区,我们才刚刚开始一段漫长的旅程,建立能够为普遍和公平获得优质教育做出有意义贡献的新一代人工智能技术[2]。因此,我们希望这份报告被视为对研究,教育技术,道德,政策和教育领域利益相关者的邀请,为我们的早期工作提供反馈,并共同建立共同的指导方针,基准,和工作原则,以指导我们的共同工作,负责任地发展教育1的转型人工智能。 2.参与式方法 本节详细介绍了有助于塑造该项目的参与性元素,包括我们评估方法的设计以及我们开发learnlm-tutor的目标。我们坚信,负责任地开发教育人工智能系统需要让学习者、教育工作者、政策制定者和学术研究人员[27]参与进来,以确保最终的系统符合他们的需求、价值观和 1,当我们正在努力使我们的教育基准时,如果您有任何即时建议或反馈,请通过电子邮件与我们联系,或者通过此表格进行更正式的研究合作。 愿望[28,29]。我们在协作和迭代开发过程中利用各种参与式研究方法,包括研讨会,共同设计练习,半结构化访谈和用户研究。2在此报告中,每个参与者都被分配了一个数字标识符(P1到P116)。这包括来自我们的研讨会(P1-P94),初步访谈(P95-P97),协同设计活动(P98-P106)和7节(P107-116)中描述的用户研究的参与者。 2.1.参与式研讨会:想象和批判教育和人工智能的未来 我们在英国举办了两次参与式研讨会:一次是学习者,主要是来自不同学术背景的大学生(=60),另一次是教育工作者,主要是专门研究STEM科目的高中教师(=34)。参与者人口统计数据的选择取决于实际考虑。我们意识到,未来的工作需要将我们的覆盖面扩大到更广泛的社区,因为英国和其他奇怪的3国家的学习者在访问genAI工具时可能会遇到更少的障碍,并且在不同的文化背景下,对教育中的AI的看法可能会有很大差异。 遵循参与式研讨会的最佳实践[32],我们采用了结构化活动来促进互动,协作学习和团队凝聚力(更多详细信息,请参见B.1节)。参与者被分成五到八个人的小组,并进行了两个关键练习: •基础练习:探索参与者的教育经验,揭示当前的需求,挑战和潜在的AI工具改进领域。•推测性设计:鼓励参与者设想一个涉及面临各种挑战的学习者的场景。通过协作头脑风暴,他们探索了人工智能和社会因素如何加剧或缓解这些挑战。 这些研讨会强调了当前教育面临的挑战:当学习者认为自己的学习材料无关紧要时,他们会与时间管理,认知超载和消极情绪作斗争;而教育工作者则努力在课堂环境中提供个性化的关注和反馈。 人工智能或人类的个性化辅导受到学习者和教育者的重视。当导师了解学习者并可以相应地调整他们的方法时,他们特别有效。与人类导师相比,学习者更愿意从AI导师那里寻求澄清,他们认为AI导师不太正式,不太可能引起对判断的恐惧。人类和人工智能导师的一个共同局限性是他们对特定教学大纲或考试委员会要求的细微差别缺乏熟悉。 研讨会中的学习者通常是genAI的强烈采用者。虽然意识到它的局限性,但他们往往乐于