AI智能总结
斯科特 · W · 伍德 I. Introduction 在 2021 年和 2022 年 , CRASE +®研究小组研究了在 ACT 上使用 CRASE + 自动计分引擎的可行性®在线进行的写作测试。研究人员进行了多项概念验证研究,以评估CRASE+分数与人工手动评分员评分的准确性差异。另外的研究探讨了子组差异、等值效应以及各种修改对引擎训练的影响。 基于研究发现,ACT建议使用CRASE+自动化评分系统来替代每份提交的在线写作测试作文分配给的两名人工评分员中的一名。如果前两位评分员给出的分数存在差异,需要通过决议(即第三位评分员阅读该作文以解决分数差异)的情况将由独立的人工评分员处理。ACT国际于2022年10月开始以这种方式将CRASE+作为初始评分员之一进行使用。 这份文档总结了这些概念验证研究的主要发现。这里呈现的结果应有助于各州评估协调员更好地了解CRASE+的训练过程以及CRASE+评分与手工评分的比较情况。 下一节将简要介绍自动化评分和CRASE+引擎。第三部分和第四部分讨论用于训练引擎的数据和流程。第五部分和第六部分审查了CRASE+数据的子组分析。第七部分描述了CRASE+如何处理条件代码。 二、背景 : 自动评分和裂缝 + 自动化评分(或自动作文评分)是指使用计算机算法模拟人工对构造性回答或作文项目进行评分的行为。评分算法称为发动机, 并准备用于操作的评分算法称为训练引擎. 评分引擎由四个部分组成:一种读取文本数据的方法、一个预处理器用于标准化和初步处理文本、一种提取文本的定量特征的方法(称为特征) , 以及将这些特征映射到手牌评分数据的方法。 CRASE+ 于2007年创建,旨在支持某州的综合评估项目。该系统自那时起不断得到增强,以包括对多种自由应答题型评分方法学的支持,并整合了新的文本处理和分析技术。CRASE+ 已在多个州的形成性和总结性测试项目中以及许多研究项目(包括美国教育部增强评估拨款项目)中得到实际应用。 本报告假设读者对自动化评分概念有一定的了解。对于初次接触自动化评分的读者,CRASE+研究团队推荐以下资源: • Lottridge , S. , Burkhardt , A. , 和 Boyer , M.(2020) 。数字模块 18 : 自动评分。教育测量 : 问题与实践 , 39(3), 141–142.https: / / ncme. elevate. commpartners. com / products / digital - module - 18 - automated -scoring• Yan , D. , Rupp , A. A. 和 Foltz , P. W.(编辑) 。(2020 年) 。自动评分手册 : 理论付诸实践。 CRC 出版社。 • Shermis , M. D. , 和 Burstein , J.(编辑) 。(2013 年) 。自动论文评估手册 : 当前应用和新方向。路里奇。 · 伍德 , S. , 姚 , E. , 海斯菲尔德, L. , 和洛特里奇 , S. (2021 年) 。建立自动评分的最佳实践标准. ACT.https: / / www. act. org / content / dam / act / unsecured / documents / R2100 - auto - scoring - standards - 2021 - 07. pdf· 麦卡弗里 , D. , 卡萨比安卡 , J. , 里克 - 佩德利 , K. , 劳利斯 , R. , 和温德勒 ,C. (2021 年) 。构建响应评分的最佳实践. ETS.https: / / www. ets. org / content / dam / ets - org / pdfs / about / cr _ best _ practices. pdf 三、发动机培训和验证方法 Data 需要来自手工评分作文的数据来训练CRASE+引擎。如果可能,这些数据应在真实的测试条件下收集,并且必须代表未来预期提交作文的考生群体。 概念验证研究使用的ACT写作作文来自三个来源:2020年9月的ACT国际版、2020年10月的ACT国际版以及部分2021年春季的州级和区级管理考试。仅包括通过在线方式获取的作文。请注意,当前ACT全国写作测试尚未数字化,因此未包含在这些研究中。研究提供了大约14,000篇带有手工评分的作文,由于条件代码原因,仅有不到1%的作文被排除在外。 表1列出了项目数据中包含的作文题目及其来源机构,以及每个题目对应的记录数量和占比。共有27个写作题目出现在数据中。总体来看,66.8%的记录来自州和区级管理机构,19.1%的记录来自十月国际管理机构,而14.1%的记录来自九月国际管理机构。 表2给出了(人工)评价员1对四个写作领域在不同时间段内的评分点分布、平均值和标准差。考生在每个领域最有可能获得3分或4分的评分,最不可能获得1分或6分的评分。此外,注意的是,9月和10月参加ACT国际考试的考生在四个领域的得分普遍高于参加州和地区考试的考生。这可能是由于ACT国际考生选择参加评估,而许多州和地区考生则因问责目的被要求参加写作测试。 表3、表4和表5提供了项目数据集中记录的人口统计信息。表3总结了按报告性别分类的记录百分比。表4总结了按报告的西班牙裔身份分类的记录百分比。表5总结了按报告的种族/族裔分类的记录百分比。当学生注册参加ACT时,他们被要求表明自己的种族,并勾选适用的所有选项:美洲原住民/阿拉斯加原住民、亚洲人、黑人/非洲裔美国人、夏威夷原住民/其他太平洋岛民、白人,以及以上都不适用或不选择这些类别。 性别分布(表3)在三个管理层级中是一致的。然而,西班牙裔身份分布(表4)和种族/民族分布(表5)在国际和州及地方管理层级之间存在差异。州及地方的 demographics 与 2020 年美国人口普查收集的数据一致。国际层级的人口统计数据与州及地方层级的人口统计数据不同;例如,国际层级考试中有较高比例的亚裔考生。由于目标是生成一套适用于州及地方和国际考生的自动化作文评分模型,因此有必要包含两种类型考生的平衡样本,以产生代表合并测试人群的训练和验证样本。 培训和验证示例 CRASE + 研究团队建立通用评分模型为了这个项目,构建了一个通用评分模型,使用了来自多个写作prompt的作文数据,目标是在类似写作prompt的作文数据上应用该模型。替代方案是(或其他内容)。特定于提示的模型,在该模型仅用于同一写作提示下的作文数据的情况下,模型是基于单个写作提示的作文数据构建的。使用通用评分模型有若干优势。其中一个优势是可以创建少量的模型,并将这些模型应用于许多项目。另一个优势是可以无需大量手工评分的实地测试数据即可将模型应用于新的写作提示。通用评分模型的一个缺点是无法利用特定于写作提示的特性。 给定ACT写作测试中题库的规模以及对一些较少使用的题目的训练数据不足的情况,研究团队在所有研究中重点集中在通用评分模型上。 良好的统计建模实践指出,数据应当分配给训练样本和盲验证样本。训练样本用于确定最佳拟合模型。盲验证样本则在对模型训练过程不知情的情况下,使用新数据来评估最佳拟合模型。 培训和盲验证样本中需要有足够的ACT国际及州和地区的行政代表。我们还确保了培训和盲验证样本使用了不同的提示。因此,制定了以下规则用于分配训练样本和验证样本: 1. 在四个提交最多文章的州和区提示(I114_00824、I114_00915、I114_00789 和 I114_01058)中,随机选择了两个作为训练样本,其余两个进入了盲验证样本。2. 在剩余的七个州和区提示中,随机选择了四个作为训练样本,剩下的三个进入了盲验证样本。3. 两个提交最多文章的ACT国际提示(I114_01170 和 I114_01111)被选为训练样本。4. 在剩余的14个ACT国际提示中,随机选择了八个作为训练样本,剩下的六个进入了盲验证样本。 表格6a和6b列出了用于训练样本和盲验证样本的选择提示,包括这些提示的数据来源及其各自的文章数量。训练样本包含8,862篇文章;验证样本包含5,128篇文章。 表格7、8和9展示了性别、西班牙裔身份以及种族/族裔在训练样本和验证样本中的分布情况。虽然性别和西班牙裔身份的分布在这两个样本中相似,但在种族/族裔分布方面,训练样本和验证样本之间存在一些明显的差异。这可能是由于ACT国际考试中所使用的提示语选取方式所致。国际考试中使用频率最高的提示语出现在了训练样本中。由于很大一部分ACT国际考生是亚洲人,这解释了训练样本与验证样本中亚洲考生比例之间的差异。 发动机培训 回忆第二部分可知,特征是指一段文本的定量特性。这些特征用于构建一个统计模型,将文本特性映射到人工评分。CRASE+ 使用了一套默认的写作特征来进行预测。这些特征是由英语语言艺术专家和自然语言处理专家开发的。总共提供了39个特征用于评分建模。 CRASE+ 包含多种机器学习程序,用于将作文特征映射到人工评分。在本研究中,评估了梯度提升模型。梯度提升模型在许多提示和评估任务中历来表现良好。它们通过子采样和一系列回归树逐步构建预测模型。 RASE + 已使用五折交叉验证在训练样本上确定最适合的梯度提升回归模型以进行评分。在五折交叉验证中,作文被分配到五个互斥组之一(称为褶皱). 每一轮次将其余轮次组合成候选模型的训练样本。然后对被留出的轮次进行评分以生成预测得分。在所有轮次均被留出后,可以使用预测得分来计算准确性和一致性指标。该过程应用于由CRASE+研究人员识别出的多个模型,并选择具有最佳一致性指标的模型作为最适合的模型。 评分模型是使用手工评分员给出的最终原始分数来训练的。ACT写作测试的原始分数确定如下: • 如果评阅人1和评阅人2对某篇作文在某一领域的评分相同,最终原始分为两评阅人的评分之和。• 如果评阅人1和评阅人2的评分相差不超过1分(例如,3和4),则最终原始分为两评阅人的评分之和。• 如果评阅人1和评阅人2的评分相差超过1分(例如,2和5),则分配第三个评阅人进行仲裁阅读。最终原始分由仲裁评阅人提供。• 在所有情况下,应试者可以获得2到12分的分数。 预测来自梯度提升回归模型的结果是小数(例如,8.58943820)。为了将这些未分段的预测转换为1-6原始尺度上的分段评分标准,研究人员根据评分点分布建立了切分分数。 从训练集获取。例如,如果训练样本中8%的样本收到了评级员1给出的1分,则切分分数被定义为最低的8%未离散化的CRASE+分数将被赋予1分。如果训练样本中有18%的样本收到了评级员1给出的2分,则切分分数被定义为接下来的最低的18%未离散化的CRASE+分数将被赋予2分。这一过程继续进行,直到所有所需的切分分数都被定义。 发动机评估 评分模型可以通过分布性指标和一致性指标来评估。分布性指标包括评分者1、评分者2和CRASE+生成的分数点分布、均值和标准差。期望CRASE+的分布性指标与评分者1和评分者2生成的指标相似。 另一个关键的分布指标是标准化平均差或SMD。该指标定义为Rater 1的平均得分减去Rater2的平均得分再除以合并的标准差。如果SMD的绝对值小于或等于0.15,则认为两个分布的均值足够相似,可以用于实际应用(Williamson等,2012)。 协议统计数据用于评估评分器可靠性; 即两个独立评估者之间的一致程度。精确协议率是两个评分者分配相同分数的论文百分比。相邻协议率是两名评分员为同一篇论文分配的分数在相差不超过1分的情况下的百分比。 ACT标准要求精确一致率不低于60%,同时要求精确一致率和相邻一致率之和不低于95%。关于自动化评分的行业标准建议,如果人工评分员与评分引擎之间的精确一致率不超过人工评分员之间的精确一致率,则该差距应在5.125个百分点以内(麦格劳 Hill教育