CRASE®作文评分模型性能评估
CRASE®研究团队自2007年创建CRASE模型以来,已将其应用于数百个构造性回答项目和作文提示,涵盖英语语言艺术、数学、科学、政府等多个内容领域,适用于四年级至十二年级的不同年级水平。模型训练采用特定于提示的均值,即单个项目的手评分数据,同时也有经验处理交叉提示评分模型。CRASE模型在训练完成后,使用盲验证样本进行评分,以计算自动化评分指标,评估其在运营评分过程中的表现。
本研究重点评估人类评分与CRASE评分之间的指标,并与人类与人类评分之间的指标进行对比。数据摘要概述了2016年至2019年间对写作提示进行的人类-CRASE评分标准观察结果。
评估指标
-
二次加权Kappa(QWK):QWK是衡量两位独立评分者之间一致性程度的指标,对评分者之间的不一致进行惩罚。行业标准建议,如果人类-CRASE QWK值小于人类-人类QWK值,则人类-CRASE QWK值应与人类-人类QWK值相差不超过0.10。
-
精确一致率:精确一致率是指两位独立评分者为同一篇论文分配相同分数的比例。行业标准建议,如果人类与CRASE之间的精确一致率低于人类之间的精确一致率,则人类与CRASE之间的精确一致率应在人类之间精确一致率的5.125个百分点范围内。
CRASE作文评分表现
在2016年至2019年间,CRASE研究团队针对多个评估项目训练了253种文章提示-维度组合模型。其中165种组合的人工评分指标数据可用,图1和图2展示了这些组合的人类-人类和人类-CRASE精确一致率及QWK。
- 精确一致率:85%的提示维度组合达到了或超过了行业标准的精确匹配率。
- QWK:92%的提示维度组合达到了或超过了QWK行业的标准。
影响评分准确性的因素
如果人类与CRASE指标未达到行业标准基准,需要考虑以下关键问题:
- 人工评分最佳实践:是否遵循了适当的培训、使用合格测试、定期使用效度文件以捕捉评分者偏差,以及由专家读者监控评分。
- 数据量:每个得分点至少有100-200篇论文。
- 手评分规则:手评分规则是否对不同得分点的论文有明确的指导。
- 手牌分数数量:每个提示维度是否有两个或更多的手牌分数。
- 数据覆盖:手牌计分数据在所有得分点上是否有足够的覆盖,特别是最低分和最高分。
研究结论
CRASE+在大多数作文题目和维度上达到了可接受的准确性。2022年和2023年的额外发现显示类似的趋势,例如在2022年的概念验证研究中,CRASE在ACT写作测试的四个领域中实现了与行业标准相符或超越行业标准的精确一致率和QWKs。CRASE引擎表现良好,能够可靠且准确地评分作文提示,其中85%的提示维度模型达到了精确一致率的标准,92%的模型达到了QWK标准。这一表现部分归功于为CRASE开发的功能集,该功能集通过运用心理学测量学和英语语言艺术的专业知识组装而成。