您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ACT]:寻找稳定性:比较在 IRT 等式中检测不稳定项目参数的方法 - 发现报告
当前位置:首页/行业研究/报告详情/

寻找稳定性:比较在 IRT 等式中检测不稳定项目参数的方法

文化传媒2022-03-17ACT立***
寻找稳定性:比较在 IRT 等式中检测不稳定项目参数的方法

行为研究 |技术简介 | 2022 年 4 月1寻找稳定性:比较在 IRT 等式中检测不稳定项目参数的方法杰弗里·T·斯蒂尔在加利福尼亚州圣地亚哥举行的全国教育衡量委员会 2022 年年会上发表的论文。抽象的在基于 IRT 的常见项目等值中,常见项目参数的不稳定性会在 IRT 量表转换、随后的等值结果以及最终的考生分数中引入错误。本研究比较了五种识别具有显着参数漂移的项目的方法。本研究没有像许多先前的研究那样检测模拟参数漂移,而是使用预期的等效结果作为评估标准,这可能是由于操作使用随机组等百分位数与锚形式等效。结果表明,两种方法产生了相似的低等值误差,同时从共同项目集中消除了相对较少的项目。第一个是 ACT 目前根据历史分布用异常参数估计值标记项目的做法。第二个是 Delta 方法,当转换的比例正确值与预期显着不同时,它会标记项目。介绍许多测试程序依赖于基于 IRT 的通用项目非等值组,以保持测试分数随时间推移的意义(Kolen 和 Brennan,2004 年)。这种等效设计的成功部分取决于线性尺度变换,如果常见项目参数在测试场合之间存在显着差异,则该变换可能难以估计。出于这个原因,这些项目通常从尺度变换斜率和截距的估计中省略。这个一般过程有时被称为“稳定性检查”,以检测具有不稳定参数(或参数漂移)的项目。本研究比较了五种检测不稳定项目参数的方法来解决研究问题,“哪种稳定性检查程序可以最大限度地减少等值误差? ”这与之前的研究形成鲜明对比,后者倾向于关注版权所有 ® 2022 ACT, Inc. 保留所有权利。 | R2153 行为研究 |技术简介 | 2022 年 4 月2准确识别模拟项目参数变化。为了避免模拟项目参数的变化,这可能与现实世界的变化不同,本研究使用预期的等效结果作为评估标准。这是可能的,因为数据来自通过随机组等百分位数等同于在两个不同时间管理(和校准)的锚定测试表格的测试。恒等函数(0=0、1=1、2=2 等)作为锚形式通过 IRT 真实分数等同于自身时的标准。与恒等函数的偏差可以反映随机估计误差、样本差异和常见项目选择等因素,但在其他所有条件不变的情况下,结果差异仅反映去除不稳定项目的方法。总体而言,这项研究为使用基于 IRT 的通用项目非等价组等值的操作测试程序提供了实用指南。背景之前的几项研究比较了检测不稳定项目参数的方法。例如,Karkee 和 Choi (2005) 观察到四种不同的方法标记了不同的项目,并导致学生的考试成绩存在明显差异。 Murphy、Little、Fan、Lin 和 Kirkpatrick (2010) 比较了使用模拟 3PL 数据与“现实”项目参数变化的几种方法。结果表明,稳健的 z 倾向于标记过多的项目,而 d2(项目特征曲线之间的面积度量)和 a 或 b 参数的差异有时无法识别真正的项目参数变化。使用模拟数据,Meyer 和 Huynh (2010) 估计鲁棒 z 方法的 I 类错误率为 0.09 到 0.12,他们观察到检测能力随样本大小、参数漂移的大小和常见的数量而变化项目。同样,Arce 和 Lau (2011) 估计稳健的 z 类型 I 错误率为 0.08 到 0.13。最近,He 和 Cui (2020) 模拟了参数漂移,并将最小绝对值方法确定为五种方法中准确估计尺度变换参数的最佳方法。Rewley 和 Kaliski (2021) 发现,与各种模拟条件下的回归残差相比,d2 的表现相对较好。大多数先前的研究都集中在精确检测具有模拟不稳定参数的项目。当然,这是明智的,但等同过程并不止于此。最大实用价值的结果是后续的尺度变换是否会导致“正确”的等值结果。这一原则指导了本研究的设计,在比较五种检测操作测试数据中不稳定项目参数的方法时,使用预期的等效结果作为标准。 行为研究 |技术简介 | 2022 年 4 月3方法数据本研究的数据来自 ACT® 测试,该测试在全国范围内进行,用于大学招生、大学课程安排和高中问责制(ACT,2020)。完整的 ACT 考试由四个部分组成:英语(75 项)、数学(60 项)、阅读(40 项)和科学(40 项)。通常情况下,ACT 使用随机组等百分位数等同,其中一个或多个先前等同“锚”形式与新形式呈螺旋式上升,以随着时间的推移保持分数尺度的一致性。尽管等百分位数等值不使用 IRT,但维护了 3PL IRT 校准的项目池,以支持 ACT International 测试、PreACT® 和其他特殊测试环境(例如,在某些条件下进行测试)的预等值。校准后,Stocking-Lord 尺度变换参数 (Stocking & Lord, 1983) 使用两组锚定形式 IRT 参数估计值进行估计:(1) 将项目校准为新形式时,以及 (2) 校准项目时作为锚形式。然后将转换应用于所有新等同形式的项目参数,以将它们放在 ACT 银行 IRT 量表上。检测异常项目本研究应用了五种检测不稳定项目参数估计的方法。第一种 - 称为“ACT 差异”方法 - 标记 3PL 项目参数之间存在任何差异的项目(푎,푏, 或者푐) 超出根据历史 ACT 数据观察到的 95% 项目的相应范围。下一种方法是 Delta (Δ) 方法 (Angoff & Ford, 1973),它是作为检测差异项目功能 (DIF) 的一种方法而开发的。该方法包括将比例正确 (p) 转换为正常曲线偏差 (z) 到 Delta 比例,使用Δ.当项目与主轴的垂直距离(D一世) 超出范围±1.96, 在哪里푠是与最佳拟合线的垂直距离的标准偏差。稳健的 z 方法需要使用中位数和四分位间距(而不是平均值和标准差)计算 a(区分)和 b(难度)参数估计差异的 z 统计量,这使得 z 对极值具有稳健性(Huynh & Meyer, 2010) .例如,以下等式用于计算项目 i 的参数估计之间差异的稳健 z 统计量。퐷푎,푖푖 = ln�푎푖푖,푦� - ln (푎푖푖,푥)￿￿,￿￿ =[퐷푎,푖푖 − 푚푒푑푚푚푎푛(퐷푎)]0.74 × 퐼퐼퐼푅(퐷푎) 行为研究 |技术简介 | 2022 年 4 月4￿￿￿=2当 z 超出范围时,项目被标记±1.96. d2 方法类似于基于 IRT 的 DIF 分析,其中项目特征曲线之间的平方差由能力分布计算和加权(Murphy 等,2010)。푑2 = ��푃(￿￿) − (￿￿2)� 푔(휃휃 )￿￿￿￿￿￿￿￿￿￿￿当 d2 大于 d2 分布的第 95 个百分位时,项目被标记根据历史数据。第五个也是最后一个方法是￿DIF方法由 Lord (1980) 描述,它测试 a 或 b 参数估计值是否有显着差异。那是,휒휒2 = 푣′횺횺−1푣푖푖,￿￿￿￿￿￿在哪里푣和횺是对应的方差-协方差矩阵。分析对于这项研究,以下测试形式等同于:1.表格 X 与(后来的)管理的项目参数估计,在此期间表格 X 是等值锚2.表格 X 与最初等同于表格 X 的(早期)管理部门的项目参数估计所有项目参数估计都在 ACT IRT 校准项目池的规模上。 Form X (anchor) 和 Form X (initial equating) 的原始分数之间的真实等值关系应该是 0=0, 1=1, 2=2,..., J=J。在 100 次重复中,随机选择 25% 的项目作为公共项目集。将它们的项目参数和比例正确输入到五种稳定性检查方法中。然后,将得到的 Stocking-Lord 尺度变换常数(基于具有稳定参数的常用项)应用于将所有参数置于同一尺度上,并进行 IRT 真分数等值。等值结果和恒等函数之间的差异表明存在偏差,并且跨复制的等值结果的标准偏差揭示了检测具有不稳定参数的项目的方法引起的变化。结果此处提供了一个完整的 ACT 测试(电池 A)的结果,该测试最初在 2018 年等同,并在 2020 年用作锚定形式。表 1 提供了每种检测方法标记的项目数量的描述性统计数据。通过测试 行为研究 |技术简介 | 2022 年 4 月5部分,ACT 差异方法倾向于标记最少的项目,紧随其后的是 Delta 方法,然后是 d2。与之前的研究一致,与其他方法相比,鲁棒 z 倾向于标记更常见的项目,但 Lord DIF 方法标记了迄今为止最多的项目(通常大约 30-40% 的项目)。这可能与敏感度有关χ2 统计样本量,这总是大于2000名考生。表格1。跨 100 次复制(电池 A)标记为不稳定项目参数的项目数的描述性统计截面统计行为差异。三角洲强大的zd2DIF勋爵英语意思是0.370.612.861.157.28(75项目,中位数0131719常见的)最低限度00002最大228412数学意思是0.080.842.041.804.75(60项目,中位数0122515常见的)最低限度00001最大12659阅读意思是0.470.281.800.464.16(40 项,中位数0010410常见的)最低限度00001最大21527科学意思是0.000.131.360.243.63(40 项,中位数00103.510常见的)最低限度00000最大01528为了说明相等偏差,图 1 显示了相等的原始分数和恒等函数之间的平均差异。在英语和科学测试中,五种方法之间的差异通常较小,但在数学和阅读测试中差异较大。这些差异用加权均方根差 (wRMSD) 统计量进行总结(Harris & Crouse,1993 年),权重等于 2020 年(该 ACT 考试表格作为等同锚的年份)每个原始分数的考生比例)。如表 2 所示,这五种方法的 wRMSD 值大致相似,但有一些例外:数学的 d2 的 wRMSD 较高,稳健 z 的 wRMSD 和 Lord DIF 的阅读较高,而科学的稳健 z 的 wRMSD 较高.图 2 显示了五种检测方法的等值原始分数的标准偏差。在测试部分中,Lord DIF 的变化往往最大,其次是鲁棒 z。考虑到这两个,这个结果并不奇怪 行为研究 |技术简介 | 2022 年 4 月6方法从常见项目集中删除了最多和第二多的项目(表 1)。在其他方法中,ACT 差异通常表现出最小的变化,而 Delta 几乎一样低。将偏差和变异的测量值结合起来计算每个原始分数的均方误差 (MSE) (MSE = Bias2 方差),并且这些被加权以生成加权均方根误差(wRMSE;表 2)。平均而言,通过 wRMSE 测量的等值误差在 ACT 差分法中最低,其次是 Delta、d2、鲁棒 z 和 Lord DIF(表 2)。 行为研究 |技术简介 | 2022 年 4 月7图1。100 次复制中相等的原始分数和身份函数之间的平均差异(电池 A) 行为研究 |技术简介 | 2022 年 4 月8表 2。加权均方根差和误差(电池 A)统计科行为差异。三角洲强大的zd2主DIF英语0.2160.2150.2220.2120.211偏差/wRMSD数学0.0650.0780.0660.1080.073阅读0.0560.0600.0730.0620.098科学0.0490.0490.0800.0530.057英语0.3500.3760.3800.3930.460wRMSE数学0.2830.2960.3450.3190.354阅读0.2170.2150.2700.2360.303科学0.1960.2000.2470.2140.295图 2。100 次重复的相等原始分数的标准偏差(电池 A) 行为研究 |技术简介 | 2022 年 4 月9复制为了评估上述结果的普遍性,对另外两个 ACT 电池重复了所有分析。 2019年电池B等同,2020年作为锚;电池C在2020年被等同起来,在2021年被用作锚。电池 B 和 C 的完整结果在附录中提供。表 3 总结了排名方面的结果,其中 1 表示标记的项目最少、偏差/wRMSD 最低、方差最低和 wRMSE 最低。结果的总体趋势在三种电池中非常相似。也就是说,ACT 差异和 Delta 方法标记的