您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ACT Research]:增强型ACT链接研究报告 - 发现报告

增强型ACT链接研究报告

AI智能总结
查看更多
增强型ACT链接研究报告

董梅 李,沙里尼·卡波特,安·阿瑟,黄志宇,赵永武,仇晨,王红玲 执行摘要 从2025年4月开始,ACT将引入ACT的增强版形式。®测试全国在线考试,预计到2026年春季在全国、州和地区以及国际的纸笔考试和在线考试参与者中全面推广。ACT通过改变考试长度和考试时间、每个题目提供更多时间、重新平衡报告类别、增加嵌入式实地测试题目、将科学测试设为可选以及将ACT综合分数从英语、数学、阅读和科学(EMRS)的平均分改为仅英语、数学和阅读(EMR)的平均分进行了重大更新。这些增强功能的详细信息可在ACT网站上查看()。www.act.org/actenhancements尽管有这些变化,改进后的ACT测试旨在测量与旧版ACT相同的结构。为确保历年分数的一致性,ACT决定在改进测试中维持旧版1-36分的评分标准。 在产品发布前,进行了两项特别研究:一项是2024年6月进行的链接研究,旨在将增强版形式与旧版形式相连接;另一项是2024年10月进行的模式研究,旨在考察增强版ACT的纸质版和在线版之间的分数可比性。本文件重点关注2024年6月链接研究的分析和发现。 2024年6月的链接研究采用了随机分组设计,其中两种增强形式和一种传统形式在线进行并随机分配给参与者。最终清洗后的数据集包含6,882名学生。在开展统计链接之前,考察了这些增强对学生测量结构和学生表现的影响。随后,对增强形式的心理学特性进行了检查,并与传统形式进行了比较。 为了检验构建等价性,ACT 使用不同的模型进行了确认性因子分析。增强形式的拟合指数和因子负荷量与每个模型的传统形式相似,表明测量构建的一致性。为了检验增强对学生表现的影响,ACT 检查了完成率、快速响应率、跳过率和学生对调查问题的回答。对于某些测试部分,有些证据表明在测试完成率和学生对有足够时间完成测试的感知上存在一些小的积极影响。 等效方法被用于将改进形式与原有形式联系起来。链接结果的稳健性得到了子群不变性证据的支持,这种不变性与近期平行ACT形式等效中的观察结果相似。进一步的分析被进行以评估链接分数的心理测量属性,包括可靠性、标准误差等。 测量(SEM)、条件测量(CSEM)以及ACT大学入学准备标准与ACT的分类一致性®WorkKeys®NCRC®指标。 可靠性对于增强形式分别为EMRS综合指标的0.96和EMR综合指标的0.94,以及测试部分的0.83至0.88之间。正如预期,这略低于传统形式的可靠性,这是由于测试长度的减少所致。因此,测试部分与大学预备指标分类一致性之间的观察相关性也略有下降,正如预期的那样。 在SEM和CSEM方面,传统ACT分数的CSEM对于综合分数约为1,对于测试部分约为2。虽然增强形式在每个测试部分得分上显示出CSEMs约提高半分点的增长,但CSEMs在分数尺度上的变异性与传统测试相似。此外,增强形式的四舍五入SEM与传统测试的分数报告中所用SEM相似(综合分数约为1,测试部分得分约为2),除了阅读SEM略高于2.5。因此,测量精度的变化对分数解释的影响非常小。 总的来说,增强版的ACT测试测量了与原版ACT测试相同的结构,并在相同的量表上报告分数。这些增强对学生的表现影响很小,尽管有一些证据表明对测试完成率和学生对有足够时间完成测试的认识有轻微的积极影响。尽管测试长度的减少导致了预期中的测量精度下降,但对分数解释的影响微乎其微。因此,增强版的ACT测试和原版ACT测试的分数可以相互替代使用。 概览 ACT 增强功能及专项研究 从2025年4月开始,参加全国考试日期在线参加ACT考试的学生将参加增强版的ACT考试。随后,在2025年9月,增强版的ACT考试将面向所有国内外学生推出。最后,在2026年春季,增强版的ACT考试将提供给州和地区的学生。主要改进包括缩短测试长度和总体测试时间,每项测试时间增加,科学测试现在为可选项目,嵌入现场测试项目,以及ACT综合分数现在不是从英语、数学、阅读和科学成绩的平均值计算,而是从仅英语、数学和阅读成绩的平均值计算。尽管有这些变化,增强版的ACT旨在测量与旧版ACT相同的结构,并维持1-36的评分尺度。 为准备2025年4月开始的增强型ACT考试,ACT进行了两项特别研究:2024年6月的一项链接研究以及2024年10月的一项模式可比性研究。链接研究的目标是评估结构不变性和将增强型ACT考试与原有ACT考试相连接。模式可比性研究的目标是评估纸笔和在线考试的分数是否等效,并实现不同模式下的分数互换。 表1总结了增强版和传统ACT测试中各测试部分的测试长度和测试时间的变化,通过比较项目数量、测试时间和每项平均时间。在传统ACT中,所有项目均计入学生的总成绩,但在增强版ACT中,只有有效项目计入学生的总成绩。 该改进包括测试长度和总测试时间的减少,但每项平均时间的增加。在改进后的ACT考试中,英语、数学、阅读和科学测试的运行项目数量分别减少了35个(47%)、19个(32%)、13个(33%)和6个(15%)。传统ACT考试的EMRS综合评分基于215个项目,而改进后的ACT考试的EMR综合评分将基于108个项目。项目数量为 项目对EMR综合评分的贡献减少了107(50%),这是由于测试长度的减少和计算中排除科学导致的。 正如表1中的注释所指出的,在2024年6月的链接研究中,增强型科学测试采用了不同的时间安排,测试时间为45分钟(比传统ACT测试多10分钟)。在ACT审查了额外10分钟对科学测试表现的影响,并考虑到在科学选考的情况下需要最大化测试效率后,增强型科学测试的时间从45分钟调整为40分钟。2024年10月的模式可比性研究重新审视了时间调整,并确认增加5分钟对于科学测试来说是足够的。 本文件聚焦于2024年6月链接研究的结果。它首先描述了用于研究的资料。随后展示了关于结构等价性和心理测量特性的数据分析及结果,接着是链接研究的方法和详细结果。最后,提供了时间分析结果以及主要发现和结论的摘要。 数据收集设计和样本人口统计 在2024年6月的链接研究中,使用了其中一个传统ACT表格(以下简称“传统表格”)以及两个增强型ACT表格(以下简称“增强表格1”和“增强表格2”)。 该研究的参与者是2024年6月ACT国家考试的网络测试者。当学生们注册参加考试时,他们可以选择在线或纸质考试。 参与者选择在线测试的获得了额外的权限和研究信息。不同意参与研究的学生可以选择注册参加笔试。数据是在线上使用随机分组设计收集的,其中包括Legacy表格、增强表格1和增强表格2在测试中心的学生中进行循环,包括使用额外时间安排的学生。全国超过180个测试中心参与了该项研究。最终的清洗数据集包括6,882名学生:Legacy表格2,298名,增强表格1 2,280名,增强表格2 2,304名。 样本的性别和种族/民族特征详见表2。为进行比较,还包括了过去5年ACT国家测试人口的统计数据。参加传统形式的样本的平均ACT综合得分为21.57,标准差为(此处缺少具体数值)。SD) 5.53。相比之下,平均综合指数和SD过去5年中,ACT考试人群中的比例分别为20.72和5.81。因此,该研究样本的性别、种族/ 民族和分数分布代表了ACT考试人群。 构建等价 有效的链接要求之一是测试特征的高度相似,包括构造、人口、推断和测量特征(Kolen & Brennan,2014)。增强版的ACT旨在通过测量相同的构造得出相同的推断。增强版的ACT的测试规范与原始ACT的测试规范相似,但测试部分的长度和/或时间不同。 为了评估结构等价性,ACT的心理计量学家为三种形式估计了确认性因子模型。使用操作评分项和加权拟合了一系列模型。 最小二乘估计量。这些模型都是单因素模型,其中所有条目都加载在每个测试部分的单个潜在因素上,该因素代表每个测试部分的(例如,英语)知识或能力。表3报告了每个测试部分的单因素模型的模型拟合统计量。Hu和Bentler(1999)的可接受拟合指南包括非显著性的2均方根误差(RMSEA)小于0.06,比较拟合指数(CFI)值大于0.95。基于RMSEA和CFI,该模型对所有形式和部分均符合可接受准。果2测试结果已知会受到样本大小的影响,因此即使模型拟合良好,当样本量大时,也可能得到具有统计学意义的显著结果。表3中还展示了单因素模型的平均标准化因子负荷。平均标准化负荷值介于0.49到0.56之间,表明项目与遗留和增强版ACT测试的潜在因素之间具有中等相关性。 此外,在每个测试部分内的报告类别都拟合了确认性因素分析模型,且在传统和增强形式下,报告类别得到了相似的因素负荷。 心理学特性 ACT调查了测试变更对测量精度、测试分数可靠性和ACT测试间观察分数相关性的影响。还对分数解释的实际影响以及个体分数的决定一致性进行了考察。 条件测量标准误、测量标准误和信度 在1989年,ACT测试的量表调整为沿分数尺度具有大致相等的条件标准误差测量(CSEMs)。后续的测试形式通过一系列的等值链与基础形式进行等值,对所有ACT形式的CSEMs进行了持续监测。预计新测试形式在统计和内容方面尽可能接近基础形式时,将最好地保持恒定的CSEM属性。 规格说明。然而,由于测试规格和时间推移中的形式难度逐渐变化,传统形式之间存在差异。正如预期的那样,随着年份的增加,评分尺度上的CSEMs(连续学生等效模型)表现出增加的变异性,但传统的ACT多项选择题部分仍然大致保持约2的CSEM(连续学生等效模型)(ACT,2024)。 ACT对增强型ACT测试形式的规模分数CSEMs(条件标准误差测量)和测量标准误差(SEMs)进行了考察,以评估测量误差是否在不同分数间仍然大致相等,以及误差的大小是否超过了在传统ACT分数报告中所报告的误差量(即,每个选择题部分为2,综合分数为1)。CSEMs、SEMs和可靠性是基于Kolen等人在1992年所描述的四参数贝塔复合二项模型进行估计的。图1展示了每个测试部分的CSEM图。尽管传统形式、增强形式1和增强形式2的CSEMs在规模分数上具有相似的模式,但由于测试长度的缩短,两种增强形式都增加了CSEMs。尽管如此,增强形式1的CSEMs 并且2仍然大约位于分数尺度的多数部分,除了它们在阅读方面正接近3。 可靠性估计和SEM估计在表4中报告。尽管测试长度减少导致SEM略有增加和量表的可靠性得分降低,但增强形式仍然表现出高度的可靠性:EMRS综合评分为0.96,EMR综合评分为0.94,测试部分的可靠性介于0.83至0.88之间。SEM的小幅增加——EMR和EMRS综合评分约为0.3,测试部分约为0.5——对分数解释的影响最小。与旧形式相似,增强形式在EMR和EMRS综合评分的SEM约为1,测试部分的SEM约为2,但增强阅读测试的SEM略高于2.5。总的来说,增强形式的可靠性依然稳健,确保了分数解释的一致性和可靠性。 相关性与去校正相关性 观察到的相关性以及去除了测量误差的影响后的去相关性(无衰减相关性)在表5中呈现。可能由于可靠性的降低,增强形式1和2的测试部分之间的所有观察相关性都低于传统形式的观察相关性。传统形式与增强形式1和2之间的无衰减相关性相似。 有效权重 ACT综合分数是各部分测试分数的简单平均值,表明所有组成部分拥有相等的名义权重。然而,每个组成部分测试对综合分数方差的实际贡献可能并不相等。有效权重,衡量可以归因于每个组成部分测试的综合分数变异性的比例,分别显示在表6中的EMRS综合分数和表7中的EMR综合分数。Legacy表格和增强表格1和2的有效权重是相同或非常相似的。 分类准确度:ACT大学准备度基准和WorkKeys NCRC指标 表8展示了ACT大学准备标准及ACT进步情况的分类一致性。®WorkKeys®国家职业准备证书®(NCRC®指标。分类一致性指的是学生在重复测量过程中的分类保持一致性的频率。然而,由于学生只能参加一次考试,分