您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ACT Research]:初始证据支持对增强版ACT测验得分的解释 - 发现报告

初始证据支持对增强版ACT测验得分的解释

AI智能总结
查看更多
初始证据支持对增强版ACT测验得分的解释

Jeff Allen 和 Ty Cruce 引言 ACT考试已经演变,以更好地满足学生的需求。考试的变化旨在帮助学生们: • 在考试当天发挥出最佳水平。 • 拥有灵活性和选择权,以决定他们如何测试。 • 展示他们的真正能力和潜力。 调整他们的测试体验以适应他们未来的目标并突出他们的优势。 支撑这一演变,在2024年6月全国考试日期,实施了ACT测试的两个版本:旧版ACT测试和新版增强型ACT测试。在所有进行在线测试的考试中心,参加该全国考试日期的学生被随机分配选择其中一个版本的测试,无论选择哪个版本的成绩都适用于大学报告。 与传统的测试一样,增强型测试包括英语、数学、阅读和科学的多项选择题。增强型测试比传统测试更短,并且每个测试问题(项目)的时间更充裕。增强型测试还包括嵌入式的现场测试项目,这些项目不计入学生的成绩。传统测试与增强型测试规范的比较见表格1。 除了对项目数量和允许时间的调整外,增强型测试的测试设计也存在其他差异。有关测试设计的更多详细信息,请参阅增强型ACT(ACT,2025)的设计框架。 在本报告中,我们总结了支持对增强型ACT得分解释的一些证据。我们重点关注可靠性、同时效度、预测效度和得分可比性。本报告未涵盖的、支持对增强型ACT得分解释的其他重要证据包括与州内容标准的对齐、与大学和职业生涯准备期望的对齐、测试后的学生感知以及其他心理测量学证据(例如,关联研究设计、测量标准误、评估等值结果的群体不变性、时间/速度)。有关这些及其他主题的更多详细信息,请参阅《增强型ACT设计框架》(ACT,2025)和《增强型ACT链接研究》(Li,Kapoor,Arthur,Huang,Cho,Qiu,& Wang,2025)。另外,请注意,本报告记录的一些结果也总结在《增强型ACT设计框架》的第4章(ACT,2025)中。 我们认为本报告中提出的证据支持将增强型ACT分数解读为高中学术成就和大学入学准备的指标。反过来,这些解读支持将增强型ACT的分数用于指导大学招生决策、授予大学奖学金、为学生分配项目和课程、识别需要学术支持的学生,以及在学校和地区层面衡量学术成就以用于问责制度。由于增强型ACT的章节测试分数使用等百分位等值方法与继承型ACT的章节测试分数相联系,增强型ACT支持对从继承型ACT确立的ACT章节分数的持续解读,包括对ACT大学准备基准的解读。 方法 可靠性 可靠性或精确性指的是测试程序重复测试中的得分一致性(美国教育研究协会[AERA]、美国心理学会与美国测量教育委员会,2014)。研究ACT考试成绩的可靠性系数如何在不同版本的ACT考试中变化,对于支持成绩解释非常重要。我们比较了参加2024年6月链接研究的在线版增强型和传统ACT考试的可靠性系数。由于进行了两种增强型ACT考试形式的测试,我们展示了这两种形式的平均可靠性系数。增强型ACT考试的每个测试形式的可靠性估计已在链接研究中提供(Li等人,2025)。 我们预计,与传统的ACT相比,增强版ACT的节测试成绩和综合分数的可靠性将下降,鉴于增强版ACT中出现的题目数量减少。利用Spearman-Brown预测公式(Spearman,1910;Brown,1910),图1展示了测试长度与可靠性的关系,假设传统的ACT的英语、数学、阅读、科学和综合分数的可靠性分别为0.94、0.93、0.89、0.89和0.97。2 鉴于增强版ACT(表1)中的得分项数量,预计增强版ACT英语、数学、阅读、科学和综合分数的可靠性将分别达到传统ACT相应分数可靠性的95%、97%、95%、98%和99%。这种预测是粗略的,因为它假定除了测试长度不同外,测试本身是相同的,而增强版和传统ACT之间还存在其他可能影响可靠性的差异。 考虑到增强ACT与旧版ACT相比,预期其在部分测试和综合分数上的可靠性有所下降,我们预计测试分数相互之间以及测试分数与其他同期及后续学业成就评估之间的相关性将轻微下降。相关性 很抱歉,您提供的内容为 \"X\",这不是有效的英文文本,因此我无法进行翻译。请提供有效的英文文本以便我进行翻译。Y在测试分数( )和其他学术成就衡量指标( )之间的关系是一个函数。 很抱歉,您提供的内容为 \"X\",这不是有效的英文文本,因此我无法进行翻译。请提供有效 的英文文本以便我进行翻译。Y测试分数的可靠性。方程1显示了与(휌)之间的预期相关性。 ∗ 等式1:随可靠性变化而产生的相关性预期变化考虑到可靠性(푟 ),原始相关系数(휌 ),和原始可靠性(푟 ):暂不支持该符号的翻译。请提供可翻译的英文文本。0푥푥,0 应用Spearman-Brown预测公式和方程1,图2展示了测试长度与另一个变量之间的关系。随着测试长度的减少,预期相关性下降非常缓慢。实际上,即使在测试长度减少50%的情况下,预期相关性仍然至少是原始相关性的90%。 考虑到增强型ACT(表1)中评分项目的数量,增强型ACT的英语、数学、阅读、科学和综合分数与其他变量的相关性预计将分别约为97%、98%、98%、99%和99%,与传统的ACT观测到的相关性相当。 ACT各部分测试成绩之间的相互关系 ACT部分的测试分数的相关性为测量构造之间的共变或差异关系提供了证据。例如,较高的英语/阅读相关性表明了共变关系,而较低的英语/数学相关性表明了差异关系。在2024年6月的链接研究中,我们比较了所有参与在线ACT测试的学生,将加强版ACT的科目测试分数的相关性与传统ACT的相关性进行了比较。尽管进行了新的改进,但我们可以预计,加强版ACT与传统ACT在科目测试分数之间的整体关系模式将相似,尽管我们预计由于这些测试分数的预期可靠性较低,加强版ACT的相关性可能会稍微低一些。 同时效度 ACT考试成绩解释的有效性得到了ACT分数与其他当前学术表现衡量指标之间关系证据的支持。增强版ACT的同期有效性论点得到了增强版ACT测试的ACT分数与高中成绩以及旧版ACT测试的先前考试成绩之间关系证据的支持。我们比较了两组学生的相关性:那些随机分配到增强版ACT的学生和那些随机分配到旧版ACT的学生。 首先,我们比较了ACT综合分数与高中成绩之间的相关性。通过ACT的注册系统(MyACT),学生可以选择报告他们在高中所修的课程和他们所获得的分数。高中GPA(HSGPA)是通过平均学生在英语、数学、社会科学和自然科学等至多23门核心高中课程中所获得的自我报告的分数来计算的。除了HSGPA之外,我们还比较了ACT综合分数与ACT严谨指数之间的相关性。ACT严谨指数类似于HSGPA,但为学生修读更难的课程赋予更多的分数。ACT严谨指数基于学生报告的至多30门不同高中课程的分数(包括外语和艺术,以及核心学科领域),并纳入高级课程学习和学生计划修读高级STEM课程(化学、物理、高级数学和微积分)的指标。有关ACT严谨指数的更多信息,请参阅Allen & Mattern(2019)。 其次,我们比较了学生ACT科目考试成绩与他们各自在四门核心学科领域的中学成绩之间的相关性(即英语、数学、社会科学和自然科学)。对于使用MyACT报告至少三门英语、数学、社会科学和自然科学课程成绩的学生,分别计算了其学科领域GPA。 最后,我们比较了2024年6月链接研究学生的测试成绩与之前ACT考试的成绩之间的相关性。总体而言,54%参与2024年6月链接研究的学生在之前已经参加了ACT考试,这一比例在随机分配到强化版ACT考试或传统版ACT考试的学生之间没有差异。 如前所述,两个指标之间的相关性是两个指标可靠性的函数。如果一个或两个指标的可靠性降低,那么相关性也有望降低。因此,我们预计,增强的ACT成绩与高中课程成绩和以前的ACT考试成绩的相关性是可比的,但与传统的ACT成绩的相关性略有降低。除了比较增强和传统的ACT的相关性之外,我们还测试了相关性的差异是否具有统计学意义。如果相关性差异测试的z分数大于3.0,则认为相关性差异具有统计学意义。 对增强型和传统ACT的差异性效度差异分析 它可能是这样的,ACT考试成绩与其他变量的关系因不同情况而异。差异性效度学生群体。这些差异是证据表明此外,增强型ACT与传统ACT的差异效度可能不同。检测增强 型ACT与传统ACT在差异效度上的差异,对于理解是否有关支持不同群体对ACT分数进行解释的证据具有重要意义。差异 学生对于提升版的ACT有不同的反应。因此,我们对以下内容进行了测试:在不同(方面/程度上)有效性验证在增强版与旧版ACT之间。例如,如果旧版ACT的总分对学生中女性与男性相比在 高中平均成绩(GPA)方面具有更强的相关性,但是增强版ACT的总分无论学生性别如何都与高中平均成绩具有相似的相关性时,可能会出现区分效度的差异。区分效度的差异测试使用了多个线性回归的交互项。当差异的z-score大于3.0时,结果被认为具有统计学意义。学生子群体包括性别组(女性、男性及其他性别),种族/民族组(亚裔、黑人、西班牙裔、美洲原住民、原生夏威夷人或其他太平洋岛民、两种或更多种族及白人),以及年级水平(6-10年级或11/12年级)。 除了通过学生人口统计学特征测试差异的有效性外,我们还测试了学生在2024年6月考试日期的准备情况对差异有效性的影响。由于学生不知道他们是否会参加增强版或传统ACT考试,也不知道增强版ACT的考试规范,在2024年6月考试之前,学生无法专门为增强版ACT做准备。学生可以使用为传统ACT开发的考试准备资源,这些资源也可能在增强版ACT中对他们有益。然而,也有可能为准备考试的学生和未准备考试的学生,ACT分数的有效系数存在差异,以及增强版和传统ACT在考试准备相关差异有效性方面存在差异。因此,我们通过测试以下差异有效性指标进行了差异有效性的测试,包括1)学生是否以前参加过ACT考试,2)是否 学生此前参加过PreACT测试,3) 学生是否参加过一次或多次限时ACT实践测试,以及4) 学生是否使用任何考试准备资料进行了备考。ACT和PreACT先前的测试指标是通过历史ACT和PreACT测试数据获得的,而其他两个考试准备指标是通过在2024年6月ACT考试之后的特别调查获得的。 所有关于差异有效性的分析都是针对ACT分数与高中GPA、ACT严谨指数以及先前ACT考试成绩的相关性进行的。 预测效度 ACT测试分数解读的有效性也得到了ACT分数与随后的学术表现衡量标准之间关系的证据支持,例如大一累计大学GPA(FYGPA)、个体大一大学课程成绩,以及大学学位获取。因此,ACT分数的预测有效性证据需要时间让参加ACT测试的学生进入大学。因为大多数参加2024年6月联接研究中的改进版ACT的学生刚刚完成11th等级,针对增强型ACT的预测效度证据尚不可用。 然而,可以使用传统ACT考试的考生的历史数据,以及他们进入大学后的数据,来考察当这些分数基于一个与增强版ACT的评分项数量相匹配的更短测试时,ACT各部分分数和总分预测效度可能发生的变化。为了实现这一点,我们利用了传统ACT考试测试数据以及为参加传统ACT考试的学生收集的大学成果数据。对于每种测试形式,我们从每个部分测试中随机选取了项目,以模拟与增强版ACT评分项数量相匹配的缩短测试。3以下是我们对这些简化的测试的称呼:“模拟增强测试”。例如,对于每种英语测试形式,我们从完整的英语测试中随机选择了75个测试项中的40个。然后,对于每个测试部分,我们计算了正确答案的数量,并将正确答案的数量转换为量表分数,以确保量表分数的平均值和标准差与遗产(完整)测试的量表分数的平均值和标准差相匹配。使用从模拟增强测试中生成的量表分数,我们随后计算了模拟增强测试的复合分数。 为了比较模拟增强ACT和传统ACT的ACT综合分数与第一年大学平均成绩(GPA)之间的相关系数,我们使用了包含2006年至2017年间完成高中学习并进入527所两年制和四年制大学之一、且向ACT提供学生