您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [ACT Research]:什么是 DIF ? ACT 上与 DIF 关联的项目属性 - 发现报告

什么是 DIF ? ACT 上与 DIF 关联的项目属性

信息技术 2023-07-25 ACT Research 高杨
报告封面

什么是 DIF ? 与 ACT 上的 DIF 关联的项目属性® JEFFREY T. STEEDLE, SHALINI KAPOOR, SHICAO WANG Conclusions 在本研究中,新型统计方法帮助识别了与项目功能差异(DIF)相关的项目内容特征、心理测量属性和项目背景变量。例如,女性学生在ACT考试中的表现存在差异性优势。®与文学叙事文本相关的英语和阅读项目中,在阅读包含女性代表性的测试段落时,男性学生的表现有所不同且表现较好;在英语和阅读段落中包含科学内容的段落时,男性学生的表现有所不同且表现较好。黑人和西班牙裔学生在英语和阅读部分的早期项目上表现有所不同且表现较好;白人学生在这些部分接近结尾的项目上表现有所不同且表现较好。此外,白人和男性学生在数学应用题上的表现有所不同且表现较好,尤其是在现实世界背景的应用题上,与主要群体(亚裔、黑人、西班牙裔和女性)相比。在ACT科学部分中,涉及生物学内容的单位对女性学生来说相对容易,而涉及物理学内容的单位对男性学生来说相对容易。此外,正确答案(即A、B、C或D)有时被识别为DIF的一个重要预测因素。 那又怎样 ? DIF 是潜在项目偏差的一个指标,因此标记为 DIF 的项目会由多样化的内容专家小组仔细审查。然而,DIF 可能由许多其他因素引起,如学习机会的差异或高中课程选择。DIF 还可能与学生特征或行为(例如,动机、猜测或遗漏)的差异有关,或者可能是由于 DIF 方法论导致的一种统计上的偶然现象。本研究有助于生成关于哪些项目对不同考生组平均表现差异贡献最大的假设,以便在未来的研究中进行测试。 现在呢? 如果DIF与构念无关的因素相关,则项目和测验开发实践可能需要更新以最小化DIF的风险。此外,类似的结果可以预先“抵消”DIF,例如使用包括女性代表的阅读材料(有利于女性)和涵盖科学主题的材料(有利于男性)。最后,可以将DIF趋势作为指导,以解决内容领域内系统性的成绩差异。例如,某些学生群体可能在数学的某些方面表现较好,因为他们在这方面技能的教学机会更多。 关于作者 杰弗里·斯蒂德勒是美国教育考试服务中心(ACT, Inc.)研究部门的高级解决方案设计师,负责构思并实施大规模标准化测试项目的研发项目。他拥有教育心理学博士学位以及统计学和教育学硕士学位。他的研究兴趣包括测试动机、项目难度建模、不同测试环境下评分的一致性以及项目功能差异。 王世超是美国教育考试服务公司(ACT, Inc.)研究部门的心理测量师二级专员,负责为大规模标准化测试项目提供全面的心理测量支持。他分别获得了爱荷华大学教育测量与统计专业的博士学位和硕士学位。他的研究兴趣包括等值与链接、项目难度建模以及计算机自适应测试。 Shalini Kapoor 博士 王琳尼·卡普尔是美国教育考试服务中心(ACT, Inc.)研究部门的高级心理测量学家。她的工作涉及寻找心理计量上可靠的方法来维持ACT测试项目,并支持新的倡议。她的研究兴趣包括等值、自动化试题组合、模式可比性、流程改进以及计算机化自适应测试。 这篇论文在国家测量委员会2023年度会议虚拟部分的会议上呈现,该会议于3月28日至30日举行。 执行摘要 项目功能差异(DIF)是指一组应试者在某一特定项目上表现异常出色或不佳的统计证据,通常被视为潜在项目偏差的证据。通过了解容易表现出DIF的项目类型,测试开发者可以调整项目编写和测试构建程序,以减少某些应试者群体的构念无关难度的来源。本研究使用包含数千个项目的数据集,通过机器学习识别出英语、数学、阅读和科学部分中DIF的重要预测因素。®测试。可用的预测因子反映了内容(文章的主题;不同族裔、性别或地区的代表性),与内容标准的一致性,心理测量属性(难度和区分度),以及项目背景(位置和关键因素)。DIF 统计用于检查亚裔与白人学生、黑人与白人学生、西班牙裔学生的差异表现。1并且在各分析中,预测变量解释了Mantel-Haenszel D-DIF统计量0%-40%的变异度,其中数学和英语部分的变异度解释最为显著。 本研究的多项结果与先前的DIF研究一致。例如,DIF与难度之间通常存在负相关关系(项目正确率的比例)。也就是说,更容易的项目对白人学生来说通常是相对容易的,而更难的项目对黑人和西班牙裔学生来说则是相对容易的。此外,女性学生在与文学叙事文本相关的英语和阅读项目中表现尤为出色,尤其是在阅读部分包含女性代表的情况下;男性学生则在包含科学内容的英语和阅读段落中表现更为突出。另外,与数学应用题相比,白人和男性学生在涉及现实世界背景的数学应用题上表现尤为出色,尤其是与亚洲、黑人、西班牙裔和女性学生相比。本研究还产生了若干新的结果。在ACT科学部分,涉及生物学内容的单元对女性学生来说通常是相对容易的,而涉及物理学内容的单元对男性学生来说则是相对容易的。分析表明,在英语和阅读部分的早期题目上,黑人和西班牙裔学生表现尤为出色;而在这些部分接近结尾的题目上,白人学生表现尤为出色。此外,关键答案(即正确选项——A、B、C或D)有时被识别为DIF的一个重要预测因素。 本研究提供了一种系统的方法来研究项目特征与DIF(项目反应差异)之间的关联。这些信息将用于指导进一步调查与构念无关的DIF预测因素,如性别。此外,这些结果可能有助于找到“中和”DIF的方法,例如创建具有“矛盾”特征的项目。例如,一篇阅读材料可能包含科学内容(有利于男性),但同时包含女性代表性内容(有利于女性)。请注意,DIF 是潜在项目偏差的一个指标,因此标记为存在DIF的项目会被仔细审查,但DIF 可能由许多其他因素引起——如学习机会的不同、高中课程选择的不同以及学生的其他特征或行为(如动机、猜测或跳过题目)的差异,或者DIF 可能是由DIF方法论或测量模型引起的统计伪像。计划进一步的研究以探讨这些因素在多大程度上导致了DIF 的表现。例如,如果发现DIF 与课程选择模式相关,那么DIF 分析的结果可以作为确保所有学生都有平等机会获取对大学和职业准备至关重要的学术知识和技能的指南。 背景 尽管大型测试项目中传统的测题开发实践旨在最大限度地减少潜在的项目偏差,但实际上它们可能会导致项目偏差(Randall, 2021)。这一可能性突显了给予更仔细考虑DIF分析的必要性,这些分析旨在识别潜在偏见的项目。通常,多元专家小组会审查标记为DIF的项目,但这些专家几乎从未找到任何解释,可能是因为项目开发和评审过程导致了脱离情境且声称文化无关的项目,这些项目忽略了可能对不同学生群体更为熟悉、更具吸引力或令人不安的情境。由于DIF的许多可能原因,这一挑战变得更加严峻。虽然DIF统计旨在作为潜在项目偏差的指标,但它们也可能反映不同的学习机会、课程选择模式、其他学生的差异特征或行为(例如动机、猜测或省略)、第一类错误以及由DIF检测方法和测量模型引起的统计误差。 内容开发者非常关注测试的公平性,并不希望他们的题目表现出项目反应函数(DIF)。同时,他们也不愿意因为与公平性直接相关的项目编写问题无关的DIF而丢弃好的题目。主题专家可能会尝试识别容易表现出DIF的题型类型,但当只有少量题目表现出统计上显著的DIF时,这会变得非常困难。例如,考虑一个包含10个相关题目的ACT阅读段落。虽然这些题目中没有一个表现出统计上显著的DIF,但每个题目在一定程度上对白人学生来说比对黑人学生更容易。因此,该段落可能与DIF有关的一些特征会被忽略,而这种信息会在仅检查统计上显著的DIF项目时被错过。此外,这些10个题目中的小而系统的DIF与测试分数之间可能存在某种汇总关系。本研究旨在识别与ACT考试的英语、数学、阅读和科学部分相关的DIF相关的内容、心理测量学和项目背景变量。通过这些知识,利益相关者可以更好地理解哪些题型对观察到的差异贡献最大。 不同性别和种族/ Ethnic 组间平均得分的差异。此外,如果发现构念无关因素与项目功能不一致(DIF)相关,也许可以通过操控这些因素来减少 DIF,从而减少构念无关因素对成就差异的贡献。 先前的研究 关于与DIF相关的项目属性的研究文献有限,且许多研究主要集中在类比项目上。例如,许多研究识别了SAT和GRE类比项目中DIF相关的影响因素(Freedle等人,1987;Freedle和Kostin,1988, 1990, 1991, 1997)。这些因素包括项目难度、具体性、科学内容、社会/人格内容以及词频。Freedle及其同事多次在黑人-白人DIF分析中观察到项目难度与DIF之间的相关性。具体而言,黑人考生在困难项目上表现相对较好,而白人考生在简单项目上表现相对较好。为了解释这种相关性,作者提出了一个“文化熟悉度”假设。即,黑人和白人考生对日常对话中使用的“简单”或“更熟悉”的词汇有不同的解释,这导致白人考生在简单项目上表现相对更好,而黑人考生在困难项目上表现相对更好。 在许多类型的口头项目中观察到了DIF(项目难度差异)与难度的相关性,并且这种相关性倾向于在提供更多背景信息的项目上较低(如填空句和阅读理解 vs 类比和反义词项目;Freedle & Kostin, 1988, 1990)。在数学部分也观察到了这种相关性,但其强度较弱(Kulick & Hu, 1989)。一些研究者提供了证据表明,DIF-难度相关性与不同类型的舍弃行为有关(Kulick & Hu, 1989; Schmitt & Bleistein, 1987)。其他研究者则证明了,在匹配项目反应理论(IRT)能力估计而非原始分数时,以及考虑随机猜测行为差异的情况下,DIF-难度相关性仍然存在(Santelices &Wilson, 2012)。然而,最近Bolt和Liao(2021)的研究表明,DIF-难度相关性可能是负不对称项目特性曲线的产物,这种情况预期会在项目表现由断续交互的潜在过程支配时出现。例如,如果意图中的问题解决过程和技能相关的猜测都影响项目表现,则可以预期DIF与难度之间存在相关性。还观察到了DIF与项目区分度指标之间的相关性(Burton & Burton, 1993),但D. M. Bolt(个人通信,2022年4月22日)解释并展示了这种相关性可能源于不充分的总分匹配。这个问题可以通过在DIF分析中使用IRT能力估计而非原始分数来匹配组别而得到解决。 在其他DIF研究中,Black-White DIF分析表明,“语言导向”的数学题目有利于白人考生,而纯数字数学问题则有利于黑人考生,且DIF现象并非组间均值差异的产物(Rogers & Kulick, 1987;Shepard et al., 1984)。同样地,Asian-White DIF分析表明,“语言负载”较高的数学项目 白人考生偏好和“纯”数学项目偏好亚洲考生(Kulick & Dorans, 1983),但在仅分析最佳语言为英语的考生数据时,这些效应较小(Bleistein & Wright, 1987)。卡尔顿和哈里斯(Carlton & Harris, 1992)对可能导致项目反应差异的因素进行了详尽研究。例如,发现语法修正项目偏好女性;情感化、科学和实际事务内容偏好男性;人际关系内容偏好女性、黑人和西班牙裔考生;提及少数群体的内容偏好亚裔、黑人和西班牙裔考生;以及科学阅读段落偏好男性。当前的研究在此前研究的基础上,使用了更近期的数据、更大的项目样本量、新的内容领域(科学)以及新的识别重要预测因子的方法(回归树)。 方法 Measure The ACT 是一种教育成就测试,旨在衡量学生掌握高中所教授的知识和技能的情况,这些知识和技能被认为是大学和职业准备的重要方面。该测试最常用于大学录取,并由各州用来满足联邦问责制测试要求。该测试包括四个选择题部分(英语、数学、阅读和科学),以及一个可选的写作部分。有关每个测试部分的详细信息可以在以下内容中找到:ACT 技术手册(ACT, 2022). Data 对于本研究,数据来源于2020年