您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ACT Research]:简短的责任心量表 : 您能走多低 ? - 发现报告

简短的责任心量表 : 您能走多低 ?

文化传媒2024-04-24ACT Research罗***
AI智能总结
查看更多
简短的责任心量表 : 您能走多低 ?

凯特 · E · 沃尔顿 当评估设计师开发量表或实践者选择使用量表时,长度往往是重要的考虑因素。显然,执行时间是一个关键问题,而较短的评估通常更为理想。例如,简短的评估更适合缺乏认知或情感资源以应对长时间测试的人群(Allen等,2022年)。此外,较短的评估可能还能提高数据的真实性。也就是说,参与者通常更愿意完成简短的评估而非长时间的评估,并且他们通常更愿意花更多的时间和精力来回答这些问题。一些研究者和实践者甚至提倡使用单项目测量(例如,Allen等,2022年)。 然而,极简措施也可能存在缺点。一个主要论点是,单个项目或极简措施缺乏足够的可靠性证据(一般定义为测量中的误差量;美国教育研究协会[AERA]等,2014年)。第二个论点是,极简措施可能也无法提供足够的效度证据(定义为“与测试分数预期用途相关的证据和理论的支持程度”;AERA等,2014年,第11页),因为它们可能无法捕捉到多维度心理构念的所有复杂性(Allen等人,2022年)。例如,尽责性这一人格特质已被证明是一个具有六个维度的层次结构因素(Roberts等人,2005年)。一个包含三至四个项目的简短量表可能不足以涵盖尽责性的所有重要方面,因此可能缺乏稳健的效度证据。 当然,以下是翻译后的版本,保持了原文的格式和符号: There is certainly a tradeoff between scale length and psychometric concerns. The two are, in fact, directly linked. 一般而言,当量表缩短时,可靠性会降低;而当量表延长时,可靠性会提高,前提是添加到量表中的项目具有可比的心理测量特性(AERA et al., 2014)。量表的可靠性反过来影响效度。通常来说,分数的不稳定性(即反映测量误差)会削弱它们准确预测标准的能力。 在当前的研究集合中,我们探讨缩短责任感量表是否能维持可接受的可靠性和有效性水平。我们还考察了量表缩短是否会导致无意中夸大子群体间的差异。我们重点关注责任感(定义为“社会规定的冲动控制,有助于任务导向和目标导向的行为,如行动前思考、延迟满足、遵循规范和规则以及规划、组织和优先安排任务”;John & Srivastava, 1999, p. 121),因为这一特质与学术表现和工作绩效的相关性最强(Zell & Lesick, 2021)。 研究 1 参与者和措施 参与者为6至8年级的学生共24,400人。其中,12,273名(50.3%)学生自认性别为女,其余则自认性别为男。种族/ Ethnicity的相关信息在近95%的样本中未被收集,因此无法对不同种族群体之间的差异进行分析。 学生采取了 ACT 的马赛克 ™®社会情感学习评估(有关更多信息,请参见ACT, 2021)。该评估测量五项技能之一为持续努力,这与尽责性相关(ACT, 2021)。该评估采用多方法进行,包含三种不同的题型,但为了当前研究的目的,我们专注于利克特量表题目。共有八道利克特量表题目测量尽责性。 分析和结果 可靠性 我们计算了包含全部八项的量表的克隆巴赫阿尔法系数(Cronbach’s alpha),然后逐一删除一项,直到只剩下三项。每次删除的项目要么对可靠性的影响最小,要么能够最大程度地提高可靠性估计值。请注意,一般认为0.70或更高的系数是可以接受的。如表1所示,三项项目的量表的alpha值范围为0.68至六项项目的量表的0.76。 有效性 我们对全长量表和缩短后的量表与GPA(学生自行报告的12点量表)进行了相关分析,以评估缩短量表对测试准则效度(即量表是否能预测某一给定标准)的影响。表2提供了这些相关系数以及平方相关系数,后者表示由责任心解释的GPA变异数量。变异数从七项和八项量表的17%下降到三项、四项和五项量表的12%。 我们接下来考察了内容效度的证据(即项目内容覆盖所要测量的构念的程度)。七位领域专家将项目映射到了六种自律性维度——勤奋、有序、自制力、责任感、传统主义和美德(Roberts等,2005)。使用八项量表时,涵盖了四种维度;而使用三到七项量表时,则涵盖了三种维度(见表3)。 组差异 我们考察了性别差异的大小是否在不同长度的量表上保持一致。标准化均值差异(standardizedmean differences)d) , 见表 4 , 随着刻度长度的减小 , 幅度减小。 研究 2 参与者和措施 我们从 30, 000 名参加 ACT 的学生的随机样本中寻求参与®在2023年9月全国统一测试中进行测试。他们并未被激励参与,且被告知其参与和回答问题不会影响他们的ACT分数。 我们拥有1,707名参与者的完整数据。其中,1,198名(70.2%)参与者识别为女性,474名(27.8%)识别为男性,7名(0.4%)识别为另一性别,27名(1.6%)选择不作回应,1名参与者的相关信息缺失。种族方面,1,130名(66.2%)参与者识别为白人,182名(10.7%)识别为亚裔,137名(8.0%)识别为西班牙裔/拉丁美洲人,94名(5.5%)识别为非裔美国人/非洲裔美国人,79名(4.6%)识别为两个或多个种族,1名(0.1%)识别为美洲原住民/阿拉斯加原住民,79名(4.6%)选择不作回应,1名参与者的相关信息缺失。 参与者完成了由两位专家(Walton & Anguiano-Carrasco, 2024)开发的六项尽责性量表。他们还自行报告了各自的GPA,并回答了两项旨在评估尽责性量表测试-标准效度证据的问题。一个项目询问了努力工作以克服困难的倾向,另一个项目询问了在提交作业前检查作业错误的倾向。 分析和结果 可靠性 我们计算了六项完整量表的Cronbach’s alpha系数,并逐一删除一项直到只剩下三项(如表5所示)。Cronbach’s alpha系数从完整量表的0.68下降到三项量表的0.61。 有效性 我们将全长量表和缩短量表与三种结果进行了相关分析,以评估缩短量表对测试标准效度的影响(表6)。对于每种结果,三项量表解释的变异程度高于全长量表。 我们接下来使用与Study 1(Roberts等,2005)中相同的六维度解决方案来检验内容效度证据。六个项目量表覆盖了四个维度,四个或五个项目的量表覆盖了三个维度,而三个项目的量表覆盖了两个维度(详见表7)。 组差异 我们考察了性别差异(女性与男性)和种族差异(白人与亚洲人、黑人或 Hispanic 人群)在不同长度量表上的差异程度是否保持一致。结果见表 8。发现三项目量表中,女性与男性的差异以及白人与黑人的差异大于六项目量表中的相应差异,但白人与亚洲人及白人与 Hispanic 人群之间的差异在前者中较小而在后者中较大。 研究 3 参与者和措施 研究 3 的参与者来自在线亚马逊机械土耳其人(MTurk) 的 1, 768 名成年人 , 平均年龄为 36 岁(SD= 11.1) 在被识别的个体中,1104人(57.4%)被认定为男性,744人(42.1%)被认定为女性,10人(0.1%)被认定为其他或拒绝回应。在种族方面,1146人(64.8%)被认定为白人,359人(20.3%)被认定为亚裔,134人(7.6%)被认定为黑人/非洲美国人,83人(4.7%)被认定为西班牙裔/拉丁美洲人或其他西班牙裔背景,27人(1.5%)被认定为美洲原住民/阿拉斯加原住民,19人(1.1%)被认定为其他。 参与者完成了多特征多方法评估 , ACT®工作键®必要技能(有关更多信息,请参见ACT, 2024)。为了本研究的目的,我们重点关注了八个李克特量表项目,这些项目衡量的是工作伦理这一结构,与尽责性相对应。参与者还完成了“五大特质”测量,即包含十个项目的“五大特质简短调查问卷”(BFI-10;Rammstedt & John, 2007)。这五大特质分别是尽责性、随和性、情绪稳定性、开放性和外向性。由于参与者同时进行了两项评估,我们能够评估全长度量表和简短量表的一致性和区分性效度证据。工作伦理量表应与BFI-10的尽责性量表相关性最强(一致性效度),而与其他无关量表的相关性则要小得多(区分性效度)。 分析和结果 可靠性 我们计算了全长八项量表的克隆巴赫alpha系数,并一次删除一个项目直到只剩下三个项目(如表9所示)。三项目量表的可靠性(0.82)略低于全长量表的可靠性(0.85)。 有效性 我们将全长量表和简短量表与BFI-10进行了相关分析,以评估缩短量表对效度(特别是收敛效度和区分效度)的影响(表10)。对于尽责性维度,收敛效度估计值从三项量表的0.53到六项量表的0.58不等。 七项量表。随着量表长度的减少 , 判别效度估计总体上有所改善。 我们随后考察了内容效度证据。包含六至八项的量表涵盖了四个方面,而包含三至五项的量表则涵盖了三个方面(见表11)。 组差异 正如我们在研究2中所做的,我们考察了不同规模长度(见表12)性别和种族/ Ethnic群体之间的差异。随着量表变短,女性和男性参与者之间的差异幅度减小,同样,白人和黑人参与者之间的差异幅度也减小。与八项量表相比,白人与亚裔及白人与拉丁美洲裔之间的差异在三项量表上略高一些。 Note.正面值表明女性参与者得分高于男性参与者,而白人参与者得分高于其他组别的参与者。 研究 4 参与者和措施 研究 4 包括 173 名平均年龄为 43 岁的员工的在线样本 (SD一百十八人(68.2%)被识别为女性,五十四人(31.2%)被识别为男性,一人(0.6%)拒绝回应。一百十一个人(64.2%)被识别为白人,三十五人(20.2%)被识别为黑人/非洲裔美国人,十六人(9.2%)被识别为 Hispanic/Latino/西班牙裔,四人(2.3%)被识别为亚洲人,一人(0.6%)被识别为美洲原住民/阿拉斯加原住民,六人(3.5%)被识别为其他。 如研究3所示, employed参与者完成了WorkKeys核心技能评估。同样地,我们关注了八个利克特量表项目,这些项目衡量工作态度,这与尽责性对齐。员工的主管根据24项绩效指标对其工作表现进行了评价。 分析和结果 可靠性 我们计算了包含全部八项的量表的克隆巴赫阿尔法系数,并一次移除一项直到只剩下三项(如表13所示)。这导致了与研究3中相同的项目消除顺序(因此,内容效度保持不变)。估计值从三项量表的0.82到八项量表的0.87不等。 有效性 我们将全长量表和缩短版量表与上级评分相关联,以评估缩短量表对测验标准效度的影响(表14)。上级评分的变异程度从全长量表的7%下降到三项量表的4%。 组差异 我们再次考察了不同尺度长度下性别和种族/ Ethnic群体之间的差异(见表15)。由于样本量较小,我们没有比较亚裔与白人参与者或西班牙裔与白人参与者的差异。女性与男性之间的差异范围从六项量表的0.02到三项量表的0.08。白人与黑人之间的差异方向相反,并且在三项量表上更为显著,超过八项量表的差异。 Conclusions 如预期的那样,缩短量表的可靠性估计较差;然而,差异微乎其微,在大多数情况下,缩短量表仍然达到了可接受的可靠性水平。在某些情况下(研究2),缩短量表的有效性-标准效度估计实际上有所提高。当量表长度减少导致效度下降时,影响很小。缩短量表的收敛效度略有下降,但区别性相关也出现了同样的下降趋势,这是一个好处。如预期的那样,项目较少的量表在内容效度方面较差。最后,除了一个例外情况(研究4,白人与黑人差异)外,简短量表的子组差异较小(或几乎相同)与全长量表相比。 一般来说,缩短责任心量表对可靠性的影响很小或几乎没有负面影响,并且若干有效性估计值也没有受到影响,因此我们argue认为简短的责任心量表可以替代较长的量表。 参考文献 ACT. (2024).ACT®工作键®基本技能技术手册.https: / / www. act. o