AI智能总结
Kate E. Walton 和 Cristina Anguiano - Carrasco 大型语言模型(LLMs),如ChatGPT,正变得越来越突出。它们的应用越来越广泛,用于辅助完成简单的任务,例如总结文档、翻译语言、重写句子或回答问题。麦肯锡公司(Chui, & Yee,2023)的报告显示,通过实施LLMs,企业每年可能在企业收益方面实现高达4.4万亿美元的增长潜力,而尼尔森公司(2023)则估计,在使用LLMs和其他生成性人工智能技术的情况下,员工的生产力可提高66%。我们能否在社会情感学习评估开发领域使用ChatGPT以提升我们的工作效率? 一些研究探讨了社会和情感(SE)技能与ChatGPT使用之间的关系,例如学术领域中的作弊行为(Greitemeyer & Kastenmüller, 2023)。另一项研究中,研究人员(de Winter et al., 2023)让ChatGPT生成大量的人格,并完成了一系列SE技能测量。随后他们进行了多项分析,如因子分析,并与结果指标进行相关性分析,以确定这些结果与之前使用人类完成的SE技能测量的研究结果相似程度。在当前的研究中,我们并非让ChatGPT完成SE技能测量,而是希望让其创建SE技能测量。最终,我们将从可靠性和有效性方面比较由ChatGPT生成的评估与由人类生成的评估。 当前研究 阶段 1 : 项目生成 我们让ChatGPT和两位人类项目撰写人按照相同的指示编写李克特量表(Likert)项和强制选择(FC)项,以覆盖责任心(即坚持、可靠、可靠等倾向)、宜人性(即同情、乐于助人、可信等倾向)和情绪稳定性(即抗压、冷静、镇定等倾向)这些领域。人类撰写人是博士级别的领域专家。例如,一个李克特量表项可以是一个陈述,如,我在上交之前检查我的工作(反映责任心的指标)。受访者根据1至6的等级 scales,表示他们同意或不同意某个陈述的程度。例如,FC三重奏包括三个类似陈述,如:我在上交之前检查我的工作,我是一个很好的团队成员(同意的指标) , 以及我能很好地处理压力( 情绪稳定性的指标) 。受访者选择最喜欢他们和最不喜欢他们的项目。 简单地说 , 生成 Likert 项目的说明是 :创建六个 Likert 认真的项目。人类作家和ChatGPT随后被要求创建六项亲和性项目和六项情绪稳定性项目。生成FC项目的指导说明为:创建五个 多维强迫选择三合会 , 以衡量责任心 , 随和性和情绪稳定性。创建的示例项可以在表1 中找到。 阶段 2 : 初步观察和分析 A few things were immediately apparent upon reflection. First, the human writers generated some reverse - keyed items (e. g.,我经常有强烈的情绪), 而ChatGPT 并没有这样做。所提供的示例项目旨在作为情绪稳定性的指示器,但其编写方向指向较低的情绪稳定性。其次,ChatGPT 包含了双关项目,即包含多种情感的项目。例如,该项目我以在个人和专业关系中负责任和可靠而闻名是双重层面的;它不仅询问一个人是否既是负责任的又是可靠的,还询问个人和职业关系。第三,ChatGPT生成了一些多维度的项目。例如,我平静而专注地处理紧张的情况 ,确保有效地完成任务是多维的 , 利用情绪稳定性 (我平静而专注地处理紧张的情况) 以及尽责 (确保有效地完成任务). 最后,很明显,ChatGPT生成的项目更长且认知负荷更大。人类生成的李克特量表项的平均长度为7.6个单词, Flesh-b Kincaid 可读性等级为4.1。ChatGPT生成的李克特量表项的平均长度为: 是12.6个单词,Flesch-Kincaid阅读等级为10.1。人工生成的Flesch-Kincaid项目平均长度为6.4个单词,Flesch-Kincaid阅读等级为4.7。ChatGPT生成的Likert项目平均长度为14.8个单词,Flesch-Kincaid阅读等级为13.2。 第 3 阶段 : 主题专家评分 我们征求了四位社会情感学习领域博士级研究人员(SMEs)的意见。我们首先请他们对每项人类生成和ChatGPT生成的内容进行评分:这个项目对指标的预期技能有多好 ?他们对每个项目的评分为 1 (非常糟糕) to 6 (很好). They were linked to which items came from which source. There was no significant difference between the human - generated (M= 5.28,SD=.67) 和 ChatGPT 生成的 (M= 5.40,SD=. 54) 李克特项目 ,t= −.62,p=. 54 。效果大小为d= −. 21 。人工生成的 FC 项目 (M= 5.47,SD=. 67) 被评为比 ChatGPT 生成的 FC 项目更好的指标 (M= 3.97,SD= 1.35),t= 3.86,p<. 01 。效果很大 ,d= 1.41. 然后 , 我们要求中小企业对每个人和 ChatGPT 生成的项目进行以下评级 :这个项目的语言听起来有多自然 ?他们对每个项目的评分为 1 (非常不自然) to 6 (非常自然)。人类产生的 (M= 4.78,SD=. 93) 和 ChatGPT 生成的 (M= 5.06,SD= 1.06) 李克特项目 ,t= −.84,p=. 41 。效果大小为d= −. 28 。人类产生的 (M= 5.12,SD=. 87) 和 ChatGPT 生成的 (M= 4.93,SD= 1.08) FC 项目 ,t= .51,p=. 61 。效果大小为d= .19. 第四阶段 : 学生调查 方法 我们寻求参加 ACT 的学生的参与®在2023年9月全国考试日期进行测试。随机邀请了30,000名学生参与研究。他们没有受到参与的激励,并且被告知他们的参与和回答不会影响他们的ACT分数。 我们拥有1,707名参与者的完整数据。样本中,1,198人(70.2%)识别为女性,474人(27.8%)识别为男性,7人(0.4%)识别为其他性别,27人(1.6%)选择不作回应,而一名参与者的相关信息缺失。此外,在样本中,1,130人(66.2%)识别为白人,182人(10.7%)识别为亚裔,137人(8.0%)识别为 Hispanic/Latino,94人(5.5%)识别为黑人/非裔美国人,79人(4.6%)识别为两个或多个种族,1人(0.1%)识别为美洲原住民/阿拉斯加原住民,79人(4.6%)选择不作回应,而一名参与者的相关信息缺失。另外,2人(0.1%)是八年级学生,9人(0.5%)是九年级学生,82人(4.8%)是十年级学生,662人(38.8%)是十一年级学生,922人(54.0%)是十二年级学生,8人(0.5%)是大学生,而22名参与者的相关信息缺失。 参与者完成了人类 - (n= 919) 或 ChatGPT 生成的 (n= 788) 的评估。所有参与者完成了测试标准效度测量(项目详见表3)。有三项题目应该与尽责性相关性最高, 有两项指标应与亲和性相关性最高,另有两项指标应与情绪稳定性相关性最高。 Results 可靠性 我们首先计算了每个人类和ChatGPT生成的量表的Cronbach’s alpha值(见表2)。对于Likert项目,人类和ChatGPT生成的值相对相似,在所有情况下(除了一个关于人类生成的尽责性项目的案例),alpha系数均超过了0.70,这是可接受可靠性的标准标志。对于FC项目,alpha值通常较低,这符合这类量表的自参照性质。在删除了一些有问题的项目后,ChatGPT生成的量表的可靠性估计值高于人类生成的量表。 Note.某些量表的可靠性可以通过移除一个项目来提高。移除一个项目的alpha值如下:a.63,b.63,c.79,d.72. 有效性 我们接下来评估了两种李克特量表的结构效度。拟合了一个三因子确认性因素模型到数据中。人工生成的评估具有合理的拟合度,CFI = 0.86,TLI = 0.84,RMSEA = 0.11。ChatGPT生成的评估拟合度稍好一些,CFI = 0.90,TLI = 0.88,RMSEA = 0.08。然而,ChatGPT生成的评估各因子间的相关性更高;平均相关性为ChatGPT:0.47,人类:0.39。 最后,我们分析了技能与测试准则有效性度量之间的相关性。在此,我们指出任何达到0.10的相关性差异。人类评估和ChatGPT生成的评估均显示了测试准则有效性的证据。对于李克特量表(表3),ChatGPT在以下方面提供了更强的证据:1)尽责性与挑战自我更加努力工作的意愿;2)宜人性与与不同的人相处融洽;3)宜人性与尊重持不同意见的人。然而,人类生成的评估在情绪稳定性及其与过去一周内感到紧张天数的相关性方面提供了更强的证据。对于FC评估(表4),人类生成的尽责性量表与挑战自我更加努力工作的意愿之间具有更强的相关性。 Conclusion 据我们所知,这是首次尝试将ChatGPT生成的SE技能评估与传统的人工生成的评估进行比较。ChatGPT 违反了一些基本的题目编写规范。 遵循类似双管项目和编写不必要的长题干以增加阅读负担的指南。此外,ChatGPT生成了一些多维度的项目,这可能是为什么中小企业认为这些项目作为其预期技能指标的效果较差的原因。而且,这很可能解释了为什么ChatGPT评估的验证因子模型各因子间的相关性比人工编制的评估更强。然而,ChatGPT在内部一致性可靠性方面提供了更强的证据,尤其是在FC评估中。至于测验准则效度,两个评估都提供了坚实的效度证据,并且在某些情况下各自表现更佳。 总之,ChatGPT似乎是一个生成SE技能项目的可行资源。通过增加提示(例如,关于阅读水平、避免双重问题等),ChatGPT的表现可能会比我们在这里观察到的更好。然而,我们建议不要盲目使用ChatGPT来生成评估项目。即使在回答简单数学问题时,ChatGPT也可能出错。一项研究(Chen等,2023)表明,在几个月的时间里,ChatGPT从98%的时间正确回答简单的数学问题下降到只有2%的时间。该软件界面本身也警告不要盲目使用它,提示“ChatGPT可能会出错,请考虑核实重要信息”(ChatGPT,22024)。与其完全依赖ChatGPT,我们认为它应该作为一种辅助工具用于评估项目生成。 参考文献 ,9(9).ChatGPT 。(2024 年 , 2 月 15 日) 。 ChatGPT 3.5 。 https: / / chat. openai. com /Greitemeyer, T., & Kastenm ü ller, A. (2023). HEXACO, The Dark Triad, and Chat GPT: Who is愿意进行学术作弊吗 ?Heliyon尼尔森 , J.(2023 年 , 7 月 16 日) 。人工智能将员工生产力提高了 66% 。https: / / www. nngroup. com / articles / ai - tools - productivity - gains /陈林 , 扎哈里亚 , M. , 邹杰 (2023) 。ChatGPT 的行为如何随时间变化 ?[未出版手稿] 。https: / / arxiv. org / pdf / 2307.09009. pdfChui , M. , & Yee , L (2023 年 , 7 月 7 日) 。根据新的研究 , 人工智能每年可以增加 4.4 万亿美元的企业利润.https: / / www. mckinsey. com / mgi / overview / in - the - news / ai