您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:以人为中心的大型语言模型(LLM)研究综述 - 发现报告

以人为中心的大型语言模型(LLM)研究综述

2024-11-26清华大学哪***
AI智能总结
查看更多
以人为中心的大型语言模型(LLM)研究综述

JING YI WANG*清华大学,中国NICHOLAS SUKIENNIK*清华大学,中国TONG LI,清华大学,中国WEIKANG SU,清华大学,中国QIANYUE HAO,清华大学,中国JINGBO XU,清华大学,中国ZIHAN HUANG,清华大学,中国FENGLI XU,清华大学,中国YONG LI,清华大学,中国 大型语言模型(LLM)的快速演进及其模拟人类认知与行为的能力,催生了基于LLM的框架与工具,这些框架与工具的评估与应用均基于其执行传统上由人类完成任务的效能,即涉及认知、决策及社会互动的任务。本调查全面审视了此类以人为中心的LLM能力,重点关注其在个体任务(LLM作为单个人类的替代品)与集体任务(多个LLM协同模拟群体动态)中的表现。首先,我们评估了LLM在推理、感知和社会认知等关键领域的胜任力,将其能力与类人技能进行比较。其次,我们探讨了LLM在行为科学、政治学和社会学等以人为中心的领域的实际应用,评估其在复制人类行为与互动方面的有效性。最后,我们确定了挑战与未来研究方向,如提升LLM的适应性、情感智能和文化敏感性,同时解决固有偏见并增强人机协作框架。本调查旨在从以人为中心的视角为LLM提供基础性理解,揭示其当前能力与未来发展的潜力。 附加关键词和短语:大型语言模型、以人为本计算。 1 引言 arXiv:2411.14491v2 [cs.CL] 26 Nov 2024作为大型语言模型(LLMs)[1, 2],例如OpenAI的GPT系列[3, 4]和Meta的LLaMA[5, 6],随着其持续发展,其模拟、分析和影响人类行为的能力正以史无前例的速度增长。这些模型现在能够处理和生成类人文本,并在许多情况下以与人类相当的水平执行认知任务,为理解人类认知、决策过程和社会动态提供了新的工具。 因此,本调查旨在从以人为本的角度对大型语言模型(LLMs)进行全面评估,重点关注其模拟、补充和增强个人及集体层面的人类认知与行为的能力。虽然大型语言模型传统上属于计算机科学与工程领域[7, 8],但其日益精湛地模拟类人推理、决策及社会互动的能力已将其应用扩展至人类作为焦点的领域。这使得研究人员能够解决原本过于复杂或抽象、难以进行计算分析的问题。例如,在政治学领域,大型语言模型被用于分析政治话语、检测偏见及模拟选举结果[9];在社会学领域,它们协助理解社交媒体对话、公众舆论及群体行为[10]; 并且在心理学中,它们有助于模拟人类认知和决策[11]。大型语言模型还通过实现涵盖句法、语义到语用学的语言的大规模分析,彻底改变了语言学[12],在经济学中,它们允许对政策与社会结果之间的复杂相互作用进行建模[13]。 为组织此项调查,问卷分为两个主要部分。首先,我们评估以人为中心的LLM,重点关注其认知、感知、社交和文化能力。该部分考察了LLM在通常与人类认知相关联的任务中的表现,如推理、感知、情绪意识和社交理解。我们评估其在结构化推理、模式识别和创造力方面的优势,同时识别其在实时学习、同理心以及处理复杂多步逻辑等领域的局限性。通过将LLM的表现与人类标准进行基准测试,我们突出了LLM表现优异的领域以及需要进一步改进的方面。 其次,我们探讨LLMs在以人为中心的应领域,其中LLMs被用于现实世界场景中传统上需要人类输入的情境。本节分为侧重于个体和集体应用的研究,其中个体侧重的研究涉及一个LLM执行通常由单个人类完成的任务,如决策、问题解决或内容创作,而集体侧重的研究探索多个LLMs如何协同工作以模拟群体行为、互动或协作任务,为社交动态、组织行为和多智能体协调提供洞见。在两种情境下,我们都考察所采用的方法,如基础提示、多智能体提示和微调,以及指导这些应用的理框架,包括博弈理论、社会学习理论和心智理论等。最终,本综述旨在提供对LLMs如何能更好地 与人类行为和社会环境相契合,识别其优势领域及改进空间。图1概述了该框架,将大语言模型的(LLM)能力分为个体技能(如认知、感知、分析及执行功能)和集体技能(如社交能力),并强调其应用于个体领域(如行为科学、心理学和语言学)及集体领域(包括政治学、经济学和社会学)的研究能力。通过该框架对研究工作进行分类,我们深入探讨了如何使LLM成为更有效、更道德、更符合实际的研究与实践工具,无论是在以个体为中心还是以集体为中心的人类环境中。本文的主要贡献可总结如下。 • 我们对LLM在以人为中心任务中的能力进行了深入评估,重点关注其认知、感知和社会能力,并将它们的表现与类人推理、决策和情感理解能力进行比较。 • 我们探索了LLM在以人为中心领域的应用能力,主要关注个体和集体环境中的实际应用,评估它们在行为科学、政治学、经济学和社会学等领域复制人类行为的能力,包括单代理模型和多代理系统。 • 我们确定了关键挑战和未来研究方向,包括提高LLM的现实适应能力、情感智能和文化敏感性,同时解决偏见问题并开发更先进的人机协作框架。 该论文的结构如下:第2节概述了AI赋能的人本研究和大型语言模型(LLMs),第3节评估了LLMs在认知、感知、分析、执行和社会技能方面的能力。第4节探讨了LLMs如何在各种跨学科场景中应用,以促进LLMs的发展并协助人本任务。第5节探讨了开放性挑战,并概述了推进LLMs的未来方向。第 J. ACM, 第V卷,第N期,文章。出版日期:2024年11月。 图1. 我们的框架展示了对大型语言模型在基础类人技能上的评估方法,这些技能分为个体层面(例如认知、感知、分析、执行功能)和集体层面(例如社交能力),并在类似分类的各个研究领域中应用,这些领域同样分为个体层面(例如行为科学、心理学、语言学)和集体层面(例如政治学、经济学、社会学)。 6 总结了关键见解,并强调了跨学科合作对于增强大语言模型对人类行为理解的重要性。 2 概述 2.1 以人为本的人工智能 2.1.1 传统人工智能方法在以人为本的研究中人工智能在各类以人为中心领域的应用经历了漫长的演进过程,随着生成式模型的兴起,现已达到新的高峰,人工智能方法开始用于研究各种人类现象。然而,尽管与大型语言模型相比这些传统方法相对较为初级,但它们依然使研究人员能够通过计算手段应对复杂的社会现象。 几乎从被研究之初,人工智能就被应用于对社会具有高度影响力的领域[14]。自那以后,研究人员已经评估了人工智能模仿人类行为和思维进程的多种方式,例如在认知[15]、感知[16]和执行功能[17]等方面。然而,近年来,随着网络和社交媒体的兴起,人工智能的应用越来越贴近我们的日常生活。例如,在政治传播研究中,检测新闻报道中的政治偏见已成为一个关键的研究领域,尤其鉴于媒体和在线空间中不断加剧的两极分化。基于统计建模和网络分析的传统政治意识形态预测方法,由于每天产生的大量内容,已成为一项紧迫的任务。例如,[18]的研究采用网络分析来估计社交媒体用户的意识形态偏好。此外,主题建模和内容分析等技术已被广泛用于利用数据挖掘方法检测新闻报道中的偏见和虚假信息[19, 20],突出了传统人工智能技术在理解政治话语中的应用。其他研究则采用递归神经网络[21]和聚类算法[22]等方法处理立场检测任务。此外,Dezfouliet al.[23] 探索决策模型中的对抗性漏洞,这在考虑时至关重要。 传统偏差检测系统在对抗条件下的鲁棒性。此外,Dafoeet al.[24] 强调了设计用于应对社交环境的系统的重要性,例如政治话语环境,并运用了更成熟的多智能体系统和博弈论框架。同时,机器对人类偏好的理解也被用于优化强化学习中奖励函数的学习过程[25],这表明AI方法不仅帮助我们对人类行为进行解释,而且通过理解人类行为可以从中受益,突显了AI技术与以人为中心的研究进步的协同进化特性。总体而言,大量的AI赋能的以人为中心的研究表明,未来潜力巨大。 通过使用更先进的计算方法,例如大型语言模型(LLMs),来理解和更好地模拟人类行为和推理过程。LLMs可以通过在真实世界数据稀缺的领域模拟人类行为,为该领域带来新的机遇,并通过LLMs的可复制性促进对人类行为规律和动态的探究。 2.1.2 从传统人工智能到大型语言模型的范式转变。大语言模型(LLMs)的兴起通过在模型架构、规模和能力方面的关键突破,彻底改变了自然语言处理(NLP)以及整个人工智能领域。早期的模型如Word2Vec和GloVe使用了词嵌入,但2017年Transformer的引入[26]及其自注意力机制,实现了更深层次的语境理解,并标志着转折点。OpenAI的GPT系列从2018年的GPT[3]开始利用这一技术,最终形成了GPT-3[27]和GPT-4[28],这些模型在推理、文本生成和多模态任务中展现出前所未有的能力。与此同时,谷歌的PaLM 2[29]提升了多语言性能和效率,而开源模型如Falcon[30]和百度的ERNIE Bot[31]则拓宽了访问范围和专业化方向。这些发展反映了LLMs在跨学科研究到伦理AI应用等不同领域的日益深远影响。 大语言模型(LLMs)在学术各领域的快速采纳,引发了关于这些系统能否最终匹配人类认知能力的不同预测。尽管一些专家预见到AI将在不久的将来实现类人的一般智能,但另一些专家仍持谨慎态度,怀疑AI能否完全复制定义人类认知的复杂、抽象的推理和创造力[32]。尽管存在这些不同的观点,但AI已经成为日常生活的重要力量,在众多领域影响着决策和信息处理。然而,一个关键的区别仍然存在:人类认知是由基于理论的、前瞻性推理驱动的,而AI则基于从海量数据集中衍生出的模式,通常依赖概率和过去的数据[33]。这种差异强调了人类与AI系统互补的性质,它们在认知处理的各个不同方面各有所长。不同于人类智能,LLMs缺乏内在的目标、价值观或情感体验, 差异。人类认知受生存、社会互动及创造力驱动,与我们的物理和社会环境紧密相连。尽管具身智能虽然能够与周围环境互动,但缺乏定义人类思维的那种细致入微、目标导向的智能。相比之下,大型语言模型基于从海量数据集中衍生的概率模型生成响应,而缺乏人类决策经验所依据的亲身经历。尽管大型语言模型能够模拟某些类似人类的行为,但它们仍然无法达到人类所拥有的具身理解能力。这些区别引发了关于人工智能局限性与潜能的关键问题,特别是随着 我们认为,第3节探讨的多样化能力,包括认知、感知、社交、分析、执行、文化、道德和协作技能,涉及大语言模型的能力。第4节深入探讨了政治学、经济学、社会学、行为科学、心理学和语言学等跨学科领域如何促进大语言模型的发展,并提供了见解。 J. ACM, 第V卷,第N期,文章。出版日期:2024年11月。 探讨人类智能如何影响和塑造人工系统的进化。这种探索强调利用大型语言模型的优势,同时认识到人类与人工智能认知之间的根本差异。 3 人本中心LLM评估 为评估以人为中心的巨型语言模型(LLMs),我们展示了LLM能力的整体表征,将其分为两个领域:个体(例如认知、感知、分析、执行功能技能)和集体(例如社交技能),如图2所示。这种表征包括多种关键的LLM技能,如推理、模式识别、空间意识、适应性、决策、人际沟通和文化能力。随后,图3概述了用于评估LLMs的方法,包括基准和数据集测试、以人为中心的评估、交互式和基于仿真的评估、伦理和偏见评估,以及最终的可解释性和可解释性评估。表1突出了这些领域的优势和改进领域。通过概述这些能力,我们提供了对类人技能的全面比较,使用基准来评估其优势和局限性。此外,附录表2和表3提供了对关键论文的综合概述,突出了它们的贡献、所评估的LLMs以及与人类表现的比较。随后的部分将深入探讨每个类别,对定义这些领域LLM性能的技能和基准进行深入探讨。 J. ACM, 第V卷,第N期,文章。出版日期:2024年11月。 3.1 认知技能 大型语言模型展示出与人类智慧关键要素相呼应的认知能力,主要体现在推理和学习方面。尽管大型语言模型在处理海量信息及生成连贯性回复方面展现出卓越的能力,但在复杂认知任务上的表现