AI智能总结
创意中心洞察 生成式AI增强行为研究——来自中东的证据 联系人 迪拜 DimaSayess合伙人,创意中心总监+971-4-43 6-3000dima.sayess@strategyand.pwc.com 费图马·科艾克博士行为经济学总监+971-4-436-3000fatima.koaik@strategyand.pwc.com 关于作者 dimasayess她是Strategy&中东的合作伙伴,也是PwC网络的一部分,以及Ideation中心的主管,该中心是Strategy&在中东的领先智库。她在该地区公共部门咨询方面拥有超过20年的经历,包括社会经济协调发展、生活质量、未来政府以及政策制定的创新。她曾担任黎巴嫩财政和教育部长的顾问以及迪拜执行委员会的成员。 法蒂玛·科亚克博士她是创意中心的行為經濟學總監。她在該區應用研究和諮詢項目的交叉點工作。她在倫敦政治經濟學院(LSE)心理與行為科學系獲得博士學位,領導建立了好幾個行為單位,並進行了超過50項實驗。她之前的經驗包括在世界銀行的思維、行為與發展單位(eMBeD)和聯合國開發計劃署(UNDP)擔任行為科學家。 普仁·夏斯特拉他是想法中心的行为和数据科学家,专注于将行为科学应用于解决中东的政策挑战。他的工作包括设计和实施与创业、劳动参与和消费者行为相关的行为实验。此前,他曾担任英国行为洞察小组的行为科学研究员。 罗宾·施尼德博士她是理念中心的资深行为经济学家。作为行为经济学团队的一员,她运用行为洞察力进行实验和基于证据的研究,为客户和政策制定者提供战略挑战方面的建议。她曾作为博士后研究员在苏黎世大学工作,在那里获得了管理和经济学博士学位,并将实验经济学的方法应用于公司社会责任、正当性以及亲社会行为等各个主题。 RaneemAlturki她是思想中心的行为科学家,在那里她将行为洞察应用于各种政策和金融挑战。她拥有雷丁大学行为金融学硕士学位。此前,她是沙特阿拉伯利雅得政府行为科学小组的成员,在那里她进行了公共政策、财务福祉和环境研究的多学科研究。 赛义德·本·巴扎她在公共和私营实体方面拥有超过18年的经验。她在行为科学和经济学交叉领域工作,涵盖研究和咨询,专注于行为改变、决策以及为个人、组织和政府实体提高福祉。她拥有阿卜杜勒·法希德大学(AlFaisalUniversity)的MBA学位和伦敦政治经济学院(LSE)的行为科学理学硕士学位,她在将循证见解转化为可持续成果和影响的行动策略方面拥有专业知识。 Dr.达里奥·克普兰是伦敦政治经济学院心理与行为科学系的行为科学助理教授,并隶属于该院数据科学研究所。他在剑桥大学完成了学术训练,获得心理学硕士和博士学位。他的主要研究领域是变革性行为改变——即个人如何调整生活方式以应对全球最紧迫的挑战,包括气候变化和人工智能的崛起。 这份报告是一个科学论文的改编版本,该论文最初发表于行为科学与政策(SAGE出版公司)题为“超越WEIRD:合成调查参与者能否替代人类进行全球政策研究?” 创意中心 构思中心是Strategy&中东的领先智库,隶属于普华永道网络。我们的目标是通过帮助跨领域领导者将社会经济趋势转化为行动和更好的商业决策,促进该地区的可持续增长。结合创新研究、分析与私营和公共部门专业领域的实践专长,构思中心通过我们的出版物、网站和论坛传递具有影响力的想法。最终成果是鼓舞人心、丰富内涵、并带来回报。构思中心践行Strategy&的使命,即制定实用策略并将想法付诸行动。在构思中心,我们得到中东所有业务的全力支持。我们共同为推进中东地区的利益目标做出无与伦比的承诺。访问www.ideationcenter.com了解更多信息。 执行摘要 行为研究者们开始探索像OpenAI的GPT(即生成式预训练转换器)可以用来创建“合成”的研究参与者——能够以类似于人类的方式回答调查的人工智能代理。研究发现,这样的合成参与者确实可以模仿人类决策,并像人类对应者一样做出反应,甚至复制之前的研究结果。这就提出了一个问题:人工智能(AI)模型能否取代人类来测试行为政策干预? 迄今为止,研究主要集中于西方国家,中东和北非(MENA)地区参与有限。为了研究合成参与者在不同环境下的准确性,我们考察了来自三个国家——沙特阿拉伯、阿拉伯联合酋长国(UAE)和美国——的样本中人类参与者和合成参与者之间的相似性,涵盖三个政策领域:可持续性、金融素养和女性劳动力参与率。在这些领域,我们评估了政策态度,并测量了若干干预措施对人类和合成参与者自我报告行为的影响。 总而言之,我们发现由GPT创建的合成参与者在三个我们评估的政策领域中,其反应与其人类对应者的反应相似。然而,我们所测试的行为干预措施在人类参与者和合成参与者之间产生的影响有所不同。我们还观察到,与来自美国的响应相比,沙特阿拉伯和UAE的响应存在两个主要差异。首先,美国的参与者的相关性更强——当美国的人类反应增加或减少时,合成反应更紧密地反映它们。其次,对于美国,GPT表现出更高水平的正面偏差(高估人类参与者对各种政策提议的支持),而对于沙特阿拉伯和UAE,表现出更高水平的负面偏差(低估参与者支持)。本报告强调了这些发现的主要政策启示,并对研究人员提出了实际建议。 战略与|中东如何运用生成式人工智能支持行为研究并加速社会政策的创新1 挑战 2022年11月30日,ChatGPT的发布1引发全球利益相关者对人工智能(AI)如何减轻劳动力密集型任务对 劳动力负担的兴趣激增。据估计,到2030年,人工智能对全球经济的影响将达到15.7万亿美元。2在海合 会国家,3沙特阿拉伯宣布了一项创建一个价值400亿美元的基金的计划,该基金专门用于人工智能投资。4 在行为科学中,研究人员正在探索大型语言模型(LLMs)是否5可以模仿人类。关于合成参与者——能够像人类一样回答调查的人工智能代理——是否可以在评估公众意见至关重要的领域取代人类,已经进行了大量讨论。6,7 尽管将人工智能应用于行为科学可能具有变革性,但仍存在一些问题。首先,研究主要考察了合成参与者是否能够复制以往的实验结果,并表现出与人类参与者相似的特质和价值观。8,9迄今为止,利用合成参与者来产生新的政策见解已被忽视。其次,研究集中于非MENA人群,与沙特阿拉伯和阿联酋等国家的相关数据和见解有限。10,11在中东和北非地区,为政策研究招募人类参与者通常具有挑战性,这主要是因为在流行的招募平台上多种当地人口代表性不足,以及与专业招募机构相关的成本更高。因此,解决OpenAI的GPT-4等大型语言模型在MENA语境下的准确性至关重要;合成参与者可以为当地政策问题提供宝贵的见解,并帮助缩小研究产出差距。 本报告考察了合成参与者在相关区域政策挑战中的应用。它强调了人工智能在行为科学中的应用带来的机遇与挑战,并为该地区的公共政策提供了基于证据的指导。 2战略与|中东如何运用生成式人工智能支持行为研究并加速社会政策的创新 据估计,到2030年,人工智能对全球经济的影响将达到157万亿美元 。在海合会国家中,沙特阿拉伯宣布了一项计划,创建一个价值400亿美元的基金,专门用于人工智能投资。 3 Strategy&|中东如何利用生成式人工智能支持行为研究并加速社会政策创新Strategy&|中东如何利用生成式人工智能支持行为研究并加速社会政策创新3 已经进行了大量讨论,关于合成参与者——能够像人类一样回应调查的人工智能代理——是否可以在评估公众意见至关重要的领域取代人类。 44Strategy&|剥离低效:公用事业如何优化运营和优化支出Strategy&|中东如何利用生成式人工智能来支持行为研究并加速社会政策创新 上下文 合成参与者以人类为模型,具有特定的特征。12,13例如,一个人类参与者可能是一位来自沙特阿拉伯的30岁女性,拥有硕士学位,已就业、已婚且外向。相应的合成参与者将通过指示GPT从具有这些特征的人的角度回答调查问题来创建。14,15因此,合成参与者在本质上是为GPT或其他LLMs编写程序,以模仿具有不同配置文件的人的回应。 对合成参与者的研究通常调查他们是否表现出与人类参与者相似的心理过程,并且能够复制之前的研究结果 。例如,合成参与者已经能够展示与人类相似的道德判断16甚至可以展示类似的“大五”人格特质——开放性(好奇心和创造力)、责任心(条理性和可靠性)、外向性(社交性和自信心)、宜人性(合作性和同理心)以及神经质(情绪不稳定性)。17 以往的研究往往忽略了公共政策方面的态度,包括人们对社会挑战的看法以及可以采取的行动来应对这些挑战。一项研究发现,60个美国人口群体的观点在诸如堕胎和自动化等不同主题上,与其合成对应体的观点不一致。18而另一项研究揭示了投票意愿和政治观点的一致性。19一个额外的疏忽是缺乏对非西方受 访者的研究;进行的一些研究发现,来自这些地区的人造和人类参与者的相关性比美国要弱。20这种模式 在世界价值观调查(WVS)中很明显,该调查衡量了关于性别平等和工作态度等主题的价值观和信念。21 总而言之,虽然以往研究表明合成参与者可能类似人类并提供政策见解,但要深入理解生成式人工智能的潜力,对于探索与政策相关结果并将研究扩展到中东和北非地区的人群至关重要。 设计 我们使用多种人口统计学和心理特征(如年龄、性别、国籍、就业状况和教育水平)创建了来自沙特阿拉伯、阿联酋和美国的人的合成代理。我们将人类和合成参与者暴露于与三个政策领域相关的问题:可持续性、金融素养和女性劳动参与率。对于每个领域,参与者收到两种类型问题中的一种。“行为”问题侧重于假设情景,并询问受访者或描述的人物将如何行动(例如,通过捐赠抵消碳排放、储蓄与投资与消费金钱、以及生育后重返工作岗位)。同时,“态度”问题衡量对各种相应问题的看法(例如,为保护环境而采取的行动、制定个人财务未来计划以及在职场促进性别平等)。 这种设计(参见附图1)使我们能够探讨以下问题: •是合成参与者能够预测人们对态度问题的反应,并且人工智能复制回复的能力会因国家而异吗? •是合成参与者能够预测人类对干预的反应,并且人工智能预测反应的能力因国家而异吗? 战略与|中东如何运用生成式人工智能支持行为研究并加速社会政策的创新5 清单1 第5步 分析数据并且比较结果: •能否合成参与者辅助预测 人类答案? •在哪里差异 发生吗? •如何使用Al模型需改进 未来研究? 使用ai进行行为研究的研究设计 第一步 设计一个问卷带行为和态度问题 跨越三个政策 区域:劳动力市场金融素养 和可持续发展 第二步 招募参与者 在沙特阿拉伯,阿拉伯联合酋长国 并且美国和跑调查 第3步 整理个人特性 的人类 参与者(如此as人口统计 和态度) 用它们来... 生成合成参与者相似特征使用Al 用 步骤4 运行精确 相同调查on合成(人工生成的)参与者 6战略与|中东如何运用生成式人工智能支持行为研究并加速社会政策的创新 结果 结果分为四个组成部分:相关性、精确度、偏差以及行为实验的结果。 1.相关性 相关系数指的是人类参与者和合成参与者的回答在同一个方向上移动的程度。对于这项研究,我们计算了总相关系数,它代表了我们在所有43个评估变量中,人类平均回答和合成回答之间的相似性。强相关系数(例如,r≥.50)22 会表明,当人类反应增加或减少时,合成反应也随之增加或减少。我们的结果表明,人类反应与合成 反应之间的相关性对于三个样本(沙特阿拉伯、阿联酋和美国)确实都很强。平均而言,人类反应与合成反应强烈共变,这意味着它们以相似的方式增加或减少。然而,美国样本的相关性始终最高(r= .86),其次是阿联酋(r=0.75)和沙特阿拉伯(r=.65). 2.精度 精确性是指合成参与者的平均反应与人类参与者的反应相匹配的程度。两种类型的参与者的反应总体上朝同一方向移动,但没有以很高的程度相匹配,这表明精确性处于中等水平。例如,如果合成参与者在关于某个选定主题的问