您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Nature]:脱胎换骨 AI 对在线知情人区的影响 - 发现报告

脱胎换骨 AI 对在线知情人区的影响

文化传媒2024-04-25Gordon Burtch、 Dokyun Lee、 Zhichen ChenNatureS***
AI智能总结
查看更多
脱胎换骨 AI 对在线知情人区的影响

生成 AI 对在线知识社区的影响 OPEN 戈登 · 伯奇*, 李道云和智真陈 生成式人工智能技术,尤其是大型语言模型(LLMs)如ChatGPT,正在跨多个领域革新信息获取和内容生产。这些技术在影响在线知识社区的参与度和内容生产方面具有显著潜力。我们提供了初步证据,通过对2021年10月至2023年3月期间Stack Overflow和Reddit开发人员社区的数据进行分析,记录了ChatGPT对前者用户活动的影响。我们观察到,Stack Overflow网站访问量和问题数量均出现了显著下降,特别是在ChatGPT表现优异的主题领域。相比之下,Reddit社区的活动没有显示出下降的迹象,这表明社会网络在抵消大型语言模型对社区的负面影响方面的重要性。最后,Stack Overflow上的参与度下降主要集中在新用户中,表明较为初级、社会联系较弱的用户更有可能退出。 最近生成人工智能(Gen AI)技术的发展尤为显著,尤其是大型语言模型(LLMs)如ChatGPT。LLMs在涉及信息检索和内容创作的任务中表现出色。1–3鉴于这些能力,重要的是考虑它们在推动在线知识社区中知识开发和交流方式发生根本性变革方面的潜力。4,5. LLMs 可能会对在线知识社区的参与度和活动产生正面和负面的影响。从积极的一面来看,LLMs 能通过提供即时且相关的信息回应用户查询来增强知识共享,从而帮助用户更高效地解决一系列同行问题,可能提升社区参与度。从这一角度来看,通用人工智能工具可以补充并增强社区现有的活动,提供更多的信息供应。然而,从消极的一面来看,LLMs 可能会完全取代在线知识社区。如果替代效应占主导地位,这将引发几个严重的问题。首先,虽然 LLMs 提供了即时响应,但如果它们完全取代了人类用户,可能会导致社区参与度的下降。其次,如果 LLMs 成为主导力量,可能会削弱社区成员之间的互动和协作。最后,如果 LLMs 的普及导致在线知识社区的消失,这将对知识传播和社区建设产生深远影响。创新性的解决方案用于信息检索和内容创作,并已被证明能在各种写作和编码任务中显著提升个人生产力,它们也被发现会生成“充满信心的错误回应”,即对用户查询提供“确信但错误”的答案。6,并破坏工人在某些类型的任务上的表现3.其次,如果个体参与在线社区的活动减少,这将意味着各种人际互动的机会也会减少,而许多重要的活动都依赖于这些互动,例如协作、导师指导、求职。此外,如果类似的动态也可能在正式组织和工作环境中出现,那么组织归属感、同事学习、职业发展和创新等方面也可能会出现类似下降的风险。7–12. 我们在此工作中针对以下两个问题进行了探讨。首先,我们分析生成式人工智能(AI),尤其是大型语言模型(LLMs)对在线知识社区中个体参与度的影响。具体而言,我们评估LLMs如何影响用户在在线知识社区中的参与和内容创作。其次,我们探索哪些因素可以调节LLMs对在线知识社区中参与度和内容创作的影响程度(放大或减弱)。通过研究这些关系,我们旨在深化对LLMs可能在塑造未来在线知识共享与协作中的角色的理解。此外,我们希望为促进人类用户与AI技术之间可持续的知识共享动态提供见解和策略。我们在ChatGPT于2022年11月底发布的背景下进行评估。我们首先从 分析ChatGPT发布对Stack Overflow的影响。我们发现ChatGPT的发布导致Stack Overflow的网站流量显著下降,相应地,提问数量也有所减少。然后,我们考虑参与度下降可能在不同社区背景下有所不同。利用同一时期Reddit开发者社区发帖活动的数据,我们指出一个明显的对比:没有检测到参与度下降。我们将这种差异归因于社会结构;Stack Overflow主要侧重于纯粹的信息交换,而Reddit开发者社区则以更强的社会纽带为特征。此外,考虑到Stack Overflow内部不同主题领域的异质性,我们展示了参与度下降幅度存在巨大差异。 波士顿大学 Questrom 商学院 , 波士顿 , MA02215 , 美国。*电子邮件: gburtch @ bu.edu 取决于历史社区数据的可用性,这可能是评估LLM(大型语言模型)在特定领域回答问题能力的一个代理指标,因为这些数据很可能用于训练。最后,我们探讨了哪些用户最受ChatGPT发布的影响,以及ChatGPT对所发布内容特征的影响。结果显示,新用户在ChatGPT发布后最有可能退出该社区。此外,相关地,我们发现Stack Overflow上提出的问题在ChatGPT发布后变得系统性地更加复杂和精炼。 Methods 为了回答这些问题,我们利用了多种数据来源和方法(详细信息请参见补充材料)。首先,我们使用了一个专有的数据集,该数据集记录了从2022年9月到2023年3月期间访问stackoverflow.com的每日综合访客数量,并且还包含了一组其他流行网站的数据。此外,我们还利用了两个时间段内发布到Stack Overflow的问题和答案及其发布用户特征的数据,这两个时间段覆盖了同一年的时间跨度。第一个样本涵盖2021年10月至2022年3月中旬,第二个样本则涵盖2022年10月至2023年3月中旬。这些数据集通过Stack Exchange Data Explorer获得,它提供了不同Stack Exchange社区活动的可下载和匿名数据。另外,我们还使用了subred-ditstats.com的数据,该网站跟踪了每个子版块每天发布的帖子数量的综合统计数据。我们的数据来源不包含任何个人用户信息,我们在分析过程中也没有使用任何个人用户信息。我们首先研究了2022年11月30日ChatGPT发布后对到达网络流量的影响。 在Stack Overflow中,利用每日网页流量数据集进行分析。样本数据来源于SimilarWeb,包括顶级1000个网站的日流量。我们采用合成控制法的一种变体进行研究。13, 即使用 LASSO 或 SCUL的合成控制14。将对 stackoverfow. com 的网络访问的时间序列视为已处理 , 该方法通过 LASSO 识别 - fes15,这是一种线性加权组合的方法,将候选控制系列(网站)结合起来,能够在ChatGPT发布之前准确预测流量到stackoverfow.com的情况。然后,这种线性组合被用于估算ChatGPT发布后stackoverfow.com的流量,反映如果没有ChatGPT的情况下所预期的网络流量水平。其次,我们研究了ChatGPT对Stack Overflow上问题发布量的影响。 我们在研究期间识别了与Stack Overflow上问题相关的最受欢迎的50个主题标签,并计算了在ChatGPT发布日期前后的时间窗口内包含每个标签的问题的日计数。然后我们遵循了Ref.中的方法。16,17, 在相同的时间段内构建相同的主题面板(即一年前的同一时期),作为差异-in-差异设计中的对照组,以估计平均处理效应,并允许评估平行趋势假设(这由预处理阶段不存在显著差异得到支持)以及处理效应的动力学。18。补充中的图 S1 对我们的研究设计进行了直观的解释。 第三,我们考虑了这些效果是否可能在不同的在线知识社区中有所不同,这取决于社区对信息交流的关注程度。也就是说,我们考虑了社会纽带(如社会联系和关系)作为缓冲器的可能性,以减轻大语言模型(LLM)对与人类同伴连接的负面影响。这种测试的逻辑在于,尽管大语言模型在许多主题上能够提供高质量的信息,但它们作为纯粹的人类社交联系替代品的价值并不明确。19我们因此将来自Stack Overflow的平均效应估计值与使用Reddit上类似子社区(子Reddit)的日发帖量面板获得的效应估计值进行了对比。Reddit是一个有用的对比点,因为有充分的文献表明,Reddit上的开发者社区相对而言更加社交化和社群化,不同于Stack Overflow。20,21我们还探索了Stack Overflow效应在不同主题上的异质性,在每个Stack Overflow主题及其相关子版块中重复进行差异-in-差异回归分析。最后,我们探讨了Stack Overflow用户和问题平均特征的变化。 ChatGPT 的发布,特别是从发帖用户的账户停留时间(以天为单位)和相关联的平均问题复杂度方面来看。可以合理预期,最依赖于 ChatGPT 的人可能是社区中较新的成员,这些成员可能与社区的社交联系较少,并且他们倾向于提出相对简单的问题,而 ChatGPT 更擅长回答这些问题。相应地,未能发布的可能是那些相对较简单的问题。我们通过两种方式测试了这些可能性,考虑了来自 StackOverflow 的问题级别数据。首先,我们估计了 ChatGPT 发布对发帖用户账户平均停留时间(以天为单位)的影响。然后,我们构建了一个类似模型,考虑了发布问题中“长”词(长度为 6 个字符或以上)的平均频率作为复杂度的代理指标。 ResultsLLM 对社区参与的总体影响 图1 A 显示了实际的每日网络流量(蓝色)以及我们对Stack Overflow在ChatGPT发布之前所应经 历的流量估计(红色)。Synthetic Control 方法的估计值在ChatGPT发布前与真实的时间序列高度一致,支持其作为发布后情况的反事实对照的有效性。图1 B展示了这些时间序列之间的差异。我们估计Stack Overflow的日网站流量每天下降了大约100万人,相当于ChatGPT发布前网站日网站流量的约12%。 LLM 对用户内容制作的影响 我们的差分-差分估计使用Stack Overflow上的发帖活动数据表明,自ChatGPT发布以来,Stack Overflow上按主题的提问数量显著下降(图 )。2 A). 这个结果强化了这样一个观点,即大语言模型(LLMs)正在取代在线社区成为许多用户获取知识的来源。通过使用Reddit数据重复相同的分析,我们没有观察到任何证据表明ChatGPT对Reddit上的用户参与度产生了任何影响(如图所示)。2 B) 。我们在使用 Ref 的矩阵完成估计器的补充图 S2中复制了这些结果。22. ChatGPT 对堆栈溢出按主题发布量的影响的异质性 我们在Stack Overflow主题之间观察到了极大的异质性,但在子版块中却一致地得到了null结果(如图所示)。3我们的估算再次表明,Reddit上的开发者社区在ChatGPT发布后基本上未受到太大影响。我们对Stack Overflow的结果进一步显示,受影响最显著的主题主要是与具体的、独立的软件编码活动联系最为紧密的主题。也就是说,受影响最显著的主题也是那些我们可能会预期ChatGPT表现得非常好的主题,因为这些领域有大量的可访问训练数据。 例如,Python、CSS、Flutter、ReactJS、Django、SQL、数组和Pandas都是指编程语言、特定的编程库或数据类型和结构,而在使用编程语言工作时可能会遇到这些内容。相比之下,相对未受影响的标签更有可能与涉及复杂任务的主题相关,这些任务不仅需要适当的语法,还需要上下文信息,而这些信息通常超出了ChatGPT训练数据的范围。例如,Spring和Spring-boot是基于Java的企业解决方案框架,通常涉及后端(服务器端)编程逻辑,以及私有企业知识库和软件基础设施。与这些主题相关的问题通常是直观的问题,对于这些问题,自动化的(即剪切粘贴式)解决方案可能不太直接,并且不太可能出现在用于训练LLM的文本训练数据中。其他示例还包括与Amazon Web Services、Firebase、Docker、SQL Server和Microsoft Azure相关的标签。为了更直接地评估这一可能性,我们收集了活跃的GitHub仓库的数量数据- 利用每种语言或框架的优势,以及订阅与每种语言或框架相关的子Reddit的人数。然后我们在观察到的效果大小上绘制了一个缩放后的度量值,得到了图。