AI智能总结
数据集和数据生成 凯瑟琳 · 弗雷泽希拉里 · 道金斯 · 斯维特拉娜 · 基里琴科加拿大国家研究委员会 Prepared by: 加拿大国家研究理事会1200 Montréal RdOttawa, ON K1A 0R6谅解备忘录:NRC - 加拿大国家研究理事会(NRC)关于研究、开发、测试和评估、技术服务和技术授权;ER-VAL 23-085技术负责人:Zachary Devereaux 和 Alexandre Bergeron-Guyard,国防科学家承包商的发布日期:2024年3月 发布条款 : 本文档已批准公开发布。 本文件正文中未包含根据国防部安全标准要求的安全警示标志。然而,必须将其视为“可不公开发布”并根据指定的条款和条件适当保护。封面。 注意本文档已经过审核 , 不包含受控技术数据. 加拿大国防研究与发展 合同报告DRDC - RDDC - 2024 - C317 2024 年 9 月可能未分类 / / 非受控商品 可能未分类 / / 非受控商品 重要信息声明 国防 加拿大国防研究与发展局使用ProductionAct 免责声明:本文件未由加拿大国防研发部编辑办公室发布,而是应被编目到加拿大国防信息系统(CANDIS),这是加拿大国防科技文档的国家级档案库。加拿大国王陛下通过国防部长代表,在此声明不对任何信息、产品、过程或材料的任何种类的质量、准确性、可靠性、完整性、时效性或实用性做出明示或默示的保证,并不承担因使用或依赖其中包含的任何信息、产品、过程或材料而导致的任何责任。本文件中的任何内容均不应被解释为对其中研究的任何工具、技术或过程的具体使用进行推荐。任何人依赖或使用本文件中包含的任何信息、产品、过程或材料的风险自负。加拿大不对因使用或依赖本文件中包含的任何信息、产品、过程或材料而产生的任何损害或损失承担责任。. 数据集和数据生成AI 生成的文本检测 凯瑟琳 · 弗雷泽、希拉里 · 道金斯和斯维特拉娜 · 基里琴科数字技术研究中心 2024 年 3 月 加拿大国家研究委员会数字技术研究中心 作者 : 加拿大国家研究委员会数字技术研究中心 受国防部委托 , 2024 年 附件编号 : ER - VAL 23 - 085 项目 : Zachary Devereaux 国防科学家 DRDC Valcartier研究中心 业务联系:Directorate R&D 外部合作伙伴关系与参与Valcartier 研究中心地址:2459 Route de la Bravoure蒙特利尔,QC G3J 1X5邮箱:ADMDRDCPartnershipsVRC-SMARDDCPartenariatsCRV@forces.gc.ca ©加拿大国王陛下通过国防部长代表,以及加拿大国家研究委员会,2024 ©加拿大国王陛下通过国防部长代表,以及加拿大国家研究委员会,2024 2数据集 … … … … … … … … … … … … 11 2.1 问答 11 2.1. 1 HC3 … … … … … … … … … … 11 2.1. 2 OpenOrca 2.2 News 12 2.2. 1 TuringBench … … … … … … … … … … … … … … … … …… … 12 2.2. 3 GROVER FakeNews 和 RealNews … … … … … …… … … … … … … … … … … … … … … … … … … … … … … …… … … … … … … … … … … … … … … … … … … … … … … …… … 2.3 随笔 13 2.3. 1 OUTFOX 13 2.3. 2 ArguGPT 14 2.4 学术出版物 14 2.4. 1 tum - nlp / IDMGSP. 14 2.4. 2 GPABench2. 14 2.4. 3作弊. 15 2.5 网站和社交媒体 15 2.5. 1 OpenGPTText 15 2.5. 2 TweepFake 15 2.5. 3 GPT- wiki - introo 2.6 多域 16 2.6.1 M4............................................................ 162.6.2 实际环境数据集............................................... 172.6.3 HC-Var......................................................... 172.6.4 Ghostbuster 数据集.............................................. 182.6.5 MGTBench...................................................... 182.6.6 SnifferBench..................................................... 182.6.7 SeqXGPT-Bench.................................................. 192.6.8 HC3-SI......................................................... 192.6.9 MIXSET......................................................... 192.6.10 AuTexTifcation 共享任务数据集.................................. 20 2.7 错误信息 20 2.7.1 斯皮塔莱、比勒-安多诺和德国尼2023年发布的真假推特............... 202.7.2 GossipCop++ 和 PolitiFact++........................................... 212.7.3 车慧和费拉拉2024年发布的与COVID-19相关的AI生成推特............ 212.7.4 克里斯、麦肯和布兰戴奇2022年发布的AI生成新闻.................. 212.7.5 周等2023年发布的AI生成新闻和社会媒体内容........................ 212.7.6 LLMFake........................................................ 222.7.7 ODQA............................................................. 222.7.8 F3............................................................... 232.7.9 黄和孙2023年发布的AI生成假新闻................................. 232.7.10 斯彻斯特等2020年发布的AI生成新闻.............................. 232.7.11 PropaNEWS....................................................... 242.7.12 江等2023年发布的由人类撰写和AI生成的假新闻................... 242.7.13 胡等2023年发布的AI生成的错误信息解释........................... 25 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27Discussion 黑箱检测模型的有效性高度依赖于获取数据的质量和多样性。唐创、 Chuang、和胡 2023 如我们在之前报告中所述,检测AI生成文本(AIGT)的主要方法有三种:水印、统计和风格分析,以及使用预训练语言模型(LMs)。检测水印需要了解水印提取算法;除此之外,无需额外的数据。然而,其他两种广泛的检测方法则需要更多的数据和支持。数据集为了学习区分AIGT(人工生成文本)与人类撰写的文本的模式——理想情况下应使用由我们希望检测的AI模型生成的数据集,并且尽可能接近我们在现实世界中遇到这些文本的环境。先前的研究表明,最有效的检测器是基于相同数据集进行训练的。域( 新闻文章 , 社交媒体帖子 , 学术论文等) ,语言( 英语、汉语、法语等) 和模型设置(解码算法、提示词、输出长度等)作为测试数据。同时,研究还表明,为了实现最大的泛化能力和稳健性,训练检测器时必须使用多种类型的大量数据,以避免其过于局限(或overft,在机器学习领域通常指的是将数据样本限制在一个非常狭窄的范围内。因此,对于任何特定的应用,选择合适的初始数据来训练检测器并测试其准确性是非常重要的。 在本报告中,我们列出了在编写文献综述时遇到的数据集,并对每个数据集进行了详细的总结,解释了其创建过程以及如何访问。然而,这里首先呈现可用数据集的一些汇总统计信息。如图1.1所示,大多数可用数据集都是用英语编写的,另一部分数据集是多语言的(包括英语和其他语言)。在自然语言处理(NLP)领域,存在一个众所周知的研究偏向,即许多研究主要集中在英语上,而忽视了其他语言。 这种偏差无疑被许多用于生成这些数据集的大语言模型(LLMs)最初仅以英语可用的事实加剧了。然而,我们预计这种情况会继续变化,因为越来越多的多语言大语言模型将变得可用。 考虑到除英语以外的语言,图1.2显示了数据集中所代表语言的比例。其中,中文占据最大的比例,其次是阿拉伯语。许多其他语言在本报告总结的数据集中仅出现一两次。 如上所述 , 另一个重要因素是域的数据集。图 1.3 显示了数据集中表示的不同域。错误信息是最常见的 , 尽管这无疑归因于我们对 misinformation 作为研究领域的关注。我们在这一广泛类别中还注意到多个子类别(例如,假新闻、社交媒体上的 misinformation 等)。相当大的一部分数据集也包含多个领域(因此也会包含子领域)。除此之外,我们观察到新闻、学术写作和论文等领域非常受欢迎。从实际应用角度来看,社交媒体虽然非常有趣,但在数据集中却不太常见,这可能是因为难以在短文本中检测 AIGT,或者难以模拟真实的社交媒体帖子进行数据集创建。 在图1.4中,我们探讨了数据集大小的分布情况,并将其分为四个区间,从小于5万个样本的小型数据集到超过50万个样本的超大型数据集。这是一种粗略的分类方式,因为我们通过合并人类生成和AI生成的示例来计算总大小,而某些数据集可能在人类生成或AI生成的示例方面存在不平衡。此外,一些数据集包含大量来自单一模型或语言的样本,而其他数据集则包含少量来自众多不同模型的样本。然而,我们观察到一个总体趋势,即样本数量少于5万个的数据集占多数,同时也有相当一部分“大型”数据集(介于10万至50万个样本之间)。虽然一些检测方法声称是零样本或少量样本方法,需要较少的数据样本来校准算法,但通常认为拥有尽可能多的数据是有益的。 重要的是要注意 , 除了极少数例外 , 所有这些数据集都是生成出于研究目的 , 而不是收集从在线来源。原因显而易见:如果我们一开始没有准确的AIGT检测器,我们就无法确定互联网上的任何文本是由人类还是AI撰写。通过自己生成AIGT,研究人员可以确保这些文本确实是AIGT,并且通过将人类数据样本限制在2020年之前撰写的文本,他们