AI智能总结
联邦储备委员会,华盛顿特区,ISSN 1936-2854(印刷版)ISSN 2767-3898(在线版) CardSim:用于支付卡欺诈检测研究的贝叶斯模拟器 杰弗里·S·艾伦 2025-017 请引用本文如下: Please cite this paper as:艾伦,杰弗里·S.(2025)。《CardSim:一种用于支付卡欺诈检测的贝叶斯模拟器》《tion Research》,“金融与经济讨论系列2025-017”。华盛顿:董事会美联储系统行长们,https://doi.org/10.17016/FEDS.2025.017. 备注:金融与经济学讨论系列(FEDS)工作人员的论文是预备材料,旨在激发讨论和批评。提出分析和结论是作者的观点,不表明研究团队成员或管理委员会的同意。在出版物中提及金融与经济学讨论系列(除认可之外)应与作者(们)确认,以保护这些论文的尝试性特征。 CardSim:用于支付卡欺诈检测研究的贝叶斯模拟器 Jeffrey S. Allen* 2025年3月 摘要 近年来,支付欺诈率居高不下,随着犯罪分子获取能力增强的生成式AI工具,对创新欺诈检测研究的需要日益增长。然而,此类研究的速度、多样性和可重复性受到公开可用支付交易数据的匮乏的限制。已经开发了一些支付模拟方法,以帮助缩小支付交易数据差距,同时不损害重要的数据隐私和安全期望。尽管这些模拟方法推动了研究进展,但仍需更多工作来生成反映多样和不断演变的欺诈策略的数据集。本论文介绍,一个一种灵活、可扩展的支付卡交易模拟方法,该方法扩展了现有支付欺诈 CCCCCCCČČČČČČČČČČČČČČČČ建模研究中小但正在兴起的一组模拟器。该模型在调整到公开数据范围以及将支付交易特征与欺诈关联的贝叶斯方法上具有创新性。该模拟器的模块化结构,通过相应的软件包实现,使得根据新的支付趋势或欺诈模式证据更新变得容易。†在进行模拟方法阐释后,我演示了如何利用输出结果来测试和评估与支付卡片欺诈检测相关的机器学习工作流程、建模方法和可解释性框架。 关键词:支付卡、欺诈检测、贝叶斯分析、模拟、机器学习 JEL 分类:C11, C15, C80, E42 1 引言 支付卡欺诈一直是消费者、商家、金融机构和政策制定者关注的长期问题。欺诈统计数据表明,自COVID-19大流行以来,美国支付卡欺诈显著增长。美国联邦储备银行亚特兰大分行的研究数据发现,2023年,11.5%的信用卡持有者和9.4%的借记卡持有者遭遇了与卡片相关的盗窃或欺诈(Foster, Greene, and Stavins, 2024)。这些数字是疫情之前的两倍多。同样,2023年消费者向联邦贸易委员会(FTC)提交的信用卡欺诈报告数量,以及存款机构向金融犯罪执法网络(FinCEN)提交的借记卡和信用卡相关可疑活动报告数量,分别比2019年增加了113%和75%(FTC, 2020, 2024;FinCEN, 2024)。1欺诈也是由多数(49%的受访者)金融机构风险官员在2023年美联储金融服务局(FRFS)调查中提及的首位运营风险关切,高于网络安全、业务中断和第三方风险(FRFS,2024)。2 人工智能(AI)的发展使得欺诈情况变得更加复杂。一方面,易于获取的生成式AI工具可能增强恶意行为者通过支付系统持续进行欺诈的能力,帮助他们开发并部署更具说服力的欺诈方案(FSSCC,2024;FSB,2024;美国财政部,2024)。另一方面,金融机构和当局广泛使用AI进行欺诈检测、预防和应对(FSB,2017;美联储理事会及其他机构,2021;FSOC,2023;经合组织,2023)。在过去两年中,支付服务提供商宣布了一系列与AI相关的欺诈检测计划(例如,参见:万事达卡,2024;维萨,2024)。 学术研究在支付卡欺诈检测方面也有所增长。Web of Science的搜索结果显示,在过去10年中有316篇关于支付卡欺诈检测的已发表论文。3主要限制欺诈检测研究速度和多样性的因素是缺乏公开的支付数据。支付交易数据非常敏感且具有经济价值。由于数据隐私要求和经济激励,交易数据在欺诈检测研究中的广泛应用自然受到阻碍。一些已发表的论文使用了提供的部分数据片段。 在严格的隐私和安全控制下,由金融机构或中央银行进行的研究无法发布基础数据,这阻碍了研究的可重复性和扩展。许多其他研究使用一组公开可用的数据集。虽然这些数据集在欺诈检测领域促进了重大创新和知识共享,但它们往往过时、样本量小且高度掩盖。这些挑战使得在欺诈模式不断演变的情况下,全面比较机器学习方法变得困难。 模拟已成为克服该领域一些数据空白的方法。尽管它们不是现实的完美体现,并且有其自身的局限性,但模拟可以帮助缓解隐私和竞争方面的担忧。精心设计的模拟器可以快速生成非常大的样本,并且可以修改以反映不断变化的支付行为和欺诈技巧。近年来,研究人员已引入与支付相关的模拟方法以支持支付欺诈检测和相关领域的研究,如反洗钱(AML)(Le Borgne 等人,2022;Lopez-Rojas,Elmir 和 Axelsson,2016;Suzumura 和 Kanezashi,2021;Altman 等人,2023)。虽然这些模拟器已经使广大研究人员能够测试支付欺诈检测的机器学习(ML)模型,但还需要更多工作来构建反映支付系统中欺诈多变动态的方法。 本文通过引入新的模拟方法,扩展了面向欺诈检测研究的小型但正在增长的模拟方法体系。,一种灵活、可 展的支付卡交易模 器,具有三个重要功能。首先, 模 器的 。4其次,该模拟器利用贝叶斯定理嵌入支付交易特征与欺诈之间的复杂关系。第三,该模拟器高度模块化。几乎每个参数都可以轻松调整,以捕捉不断变化的支付和欺诈趋势。总体而言,这些特性有助于测试用于欺诈检测的机器学习模型的优缺点。该方法在随本文一同发布的软件包中得到实现,可供公众使用。 本文其余部分如下进行。第2节中,我回顾了旨在解决支付交易数据缺口的相关工作。第3节详细阐述了模拟方法,该方法涉及三个关键阶段:制定付款人和收款人特征,运行模拟实验,以及分析实验结果。 交易模拟器,并使用贝叶斯定理生成欺诈标志。接下来,第4节将介绍一个代表性模拟的结果。在第5节中,我展示了模拟器输出如何被用来测试和评估与欺诈检测相关的人工智能工作流程和建模方法。第6节总结本工作的影响,并确定了未来研究领域的方向。 2 相关工作 数据隐私标准和竞争性经济压力阻止了敏感支付交易数据的传播,以供研究目的使用(Altman 等人,2023;BIS,2023)。虽然一些研究人员在严格的控制下可以访问金融机构的交易数据片段,但许多人使用一套有限的已发布数据集。Grover 等人(2022)列出了用于欺诈检测和相关问题的最常用数据集。他们确定的九个数据集中,有四个与零售支付相关。由布鲁塞尔自由大学(ULB)机器学习小组与支付处理公司 Worldline 合作在Kaggle 机器学习网站上发布的一个数据集(Dal Pozzolo,2016)是欺诈检测研究的一个流行选择。5IEEE-CIS支付交易数据集(霍华德等人,2019年)也被广泛使用。 即使研究人员使用真实交易数据,挑战通常仍然存在。发布的样本通常很小、非当前且被掩盖。这些特性在ULB-Worldline数据中很明显,这些数据包含相对较少的、被高度编辑的记录,这些记录是在十多年前进行的。特征变量被缩减为主要成分,以完全掩盖它们所代表的内容。另一个重要挑战是处理不一致或实体特定的标记实践,这限制了可推广性。例如,欺诈标志可能反映了欺诈被检测到之后发生的事情,而不是欺诈的具体发生。6IEEE-CIS数据具有一个欺诈标签框架,该框架在首次报告欺诈后,将所有与账户相关的交易标记为欺诈,直到账户被终止或过去120天。7虽然欺诈检测研究从这些出版物的发表中获得了巨大的益处。 数据集,它们的局限性可能对全面评估依赖大数据集的机器学习模型、调查演变的欺诈模式以及测试新兴的可解释性方法构成挑战。 本文基于最近的一些模拟方法,旨在帮助缩小支付交易数据差距,并支持欺诈和洗钱检测研究。Lopez-Rojas, Elmir, 和 Axelsson(2016)生成合成移动货币交易,使用来自非洲移动货币服务提供商的真实支付交易基础数据集。Suzumura和Kanezashi(2021)的PPPPPPP是一种著名的基于图的模拟方法,用于将复杂的洗钱类型嵌入支付交易数据中。在此基础上,Altman等人(2023)介绍了,其中包含更复杂的代理交互 于其前身。与 似, 中的所有交易模式均基于 分布。 许多先前的模拟器是基于代理的模型。has some features in常见的与基于代理模型的模型一样,支付人和收款人之间存在互动。然而,最终,该方法与假定行为恒定的随机微观模拟模型更为一致(Orcutt,1957;Birkin和Wu,2011)。支付人和收款人在应对约束条件如账户余额,其行为随时间不变。与许多微观模拟应用相反,该文本并未针对公共政策分析进行调整。 本研究主要基于Le Borgne等人(2022年)开发的方法。与他们的模拟器类似,本研究通过公开的调查和经济学数据来开发付款人档案,并专注于支付卡交易,使用付款人和收款人档案运行每日交易模拟器。然而,其核心方法在重要方面存在差异。值得注意的是,大多数关键模拟参数是从两种方法中使用的相应参数推导而来的,并且这些参数在两种方法中存在显著差异。此外,Le Borgne等人(2022年)在其模拟器中嵌入了三种类型的欺诈类型。8CCCCC does not use typologies, which tend to be deterministic, tocapture fraud. Rather, it uses CCCCC Bayes' theorem and known properties of fraudulent transactions to associate payment transaction features with fraud. To my knowledge,是 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 这是第一个贝叶斯支付卡欺诈模拟器,并且它比相关的替代方案更依赖于公开的调查数据。 3 模拟方法 CCCCCCCCCCCCCC专注于生成与消费者对企业(C2B)非预付费借记卡和信用卡支付以及未经授权的第三方欺诈一致的合成交易数据和欺诈模式。9模拟过程分为三个阶段。首先,我开发付款人和收款人的特征,以建立地理位置、典型的支付模式和付款人与收款人的比例。其次,我运行核心交易模拟器,该模拟器确定了付款人每天支付的次数并开发了五个交易属性。最后,我使用贝叶斯定理生成欺诈标签。模拟器使用的每个参数都是可调整的。这种模块化可以使得研究人员和实践者能够对不同参数进行实验,并模拟支付和欺诈趋势的变化。第3.1至3.3节详细解释了三个模拟器阶段。 3.1 付款方与收款方特征 模拟器的第一阶段涉及开发付款人和收款人的特征。首先关注付款人,每个付款人都被分配了一个平均的每日卡交易次数、平均的借记卡和信用卡支付金额的值和分散度,以及Greene和Stavins,2024年)。 了生成平均每日卡交易次数,我抽取了大小 坐 的 本。我使用消 者支付 日 (DCPC)(Foster)来确定付款人特定的支付特征,该特征基于加权每日借记卡和信用卡交易次数报告的值= 2,500。=100 在本报告中所提到的模拟器运行中,由2022年和2023年DCPC调查的