赛义德·哈希姆·沙阿§,†乔尔·维克伦德§,†青木启吾§,‡ 2025年8月4日§日本证券清算机构†奥罗拉解决方案株式会社‡日本兴亚研究所株式会社 摘要 生成式人工智能和人工智能近年来革新了广泛的行业。然而,主要用例仅限于大型语言模型(LLMs),如聊天机器人、代码助手和文本分析。在本白皮书中,我们探讨了生成式人工智能在中央对手方(CCPs)背景下的风险管理应用。由于金融世界由精确数字统治,我们希望关注能够处理和生成数值数据的生成模型。在本文中,我们将首先介绍常见的AI和机器学习概念,然后探讨如何使用生成式人工智能模型创建合成但逼真的市场数据,重点关注3个月TONA期货合约。我们将比较变分自编码器(VAE)和主成分分析(PCA)以生成合成数据并分析生成的场景。随后,我们使用生成的合成市场数据通过计算预期 shortfall 值-at-风险(ES-VaR)来估计各种投资组合的风险状况。结果表明,VAE生成的场景比PCA生成的场景更多样化,对ES-VaR的影响更大。 免责声明 1.不打算使用生成式人工智能来创建初始保证金计算的场景。JSCC文件仅供研究目的使用。2.英文版为权威版本。 目录 1 简介 1.1 中国共产党的作用和风险管理................................ 11.2 中共吸收风险.......................................... 11.3 风险价值............................................. 21.4 市场场景下的生成式人工智能................................. 3 2 生命、机器学习、人工智能与生成式人工智能2.1 定义............................................... 4 2.2 人工智能/机器学习是曲线拟合............................... 52.3 监督学习、无监督学习和强化学习..................... 62.4 生成式人工智能............................................. 72.4.1 学习概率分布和抽样...................... 82.4.2 主成分分析............................... 92.4.3 变分自编码器 (VAE).............................. 102.5 其他生成模型...................................... 11 3 生成式人工智能用于合成金融数据 13 3.1 3个月TONA期货....................................... 133.2 使用PCA作为生成模型.................................. 133.3 使用VAE作为生成模型.................................. 153.4 使用分层VAE对数据分布进行采样..................... 163.5 围绕单个曲线的采样................................. 183.6 采样极值.......................................... 20 VaR计算中的4种假设情景 21 4.1 VaR计算结果....................................... 214.2 VaR选定情景........................................ 234.3 组合特定分析...................................... 244.4 合成与历史情景比较........................... 254.5 VaR影响摘要........................................ 27 5 讨论 28 5.1 最后的话.............................................. 295.2 未来方向........................................... 30 6 致谢 30 31 参考文献 1 简介 JSCC是日本交易所集团(JPX)的中央对手方(CCP),它清算多种产品,例如现金股票、交易所交易衍生品以及IRS/CDS和JGB等场外交易产品。 1.1 中国共产党的作用和风险管理 中央对手方是金融基础设施(Financial Market Infrastructures)之一。金融基础设施对于金融市场的安全和稳定至关重要。通过中央对手方,复杂的双边风险网络被简化为一个更简单的网络。中央对手方可以提供多边净额结算收益[1].多边冲销可减少结算风险,如图所示。1.1. 中央对手方还为与每个成员或交易对手(买方和卖方)的每一笔交易担任保证金担保人。这一角色可防止违约连锁反应。多边净额结算结构也帮助中央对手方代表违约方进行结算。中央对手方减轻了金融风险。 1.2 中共吸收风险 如果任何清算会员未能履行其对CCP的交易义务,则将触发违约管理流程(DMP),该流程包括从违约会员、CCP以及适用的非违约清算会员那里利用金融资源的流程。 一个违约成员的主要资金来源是初始保证金(IM)。初始保证金过低会导致债务管理计划(DMP)资金不足,而初始保证金过高也不利于成员的融资效率。因此,平衡很重要。投资组合风险越大,所需的初始保证金就越多。 1.3 风险价值 IM是在违约事件中预期损失金额。许多CCP在其IM计算方法中引入了历史模拟风险价值(HS-VaR)。其损失分布并不假设任何特定的数学分布,而是在很多情况下采用经验分布。IM是根据分布的百分位数来计算的预期损失金额。百分位数上的损失金额被称为风险价值(VaR)。为了捕捉尾部损失,有时会使用百分位数内的平均损失金额作为VaR,这被称为条件风险价值或预期短缺(ES)。在本文中,VaR指的是预期短缺。CCP需要在产品定义的特定周期内完成DMP。这被称为风险期间或MPOR。 每个风险因子变动,称为回报,不是独立的,有时会相关。此类相关的历史回报根据其概率用于确定IM金额。通过将每个回报应用于当前价格,我们可以为VaR计算目的创建工具PL。对于期货,我们 可以通过将历史价格建模为反映到期时间的价格曲线来创建任何到期时间的回报历史。这些场景的历史发生,是它们作为可能的未来场景的合理性的有力论证。这些可能的场景用于 IM 计算,并称为历史场景。此外,在压力时期发生的历史场景称为压力场景。 相比之下,假设场景是指过去未曾发生但在特定假设下人为创造的那些场景。它们应当极端但合理,以涵盖之前未见过的压力事件。情景模拟基于所有三种场景类型进行计算。然而,想象尚未发生的场景是困难的,并且需要相当多的专业知识。借助人工智能,可能生成新的可能场景,我们将这些场景称为合理的合成场景。复杂风险管理的一个关键因素是在情景模拟计算中所采用的场景的质量。 1.4 市场场景下的生成式人工智能 生成式人工智能可以从历史大数据中学习。它能够捕捉风险因素之间的线性与非线性相关性,并能够生成降维的数据点压缩表示。这种表示被称为潜在空间。通过在这个潜在空间中采样新数据点并将其还原回原始数据空间,我们可以创建合成数据样本。通过使用生成式人工智能,有可能根据其他风险因素变动的发生概率,创建看似合理的合成场景。 这是本白皮书中尝试使用生成式人工智能的初始动机。在接下来的章节中,我们将描述人工智能/机器学习/生成式人工智能的一般方面,然后使用介绍的一些方法为3个月TONA期货创建合成金融数据。3个月TONA期货是基于3个月复合东京隔夜平均利率(TONA)的利率期货,并于2023年由JPX集团的大阪交易所上市。[2]该产品的MPOR为2天。在白皮书的后几章中,我们将把综合生成的场景集成到几个样本VaR计算中,以探讨它们如何扩展我们的风险覆盖范围。 2 生命、机器学习、人工智能与生成式人工智能 人工智能、机器学习和生成式人工智能已被广泛应用于消费和商业等多个领域,并彻底改变了我们处理和解决复杂问题的方式。在讨论人工智能之前,我们需要至少有一个智能的工作定义。定义智能一直很困难,但如果我们把定义智能的最小工作定义理解为“解决问题的能力”,那么我们可以看到智能的历史与生物生命的进化以及人类的兴起非常吻合。我们人类能够解决极其复杂的问题,理解抽象概念和语言,创造艺术和卓越的工程奇迹,这都要归功于我们极其复杂的脑部。 2.1 定义 人工智能是一个涵盖许多方法、启发式算法和公式的广泛概念术语。它具有广泛的子领域和方法。该领域的简要视觉总结如图所示。2.1. 人工智能(AI): 人工智能可以被定义为机器,尤其是计算机系统,对生物智能的模拟,特别是类人智能。 • 例子包括诸如蚁群优化和遗传算法这样的领域和方法。 机器学习 (ML): 不显式地将这种行为编程到计算机中,对智能行为进行模拟。计算机程序直接从数据中自动学习关系。 • 例如决策树、随机森林和深度神经网络等算法。 生成式人工智能(GenAI): 使用 AI/ML 生成合成且逼真的数据。 • 例子包括ChatGPT等文本引擎,以及像Stable Diffusion和Dall-E这样逼真的图像模型[3],[4],[5]. 计算机上的数据,如文本、图片和音频,必须表示为数字,因为计算机仅理解二进制的0和1。金融数据也表示为数字,因此它是机器学习和生成式AI的主要目标。 我们可以用复杂规则编程计算机来模拟智能行为,但这些算法无法学习或适应。这就是最初的棋类和板类游戏算法的工作方式,它们击败了世界冠军。受人类大脑中神经元的启发而诞生的强大人工智能算法,即人工神经网络(ANNs),能够从数据中自动学习并执行复杂任务。[6],[7]神经网络是我们大脑中生物神经网络的数学类比,如图所示。2.2而我们的大脑可以有数十亿个神经元相互连接,形成一个极其复杂的网络,其中流动着电化学信号,而数学神经网络可以被编码成计算机软件,它接收数值输入,并执行复杂的数学变换以输出计算结果。 anns成功背后的原因是\"通用逼近定理\"这一数学定理[8]简而言之,通用逼近定理指出,一个足够宽的神经网络可以任意精度地逼近任何连续函数。直观地,由于神经网络的内部有如此多的自由度(参数),可以独立地进行调整,因此我们可以用它来逼近任何连续函数或模式。 2.2 人工智能/机器学习是曲线拟合 对许多风险专业人士来说,曲线拟合或拟合概率分布是一个熟悉的任务。传统上,样条函数用于拟合曲线,而 Copula用于拟合数据分布。我们将很快看到,机器学习的核心是曲线/曲面拟合,或通过使用在长期经典统计方法中传统上未见到的新型架构来捕捉底层数据分布。当我们有复杂的高维数据集时,我们需要一个通用的架构来学习决策边界和概率分布。在经典统计学中,我们对数据进行某些假设,并尝试通过高斯函数、高斯混合物或一些厚尾分布的组合来拟合它。这种方法由于以下原因受到限制: 1. 对数据施加假设(特征的独立性,忽略非线性相关性)。 2. 维度的诅咒。在高维度中,数据特征的可能组合数量呈指数级增长,这是经典模型无法模拟的。我们的直觉在高维度中很容易失败。 因此,使用神经网络使我们能够拟合复杂模型到我们的数据,而无需做出任何简化假设。 有兩種典範用於機器學習來建立人工智能模型,取決於任務:1. 区分性。 2. 生成性。 (b)生成模型学习特征分布。 图2.3:比较两种机器学习范式:判别式(图。)2.3a)其中我们学习决策边界vs.生成式模型(图。2.3b) 其中我们学习概率密度。