您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SFS]:RFS 大使机学学习和大数度量期权价 - 发现报告

RFS 大使机学学习和大数度量期权价

信息技术2023-10-15-SFS心***
RFS 大使机学学习和大数度量期权价

图兰· G ·巴厘岛美国乔治敦大学 Heiner Beckmeyer德国明斯特大学 马西斯·莫克瑞士圣加伦大学 Florian Weigert瑞士纳沙泰尔大学 根据1996年至2020年期间超过1200万次的观察结果,我们发现,考虑到非线性因素,可以显着提高期权和股票特征在预测未来期权收益方面的样本外表现。非线性机器学习模型在股票期权的多空投资组合中产生了统计上和经济上可观的利润,即使考虑了交易成本。尽管基于期权的特征是最重要的独立预测因子,但当与基于期权的特征一起考虑时,基于股票的措施提供了大量的增量预测能力。最后,我们提供了令人信服的证据,证明期权收益的可预测性是由信息摩擦和期权错误定价驱动的。(JELG10,G12,G13,G14)。 2021年11月8日收到;编辑Stefano Giglio于2023年1月19日做出编辑决定。作者提供了互联网附录,可在牛津大学出版社网站上在线最终发表论文的链接旁边找到。 期权市场的重要性在过去十年中获得了动力。根据期货业协会(FIA)年度统计审查的数据,全球交易所的期权交易从 2013年94.2亿美元合同至2020年212.2亿美元合同,增速超过125%。这些合约中约有60%写在个股和股票指数上,使股票成为金融市场参与者最受欢迎的基础资产。鉴于期权交易受到投资者的高度欢迎,问题就出现了单个期权收益是否可预测,如果是,哪些特征可以产生这种可预测性。我们的论文致力于回答这些问题。而经典期权定价模型假设期权是多余的 (Buraschi和Jackwerth 2001;Garleanu,Pedersen和Poteshman 2009)。作为一个例子,Goyal和Saretto(2009)文件,期权收益的横截面反映了方差风险的溢价,计算为历史已实现波动率和货币隐含波动率之间的差异。在本文中,我们遵循基于特征的资产定价的思想,并将未来的delta对冲期权收益与从期权和股票中提取的事前特征联系起来。当我们通过套期保值程序消除股票价格的方向性影响时,我们专注于内在非线性的风险,并且可能以复杂的方式相互作用。因此,所描述的设置非常适合机器学习模型的应用,这些模型不仅能够捕获大量期权和股票特征之间的非线性和相互作用的影响,而且还可以减轻样本模型过度拟合的风险。 我们研究了单个U的横截面S.股票期权收益使用OptioMetricsIvyDB在1996年1月至2020年12月期间的数据。为了从对标的的定向暴露中抽象出来,我们遵循Bashi和Kapadia(2003),并在市场收盘时对每个期权进行每日delta对冲。我们的主要利息变量是每月超额增量对冲期权收益。在考虑了不同的过滤技术之后,我们的数据集包括超过1200万个期权月的看涨期权和看跌期权回报观察,所有这些都写在单个U上。S.股票。 为了预测未来的期权收益,我们使用了总共273个变量,这些变量由80个基于期权的特征(例如,期权流动性不足、到期时间和隐含做空费用)和193个基于股票的特征组成。1股票特征包括由 Gree,Had和Zhag(2017)预测了股票收益的横截面,90个行业假人以及其他特征,这些特征已被证明与未来股票收益显着相关(例如L和Mrray [2019]提出的熊贝塔,Vasqez和Xiao [2021]的违约风险以及标的在Eisdorfer,Goyal和Zhdaov[2022]之后的收盘价)。与G,Kelly和Xi(2020)一样,我们应用不同的线性和非线性机器学习模型,根据这些基于期权和股票的特征形成最优预测。包括的线性模型是惩罚回归模型(Ridge、Lasso和Elastic - Net)和降维回归(主成分和偏最小二乘)。非线性模型包括具有和不具有dropot的梯度提升回归树,随机森林和完全连接的前馈神经网络。我们还计算所有线性和所有非线性模型的等权重集合,以组合各个模型的信息内容。 为了评估不同模型对单个期权收益的预测能力,我们遵循Gu、Kelly和Xiu(2020),并使用样本外R2 -统计数据,它对R2针对零超额回报的预测。2为了对不同机器学习模型的预测精度进行成对比较,我们利用了无模型的Diebold和Mariano(1995)检验统计量。 我们的实证结果推进了各个维度中个体期权收益横截面可预测性的知识:首先,我们表明预测模型的复杂性很重要。而没有一个线性模型能够产生积极的样本外R2s for the entire testing sample, all nearly models do. Our results reveen that the best - performed models are gradient - boost rescriptiontrees with and without dropout (GBR and Dart) producing out - of - sampleR2.26%和1.96%的2s。3此外,所有非线性模型的等加权集合(表示为N - En)在样本外优于所有线性模型的集合(表示为L - En)超过1.7%。R2预测能力。当我们使用Diebold和Mariao(1995)测试比较成对预测准确性时,我们的结果得到了证实:所有非线性模型的集合在5%的水平上胜过所有其他模型和大多数其他模型,具有统计学意义(这一发现的唯一例外是GBR,Dart和前馈神经网络,它们都产生与非线性集成模型高度相关的预测(相关性达到。 0.95, 0.93和0.77,分别)。与线性模型相比,非线性模型的表现随时间的推移是稳定的,在我们样本的69.8%的月份中,对未来期权收益具有更高的可预测性(86.当考虑到样品外的横截面时,为0%R2).值得注意的是,我们还发现了2019年12月至2020年12月期间非线性模型的更好预测,其中COVID - 19大流行震撼了全球金融市场。4非线性模型的更高可预测性不仅适用于我们样本中研究的完整期权集,而且适用于不同的期权桶,例如按到期日排序的期权(i。Procedres.,短期和长期期权)和货币性(i。Procedres.、价外期权、价内期权和价内期权)。 其次,我们检查通过机器学习模型的期权收益的可预测性是否可以在经济有利可图的交易策略中被利用。我们的结果表明,基于L-En和N-En对预期收益的预测的多空投资组合产生了经济上显著的回报利差1.30%和2.04%,分别在1%的水平上具有统计学意义。5非线性集合的多空收益价差优于线性集合的收益价差,具有统计学意义的0.每月74%,强调非线性的重要性。这一结果也分别适用于看涨期权和看跌期权的子集,不依赖于收益公告,并且随着时间的推移而持续存在。此外,非线性集合的长短回报价差的盈利能力超过了现有的和新提出的预期回报基准的度量标准,并且对已建立的资产定价模型的风险调整具有鲁棒性,考虑随时间变化的杠杆,以及训练窗口长度的变化,回报频率,以及可以交易期权的大型和流动性股票的不同样本。在不同的经济状态下,结果也仍然很重要。 深入挖掘不同价差组合的构成,我们发现短腿比长腿包含更多的看跌期权和短期期权。有趣的是,价差组合的短腿在决定将期权分配到投资组合中的特征的复杂性方面也显示出与其他投资组合的强烈差异。在这个意义上,在短腿中选择的选项由最少数量的特征确定,但是在这些特征中具有最高数量的非线性和相互作用效应。Ofek, Richardson, and Whitelaw (2004) shows that transaction costs in the options market are high and that these costs can substantially reduce economic profits of option -based trading strategies. Hence, to understand 基于非线性集成的机器学习交易策略在多大程度上是可实现的,我们在考虑交易成本后考察其盈利能力。由于在OptioMetrics IvyDB数据库中无法观察到交易的实际交易成本,因此我们假设投资者必须支付报价买卖价差的25%- 100%,我们将其表示为有效价差(Eisdorfer,Goyal和Zhdaov 2022)。此外,我们将交易的成本与delta - hedgig程序相结合,并考虑了类似比例的标的报价利差。6我们的结果表明,非线性机器学习交易策略的回报仍然相当大(0。.每月67%),即使投资者必须为所有期权的交易和delta对冲支付全部有效价差。7在投资期权市场时,保证金是一个重要的考虑因素。在买卖价差产生的交易成本之上,我们还包括不同的设置对冲多头和空头期权头寸的保证金要求。非线性集合所做预测的已实现收益和夏普比率下降,但只有在投资者必须为每个期权和delta对冲支付100%的报价价差时才变得微不足道。重要的是,在所有情况下,非线性集合的预测都明显优于线性集合的预测。 作为我们的第三个主要实证结果,我们量化了不同特征对期权收益预测的相对重要性。我们跟踪计算机科学的最新进展并估计SHAP值(Ldberg和Lee 2017),如果我们在其估计中排除了某些特征,则模型预测的近似变化。为此,我们将273个期权和股票预测变量分为12个子组:应计,行业,投资,盈利能力,质量,价值,合同,摩擦,非流动性,知情交易,过去的价格和风险。我们的结果表明,合约组包含最重要的预测因子,其中包括有关标的隐含波动率曲面上期权位置的信息。非流动性和风险度量分别是第二和第三重要的变量组。关于单一特征的相对重要性,我们发现隐含波动率起着迄今为止最重要的作用,其次是标的股票的买卖价差和行业动量。如果我们评估三个最重要的单一特征对模型预测的delta对冲收益的影响的函数形式,我们的结果表明,较高的隐含波动率会对收益产生负面影响,而较高的买卖价差和行业动量则预测收益为正。 我们的经验设置使我们能够回答期权或股票特征对于准确预测未来期权收益是否更重要。因此,我们仅使用(i)基于期权的特征,(ii)基于股票的特征以及(iii)在桶或合约级别上运行的基于期权的特征来重新估计机器学习模型,并将样本外预测结果与所有期权和股票特征的完整信息集进行比较。9我们观察到,仅基于信息子集的模型显示出严重较低的样本外。R2s compared to those that incorments all option andstock characteristics. When comparing different subset of information, our results indicate that restricting information to only option - basedcharacteristics yes substantially higher predictiveR2s比仅基于股票的特征的信息。但是,将基于股票的特征添加到基于期权的特征中的好处是可观的,并且有助于获得对未来期权收益的更准确预测。 最后,我们确定期权收益可预测性的可能来源。我们假设期权收益的可预测性部分源于信息摩擦,因此基于股票和期权的特征所隐含的信息不会直接纳入期权价格。为了检验这一猜想,我们根据股票和期权级别的信息创建了不同的信息摩擦指数。与我们的预测一致,我们发现期权收益的可预测性随着信息摩擦的增加而增加。我们的结果表明,样本外。R2 for the非线性集成模型等于5.32% (0%) for options whose underlyings fall within thehighest (lowest) quenttile of stock - level information fractions. Options exhighing the highest (lowest) level of information fractions showanR2的4.00%(1.36%)。我们还使用复合错误定价得