
结果展示:最小二乘回归法(OLS)预测2022年单产 1、我们模型预测2022年全美大豆单产为50.9蒲/英亩,而8月usda预测值是51.9蒲/英亩。根据模型结果,9月初的价格应该比八月中旬高不少。观察市场定价,在9月1、2日做多,等待12日USDA报告结果出炉。 2、2022年9月12日,USDA本月将美豆的单产数据调低至50.5蒲/英亩,低于8月预测的51.9蒲/英亩。次日,豆二跳涨4.61%。(usda同时下调了库存和收获面积)。 结果预测:三种方法预测2023年单产 OLS预测2023年全美大豆单产为:51.1蒲式耳/英亩 huBer预测2023年全美大豆单产为:51.6 RANSACRegressor预测2023年全美大豆单产为:52.8 9月报告公布前市场预测50-51之间,9月报告预测值为50.1,低于预期,按照usda报告来看,应该偏强。但是豆二豆粕连续下跌。 结果预测:三种方法预测2024年单产 OLS预测2024年全美大豆单产为:51.5蒲式耳/英亩 huBer预测2024年全美大豆单产为:52.1 RANSACRegressor预测2024年全美大豆单产为:52.1 今年8月usda报告给出的预测是53.2,当前市场交易的预期在54左右。 根据模型结果,可以考虑使用期权布局豆二、豆粕做多机会。(买看涨或卖看跌) 交易机会:空豆二、豆粕1月合约 把握做多机会的期权单腿策略只有:买看涨和卖看跌。期权买方是做多波动率,期权卖方是做空波动率。因此,选择买看涨或者卖看跌看跌时,在波动率维度需 要对隐含波动率的走势有所判断。 对隐波的判断 1、隐波处于历史较低位置:9月11日收盘,豆粕期权隐波接近17%,在21年以来的数据中处于26分位数。2、隐波在8月底以来随着行情的反弹有所上升,表现为正相关。根据我们的模型预测,利多豆粕。如果预测情景发生,期权隐波随着行情上涨同步上升的可能性较大。综合以上两点,可以考虑买入平值或者虚值看涨期权。等周五USDA结果公布后平仓。 单产模型建模流程: 数据: 数据: 七八月累积温度(temperature):两个月的日内平均温度求和,再进行标准化(减去各州自己均值除以标准差) 七八月累积降水(precipitation):日降水求和再标准化。 因变量“各州单产”(Yield):对各州自己的单产时间序列标准化(减去均值再除以标准差)。产量标准化的目的在于是使不同地质条件,不同空间的州单产相互之间具有可比性。单产若不进行标准化,则可能会出现两个产区气候条件一样但单产不一样的情况。此情形下,将各州数据当作相同的样本进行拟合便会产生很大误差。 无论各州单产怎么处理(统一减去各自均值;减去均值再除以各自(最大值-最小值);上述标准化),温度因子回归效果都不显著。因此,剔除温度一次项仅保留温度平方项。 经过验证温度与降水乘积交叉项因子都不显著,也剔除。 方法: 方法:研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)。本文使用的二元多项式回归模型是线性回归模型的一种。由于育种、化肥、田间管理水平、机械化水平、灌溉等因素的提高,作物单位面积产量有递增趋势。 方法: 因此,将作物的实际单产Y分解为趋势产量Yt(主要由社会生产力决定)、气象产量ΔY(主要由天气气候条件决定)和一些随机因素Error。 为温度因子。为降雨因子,其中,,气象产量:是标准化后的年份,其中其中,趋势产量:etemperaturionprecipitatcetemperaturaionprecipitataionprecipitataYyearcyearaYErrorYYYtt782^*2^78*78*;*243211 将趋势产量和气象产量代入,令得: cErroretemperaturaionprecipitataionprecipitatayearaY2^*2^78*78**4321 方法:什么是多项式回归? 结果展示: 调整的R方:Adj. R-squard=0.534,这意味着模型可以解释55.3%的单产变化。 模型通过F检验(F=176.6,P=0.000<0.05),说明因子中至少有一项会对单产产生影响关系。因子P值最大0.027,说明每个因子都系数显著,变量是有效的。 Durbin-Watson值在2附近,说明模型不存在自相关性。 结果展示: 根据模型结果分别预测每个州的标准单产: 9820.2742^*0477.02^78*840778*3034*6305.0etemperaturionprecipitationprecipitatyearY 预测全美单产:每个州的单产乘以面积权重再求和 结果展示:拟合值与真实值对比 模型检验--残差分析: 残差分布直方图与正太分布概率密度函数: 残差正态性检验-QQ图 残差Q-Q图考察的是实际百分位数与理论百分位数的差异。同理在此处,我们所假定的分布就是正态分布,如果数据样本是服从正态分布的话,那么实际的分布应该是相对一致的,反映在图形中就是数据点应该沿着图形的对角线分布。1、对角线分布,且误差较大的分布在上下两侧。 2、其均值附近预测比较准确。 模型优化--岭回归--排除模型共线性隐患 1、Ridge通过对系数的大小施加惩罚来解决普通最小二乘的一些问题。岭系数最小化一个带惩罚项的残差平方和: 其中,α是控制收缩量的复杂性参数,值越大,收缩量越大,这样,系数对共线性的鲁棒性就更强了。注:此方法附带降低了目标函数对单一变量变化的敏感性。 模型优化--RANSAC算法逻辑 RANSAC(Random Sample Consensus)算法每次迭代都执行以下步骤: 1.从原始数据中随机选择min_samples个样本,并检查数据集是否有效(请参阅is_data_valid)2.将模型拟合到随机子集上(base_estimator.fit),并检查估计的模型是否有效(请参阅is_model_valid) 3.通过计算模型的残差(base_estimator.predict(X) - y),如果样本绝对残差小于residual_threshold就会被认为是局内点。按照这种方式将数据分为局内点和离群点。4.当内部的局内样本数达到最大时,模型达到最优就保存下来。 这些步骤最终要么执行到了最大次数(max_trials),要么满足了某一条件(请看stop_n_inliers andstop_score)而停止。最后的模型是使用之前确定的最佳模型的所有局内样本(一致性集合, consensus set)来估计的。 函数is_data_valid和is_model_valid可以识别出随机样本子集中的退化组合(degenerate combinations)并予以丢弃(reject)。即便不需要考虑退化情况,也会使用is_data_valid,因为在拟合模型之前调用它能得到更高的计算性能。 模型优化--鲁棒回归-RANSAC算法 2、剔除异常值--RANSAC回归简介RANSAC(Random Sample Consensus)算法通过排除训练数据集中的异常值,将线性回归算法提升到一个 新的水平。 RANSAC是一种不确定的算法,它以一定概率产生一个合理的结果,而这还取决于迭代次数(见参数max_trials)它通常用于线性和非线性回归问题,在计算机视觉领域尤其流行。 训练数据集中异常值的存在确实会影响作为训练一部分学习的系数/参数。因此,建议在探索性数据分析阶段识别并移除异常值。有各种统计技术,例如Z分数、箱形图、其他类型的图、假设检验等,可用于从训练数据集中删除异常值。 模型优化--鲁棒回归-Huber算法 Huber回归HuberRegressor与RANSACRegressor不同,因为它没有忽略离群值的影响,而是给予它们较小的权重。 岭回归受离群值的影响很大,Huber与RANSACRegressor回归受离群值的影响较小。 随着Huber回归方程参数epsilon的增大,决策函数接近于岭回归。 标的涨跌维度:气象模型提示做多隐波维度:做隐波上升可能性更大一点。期权策略:买入豆粕平值或者虚值看涨期权。 策略的升级:看涨牛市价差 谢谢! 免责声明 国投安信期货有限公司是经中国证监会批准设立的期货经营机构,已具备期货投资咨询业务资格。 本报告仅供国投安信期货有限公司(以下简称“本公司”)的机构或个人客户(以下简称“客户”)使用。本公司不会因接收人收到本报告而视其为客户。如接收人并非国投安信期货客户,请及时退回并删除。 本报告是基于本公司认为可靠的已公开信息,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及推测只提供给客户作参考之用。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的期货或期权的价格、价值可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户不应视本报告为其做出投资决策的唯一因素。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所导致的任何损失负任何责任。 本报告可能附带其它网站的地址或超级链接,本公司不对其内容的真实性、合法性、完整性和准确性负责。本报告提供这些地址或超级链接的目的纯粹是为了客户使用方便,链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。 本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。