您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [东证期货]:商品因子系列(四):来自移动大数据的超额信息 - 发现报告

商品因子系列(四):来自移动大数据的超额信息

2024-07-12 李晓辉 东证期货 欧阳晓辉
报告封面

商品因子系列(四):来自移动大数据的超额信息 2024年7月12日 ★另类数据背景 现在业内CTA策略因子的挖掘越来越卷,获得稳定超额alpha的因子也越来越难,在传统公开渠道信息所整合的因子提供的超额收益越来越少的背景下,已经有投资者开始将目光转移到另类数据的信息挖掘中了。我们这篇报告的主要目的是尝试性地从移动大数据中挖掘潜在的alpha信息。杭州数行科技能够提供这样的移动大数据并从大宗商品产业中得到相关人流量信息的变化,他们的数据主要来源于移动终端设备包括工人指数、物流指数、机构投资者指数等。 ★移动大数据处理 我们拿到与大宗商品相关的移动大数据约600W条,涉及50种大宗商品条目、1108个企业、2391个圈地信息。数据经处理后,在公司层面取总和反映热度,在商品品种层面取平均反映行业表现,在日期层面滞后至少3天避免未来数据。 ★基本组合的构建 相关因子计算分为基础因子池和规则生成因子池,策略构建框架采用基于截面因子构建多品种多空组合的策略方法。基准策略1纯多头等权组合年化收益7.6%,夏普比率0.66;基准策略2基础因子等权组合年化收益1.7%,夏普比率0.40。 ★非线性组合的构建 基于基础因子的非线性模型中,XGB、LGBM模型表现更优,XGB的样本外表现也更优。基于规则生成因子的非线性模型中,因子池4的意义更重要。最终将基础因子和规则生成因子构建的两个XGBoost模型进行复合,基础因子和规则生成因子构建的两个XGBoost模型复合后,样本外(20240321之前)年化收益11.3%,夏普3.19,,年换手47.8倍,最大回撤0.9%;在完全样本外(20240321之后),区间收益1.66%,最大回撤1.8%,夏普1.76。 扫描二维码,微信关注“东证繁微”小程序 ★风险提示 模型基于历史数据构建,未来市场规律的变动可能使模型失效。 目录 1、研究背景...............................................................................................................................................................................................41.1、大宗商品相关的另类数据.............................................................................................................................................................41.2、移动大数据........................................................................................................................................................................................52、数据处理...............................................................................................................................................................................................52.1、数据获取范围...................................................................................................................................................................................62.2、数据的商品标签...............................................................................................................................................................................72.3、数据的统计频率...............................................................................................................................................................................82.4、数据的进一步处理...........................................................................................................................................................................83、基本组合的构建................................................................................................................................................................................103.1、相关因子计算.................................................................................................................................................................................103.2、策略构建框架.................................................................................................................................................................................113.3、基准策略1:纯多头组合.............................................................................................................................................................123.4、基准策略2:基础因子等权组合...............................................................................................................................................134、非线性组合的构建............................................................................................................................................................................154.1、非线性复合因子的框架................................................................................................................................................................154.2、选择预测而非分类模型................................................................................................................................................................154.3、基于基础因子的非线性模型结果..............................................................................................................................................164.4、基于规则生成因子的非线性模型结果.....................................................................................................................................174.5、复合由基础因子和规则生成因子所构建的策略....................................................................................................................215、报告结论.............................................................................................................................................................................................22 图表目录 图表1:移动大数据相关的指数类别....................................................................................................................................5图表2:移动大数据的基于圈地信息的原始指数数据.....................................................................................................6图表3:样本数据中各商品的相关企业的平均圈地数量.................................................................................................7图表4:样本数据中各商品所采集的企业合计数量..........................................................................................................7图表5:期货品种与大宗商品条目的对应关系.......................................