使用机器学习预测死亡率趋势

2022-11-23 Milliman 坚守此念

本文探讨了利用机器学习方法预测未来死亡率，并与传统随机死亡率模型进行了比较。研究使用 Human Mortality Database (HMD) 数据，包含 38 个国家从 1950 年到 2016 年的年龄、性别和国家的死亡率数据。

数据构建
数据集包含 1950-2016 年的死亡率数据，剔除 2000 年前数据不足 10 年的国家。数据中年龄超过 94 岁的部分因死亡率估计不确定性高而被排除。数据按两种方式分割为训练集和测试集：

模型对比

基准模型
- Lee-Carter 模型 (M1)：通过年龄和时间的线性组合预测死亡率
- Age-Period-Cohort (APC) 模型 (M3)：在 Lee-Carter 模型基础上加入队列效应
  两者均通过 ARIMA 模型对时间序列进行预测
机器学习模型
- 神经网络：采用 DEEP6 架构（5 层隐藏层、Dropout 和 BatchNorm 正则化），输入变量包括年份、年龄、队列、性别和国家
- 随机森林：输入变量包括年份、年龄、队列和性别，每个国家分别构建男性/女性模型，树数量限制为 300