本文探讨了利用机器学习方法预测未来死亡率,并与传统随机死亡率模型进行了比较。研究使用 Human Mortality Database (HMD) 数据,包含 38 个国家从 1950 年到 2016 年的年龄、性别和国家的死亡率数据。
数据构建
数据集包含 1950-2016 年的死亡率数据,剔除 2000 年前数据不足 10 年的国家。数据中年龄超过 94 岁的部分因死亡率估计不确定性高而被排除。数据按两种方式分割为训练集和测试集:
- 分割 1:训练集 1950-1990 年,测试集 1991-1999 年(约 20% 数据)
- 分割 2:训练集 1950-1999 年,测试集 2000-2016 年(约 25% 数据)
模型对比
-
基准模型
- Lee-Carter 模型 (M1):通过年龄和时间的线性组合预测死亡率
- Age-Period-Cohort (APC) 模型 (M3):在 Lee-Carter 模型基础上加入队列效应
两者均通过 ARIMA 模型对时间序列进行预测
-
机器学习模型
- 神经网络:采用 DEEP6 架构(5 层隐藏层、Dropout 和 BatchNorm 正则化),输入变量包括年份、年龄、队列、性别和国家
- 随机森林:输入变量包括年份、年龄、队列和性别,每个国家分别构建男性/女性模型,树数量限制为 300
结果分析
- 机器学习模型的均方误差 (MSE) 显著低于基准模型,随机森林表现最佳(MSE 64 vs. APC 112/Lee-Carter 84)
- 高年龄组死亡率预测误差对结果影响较小,因 MSE 基于对数死亡率而非绝对死亡率
结论
机器学习方法在死亡率预测中优于传统模型,但存在可解释性不足的问题。未来可结合社会经济数据(如 TFT 模型)进一步优化预测精度。