概述
德国医疗系统为双轨制,包括法定医疗保险(SHI)和私人医疗保险(PHI)。SHI覆盖约90%人口,按收入缴费,实行现收现付制;PHI覆盖约10%人口,按终身缴费,提供更灵活的保障,但保费调整受法规约束。PHI公司面临医疗通胀压力,需有效管理索赔成本,尤其是慢性病。
研究方法与数据
本研究使用某德国PHI公司2010-2018年诊断数据,包含21,101名被保险人,576,742次诊断记录。目标是为未来12个月内的2型糖尿病诊断概率建模。数据预处理包括:仅保留PHI全保障计划数据,将ICD-10-GM代码简化为前三位,创建被保险人单行记录。
模型选择与结果
对比决策树和XGBoost算法,XGBoost在性能和准确性上更优,且能处理不平衡数据。模型结果显示:
- 主要影响因素:年龄、心脏疾病、肥胖相关疾病(E65、E70)、维生素A缺乏(E50)、高血压(I10)、当前保险计划等。
- 预测性能:AUC为0.9,表明模型具有良好区分能力。
- 成本效益分析:根据不同成本效益比(如5倍、15倍、25倍),可调整阈值以优化真阳性率和假阳性率平衡。
结论
机器学习算法能有效预测慢性病(如2型糖尿病)发展趋势,帮助PHI公司管理索赔成本。模型可解释性强,但受德国数据保护法限制,无法针对个体提供预防措施,但可用于分析亚群特征。模型灵活,可应用于其他慢性病或用药历史分析。