您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [TIPDM]:第一届挑战赛C2-肝癌手术预后影响因素分析 - 发现报告

第一届挑战赛C2-肝癌手术预后影响因素分析

2013-04-22 TIPDM @·*&&
报告封面

摘要:本文基于 Logistic Lasso 回归模型研究肝癌手术预后影响的主要因素及预测。通过对模型系数施以稀疏约束,研究了肝癌手术预后影响的主要因素并依重要性排序。选择前 16 组数据作为训练集,后 4 组数据作为测试集,结果显示:食道静脉曲张,Anti-HCV,肿瘤包膜,肿瘤旁的微小子灶为主要因素。训练集上拟合准确率为14/16=87.5%,预测集上准确率为 3/4=75%。同时 ROC 曲线显示我们的分类器性能良好,且上述结果符合医学先验。我们的结果为新病人治疗提供了一种参考,从而为病人手术方案的设计和调整提供了参考。 关键词:Logistic Lasso; 变量选择 ;ROC Liver Cancer Surgery Prognosis Factors Analysis Abstract:In the paper we analysis the factors of liver cancer surgery prognosis based onLogistic Lasso regression model. Using sparse regularization method, we select and sort thefactors of liver cancer surgery prognosis in the order of importance. We choose the first 16samples as the training set , the last 4 samples as the testing set.The results show that theaccuracy on the training set is 87.5% and it is 75% on the testing set. Esophageal varices,Anti-HCV,tumor capsule, and tumor near the small kitchen are the main factors. Besides, theROC curve shows our classifer’s performance well and the results conform to the prior ofmedicine. Our results provide an evidence for a new patient’s treatment, the results can beused to design scheme of the patient’s operation and adjustment. Key words:Logistic Lasso ,variable selection,ROC 目录 1.研究目标 ..............................................62.分析方法与过程 ........................................62.1.总体流程............................................62.2.具体步骤............................................62.3.结果分析 .............................................133.结论 .................................................184.参考文献 .............................................18 1.1.1.1.研究目标研究目标研究目标研究目标 本文目标为建立数据挖掘模型,研究肝癌手术预后影响()Y(有或无)与食道静脉曲张1()X,门脉癌栓2()X,HbsAg3()X, Anti-HCV4()X,肿瘤部位5()X,肿瘤大小6()X,肿瘤生长方式7()X,肿瘤包膜8()X,肿瘤旁的微小子灶9()X,术后腹水10()X(部分或全部)的关系,对病人的预后影响()Y预测,从而为病人规划最佳的手术和治疗方案。 2.2.2.2.分析方法与过程分析方法与过程分析方法与过程分析方法与过程 2.12.12.12.1 总体流程总体流程总体流程总体流程 步骤一:数据预处理: 题中所给数据已经过预处理。数据均为分类数据和有序数据,为了便于分析,将其转化为数值型数据。 步骤二:相关性检验: 由于模型需要,计算两两指标之间的相关性,相关性强的两个变量我们只选其中一个。 步骤三:模型建立: 建立Logistic二分类模型,进行拟合和预测。 步骤四;模型改进: 本问题由于样本数量过少,基于经典方法处理其预测能力往往比较差,我们利用最新稀疏正则化方[1,2.3]法,开展此问题研究。稀疏正则化是指对解空间施以某种先验约束来使解具有稀疏性。我们基于Logistic Lasso方法研究上述问题,可有效克服因为样本量过少而引起的弱预测能力。 步骤五:模型评价: 运用ROC曲线对分类器的分类效果做评价,并对模型的拟合效果和预测效果及可解释性进行评价。步骤六:问题与思考。 2.22.22.22.2 具体步骤具体步骤具体步骤具体步骤 步骤一:数据预处理 给定数据的因变量(预后影响)正负平衡,故无需删减。如下表1 所示,变量1X到10X均为分类变量和有序变量,为了便于分析,将其转化为数值型变量,将P分类数据用P-1维向量表示。如:将二分类变量用0,1表示,三分类变量用(0,1),(1,0),(0,0)表示,四分类变量用(0,0,1),(0,1,0),(1,0,0),(0,0,0)表示。 在表2中,说明如下: 1X(V1,V2,V3):(0,0,0)表示no;(1,0,0)表示light;(0,1,0)表示mid; (0,0,1)表示serious.2X(V4,V5): (0,0)表示no; (1,0)表示branch; (0,1)表示trunk.3X(V6): 0表示negative; 1表示positive.4X(V7): 0表示negative; 1表示positive.5X(V8,V9): (0,0)表示leftliver; (1,0)表示rightliver; (0,1)表示allliver.6X(V10,V11,V12):(0,0,0)表示small;(1,0,0)表示middle;(0,1,0)表示big;(0,0,1)表示verybig.7X(V13): 0表示dilation; 1表示infiltration.8X(V14,V15): (0,0)表示intergrate; (1,0)表示part; (0,1)表示no.9X(V16): 0表示no; 1表示have.10X(V17,V18): (0,0)表示no; (1,0)表示less; (0,1)表示much.Y(V19): 0表示N; 1表示Y 步骤二:相关性检验 由于 Logistic回归要求各变量独立,所以对预处理后的数据进行两两相关性检验,当两两相关系数高时,适当的变量变换是可行[3]的,结果显示任何两个变量均无显著的线性相关性,故不需剔除变量,也不需要进行变量变换。结果部分如图1所示。 步骤三:建立模型 在本文中,我们选择 Logistic函数进行拟合和预测, 选择前 16 组数据作为训练集,后 4 组为预测集. Logistic 可以将实数轴上问题转化为[0,1]区间的问题,1 其中η为待估参数从而h(x)>0.5 的预测为 1,h(x)<=0.5 的预测为0。Logistic回归是一种广义线性模型,在特征到结果的映射中加入一层函数映射,即先把特征线性求和,然后用函数h(x)来预测。 下面介绍广义线性模型: (1) 假设|;Y Xθ来自参 数 为η的 指 数 分布 族( 典 则形式 ) ,即为 (2)给定x,目标要确定( )T y,(通常为y),由于y的随机性,转化为确定()h x,() (3)=Txηθ 图1相关性分析 本文研究的是二分类问题,故Y服从伯努利分布.伯努利分布的概率可以表示为指数分布的典则形式(其中φ为参数), lo g (/ (1) )ηφφ=− 从而得到:伯努利分布()= ( | )h x E y x=φ, 其中=Txηθ。 在R 中调用glm2程序包(glm2为 R 中一程序包,用来处理广义线性模型)进行拟合和预测,选取前 16 个为训练集,后 4 个为测试集,结果为训练集上准确率为16/16=100%,测试集上准确率为2/4=50%。 步骤四:模型改进: 之前建立的Logistic回归模型没有对变量进行选择,由于样本量仅仅为20,预理之后变量个数也达到了 18 个,样本量和变量个数接近。上段中模型存在以下几个问题: (1)过度拟合。由于样本数量过少,造成过度拟合。此时,模型在训练集上拟合率高,但在预测集上预测结果较差。因此,需要对模型施以某种限制,从而降低模型的拟合能力,并最终提高模型预测能力,而这种思想正是回到主流的正则化方法的基本思[1,2,3]想。 (2)模型的可解释性差。可解释性揭示的是事物本身的客观规律,是科学研究的根本目标,也是进一步提高泛化性的途径。在医学中,经常地,简单模型往往更利于医生快捷判别病人病症,因此有必要进一步简化相应影响因素,从而为医生提供一种简单易判别方法。 针对上述问题,我们对模型进行改进,建立Logistic Lasso正则化模型。 其中( )l⋅为损失函数,18=1||iiλβ∑为罚函数。损失函数项度量学习结果在训练集上的误差损失,而正则化项包含先验信息。正则化主要通过对解空间施以某种先验约束来达到某种正则解的目的。上述模型的损失函数即为 Logistic函数的相反数,事实上为y的极大似然函数的相反数,正则化项1l。显然,本文中正则化是为了变量选择,提高模型的可解释性,进而提高机器泛化能力。上述模型中λ控制机器的复杂度,通常用交叉验证(Cross-Validation)方法选择。由于我们已经将数据进行预处理,故原有 10个变量增加为 18 个,借鉴 Grouplasso 的思想,我们对变量进行分组。由于新变量间自然的形成了某种分组关系,比如123,,X X X分别为食道静脉曲张(轻),食道静脉曲张(中),食道静脉曲张(重)。显然这三个变量应该为一组。具体分组如下: 组 1: 食道静脉曲张 组2: 门脉癌栓组 3: HbsAg组 4: Anti-HCV组 5: 肿瘤部位组 6: 肿瘤大小组 7: 肿瘤生长方式组8:肿瘤包膜组9:肿瘤旁的微小子灶组 10:术后腹水 由于上述分组都是自然形成的,所以可以使拟合更准确。此时,同组中将以组形式一起影响模型。。 在R 中调用grpreg程序包(grpreg为Penalized Logistic Group Lasso Regression的程序包),进行拟合和预测,选取前 16 个为训练集,后 4 个为测试集,结果显示训练集上准确率为 14/16=87.5%,测试集上准确率为 3/4=75%。对预后影响(Y)有影响的变量按重要程度排序为食道静脉曲张,Anti-HCV,肿瘤包膜,肿瘤旁的微小子灶。 步骤五:模型评价 (1)ROC 曲线 二分类问题,即将实例分成正类(Positive)或负类(Negative)。对一个二分类问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(Truepositive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(False negative)。列联表如下表所示,1代表正类,0 代表负类。从列联表引入 其中,每个