您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [TIPDM]:第一届挑战赛C1-肝癌手术治疗效果评价 - 发现报告

第一届挑战赛C1-肝癌手术治疗效果评价

2013-04-22 TIPDM Mascower
报告封面

摘摘摘摘要要要要::::本文主要研究了某医院 10 年来肝癌病例中的 20 个有代表性的样本,通过建立逻辑回归的数据挖掘模型对预后有影响的 10 个指标进行分析,实现对预后效果的预测以及寻找各个变量之间的重要程度,从而为病人规划最佳的手术治疗方案。在建模中,我们首先通过对样本数据进行基本的描述性统计分析,初步观测每个指标对预后影响是否显著。然后再利用逻辑回归模型对预后影响进行预测。进一步的,为了消除指标中的共线性性以及寻找对预后有显著影响的指标,我们在原方法的基础上采用了逐步回归的思想优化原有的逻辑回归模型,通过设置显著性水平的阈值来发现对预后有重要影响的指标,并且达到消除相关性的目的。得出了是否有食道静脉曲张、HbsAg 和Anti-HCV 的阴阳性、肿瘤大小、肿瘤的包膜否完整以及肿瘤旁的微小子灶这 5 个指标都对预后具有很大影响的结论。最后,我们利用舍一法以及 ROC 曲线来比较是否有优化的两个模型预测效果,得到 ROC 曲线线下两个模型面积分别为 0.78020,和 0.6538,表明分类预测效果良好。. 关键词关键词关键词关键词::::数据挖掘 逻辑回归 逐步回归 ROC 曲线 Liver cancer Surgical treatment evaluation Abstract:This paper mainly studied 20 representative sample cases of liver cancer in ahospital in the past 10 years ,in the paper, we establishment the logistic regression model toanalyze the prognostic impact of 10 indicators, in order to predict the prognosis and find theimportant ones among them, so that we can plan the best surgical treatment options forpatients.In the model,we firstly use the basic descriptive statistical analysis and preliminaryobservations for each indicator whether it has a significant influence on the prognosis.Thenwe use the logistic regression model to predict the impact on prognosis.Futher,in order toeliminate the collinearity of the indexs as well as looking for the indexs which have asignificant impact on prognosis.We use the stepwise regression method to optimize theexisting model,by setting the significant level of threshold ,we eliminate the collinearity of theindexs and concludethat “whether esophageal varices”, “the negative or positive of HBsAgand anti-HCV”, “tumor size”, “the tiny sub stove next to the tumor” and “whether the tumorcapsule is complete” these five indexs have a high impact on the prognosis.Finally we use the“Give up one Method” and the ROC curve to compare the effect of the two models which hasoptimizedor not and The area under the ROC curve line of them is 0.78020 and0.6538,respectively,indicating that the classification and prediction effect is good. Key words:Data mining; logistic regression; stepwise regression; ROC curve 目录 1.研究目标研究目标研究目标研究目标............................................................................................... 4 2.分析方法与过程分析方法与过程分析方法与过程分析方法与过程.................................................................................... 4 2.1.总体流程..................................................................................................................... 42.2.具体步骤..................................................................................................................... 42.3.结果分析..................................................................................................................... 9 1.挖掘挖掘挖掘挖掘目标目标目标目标 本次建模主要针对某医院 10 年来肝癌病例中的 20 个有代表性的样本,选取对预后有影响的 l0个指标进行统计分析;以预后影响作为评价标准,建立数据挖掘模型,实现对手术的治疗效果的自动分类和方案的优劣进行预测,从而为病人规划最佳的手术和治疗方案。 2.分析方法与过程分析方法与过程分析方法与过程分析方法与过程 2.1.总体流程总体流程总体流程总体流程 为了让建模更为清晰,结合该 20 个样本的特点,我们建模的主要步骤如下: 一、 针对本数据集的特点,对该样本进行简单的描述性统计,并设计出指标变量; 二、 基于逻辑回归模型的统计建模,实现对手术的治疗效果的自动分类和方案的优劣进行预测,并对模型结果给出合理的解释; 三、 利用逐步回归思想改进逻辑回归模型,并进行两个模型进行比较模型优良。 四、 基于 ROC 曲线比较以上两种分类器的性能,给出最优模型。 2.2.具体步骤具体步骤具体步骤具体步骤 2.2.1 数据介绍 在详细介绍建模之前,我们给出数据集如下 这里一共有 10 个变量指标,其中 X1 到 X10 为解释变量,DECISION为被解释变量。在这里除了X6可以转化为数值型变量外,其余都是定性变量指标,我们不能使用简单的回归进行建模,必须考虑定性变量的性质。从以上表中可以看到,这 20 个样本中9个预后有影响、11 个预后没有影响的样本,为了更清晰明了地了解预后影响和其它变量的关系,我们需要进行初步的描述性统计分析。 2.2.2 描述性统计 本建模应该考虑哪些指标变量呢?换句话说,哪些解释变量会对被解释变量 DECISION有较大影响呢?如何对 X1 到 X10 这些变量进行预处理,以转化为可分析的指标变量?以下我们以预后影响DECISION为Y 时设计为 1,为N 时设计为 0 来表识是否有预后影响。并以此为因变量对各解释变量进行描述性统计,以便找出各解释变量的进一步转化。 1.食道静脉曲张(X1) 那么该如何解读解读这个表格呢?就拿第二列来说吧,7 表示20 个样本中有 7 个样本 X1 变量的值是 no,其中 7 个 X1 变量的值为 no的样本中有约29%是预后有影响的,其余的可以类似的来解释。但是我们发现有轻微的食道静脉曲张的样本中,预后有影响的占较大比例,这也超过中度以及严重程度时的比例,这也许是样本量太少造成的误差,为此我们可以考虑对 X1 有无食道静脉曲张来进行分类,重新统计,我们可得有食道静脉曲张的样本量为 13 个,其中有 7 个对预后有影响,占比为 54%,这远大于没有食道静脉曲张的 29%。从数据出发,我们可得,没有食道静脉曲张的患者具有更好的预后效果。 2.门脉癌栓(X2) 从上表可以看出,门脉癌栓在三个不同属性下对预后影响的比例并没有显著性差异,但由于在临床实践中发现,肝癌门静脉栓的形成是影响肝癌预后的重要因素,临床发生率高达 60%-90%,可惜的是迄今为止肝癌门静脉栓形成的原因尚不明确。 3.HbsAg(X3)与Anti-HCV(X4) 阳性 HbsAg 相对于阴性 HbsAg 对预后影响具有显著差异性,而且从表中可以看出,相比于阴性HbsAg,阳性 HbsAg 且预后有影响占有更大的比例,这说明 HbsAg 为阴性的肝癌患者具有更好的预后效果。同样 Anti-HCV 的阳性和阴性也对预后的影响有很大不同,这个差异也是相对明显的,可以看出这个变量很大可能对预后具有较大影响,同时可见Anti-HCV 阳性患者的预后效果相比于阴性患者的效果更好。可惜的是,Anti-HCV 的阳性,即丙性肝炎病毒抗体阳性说明患者曾经感染或者正在感染丙型肝炎,这对预后会有不良影响,这也许是数据量太少,造成这种统计上的偏差。在考虑建模时需要特别注意该变量。 第6页,共19页 4.肿瘤部位(X5) 我们直观的感觉是,左右肝都有肿瘤的话预后影响的概率也会大点,而只有左肝或右肝有肿瘤预后有影响应该会更小,经过再次统计,我们也发现发现左右肝都有肿瘤的对预后有影响(50%)比只有左肝或右肝有影响(0.44)稍大。 5. 肿瘤大小(X6) 从初步数据看来,肿瘤大小对预后影响并没有很明显的结论,有可能这是一个并不是很重要的指标,其影响相对较小。由于这个变量是具有数值上意义的,我们可以用它们的中位数或者平均值代替其各水平的值,直径<3cm(small)、3~5cm(middle)、5~10cm(big)、>10cm(verybig)分别用x6等于 1.5、4、7.5 以及 10 来数值化该变量。 6. 肿瘤生长方式(X7)与肿瘤的包膜(X8) 从肿瘤生长方式可以看出,浸润和膨胀两者的总数相同,而却两者中预后有影响的比例相差不大。膨胀性生长,肿瘤向周围扩散,挤压周围组织或邻近器官。周围可形成纤维性包膜。浸润性生长,瘤细胞沿组织间隙或毛细淋巴管扩展。一般而言,浸润式生长的肿瘤会更恶性。但对于肿瘤的包膜而言,肿瘤的包膜是完整的样本中,预后有影响所占的比例(14%)远小于其他两种情况。 7. 肿瘤旁的微小子灶(X9)与术后腹水(X10) 从肿瘤旁的微小子灶上看,有微小子灶的患者明显比有微小子灶的患者预后好,这与我们的经验有冲突,作为预测的话,我们需要特别注意这个变量。而术后是否有腹水方面来看,没有腹水的患者更倾向于具有预后影响。 2.2.3 指标设计 在描述分析的基础上,我们对模型中需要用的的指标重新设计,具体如下表: 2.2.4统计模型 虽然描述性统计能在一定程度上给我们一些信息