您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Nature]:基于 PyFeat 和梯度提升决策树预测帕金森病相关基因 - 发现报告
当前位置:首页/行业研究/报告详情/

基于 PyFeat 和梯度提升决策树预测帕金森病相关基因

医药生物2022-06-15Nature佛***
基于 PyFeat 和梯度提升决策树预测帕金森病相关基因

科学报告|(2022) 12:10004| https://doi.org/10.1038/s41598-022-14127-81 打开预测帕金森病基于 PyFeat 和梯度提升决策树的相关基因Marwa Helmy, Eman Eldaydamony, Nagham Mekky, Mohammed Elmogy & 哈桑·索利曼识别与帕金森病 (PD) 相关的基因是生物医学分析中的一个活跃研究课题,在诊断和治疗中起着至关重要的作用。最近,许多研究提出了预测疾病相关基因的不同技术。然而,其中一些技术是为 PD 基因预测而设计或开发的。这些 PD 技术中的大多数被开发用于仅识别蛋白质基因并丢弃长非编码 (lncRNA) 基因,这些基因在生物过程和疾病的转化和发展中起着至关重要的作用。本文提出了一种新的预测系统,用于识别与 PD 相关的蛋白质和 lncRNA 基因,有助于早期诊断。首先,我们将来自加州大学圣克鲁斯分校 (UCSC) 基因组浏览器的基因预处理为 DNA FASTA 序列,并去除了冗余。其次,我们使用 PyFeat 方法提取 DNA FASTA 序列的一些重要特征,并以 AdaBoost 作为特征选择。与从一些最先进的特征提取技术中提取的特征相比,这些选择的特征取得了可喜的结果。最后,将这些特征输入梯度增强决策树 (GBDT) 以诊断不同的测试用例。七个性能指标用于评估建议系统的性能。所提出的系统达到了 78.6% 的平均准确率,曲线下面积等于 84.5%,精确召回下面积(AUPR)等于85.3%,F1 分数等于 78.3%,马修斯相关系数 (MCC) 等于 0.575,敏感性 (SEN) 等于 77.1%,特异性 (SPC) 等于 80.2%。与其他系统相比,实验证明了有希望的结果。基于文献回顾验证了预测的顶级蛋白质和 lncRNA 基因。帕金森病 (PD) 是一种常见的神经退行性疾病,其特征是大脑中称为黑质的区域中的多巴胺能神经元丧失1.多巴胺能神经元的这种损失导致无法解释的神经功能障碍,从而导致运动和非运动障碍2. PD 影响全球约 7-1300 万人3. PD 在 50 岁之前被确定为罕见,但随着年龄的增长,它变得更加普遍。它影响超过1% 60岁以上的人,大约4% 80岁以上。因此,PD被认为是最常见的运动障碍,也是继阿尔茨海默病(AD)之后第二常见的神经退行性疾病4.有四个与 PD 相关的基本体征:震颤、强直、运动迟缓和后不稳定5.然而,PD的病因仍不清楚。此外,疾病在不同的人中以不同的速度发展。因此,病程因患者的年龄而异,并且进展速度因人群而异2.帕金森病的进展和症状的严重程度带来了一些社会经济挑战,影响帕金森病患者、他们的护理人员和医疗保健系统3.由于 PD 的复杂性,没有单一的合适的金标准测试来诊断 PD、跟踪其进展、预测风险因素或评估 PD 严重程度。因此,在过去十年中一直在寻找合适的 PD 生物标志物2.生物标志物的特点是能够检测异常生物过程的显着特征8.因此,PD 生物标志物的发现和验证对于加强该疾病的临床评估和治疗至关重要。有四种生物标志物可以识别 PD:临床、影像、生化和遗传标志物。临床生物标志物已被确定为最常用的诊断措施,专家将其用于评估和诊断 PD 并确定 PD 的进展和严重程度1.观察运动症状,如震颤、僵硬、运动迟缓和后不稳定,被认为是使用统一帕金森病评定量表 (UPDRS) 进行的主要评估。然而,将 PD 与其他帕金森症和运动区分开来曼苏拉大学计算机与信息学院信息技术系,曼苏拉 35516,埃及。电子邮件:我 lmogy@mans.edu.eg 科学报告|(2022) 12:10004 |https://doi.org/10.1038/s41598-022-14127-82使用这些标志物可能难以治疗进行性核上性麻痹 (PSP) 和特发性震颤 (ET) 等疾病2.在神经影像学生物标志物中,PD 的特征是多巴胺能神经元的丢失和降解。因此,多巴胺系统的神经成像技术可能是诊断和治疗分析的良好候选者8.单光子发射计算机断层扫描 (SPECT) 和多巴胺转运蛋白 (DAT) 成像方式已广泛用于诊断 PD 和其他神经退行性疾病。其他成像技术,如经颅超声 (TCS) 和磁共振成像 (MRI),也可用于跟踪和监测可用于识别 PD 风险的大脑变化11.生化生物标志物优于其他类型的生物标志物。这是因为它可以在唾液、血清、脑脊液 (CSF)、血液和活组织检查等体液中发现,从而降低提取成本。因此,该过程包括对体液中存在的分子和蛋白质进行非侵入性分析2.另一方面,根据国家生物技术信息中心 (NCBI) 网站的数据,有 5-10% 的已知基因与 PD 相关作为遗传生物标志物4并根据患者的 PD 临床表现12.然而,大约90% 的 PD 基因尚未确定。此外,PD 有多种体征,出现在疾病的后期。因此,我们研究遗传标记来识别早期 PD 诊断的基因。识别与疾病相关的基因被认为是生物学分析中的一项具有挑战性的任务13.然而,它为理解疾病孤雌生殖、医学诊断和药物开发做出了重大贡献15.因此,鉴定与 PD 相关的基因可以增强对这种疾病的经验和认识,并有助于其对 PD 的诊断和治疗。17.已经设计了几种现有的方法来预测疾病相关基因。然而,其中一些方法用于 PD 基因预测18.此外,一些 PD 方法旨在识别可以编码为蛋白质并丢弃非编码元素的基因17,如PD基因预测中的长链非编码RNA(lncRNA)和微小RNA(miRNA)22.生物学领域的大多数研究表明,lncRNA在转化和发展各种疾病中发挥着关键作用。 lncRNA 是 200 多个核苷酸的转录本,不能翻译成蛋白质。 lncRNA在许多基本的生物学过程中是必不可少的,例如转录后和转录调控、表观遗传调控、细胞周期控制、细胞分化和凋亡、细胞转运、器官或组织发育、染色体动力学和代谢过程。因此,lncRNA 的突变和失调将有助于发展各种人类复杂疾病26.识别与疾病相关的 lncRNA 对于改进疾病的诊断和治疗至关重要。很久以前,一些研究提出了预测和识别与疾病相关的 lncRNA 的模型,LncRNA-疾病关联的拉普拉斯正则化最小二乘 (LRLSLDA) 模型是第一个识别 lncRNA-疾病关联的计算模型。27.因此,鉴定与 PD 相关的蛋白质和 lncRNA 基因可增强其诊断和治疗21.我们提出的预测系统使用 lncRNA 基因作为蛋白质基因之外的另一个数据源。 lncRNA的使用克服了仅将蛋白质基因表达为原始数据的限制。我们可以识别与 PD 相关的所有基因,这有助于早期诊断和治疗。我们将所有基因表示为脱氧核糖核酸 (DNA) FAST-All (FASTA) 序列,其中包含有关基因的最重要信息。它在提取基因的基本特征和显着特征中起重要作用29.我们提出的预测系统的主要贡献可以总结为以下几点:•提出了一种基于蛋白质和 lncRNA 基因来预测与 PD 相关的基因的新框架,这些基因在 PD 发展中起关键作用。•所有蛋白质和 lncRNA 基因都以 DNA FASTA 序列的形式呈现,以获得局部和全局重要基因。 FASTA 序列被馈送到多种特征提取方法中,以提取最显着和最重要的特征。•PyFeat 方法就是用来实现这个目标的。然后,使用 AdaBoost (AB) 技术来降低 PyFeat 特征生成的维数并降低复杂度和计算时间。•最显着的特征被提供给梯度增强决策树 (GBDT) 技术来诊断不同的测试用例。然后,使用各种性能指标来评估所提出的系统。此外,我们通过将其与一些当前系统进行比较来验证我们提出的系统。我们根据文献中的最新研究验证了预测的顶级蛋白质和 lncRNA 基因。为了方便读者,本文中使用的缩写列于表 1。本文的其余部分分为五个部分。 “相关工作”部分讨论了相关工作、当前的弱点,以及我们如何在我们提出的系统中克服这些限制。材料和方法将在下一节介绍。 “实验结果”部分介绍了数据集、硬件规格、评估指标和结果。 “讨论”部分讨论了我们的实验结果。最后,最后一节是对我们未来工作计划的总结和总结。相关工作预测与疾病相关的基因被认为是生物学领域的一个活跃搜索主题。许多研究人员已经确定并预测了与这些疾病相关的基因;其中一些研究专门针对 PD。表 2 显示了当前研究的总结。一些研究建立了用于识别和预测疾病基因的模型,而忽略了与疾病相关的 lncRNA。例如,Radivojac 等人。18 提出了一种基于蛋白质-蛋白质相互作用(PPI)网络预测疾病相关基因的方法。首先,他们以三种方式呈现特征向量:疾病-蛋白质关系、蛋白质序列和蛋白质功能信息。第二, 科学报告|(2022) 12:10004 |https://doi.org/10.1038/s41598-022-14127-83PD帕金森病ACC准确性lncRNA长链非编码 RNAPPV阳性预测值密度泛函离散傅里叶变换快速傅里叶变换快速傅里叶变换毫米monoMonoKGap医学博士monoDiKGap公吨monoTriKGapDMdiMonoKGapDDdiDiKGapDTdiTriKGapTM值triMonoKGap运输署triDiKGap一个腺嘌呤C胞嘧啶G鸟嘌呤吨胸腺嘧啶DT决策树注意朴素贝叶斯TP真阳性射频随机森林FP假阳性ABAdaboostLR逻辑回归GBDT梯度提升决策树支持向量机支持向量机低密度脂蛋白线性判别分析AUPR精确召回区域曲线下面积曲线下面积FN假阴性TN真阴性东南灵敏度SPC特异性TPR真阳性率FPR假阴性率表格1。使用的缩写。学习年分析方法数据集Radivojac 等人。182008基于PPI识别疾病相关基因PPI、支持向量机HPRD,瑞士保护网络张等人。232011基于基因表达预测帕金森病相关基因PCC、TOPP基因NCBI 地理杨等人。192014基于 PPI、GO 和基因表达相似性预测疾病基因EPUIHPRD,OPHID彭等人。302017基于基因、疾病和本体预测疾病相关基因SLN-SRW克林瓦、GO、DO、STRING、OMIM黄202017基于随机森林识别疾病相关基因SRFOMIM、HPRD、OPHID、GO田等人。312017基于集成基因相似性网络的疾病相关基因预测RWRB,SNFswiss-Prot、MimMiner、OMIM、GO、GOA、Pfam丁等人。212018预测与疾病相关的 lncRNAs 基因TPGLDALncRNA 疾病、DisGeNET彭等人。172019基于蛋白质基因的帕金森病基因预测N2A-SVM临床变量雷等人。152019基于蛋白质、lncRNA和疾病预测疾病相关基因LPCHLncRNA 疾病、HPRD、OMIM宣等人。222019预测与 lncRNA 基因相关的疾病CNNLDALncRNADisease、Lnc2Cancer、GeneRIF、starBase、DincRNA张等人。332019基于lncRNA、micoRNA和疾病预测与疾病相关的lncRNADeepWalk,基于规则的推理Lnc2Cancer、HMDD、miR2Disease、miRCancer、lncR-NADisease杨等人。242020基于疾病基因基因-GO和疾病表型预测疾病相关基因PDG网络DisGeNet、HPO、OrphaNet、STRING、HPRD、IntAct、PINA、博尼迪亚等人。362020不同病例lncRNA之间的诊断DFT、熵、复杂网络RefSeq,GreeNC Ensembl (v87, v32)王等人。352021基于lncRNA、miRNA、疾病识别与疾病相关的lncRNALFMPMNDRv2.0、MNDRv2.0、Starbase v2.0乔达基等人。322021基于相似性网络的疾病相关基因识别RWRHN-FFDisGeNet、OMIM、KEGG、UniProt、GO、Pfam、COX-PRESdb毕等人。252021预测 PD 相关基因和大脑区域C