您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Springer]:人工智能评论:从了解疾病到药物设计:人工智能能否弥合这一差距? - 发现报告

人工智能评论:从了解疾病到药物设计:人工智能能否弥合这一差距?

信息技术 2024-01-25 Anju Choorakottayil Pushkaran, Alya A. Arabi Springer M.凯
报告封面

Anju Choorakottayil Pushkaran1· 阿莉亚·A·阿拉比1 已接受:2024年1月25日 / 网上发布:2024年3月11日 © 作者(们) 2024 摘要 人工智能(AI)已经崛起为一种变革性技术,具有显著潜力在医疗保健领域革命性地改变疾病理解和药物设计。AI作为一种非凡的加速工具,架起了理解疾病和发现药物之间的桥梁。鉴于其在分析和对大量数据进行解释方面的能力,AI大大提高了预测的功率,并取得了令人印象深刻的准确性。这使得AI为推动药物开发的各个关键阶段铺平了道路,其优势在于加速药物发现过程并降低成本。这是一篇全面回顾人工智能在药物发现和开发中的近期进展及其应用的研究,从疾病识别开始,贯穿药物发现过程中的各个阶段,包括靶点识别、筛选、先导化合物发现和临床试验。此外,本文还讨论了在发现过程中的每个阶段实施AI时出现的挑战,并提供了关于该领域未来前景的见解。 关键词人工智能 · 机器学习 · 疾病鉴定 · 药物发现 1 引言 经典药物发现过程漫长且昂贵。一种药物进入市场大约需要10至15年,其成本约为1.61亿美元至45.4亿美元(Schlander等人)。2021尽管投入了金钱、努力和资源,近90%的潜在药物候选者在临床试验中失败(Sun等)。2022). 这是因为它们的临床疗效降低、药代动力学特性差或不良副作用(Waring等)。2015).更多的努力正在被投入以开发能够加速药物发现过程的方法,同时降低与之相关的成本并提高临床试验中先导化合物的成功率。在过去的几十年中,许多方法被提出,其中以人工智能和机器学习(ML)为首。 开发并在药物设计的几个阶段中成功实施,从疾病鉴定到临床试验。这种对人工智能研究的大规模关注呈指数增长。 逐年发表的学术论文数量(图 )表明,该领域正在增长。1)。随着基于计算机技术的迅速发展,计算方法很快成为医学研究不可或缺的部分。例如,在过去几十年里,许多努力都投入到了开发预测药物性质及其在硅上的相互作用的计算化学工具。这些工具有助于减少对湿实验室测量的过度依赖,这些测量通常既昂贵又费时。这些工具包括分子对接和分子动力学方法,两者都可以应用于庞大的生化系统;以及量子力学(QM)方法,这些方法在精度方面提供了显著的提升,但由于计算成本过高,不易于用于药物设计研究中相对较大的系统(Bolcer and Hermann)。 2007). 最近,人们对计算机科学、机器学习(ML)和统计方法给予了更多关注,这些方法可以以量子方法的精度预测大型宏系统的性质,同时计算成本较低。这些ML模型被用作开发AI工具的基石。人工智能涉及开发具有执行需要人类智能和预测能力的任务的机器。AI模型在预测方面的准确性已被证明可能很高,因此它们在决策支持中具有可靠性(Manallack和Livingstone)。1999). 不同类别的机器学习(ML)方法。在药物发现过程中最常用的方法是监督学习、无监督学习、半监督学习、集成学习和深度学习(Patel等人)。2020). 表格1提供了一份文献中关于药物发现中人工智能的一些重要总结表格和图形的清单。 在描述人工智能如何将疾病诊断与药物开发相连接之前,本综述提供了关于反复提及的AI算法类别及其子类的一个简要概述。监督学习在药物发现中占据核心地位。开发监督学习模型的关键要求是拥有标记的数据集。例如,评估化学物质对特定靶点的活性,涉及使用包含有关化合物及其相关信息的数据库。 相应的生物学实验结果(即活性或非活性)。这种标记使模型能够学习化合物化学特征与它们生物活性之间的关系。然后可以使用该模型预测新化合物的生物活性。监督学习算法的例子包括支持向量机(SVM)、随机森林(RF)和朴素贝叶斯(Yang等)。2019 Dara et al.2021). SVM(支持向量机)是一种二分类器方法,可以扩展用于多类分类任务。SVM可以执行分类和回归任务。它从标记的训练数据开始。数据规范化或缩放对于确保最佳结果至关重要。在训练过程中,SVM算法找到最优的超平面或决策边界来将数据分离成不同的类别,这通过寻找支持向量并最大化边缘(即支持向量与边界之间的距离)来实现。在优化边缘的同时最小化分类误差的过程中,采用数学优化技术。经过训练的SVM模型然后可以分类新的、未见过的数据点(杨等人)。2019).SVM(支持向量机)在处理复杂的数据分离任务中具有多功能性和有效性。然而,它对超参数的选择敏感,例如正则化参数和核参数,其中核是一个函数,用于计算高维空间中数据点之间的相似性。当输入数据有噪声或核函数不适合问题时,SVM也可能受到过拟合的影响(Vamathevan等人)。2019). 它在药物发现领域具有广泛的应用,例如虚拟筛选、预测药代动力学特性以及预测毒性(Heikamp and Bajorath)。2013). RF是一种监督和集成学习方法,它通过结合多个决策树来进行预测。该方法从引导抽样开始,通过随机有放回地抽样生成多个训练数据子集。这为森林中的每一棵树引入了数据集的多样性。此外,在决策树构建的每个分割点上,选择一个随机特征子集。接下来,涉及生长多个决策树,每个决策树独立于这些引导抽样数据集和随机特征子集进行训练。这个过程生成了一组多样化的决策树。在做出预测时,结合所有单独树的预测结果。在分类任务中,这通过多数投票实现,而在回归问题中,预测值被平均。其优点包括高精度、对过拟合的抵抗力以及适用于各种类型的数据(Patel等)。2020射频(RF)可以处理具有许多特征的庞大数据集,并能够对特征重要性进行排序。然而,与单个决策树相比,它的缺点在于可解释性降低。在非常嘈杂的数据上,该模型可能表现不佳。尽管RF具有鲁棒性,但可能不是最佳选择。 需要精确概率估计的任务。朴素贝叶斯是一种用于分类任务的概率机器学习算法。它是通过使用贝叶斯定理来模拟特征与其相关类别之间的关系而创建的。‘朴素’的假设是特征在条件上是相互独立的,这简化了建模过程,并使其计算高效。该模型的关键优势包括速度和适用于高维数据。然而,其朴素独立性假设可能在复杂的现实世界数据集中不成立,这可能会影响准确性。它还难以处理罕见事件,可能需要大量数据预处理(Yang等人)。2019). 无监督学习处理未标记的数据。其首要目标是揭示数据中的潜在结构和特征,以便将输入样本分组到簇中或降低维度。这些算法在无法获得预定义目标结果的应用中非常有用。无监督学习与其他类型的学习方法的主要区别在于,它不使用标签数据进行训练。 由于缺乏评估解决方案质量的反馈信号。显著的技巧包括聚类方法(如 k-means和层次聚类)以及降维方法(例如,主成分分析和自组织映射)(Dara 等人)。2021). 半监督学习是监督学习和无监督学习之间的混合,在拥有大量输入数据但标注样本有限的场景中尤其有价值。它具有预测准确性,同时额外的真实世界实验成本最小。半监督模型被训练来使用可用的标签数据来预测未标记数据的标签,其性能高度依赖于可用标签数据的数据量和质量(杨等)。2019). 强化学习(RL)是一种机器学习算法,其中模型通过与环境的交互学习做出一系列决策。它基于这样的理念:智能体通过采取行动以最大化时间累积奖励。智能体通过探索不同的行动来改变环境,并接收以奖励或惩罚形式反馈。RL通常涉及定义奖励函数、选择适当的RL算法(例如,Q学习、深度Q网络),并通过反复交互来微调智能体的策略。虽然RL在各种应用中取得了成功,但它也伴随着探索-利用权衡等挑战,可能需要大量的计算资源和时间。RL模型的关键优势在于,即使在稀疏环境中(即只有少量或没有可用示例的环境中),也可以进行训练。它特别适用于顺序决策(Lutz等人)。2023). 深度学习专注于具有多层(深度神经网络)的人工神经网络(ANN)。这些网络包括输入层和输出层,以及多个隐藏层,这些隐藏层逐步学习更抽象的特征。这些网络被设计成通过层次化的层自动从原始数据中学习和提取特征。只要它们有足够的数据和资源,深度学习模型可以扩展以处理复杂问题,如自然语言处理和语音识别(Nag等)。2022深度学习模型在小型数据集上容易发生过拟合。深度学习模型通常用于分析和处理大量数据,例如临床影像(Rajpurkar等)。2018丁等2019Narin 等人2021), 虚拟筛选(Carpenter 等人)2018; Gentile et al.2022), 以及生物活性预测(Bule等人)2021). 深度学习算法的例子包括深度神经网络(DNN)和卷积神经网络(CNN)。 DNNs(深度神经网络)是具有多个隐藏层的基礎前馈神经网络。它们通过堆疊多層結構構建,其中人工神經元相互連接,並使用激活動作函數來引入非線性。DNNs使用標記數據進行訓練,通过反向傳播和梯度下降來最小化預測誤差。DNNs可應用於監督和非監督學習情境。DNNs的主要局限性在其複雜性,這使得它們難以解釋,並可能涉及精細的超參數調節(Vamathevan等)。2019; 纳格等人2022). CNNs适用于图像和网格结构数据。它们使用卷积层来检测局部模式。CNNs由几个关键组件构成:卷积层、池化层和密集连接层。网络从输入层开始,随后是卷积层,从输入数据中提取特征。卷积层的特征以它的三个维度(宽度、高度和深度)来指定。它通过扫描和捕捉从小型感受野(通常是一个像素方格)中的信息来运作,深度对应于图像中不同信息源的不同通道。激活函数引入非线性,而池化层减少了空间维度。密集连接层 连接各层神经元,最终到达输出层,该层产生预测结果。卷积神经网络(CNNs)使用损失函数来量化预测误差,并使用优化算法调整模型参数(杨等)。2019他们是在标记数据上训练的,根据性能进行评估,然后用于做出预测。卷积神经网络(CNN)架构可以根据特定任务和数据集进行定制。这种方法的主要缺点之一是它可能不是所有类型数据的最佳选择。 集成学习结合多个单独的模型或算法,以创建一个更稳健、更准确的预测模型,减少过拟合问题,并增强泛化能力。常见的集成方法包括RF(如上所述)和梯度提升(GB)。GB是一种用于复杂数据集回归和分类任务的多个组合模型的集成。该算法迭代工作,它关注先前模型所犯的错误,并优化后续模型以纠正这些错误。梯度提升需要仔细的参数选择,并且可能需要更长的训练时间(K和Mohan)。2022). 正如本综述所示(见图 )。2), 人工智能的应用导致了实质性的进步,有助于弥合疾病诊断与药物开发之间的差距,最终增加了药物获批的机会。图2描述了药物发现的关键阶段及其相应的时间表。这些阶段包括疾病诊断、靶点鉴定、先导化合物鉴定、先导化合物优化、临床前试验、临床试验和药物审批。对于这些阶段的每个阶段,列出了一系列可以受益于AI的任务。有关此类AI工具的详尽列表,请参阅表2例如,如图所示。2和表2通过使用机器学习的方法进行三维结构预测、图像重建和药物可及性预测,可以增强靶点的识别。同样,在虚拟筛选、药效团建模、合成路线设计和预测生物活性和毒性方面,人工智能可以加快先导化合物的识别。例如,利用人工智能,DSP-1181药物的从研发启动到临床试验阶段只需12个月,而传统方法则需要4-5年。 表格2一份近期和/或主要的AI平台和工具清单,用于药物发现,以及它们的应用和局限性。同时提供了工具的参考文献及访问链接(如有)。 经典药物发现过程。该化合物由英国制药公司ExScientia开发,与日本三菱日矿化工公司(Burki)合作开发。2020), 更多详情请见第XX节。3.4. 本综述首先讨论了人工智能技术如何协助疾病识别、临床诊断、基因组分析和精准医疗,重点关注在人工智能研究中已被广泛探索的疾病,例如传染病、生活方式疾病、神经退行性疾病和癌症(见第2)。第3突出了人工智能技术在目标和线索识别中的应用,随后在第节中举例说明了人工智能增强的临床试验。4每个部分结束时,我们都会对所讨论的AI方法进行一次批判性评论,主要涉及优缺点。部分5探讨在药物发现中实施AI所面临的挑战及其未