背景与挑战
新药研发成本高昂,周期长,失败率高,EroomsLaw法则指出制药成本持续增加。药物设计中,分子和蛋白质是主要研究对象,通常转化为图结构用GNN处理。
相关工作
-
分子性质预测
- 图神经网络(GNN):GCN、GAT、GIN等模型通过消息传递机制预测分子性质。
- 物理基础表示:利用密度泛函理论(DFT)和球面贝塞尔函数(SBF)进行性质预测,准确率提升超过31%,计算速度提升8倍。
- 方向信息引入:Directional Message Passing区分不同环结构,球面消息传递引入更多方向信息(距离、角度、俯仰角)。
-
分子生成
- 基于文本的生成:使用Transformer生成SMILES文本,但文本表示无法表达分子相似性和化学合理性。
- 基于图的生成:Junction Tree Variational Autoencoder(VAE)通过两阶段生成分子图,显著提升生成分子的有效性和评分。
- 3D分子生成:GEOMOL通过预测键长和旋转角生成3D分子,考虑化学键约束,提高生成分子的几何合理性。
-
分子表征学习
- 自监督学习:InfoGraph等方法在图网络上进行自监督学习,提升下游任务性能。
- 几何增强表征:GEM模型利用分子的几何结构信息(键长、键角)进行自监督预训练,学习更好的表示,提升属性预测性能。
本研究工作
-
基于半监督主动学习的分子性质预测
- ASGN模型:使用teacher-student模型结合半监督学习和主动数据选取,缓解对有标签数据的需求,在QM9和OPV数据集上显著提升性能。
-
基于motif多尺度自监督表征学习
- Motif-based GNN:通过BRICS算法分割分子网络形成Motif Tree,自回归方式预训练GNN,捕捉多尺度信息,提升属性预测性能。
-
基于子图Prototype的自解释图卷积网络
- ProtGNN模型:通过Prototype Learning实现自解释,结合聚类和分离损失,提升图分类任务的性能和可解释性。
-
基于几何结构的蛋白质-配体结合亲和力预测
- 问题:蛋白质尺度过大,忽略全局信息和长程相互作用,未区分分子间和分子内相互作用。
- 方法:结合蛋白质生物学性质和几何结构,提升结合亲和力预测的准确性。
结论
本研究通过半监督主动学习、motif多尺度自监督表征学习、子图Prototype自解释图卷积网络和几何结构结合等方法,显著提升了分子性质预测、分子生成和蛋白质-配体结合亲和力预测的性能和可解释性,为药物设计领域提供了高效且可靠的解决方案。