药物OOD:图形OOD学习的测试平台
背景
药物发现是一个漫长且成本高昂的过程,开发新药通常需要10多年时间和10亿美元。人工智能技术在生物医学领域已产生大量数据,其中许多是图结构的分子和蛋白质插图。利用图机器学习进行药物发现已成为重要趋势。
评估药物AI算法的问题
现有基准数据集存在以下问题:
- 提供固定数据集,无法与存档网站保持最新
- 忽略现实世界的分布偏移问题,训练和测试分布不同导致性能严重下降
- 忽略现实世界存在的噪声注释问题
DrugOOD数据集策展人和基准
DrugOOD是一个用于AI辅助药物发现的OOD数据集策展人和基准,提供以下功能:
-
数据集策展人:
- 五个结构域定义(支架、测定、分子大小、蛋白质、蛋白质家族)
- 三种噪声水平(核心、精致、通用)
- 自动OOD数据集策展人带有真实世界域和噪声注释
- 可定制配置,提供96个实现的数据集
-
基准测试:
- 严格的OOD基准测试
- 六种SOTA OOD算法(具有各种骨干)
- ID-OOD分类性能(AUC分数)提高超过20%,验证了数据集中领域定义和噪声校准方法的真实性和挑战性
DrugOOD数据集和基准摘要
- 逼真的噪声注释:根据测量置信分数标注实际噪声,提供在实际噪声环境下的学习测试平台
- 严格的OOD基准:使用6种最先进的OOD算法对96个实现的数据集实例进行基准测试
- 自动数据集管理器:可完全定制的管道,用于从ChEMBL收集用于AI辅助药物发现的OOD数据集
- 丰富的域注释:生成与生物化学领域知识一致的特定领域的各种方法
基于子图的不变图学习
子图信息瓶颈
利用子图信息瓶颈识别预测子结构:
- 最大化标签和子图之间的互信息
- 最小化图和子图之间的互信息
- 双层优化方案:内部优化和外部优化
图信息瓶颈框架
应用
- 图分类的改进
- 图解释
- 图去噪
相关研究
- GSAT:基于随机注意的可解释和可推广图学习
- 通过随机注意力机制实现可解释性和泛化性
- 能够处理某些分布变化
- 在杂乱主题中查找关键子图
- DIR:图神经网络的不变量发现原理
- 发现不变原理的因果说明
- Wu等人将Invariant Rationalization概念推广用于OOD通用化
- GREA:基于环境的增强的图形合理化
腾讯值得信赖的AI团队:可信AI组