- 问题背景:科学文献数量爆炸式增长(截至2020年6月13日至少140K篇冠状病毒论文,PubMed每年超50万篇),人类阅读能力有限且效率低下,导致信息过载和质量问题(预印本快速发布导致重复、矛盾)。
- 现有工具局限:现有文献搜索引擎不支持跨媒体检索,BioNLP任务主要涵盖生物医学论文但化学领域有限,科学实验多依赖手工设计和排序,精准医学成本高昂且分类特征粗粒度、通用和脆弱。
- 解决方案路线图:将非结构化科学数据转换为结构化知识,包括实体/关系/事件提取、本体构建、图神经网络、球面嵌入、多媒体知识库生成、跨媒体搜索和摘要等步骤。
- 独特挑战与解决方案:
- 化学实体表示:结合分子图像、文本描述符、化学图结构、自然语言定义、外部数据库属性和实体链接,使用AMR解析和图神经网络捕捉复杂句子结构。
- 分子表征学习:基于SMILES字符串和图神经网络(GNN)的分子编码器,解决SMILES的一维线性化问题,但缺乏特定GNN在所有任务上的通用性。
- 化学反应预测:使用MolR-TAG模型,在USPTO数据集上实现14.2%的改进,验证了结合文本和化学知识的有效性。
- 分子字幕与生成:
- 挑战:分子字幕数据稀缺,比图像字幕更难创建,需要领域专业知识。
- 数据源:C4数据集(750GB文本)、ChEBI-20数据集(33,000分子描述对)、ZINC-15数据集(1亿SMILES字符串)。
- 实验结果:MolT5模型在分子字幕和生成任务上表现优异,能够根据文本描述生成对应分子。
- 复杂句子结构挑战:生物医学和化学领域的句子结构复杂,实体和事件触发器距离远,需要知识丰富的抽象意义表示和边缘条件图注意网络。
- 知识丰富的抽象意义表示:使用Biobert作为句子编码器,联合训练和推理事件触发器和参数,结合AMR解析和知识图谱链接提升性能。
- 新化学信息抽取基准(ChemET):包含8100万分子和100篇化学论文,开发新的实体和事件本体,使用远程监督构建训练集。
- 应用案例:
- COVID-19药物回收报告:利用实体接地、药物分子结构图像和图扩展技术,生成药物重组报告。
- ReactionTracker:化学反应文献搜索引擎,支持跨媒体检索和实体关联。
- 研究结论:通过结合文本、化学知识和图神经网络,能够有效解决科学文献信息过载问题,推动药物发现等领域的民主化。