行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

3 - 3 分子与自然语言的翻译

基础化工 2022-07-18 DataFunSummit2022：图机器学习峰会 Silent

问题背景：科学文献数量爆炸式增长（截至2020年6月13日至少140K篇冠状病毒论文，PubMed每年超50万篇），人类阅读能力有限且效率低下，导致信息过载和质量问题（预印本快速发布导致重复、矛盾）。
现有工具局限：现有文献搜索引擎不支持跨媒体检索，BioNLP任务主要涵盖生物医学论文但化学领域有限，科学实验多依赖手工设计和排序，精准医学成本高昂且分类特征粗粒度、通用和脆弱。
解决方案路线图：将非结构化科学数据转换为结构化知识，包括实体/关系/事件提取、本体构建、图神经网络、球面嵌入、多媒体知识库生成、跨媒体搜索和摘要等步骤。
独特挑战与解决方案：
- 化学实体表示：结合分子图像、文本描述符、化学图结构、自然语言定义、外部数据库属性和实体链接，使用AMR解析和图神经网络捕捉复杂句子结构。
- 分子表征学习：基于SMILES字符串和图神经网络（GNN）的分子编码器，解决SMILES的一维线性化问题，但缺乏特定GNN在所有任务上的通用性。
- 化学反应预测：使用MolR-TAG模型，在USPTO数据集上实现14.2%的改进，验证了结合文本和化学知识的有效性。
分子字幕与生成：
- 挑战：分子字幕数据稀缺，比图像字幕更难创建，需要领域专业知识。
- 数据源：C4数据集（750GB文本）、ChEBI-20数据集（33,000分子描述对）、ZINC-15数据集（1亿SMILES字符串）。
- 实验结果：MolT5模型在分子字幕和生成任务上表现优异，能够根据文本描述生成对应分子。
复杂句子结构挑战：生物医学和化学领域的句子结构复杂，实体和事件触发器距离远，需要知识丰富的抽象意义表示和边缘条件图注意网络。
知识丰富的抽象意义表示：使用Biobert作为句子编码器，联合训练和推理事件触发器和参数，结合AMR解析和知识图谱链接提升性能。
新化学信息抽取基准（ChemET）：包含8100万分子和100篇化学论文，开发新的实体和事件本体，使用远程监督构建训练集。
应用案例：
- COVID-19药物回收报告：利用实体接地、药物分子结构图像和图扩展技术，生成药物重组报告。
- ReactionTracker：化学反应文献搜索引擎，支持跨媒体检索和实体关联。
研究结论：通过结合文本、化学知识和图神经网络，能够有效解决科学文献信息过载问题，推动药物发现等领域的民主化。