Clinical NLP(基础篇)
词法、句法、语义分析
临床医疗文本主要以短语为主,存在很多并列结构,句子的“主谓宾”不全,给词法分析和语义分析带来了新的挑战。目前,相关研究主要集中在分词、临床医疗实体识别、句法分析、语义角色标注等方面,但关注度相对较低。
信息抽取
信息抽取是Clinical NLP的核心任务,国内外已有多项公开评测数据集,涵盖药物、剂量、用药方式、疾病风险因子、实体识别、实体标准化等任务。临床医疗实体识别任务面临实体形式多样(连续、嵌套、非连续和重叠)的挑战。临床医疗事件抽取方法包括基于规则、基于机器学习和深度学习的方法,深度学习方法如CNN、RNN、LSTM、预训练模型微调等效果更优。临床医疗实体/属性标准化方法包括基于规则、基于机器学习和深度学习的方法,深度学习方法如基于预训练模型和命名实体识别任务联合学习等效果更优。临床医疗实体/属性关系抽取方法包括基于机器学习、深度学习和少样本学习的方法,深度学习方法如BERT、多任务学习、联合学习等效果更优。
临床医疗问答
临床医疗问答根据问答方法可划分为知识库问答、阅读理解式问答、匹配式问答和视觉问答。国内外已有多项公开评测数据集,涵盖药物、剂量、用药方式、疾病风险因子、实体识别、实体标准化等任务。知识库问答方法主要通过问题转换和知识库集成进行回答。阅读理解式问答方法主要通过在公开数据集上训练得到通用阅读理解模型,然后在医疗问答数据集上微调。匹配式问答方法主要通过将问答任务转换为问句-问句或者问句-答案的匹配任务。视觉问答方法主要通过分别对文本和图像进行编码,然后将两种模态信息组合。
临床医疗文本语义相似度计算
语义相似度分析任务主要是衡量两段文本语义是否等价,文本对的分数通常为0-5分,分数越高表示文本对的语义越相关。国内外已有多项公开评测数据集,评价指标主要为Pearson相关系数、Spearman 相关系数。语义相似度分析方法主要包括基于特征的深度学习方法,如字符串相似度特征、实体相似度特征、数值相似度特征等。
电子病历的自动编码
电子病历的自动编码旨在基于患者的电子医疗健康记录数据,从临床医疗数据中获取或者推断出病人的某些特征,这些特征一般用临床医疗标准编码表示。电子病历的自动编码任务面临提取细粒度更高的表特征、实现更丰富、更深入、更精确的表征、处理范围广泛的数据类型、进行病例分类更复杂的分析等挑战。电子病历的自动编码方法主要包括基于结构化数据的时序模型、基于电子病历中非结构化数据的编码模型、融入外部知识的电子病历编码模型。
临床医疗文本生成
临床医疗文本生成任务涵盖了医学影像到文本、检验表格到文本、历史电子病历到文本等生成问题。医学影像报告生成主流框架对比包括编码器-解码器框架、长段落的文本描述、引入外部医学知识等。出院小结自动生成方法包括抽取式、生成式和抽取生成混合式。
病人队列选择
病人队列是一组为特定研究设计的共享一组共同特征(包括表型)的患者。病人队列选择方法主要包括转化成机器阅读理解问题,引入领域知识,同时采用attention机制捕获不同筛选标准之间的关联。
Clinical Knowledge Graphs (Bases)
现状与挑战
医疗领域常用的知识图谱(库)包括OHDSI CDM、LOINC、UMLS、SNOMED-CT、ICD-10等。面临的问题及可能发展趋势包括:以实体为核心的医疗领域知识图谱(库)支持医疗决策的关系有限,以事件为核心的事件图谱越来越受到重视;医疗领域的各知识图谱(库)之间存在大量概念的交叉,质量参差不齐,对齐和统一极具挑战性;医疗决策支持系统需要具有医学思维的因果推断,以统计为基础的推理需谨慎,需要结合临床场景的数据和知识深度融合;新理论方法从已有临床知识图谱(库)出发,根据临床场景需求,构建以“实体-事件”多粒度的图谱。