您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[夏源]:在医疗健康领域,企业大模型RAG优化实践 - 发现报告

在医疗健康领域,企业大模型RAG优化实践

2025-02-13-夏源用***
在医疗健康领域,企业大模型RAG优化实践

医疗健康领域大模型RAG优化实践 演讲人:夏源 百度灵医大模型底座技术负责人 医疗健康领域RAG现状与挑战 CONT目E录NTS 01 02 RAG医疗领域技术优化 03 RAG医疗落地实践和应用 RAG现状和挑战 引言 RAG技术是否已经“烂大街”? RAG技术实际应用的难点和挑战? 医疗领域RAG技术有什么不一样? Query理解 检索召回&排序 Prompt构建 问题 答案生成 ES库/向量库 文档解析 索引构建 文档 大模型 证据相关性弱召回噪声信息关键信息未召回 关键信息截断 Query理解 检索召回&排序 Prompt构建 问题 意图理解错误 多意图问题上下文指代不明 文档解析 chunk切分不完整 文档文档格式解析错误 图像文档解析 索引构建 层次结构扁平 ES库/向量库 答案生成 大模型生成“幻觉”大模型回答片面模型回答安全性 大模型 内容理解(离线) 需求理解 检索召回 排序&相关性 LLM答案生成 文档解析文档切片文档挖掘向量索引文本索引 意图识别多轮改写 复杂query拆分证据源预判 实体识别和扩展 多队列召回向量召回文本召回 知识图谱召回 Q-TP相关性权威性多样性 证据筛选提取信息归纳答案 chunk切分不完整文档格式解析错误图像文档解析 层次结构扁平 意图理解错误多意图问题 上下文指代不明 召回噪声信息关键信息未召回关键信息截断 证据相关性弱证据权威性 大模型生成“幻觉”大模型回答片面模型回答安全性 难点和挑战 挑战一:如何针对医疗专业领域进行内容理解和建设? 挑战二:如何提升在医疗药企领域大模型的专业性? 挑战三:如何解决实际企业应用中复杂RAG问题? RAG医疗领域技术优化 推理 RAG大模型理解和推理应用 自我推理 自我反思 证据聚合 文档抽取 上下文理解 关键词抽取 意图识别 Query理解 检索 RAG混合多级循证检索 深度语义排序 稠密向量检索 ES检索 索引自动构建 相关性排序 路径检索 证据溯源 多源文档召回 内容 医疗RAG内容理解 百度灵医大模型底座(LLM) 文字解析 数据库解析 机器翻译 段落识别 字段识别 文档结构化 表格识别 版面分析 病理报告单 药品说明书 入院记录 医学行业标准 病案首页 检验报告单 出院小结 医疗大数据治理 ... 手术麻醉记录 病理报告单 病程记录 医学书籍 医疗知识中台 ... 医学临床指南 医学文献 医学报告 读懂病历,理解患者 患者的病历包含不同的单据,如病案首页、检验报告单、病理报告单、住院诊断书等 各种类型的医疗文档和单据,纯文本、表单、图谱、扫描件、复印件等 读懂书本,掌握知识 医学知识的不同的数据来源,如医学书籍、医学文献、临床指南等 各类医学知识文档有不同的排版样式、文档布局信息,不同的篇章信息、段落信息 医疗大数据治理 医疗知识中台 病历多单据识别/病案质控医疗文档智能分析 医疗文档的知识抽取与图谱构建 医学知识循证与融合 …… 医疗领域富文本信息理解 半/无结构化数据 (病历单据/医学书籍) OCR文字识别Layout版面分析SPO抽取/schema抽取/etc. 书籍/指南(电子版/图片版) 检验报告单 病程记录/现病史 不同的排版样式不同的文档布局 不同的篇章信息不同的段落信息 诊断证明 多实体类型 不同布局 长段落识别 文字密集,无法切分出单一实体用于实体类型预测 结构布局不同,存在上下、左右等关系 存在长、短文本预测 文字不连续 完整实体被切分到多行 应用层 医疗RAG内容理解技术应用 表单识别 单据解读 Span抽取 CRF组装 SPO关系抽取 知识循证 目录生成 层次结构化 书籍层次化解析 医疗知识图谱构建 专病结构化 医疗单据识别 文档分析 文档解析引擎 文字识别 文本纠错 文档视图树生成 标题识别 表格识别 图像识别 正文识别 版面分析引擎 多模态文档语义理解 多模语义实体识别 空间感知编码器 自注意力机制计算 空间结构化映射 文档智能结构化引擎 底座算法 Dewarp 传统小模型算法 Detection...... OCR NLP 大模型(语言/多模态) MLLMLLM 医疗单据图像预处理(图像分割/主体检测/图像矫正/图像增强/etc.) 原始图像 图像分割算法 图像矫正算子 图像增强算子 训练 医疗领域文档 基于OCRNet进行医疗文档增强训练(+△15.6%)主体识别准确率(95%+) 病理报告单结构化表单事件抽取结果 报告日期 2020-07-17 癌细胞位置 右肺门淋巴结 病理类型 腺癌 大小 1x0.5x0.3cm 免疫组合指标 … C5/6(-)CK7(+) … OCR+版面分析 表单抽取(K,V抽取) 专病结构化抽取 目标:不同医院不同报告单进行解析构建医疗RAG结构化索引库 多模态文档语义理解技术 SemanticEntityRecognition RelationEntityLinking 语义实体识别&实体链接 病理 诊断 : 右 肺炎 淋巴 结( FeatureMap Text VisualEncoder OCR Layout 多模态空间感知编码器 1D位置向量 2D空间位置向量图像&文本向量 病理报告单结构化表单 文字检测模块(EAST/DB/...) 文字识别模块(CRNN/SRN/SVTR/...) OCR+版面分析 表单抽取(K,V抽取) 目标:不同医院不同报告单进行解析构建医疗RAG结构化索引库 准确率 △28%/△4%▽0.1%/△0.8% 词准率 在不影响通用识别率的情况下显著提升医疗专业术语OCR识别效果 字准率 标注工具 男☑②□ 策略1:医疗单据特殊字符新增标注数据 医疗单据数据集通用数据集 文字识别模块(CRNN/SRN/SVTR/...) 医学领域对齐训练 策略2:基于医学知识图谱的强化医学专业术语识别准确率,生成不同风格的训练样本 咳痰 体征 颈静脉怒张 失声 呼吸困难 胸主动脉瘤 疾病 症状 ⽓管移位 胸部静脉曲张 病因 喘鸣 医学图谱 合成工具 背景图片 医疗领域OCR优化:针对医学单据特性优化OCR字符层面医疗识别效果 结构化表单事件抽取结果 报告日期 2020-07-17 癌细胞位置 右肺门淋巴结 病理类型 腺癌 大小 1x0.5x0.3cm 免疫组合指标 … C5/6(-)CK7(+) … 面向复杂医疗信息抽取模型 表单抽取(K,V抽取) 专病结构化抽取 目标:不同医院不同报告单进行解析构建医疗RAG结构化索引库 文档理解(版文面档分OC析R/版面顺序) 表格识别 文档转markdown “读”懂医学书本掌握专业知识 双拦版式 页眉 标题 版面分析模型 正文 页眉 标题 注释 页脚 图片 公式 正文 表格 图片标题 ...... 10+elements 段落 mIoU95%+ 布局要素识别 识别文档的标题、段落、列表、图片、表格、页眉页脚等元素页脚 版面排序模型 1 2 3 4 5 Accuracy98%+ 文档顺序分析 将页面内元素按阅读顺序重排符合人类正常阅读顺序 扫描清晰标准表格 TableTransformer/SLANet 表格识别模型 NoiseMixedEnhancedTransformerDecoder 树编辑距离(TEDS) 90%+ 理解书籍文献复杂表格信息(抗噪处理) 噪声表格(扭曲/形变/模糊) OCR+版面分析 文档结构分析 医学书籍/医学文献文档视图树 第十六章喘鸣 Leveln-1 … (十一)胸主动脉瘤 Leveln … Leveln+1 … … 如果动脉瘤压迫了气管,则出现喘鸣,伴呼吸困难,哮鸣及咳痰。其他表现有声音嘶哑或失声、吞咽困难、颈静脉怒张、胸部静脉曲张、气管移位、感觉异常或神经痛以及颜面、颈部、手臂的水肿。还可出现胸骨下、下背部、腹部及肩部的痛疼。 优质训练语料与多重策略保证生成内容的准确安全 适用医疗场景 •尚有很多医疗专业权威知识,通用模型尚未习得 •有私有高质量医疗的独有数据 1 0.9 医疗领域后预训练效果 医疗领域预训练效果 关关键键经经验验 经验1:数据提质 •风控过滤:黄、反、隐私等风险内容的过滤 •质量分层:对预训练医疗数据指令评估和分级采样 •语料去重:去除相似度太高的样本 效果:提升高知识密度样本采样率,带来20%左右效果提升 经验2:数据增强 通用数据和领域的数据合理配比,兼顾通用和专业能力 0.8 0.7 0.6 归一化打分 0.5 0.4 0.3 0.2 0.1 辅助诊断 病历生成(对话+报告) 病历生成(仅对话) 分导诊 自诊 文档理解 预问诊 知识库问答 0 old_modelnew_model 子问题1:如何提升大模型对噪声证据的鲁棒性? 子问题2:如何提升大模型答案生成可解释性? 子问题3:如何提升大模型自我反思能力? RAP阶段(RelevantAwareProcess) 大模型自我判断检索阶段召回的证据是否相关 提升模型鲁棒性 EAP阶段(EvidenceAwareSelectiveProcess) 分析和引用召回证据的关键信息 大模型自我给出关键证据召回的原因和思考过程 提升大模型可解释性 TAP阶段(TrajectoryAnalysisProcess) 综合RAP和EAP自我推理生成的轨迹进行最终答案推理 整体提升RAG的推理能力 ImprovingRetrievalAugmentedLanguageModelwithSelf-Reasoning1 1Xia,Yuan,etal."ImprovingRetrievalAugmentedLanguageModelwithSelf-Reasoning."arXivpreprintarXiv:2407.19813(2024). 对于绝经后无症状的子宫内膜息肉患者,宫腔镜手术明确诊断的手术时机和具体操作步骤是什么? [1]召回证据1 [2]召回证据2 [3]召回证据3 [4]召回证据4 [5]召回证据5 RAP阶段(RelevantAwareProcess) relevent:检索召回的证据和宫腔镜手术是相关的 Output: cite_content:[3]手术时机:月经干净后2~7d内手术视野最清晰,尽量避开经前期;本次月经周期无性生活;如因月经期延长就诊者,可以选择月经第7天后;如患者无规律月经,血净后可考虑手术;有不可控出血时可以急诊手术。 reason_for_cite:这段内容提供了宫腔镜手术的最佳时机,这是手术步骤中的重要一环,有助于确保手术的顺利进行和诊断的准确性。 EAP阶段(EvidenceAwareSelectiveProcess) 对于绝经后无症状的子宫内膜息肉患者,宫腔镜手术明确诊断的手术时机和具体方法是什么? [1]召回证据1 [2]召回证据2 [3]召回证据3 [4]召回证据4 TAP阶段(TrajectoryAnalysisProcess) response:对于绝经后无症状的子宫内膜息肉患者,宫腔镜手术明确诊断的 步骤如下:\n1.**宫腔镜子宫内膜息肉去除术**:这是治疗的“金标准”手术,对有症状的绝经后患者执行该手术时,需要并行组织病理学评估[1]。\n2. **手术时机**:手术应在月经干净后的2~7天内进行,以获得最清晰的手术视野,尽量避免经前期[3]。如果月经周期无性生活或者因月经期延长就诊,可以在月经第7天后考虑手术。对于无规律月经的患者,血净后即可考虑手术。如果存在不可控出血,可以进行急诊手术[3]。 [5]召回证据5 相同模型参数架构下,推理速度性能相当的情况下取得SoTA效果(e.g.Self-RAG) 百亿参数模型配置