行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

在医疗健康领域，企业大模型RAG优化实践

2025-02-14-夏源用***

AI智能总结

医疗健康领域RAG优化实践

RAG现状和挑战

引言：探讨RAG技术是否已普及，医疗领域RAG的独特性，以及实际应用中的难点和挑战。
Naive RAG 技术框架：描述了传统RAG框架的组成部分，包括Query理解、检索召回、文档解析、索引构建、Prompt构建和答案生成。
Naive RAG 面临的问题：列举了Naive RAG在Query理解、文档解析、意图识别、召回质量、大模型生成和证据相关性等方面存在的问题。
如何解决 Naive RAG的技术问题：提出了针对Naive RAG问题的解决方案，包括意图识别、多轮改写、证据源预判、实体识别、多队列召回、证据筛选和信息归纳等。
难点和挑战：提出了医疗领域RAG的三个主要挑战：如何针对医疗专业领域进行内容理解和建设，如何提升大模型在医疗药企领域的专业性，以及如何解决实际企业应用中的复杂RAG问题。

RAG医疗领域技术优化

医疗检索增强RAG 技术架构：介绍了优化后的RAG架构，包括文档抽取、证据聚合、大模型理解和推理、应用自我反思、自我推理、Query理解、意图识别、索引自动构建、ES检索、RAG混合、多级循证检索、稠密向量检索、深度语义排序、多源文档召回、证据溯源路径检索和相关性排序等。
医疗RAG 内容理解和建设：详细阐述了医疗领域内容理解和建设的难点，包括病历中不同单据的解析、医学书籍和文献的理解、以及各种医学知识文档的排版样式和布局信息。
医疗领域富文本信息理解：介绍了针对病历单据和医学书籍的富文本信息理解技术，包括OCR文字识别、Layout版面分析、SPO抽取、schema抽取等。
医疗领域文档多样性：分析了医疗领域文档的多样性，包括检验报告单、病程记录、手术记录、诊断证明等不同类型文档的特点。
医疗RAG内容理解架构：介绍了医疗RAG内容理解的架构，包括多模语义实体识别、多模态文档语义理解、自注意力机制、空间感知编码器、空间结构化映射、文档智能结构化引擎、专病结构化医疗知识图谱构建、SPO关系抽取、知识循证、Span抽取、CRF组装、NLPOCR等。
医疗RAG内容理解技术应用：介绍了医疗RAG内容理解技术的应用，包括文档分析底座算法、医疗单据识别、表单识别、单据解读、MLLM、传统小模型算法、文档解析引擎、版面分析引擎、标题识别、表格识别、图像识别、正文识别、文档视图树生成、LLM大模型、Dewarp等。
医疗RAG内容理解：医疗报告单解析：详细介绍了医疗报告单解析的技术，包括图像预处理、OCR增强训练、主体识别、表单抽取、专病结构化抽取等。
医疗RAG内容理解：智能文档结构化引擎：介绍了智能文档结构化引擎的技术，包括多模态文档语义理解技术、空间感知编码器、语义实体识别、实体链接等。
医疗RAG内容理解：医学文档解析：介绍了医学文档解析的技术，包括OCR、表格识别、文档转markdown、文档理解等。
医疗RAG内容理解：医学文档解析：详细介绍了医学文档解析的技术，包括版面分析模型、布局要素识别、页眉页脚识别、正文标题识别、图片识别、表格识别、注释公式识别、图片标题识别、文档顺序分析、表格识别模型等。
医疗RAG内容理解：医学书籍文献解析：介绍了医学书籍文献解析的技术，包括OCR、版面分析、文档结构分析、文档视图树生成等。
医疗大模型后预训练：介绍了医疗大模型后预训练的数据和内容优化策略，包括数据提质、数据增强等，并提供了相关经验和效果数据。
医疗RAG大模型生成：介绍了提升大模型推理能力的三个子问题，并提出了Self-Reasoning和Reflection等技术方案。

RAG医疗实践和应用

医疗大模型实践和应用：介绍了灵医大模型在患者服务、医生工作提效、内外协作、精准学术推广等方面的应用。
健康助手科普回答：介绍了健康助手科普回答的应用场景和功能。
RAG医疗实践和应用：面向药企-咨询：介绍了面向药企的咨询应用，包括基于客户文档和领域数据库的咨询机器人。
RAG医疗实践和应用：面向药企-咨询：详细介绍了面向药企的咨询应用的技术细节。
RAG医疗实践和应用：面向药械-AI药师：介绍了面向药械的AI药师应用，包括AI药品说明书和AI药师功能。
RAG医疗实践和应用：面向药械-AI药师：详细介绍了面向药械的AI药师应用的技术细节和效果提升。
RAG医疗实践和应用：面向药械-AI药师：详细介绍了面向药械的AI药师应用中，如何通过大模型自我推理和反思能力提升模型效果，解决幻觉问题。

演讲人：夏源百度灵医大模型底座技术负责人 CONTENTS目录 01医疗健康领域RAG现状与挑战 02RAG医疗领域技术优化 03RAG医疗落地实践和应用 RAG现状和挑战引言 RAG技术是否已经“烂大街”？ RAG技术实际应用的难点和挑战？医疗领域RAG技术有什么不一样？ Naive RAG技术框架 Naive RAG面临的问题如何解决Naive RAG的技术问题难点和挑战挑战一：如何针对医疗专业领域进行内容理解和建设？挑战二：如何提升在医疗药企领域大模型的专业性？挑战三：如何解决实际企业应用中复杂RAG问题？ RAG医疗领域技术优化医疗检索增强RAG技术架构医疗RAG内容理解和建设读懂病历，理解患者读懂书本，掌握知识医学知识的不同的数据来源，如医学书籍、医学文献、临床指南等患者的病历包含不同的单据，如病案首页、检验报告单、病理报告单、住院诊断书等各类医学知识文档有不同的排版样式、文档布局信息，不同的篇章信息、段落信息各种类型的医疗文档和单据，纯文本、表单、图谱、扫描件、复印件等医疗领域富文本信息理解医疗领域的文档多样性病程记录/现病史检验报告单书籍/指南（电子版/图片版）医疗领域的文档多样性不同的排版样式不同的文档布局不同的篇章信息不同的段落信息医疗RAG内容理解架构医疗RAG内容理解：医疗报告单解析医疗单据图像预处理（图像分割/主体检测/图像矫正/图像增强/etc.）基于OCRNet进行医疗文档增强训练（+△15.6%）主体识别准确率（95%+）医疗RAG内容理解：医疗报告单解析表单抽取（K,V抽取）医疗RAG内容理解：智能文档结构化引擎多模态文档语义理解技术医疗RAG内容理解：医疗报告单解析医疗RAG内容理解：医疗报告单解析在不影响通用识别率的情况下显著提升医疗专业术语OCR识别效果医疗领域OCR优化：针对医学单据特性优化OCR字符层面医疗识别效果医疗RAG内容理解：医疗报告单解析结构化表单表单抽取（K,V抽取）医疗RAG内容理解：医学文档解析 “读”懂医学书本掌握专业知识表格识别文档转markdown 医疗RAG内容理解：医学文档解析医疗RAG内容理解：医学文档解析医疗RAG内容理解：医学表格识别医疗RAG内容理解：医学书籍文献解析医学书籍/医学文献如果动脉瘤压迫了气管，则出现喘鸣，伴呼吸困难，哮鸣及咳痰。其他表现有声音嘶哑或失声、吞咽困难、颈静脉怒张、胸部静脉曲张、气管移位、感觉异常或神经痛以及颜面、颈部、手臂的水肿。还可出现胸骨下、下背部、腹部及肩部的痛疼。医疗大模型后预训练：数据和内容优质训练语料与多重策略保证生成内容的准确安全适用医疗场景 •尚有很多医疗专业权威知识，通用模型尚未习得•有私有高质量医疗的独有数据关键经验关键经验经验1：数据提质 •风控过滤：黄、反、隐私等风险内容的过滤•质量分层：对预训练医疗数据指令评估和分级采样•语料去重：去除相似度太高的样本效果：提升高知识密度样本采样率，带来20%左右效果提升经验2:数据增强通用数据和领域的数据合理配比，兼顾通用和专业能力医疗RAG大模型生成：提升大模型推理能力 子问题1：如何提升大模型对噪声证据的鲁棒性？ 子问题2：如何提升大模型答案生成可解释性？ 子问题3：如何提升大模型自我反思能力？医疗RAG大模型生成：Self-Reasoning RAP阶段(Relevant Aware Process) 大模型自我判断检索阶段召回的证据是否相关提升模型鲁棒性 EAP阶段(Evidence Aware Selective Process) 分析和引用召回证据的关键信息大模型自我给出关键证据召回的原因和思考过程提升大模型可解释性 TAP阶段(TrajectoryAnalysis Process) 综合RAP和EAP自我推理生成的轨迹进行最终答案推理整体提升RAG的推理能力医疗RAG大模型生成：Self-Reasoning 自我推理（s e l f - r e a s o n i n g）在的在R A G应用的具体例子 RAP阶段(Relevant Aware Process) relevent:检索召回的证据和宫腔镜手术是相关的 EAP阶段(Evidence Aware Selective Process) Output: cite_content:[3]手术时机：月经干净后2~7 d内手术视野最清晰，尽量避开经前期；本次月经周期无性生活；如因月经期延长就诊者，可以选择月经第7天后；如患者无规律月经，血净后可考虑手术；有不可控出血时可以急诊手术。 reason_for_cite:这段内容提供了宫腔镜手术的最佳时机，这是手术步骤中的重要一环，有助于确保手术的顺利进行和诊断的准确性。医疗RAG大模型生成：Self-Reasoning 自我推理（s e l f - r e a s o n i n g）在的在R A G应用的具体例子对于绝经后无症状的子宫内膜息肉患者，宫腔镜手术明确诊断的手术时机和具体方法是什么？ TAP阶段(TrajectoryAnalysis Process) response:对于绝经后无症状的子宫内膜息肉患者，宫腔镜手术明确诊断的步骤如下：\n1.**宫腔镜子宫内膜息肉去除术**：这是治疗的“金标准”手术，对有症状的绝经后患者执行该手术时，需要并行组织病理学评估[1]。\n2.**手术时机**：手术应在月经干净后的2~7天内进行，以获得最清晰的手术视野，尽量避免经前期[3]。如果月经周期无性生活或者因月经期延长就诊，可以在月经第7天后考虑手术。对于无规律月经的患者，血净后即可考虑手术。如果存在不可控出血，可以进行急诊手术[3]。医疗RAG大模型生成：Self-Reasoning 相同模型参数架构下，推理速度性能相当的情况下取得SoTA效果（e.g. Self-RAG）百亿参数模型配置下性能接近GPT-4水平医疗RAG大模型生成：Self-Reasoning 医疗RAG大模型生成：Reflection（pre）医疗RAG大模型生成：Reflection（I）问题对于肺部磨玻璃样结节，胸部高分辨率CT（HRCT）在诊断中扮演什么角色，其相较于其他影像学检查方法有何优势？ [1]...影像学检查，2.胸部CT:是当前肺癌诊断、分期、疗效评价及治疗后随访中最重要和最常用的影像检查方法，具有更高的分辨率，可检出肺部微小病灶和普通X线胸片难以显示部位的病变。(1)低剂CT(low-dose computedtomography,LDCT)可以有效地发现早期肺癌，已经取代胸部X线成为敏感的... 证据医疗RAG大模型生成：Reflection (II) 基于大模型反思（Reflection）构建RAG评估体系问题对于肺部磨玻璃样结节，胸部高分辨率CT（HRCT）在诊断中扮演什么角色，其相较于其他影像学检查方法有何优势？证据 [1]...影像学检查，2.胸部CT:是当前肺癌诊断、分期、疗效评价及治疗后随访中最重要和最常用的影像检查方法，具有更高的分辨率，可检出肺部微小病灶和普通X线胸片难以显示部位的病变。(1)低剂CT(low-dose computedtomography,LDCT)可以有效地发现早期肺癌，已经取代胸部X线成为敏感的... 答案修正 ...-**薄层重建**：HRCT采用薄层扫描及高分辨率算法重建图像，能够更准确地评估磨玻璃样结节的形态学特征，如边缘、内部密度等，有助于良恶性的鉴别诊断[1]。 -**辐射剂量较低**：尽管HRCT提供了更高的图像分辨率，但通过优化扫描参数，可以相对减少辐射剂量，降低对患者的潜在风险[1]。 RAG医疗实践和应用医疗大模型实践和应用灵医大模型：针对100+医疗健康场景精心打磨公立医院医药企业药店/诊所互联网医疗内外无缝协作、精准学术推广、促进流通强化店员专业能力，提升质量增加复购患者线上便捷就诊、专业问答、温暖服务医生工作提效、专业助手 •问答机器人•药代培训助手•异议处理•企业级内容管理•患者服务…… •虚拟店员•店员培训•用药咨询•处方审核及质控辅助诊疗•知识服务…… •知识问答•智能导诊•预问诊•智能客服•综合患者服务…… •辅助诊疗•草拟病历生成•智慧科研 •智能导诊•预问诊•智能客服•健康/用药咨询•数字人健康宣教…… 医疗大模型实践和应用 RAG医疗实践和应用：面向药企-咨询（1）基于客户领域数据库数据进行解析和检索提供企业级咨询问答服务定位为药企、院端文档和数据库管理+智能解析&智能问答 RAG医疗实践和应用：面向药企-咨询（2） Query：James-Lange情绪理论是什么？其核心观点是什么？ RAG医疗实践和应用：面向药械-AI药师（1）在不改变现有流程的前提下，充分利用AIGC技术，依托各类线上零售平台客服系统，辅助线上药师进行问答，为网购客户提供及时、专业的线上客服服务，覆盖流程答复、智能推荐等功能，语义理解能力更强，对话更加亲近，加强咨询转化 RAG医疗实践和应用：面向药械-AI药师（2）原始旧版药品说明书适应症为12岁儿童原始response:**速福达5岁小孩不可以吃**。请严格遵循医嘱或说明书以免影响药效或者增加副作用。医学知识内容过时导致错误 RAG医疗实践和应用：面向药械-AI药师（3）由于多篇证据聚合导致RAG模型输出“幻觉” 原始response:湿疹是一种常见的皮肤病，婴幼儿尤其多见。\n(a)肤乐霜：温和无刺激，适合婴幼儿湿疹，可缓解红肿、瘙痒。\n(b)艾洛松：抗菌消炎，适用于湿疹引发的皮肤炎症。\n以上推荐的药物仅供参考，请您用药时以医生或药师的专业意见为准。1 大模型聚合答案产生”幻觉“ 原始回答反思过程:{\n"思考过程": "根据参考证据，肤乐霜适用于婴幼儿湿疹的治疗，并能缓解相关症状，这与参考答案中的描述相符。然而，艾洛松软膏虽具有治疗湿疹等皮肤病的效果，但证据明确指出其不适合婴幼儿使用。因此，答案(b)中关于艾洛松的推荐存在问题。","结论": "答案(b)中关于艾洛松的推荐不准确，因为艾洛松软膏不宜用于婴幼儿。",\n"问题药品": "艾洛松"} 哪种湿疹膏适合婴幼儿？改写response:湿疹是一种常见的皮肤病，婴幼儿尤其多见。肤乐霜：温和无刺激，适合婴幼儿湿疹，可缓解红肿、瘙痒。以上推荐的药物仅供参考，请您用药时以医生或药师的专业意见为准。）最终回答 THANKS 智能未来，探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI

点击免费查看完整报告