您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [顶刊研习社]:DeepSeek快速入门指北 - 发现报告

DeepSeek快速入门指北

2025-04-18 顶刊研习社 邓轶韬
报告封面

(医生版) G E T T I N GS T A R T E DG U I D E 毛智maozhi@126.com Top Journal Club顶刊研习社 关于Deepseek Deepseek问世后Nature连发3篇DeepSeek文章 Deepseek应用界面 Deepseek应用界面 Deepseek提问生成缺点 追问后,服务器忙 DeepSeek在医学领域的应用场景DeepSeek简介临床科研的AI赋能医生个人品牌建设医护人员的实用指南医学科普的AI助力风险与挑战未来展望 CONCENTS目录 顶刊研习社 PART 01DeepSeek简介 AIGC(Artificial Intelligence Generated Content) AIGC,即人工智能生成内容(Artificial Intelligence Generated Content),是继专业生产内容(PGC,Professional-generated Content)、用户生产内容(UGC,User-generated Content)之后的新型内容创作方式。 AIGC的发展历程 早期萌芽阶段 (1950s-1990s)由于技术限制,AIGC仅限于小范围实验与应用。 1957年出现首支电脑创作的音乐作品,弦乐四重奏《依利亚克组曲》。 这一时期,高成本及难以商业化导致资本投入有限,AIGC无较多较大成绩。 AIGC的发展历程 沉淀累积阶段 (1990s-2010s)AIGC从实验性转向实用性。 2006年深度学习算法取得进展,同时GPU、CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供海量数据进行训练。 2007年首部人工智能装置完成的小说《在路上》问世2012年微软展示全自动同声传译系统,主要基于“深度神经网络”自动将英文讲话内容通过语音识别等技术生成中文。 AIGC的发展历程 快速发展阶段 2010-至今,深度学习模型不断迭代,AIGC取得突破性进展。 尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。 其中主要集中在AI绘画领域:2014年6月,生成式对抗网络 (Generative Adversarial Network,GAN)被提出。 2021年2月,OpenAI推出了CLIP(Contrastive Language-ImagePre-Training)多模态预训练模型。 2022年,扩散模型Diffusion Model逐渐替代GAN。 什么是大语言模型(large language models) 大语言模型(Large Language Model) 是指基于深度学习和人工智能技术构建的具有巨大参数量和复杂结构的自然语言处理模型。 这种模型可以通过对大规模文本数据进行训练,学习并理解自然语言的语法、语义和上下文信息,从而生成具有逼真性和连贯性的文本。 大语言模型在各种自然语言处理任务中表现出色,包括机器翻译、文本生成、问答系统等。 近年来,随着计算能力的提升和模型架构的不断优化,大语言模型在人工智能领域的应用得到了广泛关注和应用。 大语言模型能干什么? ·工作助手·教学工具·写论文、翻译、润色·回复审稿专家·做PPT·诊断·写病历 医学中大型语言模型的伦理和监管挑战 大语言模型文献阅读提示语 请 你 按 照 以 下 大 纲 分 别 整 理 这 些 论 文,每 整 理 完 一 篇,你 都 可 以 问 我 是 否 继 续: 一、基本信息记录 四、文献综述与理论框架 1.文献回顾:梳理作者对该领域前人研究成果的评述和引用。2.理论依据:记录论文基于的理论、模型或假设。 1.论文标题:记录完整的论文标题。2.作者与合著者:列出所有作者及其所属机构。3.发表期刊/会议:注明论文发表的具体期刊名称、卷期号、页码,或者会议全称、年份及地点。4.发表时间:记录论文的出版年份。5.DOI/URL:如果有DOI号或者网页链接,确保记录下来便于后期查找。 五、研究方法与设计 1.研究方法:详述论文所采用的研究方法和技术路线。2.数据来源与处理:记录数据收集方式、样本量、数据处理和分析方法。 六、研究结果与分析 二、摘要与关键词 1.主要结果:摘录关键数据、图表及其解释。2.结果讨论:记录作者对研究结果的解读、比较和分析。 1.摘要摘录:简要概述论文的主旨内容,包括研究的目的、方法、主要结果和结论2.关键词:列出论文中使用的关键词或主题词。 七、结论与创新点 1.研究结论:归纳论文得出的主要结论。2.创新点与贡献:明确指距论文在理论或实践上的创新之处。 三、研究背景与目的 1.研究背景:记录作者为何开展这项研究,涉及的领域现状,存在的问题或空白2.研究目的:明确论文试图解答的问题或达到的目标 1.研究局限:记录作者提及的研究局限和不足之处2.未来研究方向:整理作者对未来工作的建议或展望。 大语言模型(LLMs)用于电子健康记录(EHR)存在的问题 •EHR与LLMs应用现状: •电子健康记录改变医疗实践,医生在电脑记录与查阅上耗时多,引发职业倦怠等问题。 •LLMs因能处理和生成类人文本,在医疗领域应用广泛,从信息处理到复杂诊断推荐都有涉及,虽部分医生认为用于复杂任务风险高,但信息处理任务被视为低风险,受医生和医疗机构关注。 内容来源:N Engl J Med. 2024 Oct 31;391(17):1561-1564. 大语言模型(LLMs)用于电子健康记录(EHR)存在的问题 •LLMs用于EHR的风险: •一、降低病历信息质量,存在虚构内容风险,影响信息准确性,且即便无错误也可能降低信息价值; •二、削弱临床推理,记录病历是临床推理的重要部分,使用LLMs可能破坏这一过程; •三、阻碍未来AI模型发展,若病历信息不准确,会影响LLMs在决策支持等方面的应用; •四、固化EHR现状,EHR供应商可能仅将LLMs用于维持现有系统,而非创新改进。 内容来源:N Engl J Med. 2024 Oct 31;391(17):1561-1564. 5种大语言模型(LLMs)在重症监护问题上的评估研究 这篇论文(右图)通过对5种大语言模型(LLMs)在重症监护问题上的评估研究: 1.高准确率和一致性:所有测试的LLMs在回答欧洲重症监护考试水平的问题时,都展现出较高的准确率和一致性。在实践考试中,5种模型里有4种表现优于人类医生,这表明LLMs在重症监护领域有潜在的应用价值。 2.模型性能差异:GPT-4o在准确率和一致性方面表现最佳,但它也是成本最高的模型,意味着更高的能源消耗。而GPT-4o-mini虽然准确率比GPT-4o低10.3%,但成本极低,在平衡能源消耗和性能方面效率最高。 3.局限性与安全隐患:所有模型都存在始终给出错误答案的情况,这在重症监护这种高风险领域中会引发严重的安全问题。因此,在临床环境中使用LLMs之前,需要进行更全面、持续的评估,尤其是关注其临床推理能力,以确保安全、合理地应用。 LLMs生成可读的ICU住院总结对比 从ICU患者文本记录中提取关键信息并生成出院总结(ChatGPT、GPT-4 API和Llama 2)(如图) LLMs能生成可读的ICU住院总结,GPT-4 API表现最佳,但在临床广泛应用前需进一步优化,确保准确记录所有临床有意义的事件。 幻觉的检测:语义熵方法 语义熵方法能检测出因LLM知识缺乏导致的重要一类幻觉,无需领域知识,有望应用于其他自然语言处理任务。但该方法不能解决LLM因训练目标导致的系统性错误问题,未来可扩展到更多输入变化场景,为LLM的可靠应用提供支持。 文章:使用语义熵检测大型语言模型中的幻觉 大语言模型在临床决策中的不足 基于MIMIC-IV数据库,构建了含2400例真实患者病例、4种常见腹部疾病的MIMIC-CDM数据集,并设计模拟临床环境的评估框架。 研究对Llama 2等多种开源LLMs进行测试,发现它们在诊断准确性上显著逊于临床医生,且存在不遵循诊断和治疗指南、难以正确解释实验室结果、指令遵循能力差等问题。 这表明当前LLMs不适合自主临床决策,研究提供的数据集和框架能为后续研究提供方向。 结论:无法准确诊断所有疾病,诊断表现显著逊于医生,也不能遵循诊断和治疗指南,还无法解释实验室结果。此外,其难以融入现有工作流程,因为经常不遵循指令,对患者健康构成严重风险。 医疗大语言模型的风险:易受有毒数据的攻击 研究结果: 1.网络规模数据集包含易受攻击的医学信息:在ThePile数据集中,27.4%的医学概念存在于易受数据中毒攻击的子集,如Common Crawl。 2.数据中毒对模型的影响:仅用0.001%的错误信息替换训练数据,模型生成有害内容的频率就显著增加;中毒模型在基准测试中的表现与未中毒模型相当,现有基准测试无法检测数据中毒。 3.知识图谱检测错误信息的性能:基于知识图谱的防御算法能有效检测中毒模型生成文本中的错误信息,F1分数达85.7%,召回率91.9%。 内容来源:Nat Med. 2025 Feb;31(2):618-626. CKLE架构 文章提出CKLE框架,通过从大语言模型中提取跨模态知识并学习多模态电子健康记录,解决LLM应用于健康事件预测的挑战,在心力衰竭和高血压预测任务上超越基线模型,且在有限标签数据下表现良好,还能挖掘重要医学特征。 CKLE架构(Contrastive Knowledge distillation based onLanguage model Embeddings),是一种用于健康事件预测的框架。该框架旨在解决利用大语言模型(LLM)进行健康事件预测时面临的挑战,有效整合LLM知识和多模态电子健康记录(EHR)数据。 内容来源:Sci Rep. 2024 Dec 28;14(1):30675. 大语言模型(LLMs)的训练过程 大语言模型(LLMs)的训练过程 主要包括预训练(Pretraining)、微调(Fine-tuning)和提示学习(Prompting)三个阶段: •预训练阶段:利用无标签数据(Unlabeled data)和专有数据(Proprietary data),通过自监督学习(Self-supervisedlearning)的方式,在没有人类参与的情况下训练基础模型(Base model)。这个阶段让模型学习到通用的语言知识和模式。 •微调阶段:引入了人类反馈学习(Human feedback learning),使用特定的窄数据集(Narrow datasets)对基础模型进行进一步 训练,使其更适应特定的任务和领域。这个过程中有人类参与,通过给予反馈来优化模型,得到微调模型(Fine-tuned model)。 •提示学习阶段:通过间接和直接提示(Indirect and direct prompts),结合具有专业知识的人类参与,对微调模型进行提示学习(Prompt-based learning),最终得到增强模型(Augmented model)。这个阶段能让模型更好地响应各种具体的指令和问题。 通用大语言模型和生物医学大语言模型 (Biomedical LLMs) (General-Purpose LLMs) 通用大语言模型:图左侧区域呈现,包括Claude(175B)、GPT-3(175B)、Vicuna(13B)等。圆圈大小代表模型的参数规模,不同颜色标识模型的研发主体,如GPT来自OpenAI。这些模型适用于广泛领域,但并非专为医学定制。 生物医学大语言模型:图右侧区域呈现,像BioGPT-Large(1.5B)、BioMedLM(2.7B)等。部分模型标注了训练数据来源,如BioBERT基于学术论文训练,Clin