行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

DeepSeek快速入门指北

2025-04-18 顶刊研习社邓轶韬

DeepSeek快速入门指北Top Journal Club顶刊研习社(医生版)

关于Deepseek

Deepseek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。Deepseek问世后Nature连发3篇DeepSeek文章，引发全球关注。DeepSeek应用界面包括提问界面和回复结果界面。

AIGC与大型语言模型

AIGC即人工智能生成内容，是继PGC和UGC之后的新型内容创作方式。AIGC的发展历程分为早期萌芽阶段（1950s-1990s）、沉淀累积阶段（1990s-2010s）和快速发展阶段（2010-至今）。大语言模型（LLMs）是基于深度学习和人工智能技术构建的具有巨大参数量和复杂结构的自然语言处理模型。大语言模型能干工作包括工作助手、教学工具、写论文、翻译、润色、诊断、写病历等。医学中大型语言模型的伦理和监管挑战包括数据隐私、知情同意、患者安全、学术不端、算法偏见等。

DeepSeek简介

DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用，降低了使用门槛。DeepSeek可以做什么？包括智能对话、文本生成、语义理解、计算推理、代码生成补全等。DeepSeek功能包括文本生成、自然语言理解与分析、编程与代码相关、常规绘图等。

DeepSeek和其他模型比较

DeepSeek在中文语境下表现优于GPT-4，英文任务表现优异，推理与逻辑能力超越GPT-4，计算效率高。DeepSeek和其他模型精度比较显示，DeepSeek在人类终极考试中准确率突破26.6%。

DeepSeek存在的缺点

DeepSeek的输出结果可能存在一定的误差和不准确之处，联网搜索的局限性，对用户提问的要求较高，数据隐私和安全问题，知识库构建的难度，对复杂问题的理解能力有限，可能存在的算法偏差等。

如何使用DeepSeek

Deepseek下载方式包括网页版、手机APP、本地配置部署等。推理模型与通用模型优劣对比显示，推理模型在逻辑密度高的任务中表现更强，通用场景更灵活。CoT链式思维将大模型分为概率预测模型和链式推理模型。概率预测与链式推理优劣对比显示，概率预测模型适合快速反馈处理即时任务，链式推理模型适合解决复杂的问题。Deepseek应用功能包括编程与代码相关、常规绘图、自然语言理解与分析、文本生成等。DeepSeek三种模式的适配性包括基础模型V3、深度思考R1和联网搜索RAG。

DeepSeek在医学领域的应用场景

DeepSeek在医学领域的应用场景包括临床应用场景（如病例助手）、科研利器（如科研数据分析、文献整理、论文润色）、医学科普新机遇（如复杂知识简化、案例生成、在线答疑、个性化科普）、医疗知识检索（如DeepSeek+Pubmed、DeepSeek+Zotero、DeepSeek+Mermaid）等。

临床科研的AI赋能

DeepSeek如何为医学科研按下“快进键”？包括加速药物研发、提升临床决策、优化资源管理、推动科研范式转型等。DeepSeek背后的“未解之谜”包括跨学科协作壁垒、临床验证与政策适配等。未来展望包括技术创新推动（多模态融合、自进化系统构建、具身智能探索）和生态共建路径（产学研合作、开源社区赋能）。

医生个人品牌建设

医生个人品牌建设在Deepseek时代至关重要。精准定位找到不可替代的“标签”，内容为王用专业+共情赢得信任，全域布局高效占领流量入口，互动沉淀从流量到信任的转化。

医学科普的AI助力

DeepSeek的核心优势包括精准信息提取、交互式内容生成、多模态输出能力等。DeepSeek如何解决具体问题包括选题策划、内容创作、患者教育、舆情应对、多平台运营、效果评估等。释放DeepSeek的隐藏潜力包括知识库定制、指令工程优化、合规性与伦理保障等。避开AI科普的三大雷区包括准确性陷阱、人性化缺失、版权风险等。AI与医者的共生进化包括个体化科普、实时更新、人机协作等。

医护人员的实用指南

DeepSeek解锁双重模式包括基础模型V3和深度思考R1。提问的黄金法则包括提供背景、设定难度、指定格式、明确目的等。联网搜索的使用技巧包括明确时间范围、要求信息验证、提供可靠来源建议等。文风转换的魔法、问题解决、激发深度思考等也是重要技巧。

风险与挑战

AI不是神医，存在数据质量问题、疾病复杂性挑战、现实场景差异等。比医患关系更复杂，存在责任界定、隐私泄露、算法歧视等风险。当AI变成"电子算命”时，存在人机信任危机、公众认知错乱、医生能力退化等风险。摸着石头过河，存在认证标准打架、知识产权乱局、灰色产业链风险等。

幻觉是什么？

幻觉是指模型生成的内容与可验证的现实世界事实不一致或与用户的指令或上下文不一致。幻觉产生的原因包括数据偏差、泛化困境、知识固化、意图误解等。幻觉的危害包括信息污染风险、信任危机、控制欠缺、安全漏洞等。

AI幻觉评测

DeepSeekV3和DeepSeekR1的幻觉率分别为29.67%和22.33%。事实性幻觉评测显示，DeepSeekV3>Qianwen2.5-Max>DeepSeekR1>豆包。推理与幻觉的关系显示，推理能力强的模型能减少因逻辑错误导致的幻觉。

普通用户应对AI幻觉的三种方式

普通用户应对AI幻觉的三种方式包括联网搜索、双AI验证/大模型协作、提示词工程等。提示词工程包括知识边界限定（时间锚定法、知识锚定法、置信度声明、生成参数协同控制）和对抗性提示（植入反幻觉检测机制、预设验证条件、链式验证）。

应对AI幻觉的技术方案

应对AI幻觉的技术方案包括外部知识库结合、RAG框架利用、精细训练、评估工具开发等。

未来展望

AI技术将在药物研发和临床诊断中全面渗透，精准医疗与个性化治疗将成为趋势。数字医疗与远程医疗的爆发包括区块链技术的应用、可穿戴设备与实时监测、远程医疗的普及等。老龄化与疾病谱变迁包括从治疗到预防的转型、慢性疾病的管理等。医疗器械的创新与出海、医疗行业的智能化与数据安全、医疗行业的社会影响与伦理规范等也是未来趋势。

结语与互动

掌握工具者赢得未来。在信息爆炸的时代，DeepSeek为医学提供了“精准化生产-智能化分发-数据化迭代”的全链条解决方案。未来学科划分将简化为两大方向：优化和提升人工智能的能力，以及人类如何驾驭人工智能/机器。

(医生版) G E T T I N GS T A R T E DG U I D E 毛智maozhi@126.com Top Journal Club顶刊研习社关于Deepseek Deepseek问世后Nature连发3篇DeepSeek文章 Deepseek应用界面 Deepseek应用界面 Deepseek提问生成缺点追问后，服务器忙 DeepSeek在医学领域的应用场景DeepSeek简介临床科研的AI赋能医生个人品牌建设医护人员的实用指南医学科普的AI助力风险与挑战未来展望 CONCENTS目录顶刊研习社 PART 01DeepSeek简介 AIGC（Artificial Intelligence Generated Content） AIGC，即人工智能生成内容（Artificial Intelligence Generated Content），是继专业生产内容（PGC，Professional-generated Content）、用户生产内容（UGC，User-generated Content）之后的新型内容创作方式。 AIGC的发展历程早期萌芽阶段 (1950s-1990s）由于技术限制，AIGC仅限于小范围实验与应用。 1957年出现首支电脑创作的音乐作品，弦乐四重奏《依利亚克组曲》。这一时期，高成本及难以商业化导致资本投入有限，AIGC无较多较大成绩。 AIGC的发展历程沉淀累积阶段 (1990s-2010s）AIGC从实验性转向实用性。 2006年深度学习算法取得进展，同时GPU、CPU等算力设备日益精进，互联网快速发展，为各类人工智能算法提供海量数据进行训练。 2007年首部人工智能装置完成的小说《在路上》问世2012年微软展示全自动同声传译系统，主要基于“深度神经网络”自动将英文讲话内容通过语音识别等技术生成中文。 AIGC的发展历程快速发展阶段 2010-至今,深度学习模型不断迭代，AIGC取得突破性进展。尤其在2022年，算法获得井喷式发展，底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域：2014年6月，生成式对抗网络 (Generative Adversarial Network，GAN）被提出。 2021年2月，OpenAI推出了CLIP（Contrastive Language-ImagePre-Training）多模态预训练模型。 2022年，扩散模型Diffusion Model逐渐替代GAN。什么是大语言模型（large language models) 大语言模型（Large Language Model）是指基于深度学习和人工智能技术构建的具有巨大参数量和复杂结构的自然语言处理模型。这种模型可以通过对大规模文本数据进行训练，学习并理解自然语言的语法、语义和上下文信息，从而生成具有逼真性和连贯性的文本。大语言模型在各种自然语言处理任务中表现出色，包括机器翻译、文本生成、问答系统等。近年来，随着计算能力的提升和模型架构的不断优化，大语言模型在人工智能领域的应用得到了广泛关注和应用。大语言模型能干什么？ ·工作助手·教学工具·写论文、翻译、润色·回复审稿专家·做PPT·诊断·写病历医学中大型语言模型的伦理和监管挑战大语言模型文献阅读提示语请你按照以下大纲分别整理这些论文，每整理完一篇，你都可以问我是否继续: 一、基本信息记录四、文献综述与理论框架 1.文献回顾:梳理作者对该领域前人研究成果的评述和引用。2.理论依据:记录论文基于的理论、模型或假设。 1.论文标题:记录完整的论文标题。2.作者与合著者:列出所有作者及其所属机构。3.发表期刊/会议:注明论文发表的具体期刊名称、卷期号、页码，或者会议全称、年份及地点。4.发表时间:记录论文的出版年份。5.DOI/URL:如果有DOI号或者网页链接，确保记录下来便于后期查找。五、研究方法与设计 1.研究方法:详述论文所采用的研究方法和技术路线。2.数据来源与处理:记录数据收集方式、样本量、数据处理和分析方法。六、研究结果与分析二、摘要与关键词 1.主要结果:摘录关键数据、图表及其解释。2.结果讨论:记录作者对研究结果的解读、比较和分析。 1.摘要摘录:简要概述论文的主旨内容，包括研究的目的、方法、主要结果和结论2.关键词:列出论文中使用的关键词或主题词。七、结论与创新点 1.研究结论:归纳论文得出的主要结论。2.创新点与贡献:明确指距论文在理论或实践上的创新之处。三、研究背景与目的 1.研究背景:记录作者为何开展这项研究，涉及的领域现状，存在的问题或空白2.研究目的:明确论文试图解答的问题或达到的目标 1.研究局限:记录作者提及的研究局限和不足之处2.未来研究方向:整理作者对未来工作的建议或展望。大语言模型(LLMs)用于电子健康记录(EHR)存在的问题 •EHR与LLMs应用现状： •电子健康记录改变医疗实践，医生在电脑记录与查阅上耗时多，引发职业倦怠等问题。 •LLMs因能处理和生成类人文本，在医疗领域应用广泛，从信息处理到复杂诊断推荐都有涉及，虽部分医生认为用于复杂任务风险高，但信息处理任务被视为低风险，受医生和医疗机构关注。内容来源：N Engl J Med. 2024 Oct 31;391(17):1561-1564. 大语言模型(LLMs)用于电子健康记录(EHR)存在的问题 •LLMs用于EHR的风险： •一、降低病历信息质量，存在虚构内容风险，影响信息准确性，且即便无错误也可能降低信息价值； •二、削弱临床推理，记录病历是临床推理的重要部分，使用LLMs可能破坏这一过程； •三、阻碍未来AI模型发展，若病历信息不准确，会影响LLMs在决策支持等方面的应用； •四、固化EHR现状，EHR供应商可能仅将LLMs用于维持现有系统，而非创新改进。内容来源：N Engl J Med. 2024 Oct 31;391(17):1561-1564. 5种大语言模型(LLMs)在重症监护问题上的评估研究这篇论文（右图）通过对5种大语言模型（LLMs）在重症监护问题上的评估研究： 1.高准确率和一致性：所有测试的LLMs在回答欧洲重症监护考试水平的问题时，都展现出较高的准确率和一致性。在实践考试中，5种模型里有4种表现优于人类医生，这表明LLMs在重症监护领域有潜在的应用价值。 2.模型性能差异：GPT-4o在准确率和一致性方面表现最佳，但它也是成本最高的模型，意味着更高的能源消耗。而GPT-4o-mini虽然准确率比GPT-4o低10.3%，但成本极低，在平衡能源消耗和性能方面效率最高。 3.局限性与安全隐患：所有模型都存在始终给出错误答案的情况，这在重症监护这种高风险领域中会引发严重的安全问题。因此，在临床环境中使用LLMs之前，需要进行更全面、持续的评估，尤其是关注其临床推理能力，以确保安全、合理地应用。 LLMs生成可读的ICU住院总结对比从ICU患者文本记录中提取关键信息并生成出院总结(ChatGPT、GPT-4 API和Llama 2)(如图) LLMs能生成可读的ICU住院总结，GPT-4 API表现最佳，但在临床广泛应用前需进一步优化，确保准确记录所有临床有意义的事件。幻觉的检测：语义熵方法语义熵方法能检测出因LLM知识缺乏导致的重要一类幻觉，无需领域知识，有望应用于其他自然语言处理任务。但该方法不能解决LLM因训练目标导致的系统性错误问题，未来可扩展到更多输入变化场景，为LLM的可靠应用提供支持。文章：使用语义熵检测大型语言模型中的幻觉大语言模型在临床决策中的不足基于MIMIC-IV数据库，构建了含2400例真实患者病例、4种常见腹部疾病的MIMIC-CDM数据集，并设计模拟临床环境的评估框架。研究对Llama 2等多种开源LLMs进行测试，发现它们在诊断准确性上显著逊于临床医生，且存在不遵循诊断和治疗指南、难以正确解释实验室结果、指令遵循能力差等问题。这表明当前LLMs不适合自主临床决策，研究提供的数据集和框架能为后续研究提供方向。结论：无法准确诊断所有疾病，诊断表现显著逊于医生，也不能遵循诊断和治疗指南，还无法解释实验室结果。此外，其难以融入现有工作流程，因为经常不遵循指令，对患者健康构成严重风险。医疗大语言模型的风险：易受有毒数据的攻击研究结果： 1.网络规模数据集包含易受攻击的医学信息：在ThePile数据集中，27.4%的医学概念存在于易受数据中毒攻击的子集，如Common Crawl。 2.数据中毒对模型的影响：仅用0.001%的错误信息替换训练数据，模型生成有害内容的频率就显著增加；中毒模型在基准测试中的表现与未中毒模型相当，现有基准测试无法检测数据中毒。 3.知识图谱检测错误信息的性能：基于知识图谱的防御算法能有效检测中毒模型生成文本中的错误信息，F1分数达85.7%，召回率91.9%。内容来源：Nat Med. 2025 Feb;31(2):618-626. CKLE架构文章提出CKLE框架，通过从大语言模型中提取跨模态知识并学习多模态电子健康记录，解决LLM应用于健康事件预测的挑战，在心力衰竭和高血压预测任务上超越基线模型，且在有限标签数据下表现良好，还能挖掘重要医学特征。 CKLE架构（Contrastive Knowledge distillation based onLanguage model Embeddings），是一种用于健康事件预测的框架。该框架旨在解决利用大语言模型（LLM）进行健康事件预测时面临的挑战，有效整合LLM知识和多模态电子健康记录（EHR）数据。内容来源：Sci Rep. 2024 Dec 28;14(1):30675. 大语言模型(LLMs)的训练过程大语言模型（LLMs）的训练过程主要包括预训练（Pretraining）、微调（Fine-tuning）和提示学习（Prompting）三个阶段： •预训练阶段：利用无标签数据（Unlabeled data）和专有数据（Proprietary data），通过自监督学习（Self-supervisedlearning）的方式，在没有人类参与的情况下训练基础模型（Base model）。这个阶段让模型学习到通用的语言知识和模式。 •微调阶段：引入了人类反馈学习（Human feedback learning），使用特定的窄数据集（Narrow datasets）对基础模型进行进一步训练，使其更适应特定的任务和领域。这个过程中有人类参与，通过给予反馈来优化模型，得到微调模型（Fine-tuned model）。 •提示学习阶段：通过间接和直接提示（Indirect and direct prompts），结合具有专业知识的人类参与，对微调模型进行提示学习（Prompt-based learning），最终得到增强模型（Augmented model）。这个阶段能让模型更好地响应各种具体的指令和问题。通用大语言模型和生物医学大语言模型（Biomedical LLMs）（General-Purpose LLMs）通用大语言模型：图左侧区域呈现，包括Claude（175B）、GPT-3（175B）、Vicuna（13B）等。圆圈大小代表模型的参数规模，不同颜色标识模型的研发主体，如GPT来自OpenAI。这些模型适用于广泛领域，但并非专为医学定制。生物医学大语言模型：图右侧区域呈现，像BioGPT-Large（1.5B）、BioMedLM（2.7B）等。部分模型标注了训练数据来源，如BioBERT基于学术论文训练，Clin

点击免费查看完整报告

DeepSeek快速入门指北