您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[摩熵咨询]:基于AI大模型的医药知识工程系统部署方案 - 发现报告

基于AI大模型的医药知识工程系统部署方案

医药生物2025-04-27摩熵咨询林***
AI智能总结
查看更多
基于AI大模型的医药知识工程系统部署方案

基 于A I大 模 型 的 医 药 知 识 工 程 系 统 部 署 方 案V 1 . 0 背景介绍01020304大模型技术系统构成摩熵基础部署方案05 CONTENT 2025开工,多个头部生物医药企业和医院拥抱AI 国内生物医药领先企业复星医药发布PharmAID决策智能体平台 基于PharmAID决策智能体平台,并已率先接入DeepseekR1,复星医药正加速推进“药物商业价值辅助决策”的能力建设。此外,复星在药物研发、医学影像、精准医疗等领域进行了AI布局,提升研发效率,通过技术创新推动医药行业的变革与发展。同时,还将进一步加速推动AI技术在营销、客户服务、智能办公等方面的深入应用,以AI技术提质增效,促进企业管理效率的提升。 国内生物医药公司东阳光发布《集团全员拥抱AI,落实场景应用》 东阳光药已将DeepSeek大模型全面接入HEC-Finder平台,充分释放AI在文献专利智能应用的潜能在不断优化模型的同时,集团也全力推进AI工具在办公、生产、销售等各业务环节进行深入应用 全球生物医药巨头拜耳2024年在公司内部上线生成式人工智能助手 1.多模态AI模型集成 支持与多种先进AI模型(如OpenAI的ChatGPT、Llama、Mistral等)交互,并基于微软Azure云平台构建安全合规的AI工具环境。 2.专业数据与知识管理-接入企业内部专业数据库,支持实时获取最新行业资讯与医学文献。-提供文档智能分析功能,帮助员工快速整理和提取关键信息。 3.创意与内容生成-辅助生成市场分析报告、医学文献草稿及合规文本输出。 -支持AI虚拟人互动,提升客户服务与内部培训效率。 4.工作流程优化 -通过API连接企业各领域工程平台,实现跨系统任务自动化处理。-简化审批流程(如差旅申请)、自动生成会议纪要等重复性工作。 5.技能提升与决策支持-为员工提供个性化学习路径和项目参与建议,促进技能发展。 -在药物研发中辅助科学家优化临床试验设计,加速创新成果转化。 该平台是拜耳数字化转型的核心工具,旨在提升员工效率并推动“人工智能驱动型企业”建设。 一起来学习-推荐参考资料 微信视频号:浙江大学AI教育教学研究中心 直接回放:爱玩单词接龙的大模型(上、下) B站:浙江大学AI教研中心 诺奖后谈AI-人工智能通识课程系列直播公开课(1~8期) B站搜索:浙江大学胡浩基机器学习和刘知远团队大模型公开课(OpenBMB) 《动手学深度学习》https://zh.d2l.ai/免费的权威在线课本和视频 背景介绍01020304大模型技术系统构成摩熵基础部署方案05 CONTENT 背景:生命科学+数据要素+人工智能,持续火热 BT:生命科学被全球一致认可为人类科技创新的重要领域,永远的朝阳产业; DT:数据要素-数据交易所-数据20条-国家数据局-数据资产-国家数据集团; AI:2022年ChatGPT横空出世,2024年DeepSeek重大突破,人工智能技术掀起全球热潮; 背景:AI+生命科学产业赛道概况 OpenAI和DeepSeek加速了大模型产业向各垂直领域细分落地,并降低了成本 背景介绍:生成式人工智能-深度学习的核心-神经网络 背景介绍:大语言模型的核心基础-Transformer Transformer优势是应用于在文本数据上的序列到序列学习 (Self-Attention),在考虑上下文关系情况下,通过概率进行完形填空或往下造句 现已经推广到多种深度学习中,如语言、视觉、语音和强化学习等 BERT-完形填空(MLM) 背景介绍:Transformer拓展生物基因和蛋白的大语言模型方法 DNA-BERT DNA-GPT https://www.biorxiv.org/content/10.1101/2023.07.11.548628v1 https://doi.org/10.1101/2023.07.11.548628 MegaDNA 1.5亿参数-噬菌体基因序列 EvoDNA 70亿参数原核生物-噬菌体基因序列 背景介绍:生命科学+大模型核心难点多模态进阶 背景介绍:AI已是确定性的生产力革命,将为生物医药行业带来颠覆性变化为什么是现在? 从2017年Google提出Transformer,到2022年11月OpenAI发布ChatGPT,到2025年1月深度求索开源DeepSeekR1;随着AI大模型能力的提升、成本的降低,实现了技术平权,现在有了更多的解决方案和应用开发; AI带来的智能革命的影响力高于个人PC,等于或大于互联网——谷歌前CEO-埃里克·施密特 大语言模型是当前AI领域的明珠,DeepSeek的出现为其普惠奠定了基石 开源:免费可得全球第一梯队AI基础模型 开源使得企业可以接入大语言模型,探索更多的应用场景 大语言模型在生物医药全生命周期的使用场景 大语言模型在生物医药行业应用实例——立项 药品信息 上市情况 专利布局 竞争格局 市场潜力 司美格鲁肽的药品信息以及其在全球的上市情况是? 原研布局的专利,以表格列出 国内市场预测 大语言模型作为立项助 手 , 通 过 与 专 家 的数 轮 对 话 辅 助 立 项 调研 , 可 以 提 升 立 项 的效率和质量。 大语言模型在生物医药行业应用实例——研发 泽布替尼的制剂工艺是? 作为生物医药研发人员,工作中涉及到大规模的文献查询和专利检索,需要在各类不同源的数据库中查询、对比和分析,还需要高频使用生信、AIDD、CADD等各种工具,使用这些工具都需要较高的学习成本,而且难以与专家知识进行有效的互动融合。大语言模型通过自然语言交互的方式,将专家知识模型参数化,更好的辅助专家获取知识、查询数据库和使用工具。 大语言模型在生物医药行业应用实例——临床 拜耳公司利用大型语言模型将临床试验中病例报告中收集的信息转化为标准化的术语和类别,准确率达到96%自2017年使用以来,已累计缩短临床试验17万小时,超过19年。 在临床试验患者招募场景中,大模型可以大大节省人工筛查成本,加速药物临床试验。 大语言模型在生物医药行业应用实例——市场 内容创作 市场调研与分析 策略执行 推荐10位在糖尿病领域有影响力的中国KOL,并分析他们的学术立场 最近一年GLP-1领域的新药研发趋势 用通俗易懂的话解释GLP-1药物作用机制 大语言模型可在市场调研分析、营销内容生成、策略执行等多个方面助力市场部工作。 大语言模型在生物医药行业应用实例——销售 图片来源:复星医药官网 基于大模型,可以搭建AI对练培训助手,对销售人员展开培训。AI对练能模拟场景、内容,并输出专业报告,为企业批量复印绩优员工 大语言模型在生物医药行业应用实例——业务全流程 国内生物医药公司东阳光发布《集团全员拥抱AI,落实场景应用》 东阳光药已将DeepSeek大模型全面接入HEC-Finder平台,充分释放AI在文献专利智能应用的潜能在不断优化模型的同时,集团也全力推进AI工具在办公、生产、销售等各业务环节进行深入应用 正确认识大模型的“能”与”不能” 大模型更多的是一种能力(发挥它),而不是一个产品(直接要结果)一个学习了全球各学科大量知识(有对,有错)的本科生,且具备较好的逻辑思维基础 很好用 凑合能用 不好用 语言能力也经常出错,出现幻觉;浓缩很多知识,但不知道所有的知识和最新知识; 有很强的语言能力,文案能力,框架能力,分类、总结能力、高质量翻译能力; R1/V3都是语言模型,直接处理生命科学类图片、视频多模态数据能力有限; 具备高度浓缩的海量知识,最轻量级的大百科全书,结合联网搜索可以快速获取概念等; 模型记忆能力有限,需要用会话窗口模式记忆,清除会话后以前的并未完全进入模型; 数学和代码能力进步很大,擅长数据分析; 大模型的幻觉是个问题,但也是他的优势,会给到一些idea,但对分辨能力要求很高; 模型都有上下文长度限制,不能塞太多东西给他-需要学会拆分任务,总结规律。 R1、o1等推理模型具备很好的思考能力和逻辑思维能力,可以辅助思维。 正确认识大模型的使用的进阶 L6L5L4L3L2L1L0多个Agent的相互协作,高度降本增效与企业业务流程、组织、系统打通(Agent)可执行复杂的规划、推理、分解、预测流程的工作流(Agent)具备GUI界面的多个步骤的工具软件融合及SFT微调打通行业知识库和内部知识库,提高输出专业度和精准度用体系化的提示词和专业提示词进行系统化的多轮对话与大模型直接聊天,输入简单提示词快速问答 大模型L2级使用(RAG-Retrieval-augmentedGeneration) 大模型L2级使用(RAG实操) 集成自研的行业小模型,专注特定任务,提高GPU利用率 可调整权重,增加精确度 背景介绍01020304大模型技术系统构成摩熵基础部署方案05 CONTENT 高质量专业数据:知识工程系统 知识工程系统(KES)的概念是1977年美国斯坦福大学计算机科学家费根鲍姆教授(E. A. Feigenbaum)在第五届国际人工智能会议上提出的。 KES运用知识工程方法和技术,将知识的获取、表示、存储、推理、传播和应用等过程进行集成和自动化的计算机系统。它通过模拟人类的智能行为,利用知识来解决复杂的问题,辅助决策制定,提高工作效率和质量,促进知识的共享和创新。 知识工程系统的应用场景 医药领域:医药知识工程系统可辅助药物立项与研发、医药市场营销、药品监管与政策制定,辅助医生进行疾病诊断与治疗方案制定等。 教育领域:实现智能教学、个性化学习推荐等,根据学生的学习情况和知识掌握程度,提供针对性的学习内容和辅导。 工业领域:用于设备故障诊断、生产流程优化、质量控制等,如基于知识的故障诊断系统可以快速定位设备故障原因并给出维修建议。 金融领域:支持风险评估、投资决策、客户服务等,如利用知识工程系统对金融市场数据和客户信息进行分析,为投资者提供投资策略和风险预警。 系统构成:知识的获取 知识获取模块 负责从各种来源收集、整理和提取知识,这些来源可以包括领域专家、文献资料、数据库、网络资源等。例如通过与医学专家交流获取疾病诊断和治疗的经验知识,或者从大量的医学研究论文中提取相关的病理生理机制等知识。 联网获得 预训练获得 内部上传获得 •通过各类搜索引擎API获得的实时的、历史的内容,可减少模型幻觉 •企业内部可上传自己的知识库 •大模型通过预训练获得的知识 •大模型自生的能力 •基于RAG技术,由摩熵数科提供 企业自建知识库 实现内部资料与外部信息的高效整合和调用,促进数据资产的积累和创新。 大模型能力的提升,大幅降低企业知识库建设门槛 无法兼容新数据类型 借助大模型的能力,企业可直接将散落的非结构化文本(如合同、会议记录、技术文档)在未经人工严格清洗或结构化标注情况下直接导入知识库,无需传统数据清洗转换流程。如:销售部门的历史邮件、客服录音转写文本等,都可直接作为知识库数据被模型调用,无需额外整理为表格或数据库字段。 系统构成:知识的表示与存储—向量数据库 知识存储模块 将获取到的知识以一种计算机能够理解和处理的形式进行表示,常见的知识表示方法有产生式规则、语义网络、框架、本体等。比如,用产生式规则“如果体温超过38℃且伴有咳嗽,那么可能是上呼吸道感染”来表示疾病诊断知识。将表示好的知识存储在知识库中,知识库就像一个知识仓库,可采用关系型数据库、NoSQL数据库、图数据库等多种形式来存储知识。以存储生物基因知识为例,可使用专门的生物信息数据库来存放基因序列、功能等相关知识。 AI时代数据的向量化是核心 系统构成:知识的推理 知识推理模块 基于已有的知识和输入的信息,运用推理算法和策略进行逻辑推理,得出新的结