您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[厦门大学数据库实验室]:大数据百家讲坛 - 发现报告

大数据百家讲坛

大数据百家讲坛

【主题】 【直播平台】 精 彩活 动 预 告 本期公益前沿讲座直播间福利 作者主编书籍 扫码进入社群获取讲座预告下载专家PPT p2026年2月5日第140期大模型技术与应用专题报告 宋立桓专家/微软MVP 《智医同行-AI机器学习提升预测模型的可解释性》 p中国计算机学会人工智能与模式识别专业委员会委员p微软最有价值专家MVPp著作《R语言医学数据分析实践》p多项人工智能专利发明人 叶彦辛Gen Al专家 《玩转FastGPT-从问答Bot到超级Agent》 p智能体社区技术专家p数字化国家级奖项一等奖获得者p腾讯TAPD特邀讲师pFastGPT官方资深讲师、火山生态高级讲师p微软、阿里、AWS认证Gen Al专家 精 彩活 动 预 告 本期公益前沿讲座直播间福利 作者主编书籍 扫码进入社群获取讲座预告下载专家PPT p2026年2月5日第140期大模型技术与应用专题报告 智医同行—AI机器学习提升临床预测模型的可解释性 个人简介 曾经服务于微软公司、腾讯公司资深架构师 腾讯云架构师技术同盟名人堂专家 出版多本专业著作 l 多项人工智能专利发明人 历史首次人工智能的突破获得诺贝尔奖 人工智能的核心逻辑三要素 人工智能就是一种模拟人类智能的技术 算法——人工智能的大脑 算力——人工智能的身体 数据——人工智能的粮食 数据标注是人工智能发展的基石 在数字医疗时代,CT影像的像素、电子病历的文字、可穿戴设备的心率曲线,都是未经雕琢的璞玉。2025年全球医疗数据标注需求同比增长217%! 算力为什么需要GPU? GPU,即图形处理器(Graphics Processing Unit),是一种专门设计用来处理图形和并行计算任务的硬件。它包含大量的计算单元,能够并行处理大量简单的计算任务,从而极大地提高了计算效率。 2025年Q1,中国企业对英伟达NVIDIA公司的H20芯片采购额达160亿美元! DeepSeek来了,还需要那么多的GPU吗? 1865年经济学家威廉·斯坦利·杰文斯提出的一个悖论:当技术进步提高了效率,资源消耗不仅没有减少,反而激增。 AI是如何学习的? 让机器“从数据中学习规律” 通过分析大量数据,找到隐藏的规律,然后用这些规律来预测未知数据或做出决策。 数据驱动 算法支持 为什么选择机器学习预测模型 l传统的统计学方法无法有效处理海量数据和复杂非线性关系,传统的统计学模型存在局限性。 l机器学习的优势:非线性自动化建模能力、适应高维数据、自适应优化方法提升预测精度。 临床预测模型分类 l临床预测模型包括诊断模型和预后模型。 Ø诊断模型关注的是基于研究对象的临床症状和特征,诊断当前患有某种疾病的概率。 Ø预后模型关注的是在当下的疾病状态下,未来某段时间内疾病复发死亡、伤残以及出现并发症等结局的概率。 机器学习模型构建流程 数据收集 七大老年公共数据库英国老龄化纵向研究(ELSA) 数据源 美国健康与退休研究(HRS)欧洲健康、老龄化和退休调查(SHARE)韩国老龄化纵向研究(KLoSA)中国健康与养老追踪调查(CHARLS)墨西哥健康与老龄化研究(MHAS)印度纵向老龄化研究(LASI) 研究参与者筛选 结局定义 临床指标的选择 数据预处理 数据理解(识别缺失值和异常值) 数据清洗 数据标准化/归一化 特征工程(临床指标的筛选) 数据划分(训练集与测试集) 数据决定一切 通过这张图可以看出,各种不同算法在输入的数据量达到一定级数后,都有相近的高准确度。 成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据! 构建模型 选择合适的模型 调整模型超参数 模型评估 量化模型性能、指导模型调参 TP:被模型预测为正类的正样本,即真阳性TN:被模型预测为负类的负样本,即真阴性FP:被模型预测为正类的负样本,即假阳性FN:被模型预测为负类的正样本,即假阴性 评价指标(准确率、敏感性、精确率,特异性、F1分数,AUC值) Accuracy:指模型正确预测的样本数占总样本数的比例。Sensitivity:是指模型正确预测出的正类样本数占实际正类样本数的比例。Precision:是指在所有被预测为正例的样本中,真正为正例的比例。Specificity:是指模型正确预测出的负类样本数占实际负类样本数的比例。F1 score:是精确率和召回率(Recall,即Sensitivity)的调和平均数。AUC:ROC曲线下的面积,AUC通常大于0.5小于1。 评估图形—ROC曲线 ROC曲线是以假阳性率FPR为横坐标,真阳性率TPR(即敏感性)为纵坐标绘制的曲线,AUC就是这条曲线下的面积。 评估图形—校准曲线(可靠性曲线) 可靠性曲线是一个概率类模型的评估指标,是以y预测值为横坐标,y真实值为纵坐标的曲线。 模型的可解释性 •缺乏透明度和可解释性的现象限制了机器学习在某些敏感领域(如医疗诊断、金融风控等)的应用。 •提高模型的透明度和信任度,对模型的优化、合规性保障、避免偏见、以及更好地应用于实际问题具有重要意义。 “可解释机器学习”为什么重要 SHAP是什么? •SHAP是一种用于解释机器学习模型预测结果的工具。SHAP的数学原理是基于博弈论中的Shapley值,用于衡量每个特征对模型预测结果的贡献度,从而帮助人们理解模型是如何做出决策的。 博弈论里的Shapley值 “在一个合作团队中,如何公平地分配合作带来的收益?” 机器学习里的Shapley值 •在机器学习领域中,SHAP将机器学习模型看作是一个合作博弈,每个特征看作是一个合作的参与者。通过计算每个特征的Shapley值,可以衡量每个特征对模型预测的贡献,从而对模型进行解释。 SHAP可解释分析可视化图示 模型部署 使用Streamlit建立网页应用,通过可部署的Web平台实现了预测模型的可视化和基本应用,这为评估疾病风险提供了一个在线工具。通过直接将临床特征数据输入网页上的指定文本字段,用户可以轻松获得所需的预测结果。 可解释性机器学习论文文献研究解读(一) 一种可解释的机器学习模型预测中国中老年癌症患者抑郁症:一项基于CHARLS队列的研究 研究设计图 Result解读 用于预测的每个模型的性能 Results解读 Results解读 可解释性机器学习论文文献研究解读(二) 本研究是2021年2月至2024年中国回顾性多中心研究,纳入该期间接受体检的CKD患者和健康个体,采用器学习模型预测CKD,采用SHAP分析方法评估特征重要性及解释模型结果 机器学习+SHAP分析文献研究——机器学习模型评估指标 本研究选择了六个ML模型进行CKD预测:决策树、随机森林、MLP、AdaBoost、XGBoost和LightGBM。评估指标包括:准确性、F1分数、敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、AUC和PR-AUC 机器学习+SHAP分析文献研究——SHAP分析可视化图 机器学习+SHAP分析文献研究——网页应用预测模型 临床可解释性机器学习框架总结 1.患者的选择(根据纳入排除确定)2.获得原始数据并清洗3.排除缺失值太多的指标4.进行数据插补5.特征工程-特征选择6.模型构建-基于性能指标比较几种机器学习模型•对模型执行超参数调整•在测试集上评估模型性能7.模型可解释性-SHAP分析8.模型部署-在线网页交互应用(可选)9.外部队列验证(可选) 学机器学习是不是必须买GPU显卡? •初学者阶段:你需要的不是GPU,是耐心 •中级阶段:云端GPU才是你的主力 •高级阶段:本地GPU开始显现价值 用AI链接每一个人谢谢听讲 玩转FastGPT——从问答Bot到超级Agent 叶彦辛2026.01.24 FastGPT官方资深讲师智能体社区技术专家数字化国家级奖项一等奖获得者腾讯TAPD特邀讲师 FastGPT应用搭建核心方法 对于每个智能体,思考三个问题: 1.它的用户对象是谁? 2.要解决什么核心任务? 3.完成任务需要哪些知识/数据? 智能客服Agent形态 维修Agent形态 助教Agent 工业全息可视化交互bot 自媒体运营助手 公文写作助手 飞书日报机器人 智能差旅费用合规审核Bot 智能差旅费用合规审核BotV2 简单Bot上手:智能差旅费用合规审核 模拟财务审核专员。用户输入一段员工提交的报销描述或OCR识别后的发票数据,智能体需要根据预设的《差旅费管理办法》(如:一线城市住宿上限600元,二线400元;严禁报销娱乐性质消费),判断是否合规并给出理由。 重点:规则注入、逻辑约束 税务筹划bot FastGPT知识库 知识库导入 FastGPT知识库 知识库导入 FastGPT知识库 FastGPT知识库 FastGPT图片知识库 FastGPT知识库demo知识库 知识库上传细则 制定企业or部门知识库目录规范(例如,文件命名规则、文件夹结构),并设置专人定期评审、优化核心知识库的质量。 ●目录规范:建立统一的部门-业务线-主题等至少三级目录结构)。 ●切片方式选择:制定指导原则,如规章制度类用“自动分段”,FAQ类用“QA拆分”。 ●精细化管理:要求每个知识库文件都有明确的“负责人”和“更新周期”。 ●测试与反馈循环:定期用标准问题集,对核心知识库进行“抽查考试”,评估其回答的准确性,并将结果反馈给负责人进行优化。 系统配置——开场白美化 系统配置 系统配置 HTTP请求 对接公开的API,提高编排功能无限扩展,如: ●操作数据库●调用外部数据源●.... 飞书日报机器人Agent 汉语新解Agent 合同审核大师 合同审核大师demo 出游规划大师 批量识别发票并写入飞书demo 趋势洞察workflow 多智能体动态路由协同 T H A N K Y O UV E R Y M U C H ! 叶彦辛2026.01.24