AI智能总结
使用FxMammo增强乳腺癌检测:多体验人工智能评估结果 东盟和东亚经济研究所 (ERIA)E Sentral Senayan II 6 th亚洲非洲大道8号,奔卡诺·僧延诺格洛拉,雅加达中心12710印度尼西亚 © 东南亚及东亚经济研究所, 2025 艾瑞亚研究项目报告2025财年,第18号 2025年8月发布 所有权利保留。未经ERIA事先书面通知和许可,本出版物之任何部分均不得以任何形式(无论是电子还是机械手段)进行复制、存储于检索系统中或传送。 其各章节中阐述的研究发现、解释、结论及观点完全属于作者/本人,并不反映东南亚及东亚经济研究所及其理事会、学术咨询委员会或其代表机构的观点和政策。各章节中内容或引用的错误由作者/本人单独负责。 本文中的资料可自由引用或转载,但需注明出处。 本报告由FathomX为东南亚及东亚经济研究所(ERIA)编制,并由日惹公立大学医学学院放射科、公共卫生系及护理系支持。 项目成员列表 深测X 斯蒂芬·林 加文·连杜浩 梅凯尔·哈特曼冯梦灵 艾比盖尔·朱 加查马达大学,医学、公共卫生与护理学院 琳娜·乔里达 (放射科) 迪迪克·塞蒂奥·哈里扬托 (解剖病理科) 维纳斯·莱曼 (放射科) 依卡·普斯皮塔萨里 (药学院/UGM大学附属医院) 萨琳宁西·希克马瓦蒂 (医学与健康科学博士研究生) 罗赞·穆罕默德·伊尔凡 (放射科研究与培训办公室) 扎努巴·阿里法·努尔 (放射科研究与培训办公室) 内容 表格列表v 术语表vi 1第一章引言 表目录 表3.1带人工智能和不带人工智能的阅读者诊断性能9辅助表3.2读者诊断的阅卷者间协议11带AI辅助和不带AI辅助的性能 术语表 第一章 引言 1.1. 背景 乳腺癌是全球主要的癌症致死原因,通过筛查钼靶进行早期检测对改善预后至关重要(Elhakim等人,2024年;石等人,2025年)。然而,钼靶的有效性取决于其诊断准确性,这可能因地区和人群而异。对北美和欧洲研究的一项荟萃分析报告称,数字钼靶的联合灵敏度约为76%,特异性为94%–97%(石等人,2025年)。在实践中,性能差异很大:例如,一家印度尼西亚医院观察到钼靶的灵敏度约为90.1%,特异性为93.6%,而巴基斯坦的一项研究发现灵敏度高达97%,但特异性仅为约64.5%(Lehman等人,2015年)。这种差异源于多个因素,包括技术差异、患者人群和乳房成分的不同。值得注意的是,乳房密度显著影响钼靶灵敏度——致密乳房组织会掩盖肿瘤,与以脂肪为主的乳房(灵敏度为86%–89%)相比,致密乳房的灵敏度会降低至62%–68%(Carney等人,2003年;Kerlikowske和Phipps,2011年)。致密乳房在年轻女性和某些族裔(包括许多亚洲人群)中更常见,部分解释了检测率的地区差异(del Carmen等人,2007年)。 除了患者因素外,放射科医生在解释性能方面存在明显差异。研究已记录到,即使在类似条件下工作的放射科医生之间,敏感性也存在巨大差异(Elmore等人,2009年)。这种阅片者间的差异意味着一些癌症未被检出(漏诊癌症),而一些没有癌症的患者由于假阳性读数而进行了不必要的复查和焦虑(Elmore等人,2009年)。在印度尼西亚等医生短缺的国家,这个问题尤为突出,特别是那些专攻乳腺影像的医生。由于专家人力有限,许多筛查乳腺X线照片可能由普通放射科医生或实习生进行解释,这可能会增加差异和诊断错误。这些挑战突显了迫切需要创新解决方案来支持放射科医生,提高一致性,并保持乳腺癌检出率高准确性。 人工智能(AI)已成为乳腺X线筛查和诊断中一种有前景的辅助工具。由深度学习驱动现代AI系统,可以在大量的乳腺X线照片上进行训练以识别恶性肿瘤的模式。在最近的研究中,AI算法在回顾性设置中的诊断性能与人类放射科医生相当,甚至超过(Kim等,2020)。例如,一个在乳腺X线筛查中评估的AI系统,癌症检测的曲线下面积(AUC)为0.94——显著高于0.81的AUC 无辅助放射科医生——并且当用作第二位阅片医生时,可提高放射科医生的表现(Kim等人,2020年)。这些结果强调了人工智能作为“第二双眼睛”的潜力,能够捕捉人类可能忽略的细微癌症,并减少阅片医生之间的差异。值得注意的是,人工智能更一致的分析可以解决人类解读中的差异:与人类不同,经过验证的人工智能算法将对每个病例应用相同的标准,这可能有助于在不同从业者之间统一解读标准。 近期使用深度学习的AI系统在传统的计算机辅助检测(CAD)工具上显示出显著改进。若干当代研究显示AI辅助能提升放射科医生的诊断性能。Kim等人报道,与放射科医生一同使用AI系统使得癌症检测灵敏度提高约9.5%,特异性提高2.7%,与无AI的读数相比(Kim等人,2020)。然而,并非所有试验都发现对性能有统计学上的显著影响;一些研究发现,经验丰富的放射科医生的指标(灵敏度、特异性)在使用或不使用AI支持时相似(Pacilè等人,2020;Dang等人,2022)。这些复杂的结果表明,AI的益处可能取决于背景——案例的难度、阅片者的经验以及特定AI算法的能力都会影响结果。因此,在不同环境下进行严格评估是必要的,以确定AI在乳腺影像学中能提供最大价值的领域。 除了准确性之外,乳腺X光检查中的AI工具还提供潜在的工作流程和效率优势。放射科医生通常必须仔细审查每张乳腺X光片,以发现癌症的细微迹象(例如微小的钙化或轻微的变形)——这是一项耗时且容易因人疲劳而出错的任务。AI可以自动检测明显的正常病例并标记可疑区域,从而简化阅片流程。研究表明,AI支持可以通过引导放射科医生的注意力来减少寻找细微异常(如微钙化)所需的时间(Lehman等人,2015年)。通过集成AI,一项模拟预测称,在不影响诊断准确性的情况下,放射科医生的工作量可以减少超过50%(Dembrower等人,2020年)。在一项对国家筛查队列的大规模回顾性分析中,研究人员发现,在双读片计划中用AI替换一名人类阅片医生,可以将阅片量减少近一半,同时保持癌症检出率(Elha等人,2024年)。此外,将AI用作自主分诊工具——即AI清除明显正常的检查并将只有可疑或高风险病例转交给放射科医生——与标准双读片相比,实现了近50%的工作量减少,甚至略微提高了癌症检出率(Elhakim等人,2024年)。这些效率对于面临高筛查量和劳动力短缺的医疗系统尤其相关。如果放射科医生可以将他们的专业知识集中到最需要的地方(即复杂病例),而让AI处理简单病例,那么整体筛查计划可以更有效地运行。 然而,将人工智能集成到临床实践中并非没有挑战。一个担忧是过度依赖人工智能或自动化偏差。放射科医生可能会过于信任人工智能的判断——例如,如果人工智能未能标记出癌性病变,人类阅片者可能会 会被虚假地安抚,同时也可能错过要点。一项在胸部X光检查不同成像环境下进行的多读者研究表明,当AI系统提供错误输出时,放射科医生更容易犯他们原本不会犯的错误(Bernstein, Atalay等人,2023)。换句话说,不准确的AI建议可能会误导经验丰富的临床医生,这突出了用户需要保持警惕,不能盲目依赖AI。确保放射科医生接受过解读AI结果的培训并保持其批判性判断至关重要。还有实际考虑:AI算法需要在本地患者数据上进行稳健验证,以确保其准确性可以推广到不同人群和成像设备。在集成通常依赖大型数据集的AI软件时,必须管理隐私和数据安全。尽管存在这些挑战,AI的潜在益处——提高检测率、更一致的解读和简化工作流程——使其成为乳腺癌筛查研究和实施的一个极具吸引力的领域。这项研究是在这一背景下进行的,它评估了FxMammo AI系统(由FathomX Pte Ltd开发)对不同经验水平的读者在真实临床环境中进行乳腺X光检查解读的影响。FathomX的解决方案旨在减少假阴性和假阳性,并加快病例阅读速度,这在专家放射科医生有限的环境中将特别有利。通过在受控研究中考察其影响,我们旨在提供证据,说明此类AI如何能最好地用于在实践中提高乳腺癌检测率。 1.2. 研究目标 本研究的主要目标是评估 FxMammo(由 FathomX 开发的基于深度学习的决策支持系统)对印度尼西亚乳腺癌检测的诊断影响。具体而言,该研究旨在确定 FxMammo 的整合能否提高放射科医生在解读乳腺X线照片时的灵敏度、特异性和总体准确率。这包括评估 FxMammo 如何影响读片者间的差异和诊断一致性,特别是在致密乳腺组织和经验较少的放射科医生等具有挑战性的病例中。该研究进一步旨在探究人工智能辅助作为第二读片者的潜力,有效地补充资源匮乏地区专业放射科医生的有限数量。通过这样做,该研究为人工智能系统如何优化部署以改善真实临床环境中乳腺癌筛查结果提供了实证依据。 1.3. 研究意义 本研究的重要性体现在几个关键方面。首先,乳腺癌仍然是印度尼西亚癌症相关死亡的主要原因之一,由于筛查基础设施有限和短缺,延迟诊断是一个持续存在的问题。 专攻放射科的医生。通过在一个真实的印尼环境中展示像FxMammo这样的AI工具的实用价值,这项研究为关于低收入和中等收入国家(LMICs)数字健康公平和能力建设的大讨论做出了贡献。 其次,研究结果为东南亚和其他发展中国家面临类似挑战的卫生系统提供了可行的见解。与许多在高资源环境中进行的研究不同,本研究关注的是一个具有更高致密乳腺患病率且训练有素的乳腺X线摄影师较少的群体——这些因素加剧了诊断的复杂性。这增强了研究结果对可比医疗环境的外部相关性。 最后,该研究为人工智能在放射学临床整合领域日益增长的文献库增添了价值。它不仅量化了AI辅助带来的诊断获益,还讨论了人-AI协作的动态变化,例如阅片者间一致性变化和自动化偏差风险。因此,这项工作的意义不仅在于其临床适用性,还在于其对医疗保健领域负责任的AI采纳的贡献。 1.4. 范围和限制 本研究聚焦于fxmammo的诊断效用在印度尼西亚加查马达大学的单中心环境中的评估。研究人群由500例回顾性收集的数字乳腺摄影病例组成——250例确认恶性,250例良性或正常——代表了三级医院中现实世界的临床分布。阅片者包括有资质的放射科医生和高级放射科住院医师,提供了广泛的解读专业知识。该人工智能系统在受控、盲测条件下进行评估,以便与人工智能支持和不支持的情况下进行性能的稳健比较。 应承认一些局限性。首先,研究在地理上局限于印度尼西亚,这可能限制其对其他东盟或全球人群的普遍适用性。尽管研究强调了人工智能在资源受限环境中的相关性,关于东盟各国放射科医生可用性的比较数据可以进一步增强选址的合理性。 其次,数据集排除了特定亚组,例如既往乳腺癌患者、植入乳房假体的患者以及质量欠佳的钼靶检查图像。尽管这些排除对于确保诊断清晰是必要的,但它们限制了研究结果在更复杂或治疗后的病例中的应用。 最后,虽然AI系统在一个模拟筛查环境中进行了评估,但印度尼西亚目前缺乏一个全国性的乳腺X射线摄影筛查计划。因此,在组织化的筛查环境中,性能结果可能会有所不同。长期随访数据的缺失也限制了关于间隔癌症或对长期患者结局影响的结论。 第二章 研究方法论 2.1. 研究设计 研究团队开展了一项单中心、横断面、多阅片者、多病例(MRMC)研究,以评估AI辅助对乳腺X线摄影解读的影响。MRMC设计适用于比较诊断方法或辅助手段,因为它涉及多位阅片者在不同条件下(此处为有无AI)对多个病例进行评估,并允许对性能指标进行稳健的统计学比较。在该研究中,每位参与阅片者两次解读一系列乳腺X线摄影病例:一次无辅助(仅依靠自身专长)和一次在FxMammo AI系统支持下。所有阅片均在对患者结局结果不知情的盲法条件下进行;阅片者不知道真实诊断或癌症病例的比例,并且在有AI辅助阅片时,他们仅获得该病例的AI输出结果,没有关于正确性的反馈。 2.2. 数据收集 这项研究在印度尼西亚日惹的佳雅哈马达大学进行,该大学是一个具有 Picture Archivin