核心观点与挑战
医疗领域的数据驱动研究面临跨机构数据整合和机构内数据治理两大挑战,包括数据质量监控、数据标准统一、数据结构各异等问题。同时,数据隐私、数据孤岛及国内外法规限制导致数据共享困难。
解决方案与技术路线
- 多中心研究应用场景与方案:通过联盟链确保可信,支持CRF录入、DPAP接入等多种形式,实现数据汇交或计算汇交,涵盖临床研究、生信分析等多个场景。
- 机构内数据接入与认知能力建设:利用自然语言处理、机器学习等技术进行数据结构化标注和智能医疗知识图谱构建,提升数据处理效率。
- 机构间隐私计算技术路线:采用多方安全计算(MPC)、联邦学习(FL)和联盟链技术,确保数据安全和可信,支持横向或纵向联邦,并通过区块链实现全程审计。
联邦学习探索
- 异构数据源问题:提出FedGFO和FedSSO算法解决Non-IID数据场景下的性能问题,实验表明FedGFO在数据偏斜时表现更优。
- 可审计与贡献问题:基于ShapleyValue方案实现公平、可解释的贡献评估,提升联邦学习的透明度和效率。
- 隐私保护问题:通过MPC技术防止梯度泄露和数据重构,确保数据和模型的机密性。
实践与案例
- 基于隐私计算技术的多中心科研平台:已在医院PoC并落地平台,支撑老年病多中心科技部项目,实现数据洞察、人群筛选、统计分析等功能。
- 基于区块链多中心科研平台建设:构建包含基础设施层、支撑层、数据展现层和用户层的多中心科研平台,实现数据可信流通和行为上链。
- 念珠菌血症感染预测的多中心研究:验证联邦学习算法可支撑无原始数据传输的多中心研究,模型调优后参数与集中式模型效果差异很小。
结论
隐私计算技术有效解决了医疗大数据共享中的数据整合、隐私保护和可信流通问题,联邦学习和区块链技术的结合进一步提升了数据安全和可审计性,为精准医疗提供了有力支撑。