您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国家健康医疗大数据东部中心]:Apache Doris在区域医疗影像平台中的应用 - 发现报告

Apache Doris在区域医疗影像平台中的应用

医药生物 2025-01-14 王建 国家健康医疗大数据东部中心 测试专用号1普通版
报告封面

国家健康医疗大数据(东部)中心王建大数据研发经理 背景介绍01架构演变02场景应用03未来展望04 目录 01背景介绍 背景介绍 你的文章内容长度来进行页面最终调整。 数据特殊性 数据重复性高 •影像数据存在大量的重传、补传的动作,对多场景的数据操作进行兼容,保证数据唯一性及可靠性。同时需要对上传记录进行回放。 •影像平台涉及医疗机构2000余个,每个医疗机构的状态以及条件千差万别,需要对各医疗机构的多种数据情况进行兼容。 •影像的结构化数据及非结构化数据上传后,在临床需要进行及时的应用。但是因为影像数据复杂度高,需要多源数据进行关联并对多质量指标进行稽核,并进行预警、处理,保证不对临床的数据服务产生影响。 行业特殊性 指标口径多 •需要对数据质量预警、数据质量看板、数据质量监控、质量代办、BI大屏、报表以及数十个业务系统进行数据支撑。 •以数据质量模块为例,需要对27个核心指标,共140余个质量指标进行监控。 •同一个检查的数据分批上云,时间差不确定。同时,单一放射检查的涉及的数据类型较多,需要对多数据体进行关键计算,JOIN难度大。 Hadoop体系特点 组件多:因为Hadoop架构的特殊性,导致实现从采集、治理、存储到服务的全链路数据流程所需要的组件庞杂,在平台中,拥有超过20个开源的组件以及30余个自研的平台管理服务; 运维难度大:组件多导致运维成本高,甚至单独一个组件的兜底要求也非常高; 部署成本高:一套完整的Hadoop集群,需要的管理资源较多。在集群规模不够大的状态下,计算节点的边际成本较高; 较难对新场景进行兼容:随着业务的发展,数据实时性的要求愈加的高,Hadoop(Hive)的体系,无法满足实时性的需求; 拓展性较差:体系内的单一组件只面向单一的能力。面相新的业务需求,只能拓展新的组件进入集群。带来极高的维护成本。 场景痛点分析 期望的数据底座 具备强大的计算引擎,实现快速写入、快速查询,特别是在当前即席及实时的场景,能给与更多的支撑 架构轻量化开发便捷维护简单 覆盖采、存、治、用的数据生命周期 稳定运行、故障修复、资源管理 案例背景 在省级影像平台中,需要对从数千家医疗机构采集的数据进行质量评估及预警,以保证良好的数据质量,实现影像数据服务环节的稳定性以及提升用户的体验。 数据维度多、数据量大、对实时性要求高等问题成为质量改善的阻碍。 在2023年初,团队在数据质量管理的场景探索质量改善的技术方案。 代码示例 CREATETABLE`dws_xxxx_xxxx`(`k_1`varchar(255)NULLCOMMENT'主键1',`k_2`varchar(255)NULLCOMMENT'主键2',`k_3`varchar(255)NULLCOMMENT'主键3',`k_4`dateNULLCOMMENT'主键4',`v_1`dateNULLCOMMENT'值1',`v_2`int(11)NULLCOMMENT'值2',`v_3`int(11)NULLDEFAULT"值3",....`time_1`datetimeNULLCOMMENT'计算时间')ENGINE=OLAPUNIQUEKEY(`k_1`,`k_2`,`k_3`,`k_4`)COMMENT'质量原子指标结果表'PARTITIONBYRANGE(`K_4`)()DISTRIBUTEDBYHASH(`k_1`)BUCKETSxPROPERTIES("xxx":"xxx","function_column.sequence_col"="time_1"); INERRTINTOdws_xxxx_xxxxSELECT...from(--增量数据WITHxxx_schemaAS(SELECT...FROM(...WHERE...)a)select...FROMALEFTJOINBLEFTJOINC...ON...WHERE... INSERTINTOdws_xxxx_xxxx(k_1,k_2,k_3,k_4,time_1,__DORIS_DELETE_SIGN__)SELECTk_1,k_2,k_3,k_4,time_1,trueFROM(SELECT...,rank()over(partitionby...orderby...desc)asrankFROMdws_xxxx_xxxxWHERE...)tWHEREt.rank>1 运行效率:1H+提升至30s依赖组件:6个降低至3个数据模型数:15个降低至2个,另外增加6个视图质量反馈周期:由原来的T+1,提升至准实时(分钟级) 应用示例 应用示例 质量看板 质量推送 质量改善效果图 2023-03之前 在2023年3月份引入Doris之前,质量的改善效果缓慢,存在分析困难、实时性查等问题,导致质量问题反馈慢、根因分析困难 2023-03之后 2023年3月份以后,引入Doris。并在后续半年的时间内,逐渐以Doris为底座,构建质量体系,并依托于Doris的特性,如聚合模型、物化视图等能力,实现了质量预警、统计以及质量问题溯源等能力。在半年的时间内,数据质量迅速提升。并依托于Doris,搭建实时数仓。 改进成效 未来展望 管理向发展 业务向演进 平台级建设 ThanksforWatching!