核心观点与关键数据
Qualyics 是一款数据质量操作系统,旨在解决数据质量问题,支持现代及旧版数据堆栈。其核心功能包括:
- 数据质量规则管理:简化大规模编写和管理数据质量规则。
- 异常检测:利用历史数据构建健壮的元数据,通过异常检测(如 Levenshtein 距离公式)识别数据质量问题。
- Confidence Score:公开每个数据点的定性度量。
- 规则更新:随时间推移自动更新数据质量规则。
- 灵活部署:支持 Spark 兼容、Kubernetes 部署,以及内部部署、单租户云或 SaaS 模式。
数据质量维度
Qualyics 将数据质量分为以下维度:
- 准确性:数据值是否正确。
- 完整性:数据是否充分填充。
- 一致性:数据跨存储是否一致。
- 符合性:数据是否符合预期标准和格式。
- 覆盖范围:数据是否覆盖所有必要领域。
- 及时性:数据是否按预期时间可用。
数据区域映射与富集示例
报告将数据区域分为青铜、银色、金色和钻石四个层级,并展示了如何通过 Qualyics 进行数据质量富集和补救:
- 青铜区域(原始数据):无转换,仅追加,需标准化。
- 银色区域(商业实体):简化、非规范化、标准化,需处理异常。
- 金色区域(综合数据):聚合、升高,需处理模式畸形。
- 钻石区域(已发布数据):产品、应用程序、功能商店,需确保单一版本真相。
补救措施与数据价值
报告强调数据质量问题的补救需从富集开始,通过以下方式实现:
- 快速失败:早期检测数据质量问题以降低修复成本。
- 符合性:确保数据符合预期标准。
- 覆盖范围:降低数据复杂性,便于分析师查询。
- 精度:通过模型(如线性回归)校正数据。
- 及时性:确保数据按预期时间可用。
Qualyics 提供了手动和自动的补救建议,并支持将数据规范为消费者需求,最终实现数据产品的订阅和 SLA。
研究结论
Qualyics 通过自动化数据质量检测和补救,帮助企业在数据湖和数据湖屋中实现数据一致性、完整性和及时性,从而提升数据价值。其灵活的部署模式和对不同数据区域的针对性解决方案,使其成为企业数据治理的理想工具。