您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:数据治理平台解决方案 - 发现报告

数据治理平台解决方案

2023-10-03 - 未知机构 Zt
报告封面

数据资产 •兼收并蓄各类数据来源,丰富数据资产,实现优势互补,打通数据流向。 数据质量 •通过多源融合、多路择优、自主计算、网络爬虫等技术手段,大幅提升资讯数据及时性、准确性、全面性。 数据服务 •构建灵活多样的数据服务体系,满足下游系统多种数据需求,支持不同业务场景。 数据生态 •针对共性需求、热点需求,打造资讯业务专题,使资讯触手可及 数据应用:建立灵活高效的数据发布服务管理系统,打造自主品牌和高可控的资讯数据服务终端平台。 采集和融合各种渠道和形态的数据来源,打造统一模型标准和质量监控机制的数据仓库体系。 上海最闻信息科技有限公司 金融资讯数据不适合于类似框架 大数据集群框架 •金融资讯数据有二进制文件、文本等大字段,这些大字段不适合推送到Kafka等消息总线•金融资讯数据的处理经常需要用到关联查询,如果采用纯流式,每条数据在处理时需要单独去查询,这样效率非常低。•同样,数据处理完成后需要写入到数据库时,也需要批量插入这样效率最高•资讯数据模型众多,数据清洗逻辑复杂,运维易操作要求高,大量硬编码模式,可操作性低 • Flink• Beam 框架主要能力 •数据的批\流处理能力•具备实时窗口统计能力 分布式弹性资源管理 分布式作业调度管理 集群资源弹性扩容 作业服务器动态分配 作业资源按需配置 作业失败自动重试 多分片高并发模式 业务数据顺序保证 大幅提升处理效率 充分利用集群资源 1、CDC服务监听数据源变动2、变动数据推入kafka对应topic3、转换作业监听kafka对应Topic变动数据记录4、转换作业执行数据清洗逻辑5、转换作业推送每条数据成功/失败状态到Kafka6、数据处理结果回写到Mysql数据库,提供管理支持 金融资讯数据特点 •资讯数据除了新增,还有大量更新和删除操作 •同一张表同一条记录的多次变动,处理过程要保持顺序。•多次执行,结果冥等(多次执行结果一致) ETL并行处理的批模式 •每一行记录的处理都是并行的,不是串行的,不需要等待•一行记录处理完成,会通过putRow方法,直接送到下一个处理组件•整个处理过程中,不需要序列化,不需要内存复制,没有效率损失•所有执行过程是可重复执行 ETL业务逻辑的图形化设计工具 •金融资讯数据转换过程中,业务逻辑复杂,如 果 纯 编 码 方 式 进 行 处 理 , 开 发 效 率 低,测试 周 期 长 , 成 本 高 。 需 要 图 形 化 工 具 来设计转换业务逻辑。 一个ETL任务数据流程模式的应用 •对于ETL任务的运行,DSTREAM平台使用了KETTLE的 组 件 模 型 , 但 是 接 管 了 任 务 所有其它工作。 DSTREAM提 供 了 大 量ETL组件 适 用 于 金 融 数 据 处 理 的 组 件 。 提 供 了 提高处理效率的组件。•DSTREAM还 优 化 了 部 分KETTLE原 生 组 件。•DSTREAM基 于KETTLE的 组 件 模 式 ,定 制 开发 ⚫1000万条数据初始化完成清洗转换8分钟完成⚫单个作业平均数据吞吐量可以达到120万条/分钟 100万增量数据变动 -10个分片并发,每秒处理1500~2000条数据-10分钟左右完成整个数据清洗处理 关系型数据库 •oracle•msSQLserver•mysql•postressql• ... 分布式数据库 •greenplum •oracle•msSQLserver•mysql•postressql•greenplum• ... 大数据平台 •hadoop/hdfs/mongo/redis/kafaka• ... 文件类 •xml/json/文本•pdf/word/图片 各种应用服务接口 •网站服务接口•excel插 件/终 端 接 口等 数据binlog方式 •mysql 数据库CDC方式 •。。。 数据库自有日志跟踪 •万得金融数据库•聚源金融数据库•。。。 表扫描方式 •各类型数据库 图形化拖拽式设计系统 网络爬虫组件 自然语言组件 OCR组件 大数据处理组件 满足行业数据处理的定制化组件 Redis缓存编码对照转换 数据库加速编码对照转换 事前校验 •单源数据验证•多源交叉验证•黄金拷贝 数据校验任务可以的配置丰富 •资源配置•检验目标•检验规则•校验周期•校验后控制 支持入库优先级策略 支持数据选举算法策略 支持数据源权重策略 支持数据值浮动偏差策略 支持字段单一来源策略 支持整表单一来源策略 支 持 人 工 运 营 处理 支 持 差 异 高 亮 提醒 支 持 一 键 切 换 来源 支 持 手 工 修 改 数据 所 有 操 作 留 痕 可 追溯 中心库模型对象的建立与管理 数据分类 数据展示的定义与管理 指标与统计报表管理 系统各种常量的管理 系统应用服务的管理 •高效的数据模型设计工具,接口的开发和上线发布•基于微服务架构体系,,随时调整服务承载能力•设计,大幅提高数据服务效率,减小对数据存储层的压力•全面体系,从业务和功能接口实现分级和隔离•功能服务,快速提供全文搜索服务能力 采用浏览器风格,用户体验更好 更好采用QT/C++开发,性能 大数据、人工智能新技术支持 特色和独家的数据 开放式终端 •支持基于CDC实时跟踪来源数据库增量变化 •实时跟踪数据插入、更新、删除•实时跟踪数据库表结构变动 •支持异构数据库同步(Oracle、Mysql、Mssql、Postgres) •支持1对多个目标库的数据并发同步•支持不同目标库,同步不同表 •支持异常自动提醒和故障恢复能力 •无人值守、故障自动恢复•断点续传 •使用配置简单方便,资源占用少 •支实时的数据分发功能,数据量多新频率为每分钟。•支持各种流行的数据库:oracle,sqlserver,postgressql,mysql等•支持历史数据修补,保证数据完整性•数据采用二进制的压缩方式传输,效率高,节省带宽 ••• HTTP接口服务(PULL数据)通过配置化的方式,即可将SQL脚本配置为http接口,返回json格式数据。应用场景:app、web应用,下游系统不必建库采集数据。 ESB推送服务(PUSH数据)与HTTP接口服务配置类似,将增量更新的数据推送到ESB队列。应用场景:新闻资讯的推送 数据采集 贴源库数据采集(不推荐)、中心库数据采集(推荐) 应用场景:需要对资讯数据进行二次加工、关联分析,如数仓、产品平台等 平台资源统计监控 作业运行跟踪监控 数据校验异常预警 作业任务并发监控 作业发布管理 作业运行控制 调度周期控制 运行状态跟踪 数据校验异常预警 异常信息统计说明 异常数据详情查看 帮助企业实现数据价值