数据质量管理 发展路径探究 - hjbis.com file• 数据内容及背景分析 • 数据结构及路径分析 • 数据成分及业务规则合规分析 • 数据间关系及相关资源匹配
大数据时代的数据质量保 障 -- 数据质量中心的设计与实现
description
Transcript of 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现
![Page 2: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/2.jpg)
主要内容
大数据时代的质量难题
数据质量中心架构设计
数据质量中心的实践
![Page 3: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/3.jpg)
阿里的数据中心 CDO
![Page 4: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/4.jpg)
![Page 5: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/5.jpg)
大数据时代的质量难题
![Page 6: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/6.jpg)
质量难题在数据处理流程中在那一部分数据出问题,不知道?
不同系统间数据流通,是否有损失?表记录数据波动,与上期同比波动或与固定数据一致性比较是否正常?
字段平均值
字段最大值
字段最小值
字段汇总值
字段空值个数字段重复值个数 离散值
带业务过滤条件的数据波动,精确监控难
数据校验方法多样性难,平均值?方差?周期性?固定值?
字段的唯一值个数
![Page 7: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/7.jpg)
质量保证历程
![Page 8: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/8.jpg)
数据质量中心架构设计
![Page 9: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/9.jpg)
数据质量中心 --Data Quality Center ( DQC )
产品介绍
![Page 10: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/10.jpg)
整体设计—核心内容
数据监控
数据清洗
数据度量
![Page 11: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/11.jpg)
交互产品
DQC
离线计算平台
元数据
云调度告警
数据通道
![Page 12: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/12.jpg)
数据质量 DB
GATEWAYS…
数据传输通道 / 离线处理 平台
DQC HOOK
DQC EXECUTOR
数据质量 WEB 服务
数据质量服务
DQC ENGINE DQC 规则中心 DQC 质量校验中心
DQC 任务 POOL
DQC 报警模块
多级容错机制
DQC 规则同步工具
DQC 样本对比工具
DQC 告警对比工具
DQC 规则 / 模板配置
DQC 项目级管理
DQC 报告展现 任务及质量展现
离线处理
调度系统
整体设计—架构示图
![Page 13: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/13.jpg)
整体设计—报警分级
红色报警Red
橙色报警Orange
![Page 14: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/14.jpg)
整体设计—规则分级
blockRule check alert
weak
……
![Page 15: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/15.jpg)
整体设计—阻塞逻辑
Red
block
下游任务阻塞
![Page 16: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/16.jpg)
Hive
HDFS
其他离线处理平台
多种数据传输通道
多种数据库存储
Shell
MR
应用之前
![Page 17: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/17.jpg)
Hive
HDFS
Shell
MR
DQC
应用之后
其他离线处理平台
多种数据传输通道
多种数据库存储
![Page 18: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/18.jpg)
DQC 在数据生态链中的位置
![Page 19: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/19.jpg)
整体设计— Y 轴
DB1
DB2
DB3
S1
DW
S2
OLAP
OLAP
S3
report
数据传输
实时传输 business
business
S4
数据传输
![Page 20: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/20.jpg)
整体设计— X 轴
DW
数据传输DB1
时间维度
DT :数据传输通道
![Page 21: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/21.jpg)
数据质量中心的实践
![Page 22: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/22.jpg)
示例举例 1
某应用源数据 s* 表,发现“当日旺旺在线时长”有 >24 小时的情况
On_line_time>24h
RULE
DataRun
Get ODPSData
Data Results
Check
![Page 23: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/23.jpg)
示例举例 2
某应用订单交易明细表的订单总金额相比昨天波动 -98.6%
Sum(amount)
RULE
DataRun
Get ODPSData
Data Results
Check
Historical samples
![Page 24: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/24.jpg)
示例举例 3
某日志统计 r* 表,发现存在 pv=0 而 uv>0 的数据
Count(*)>0pv=0uv>0RULE
DataRun
Data Results
Check
方法 1 :如举例 1 图方法 2 :如举例 3 图
![Page 25: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/25.jpg)
DQC淘宝
天猫一淘
支付宝
ICBU
阿里金融
阿里云
CBUCDO
聚划算
应用情况
![Page 26: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/26.jpg)
规则总数 ; 7314
监控表总数 ; 2587
红色报警数 ; 220
橙色报警数 ; 11
应用情况
![Page 27: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/27.jpg)
应用优点
智能阈值算法体系
多级容错、缓存
校验规则与生产任务异步
模板规则灵活,可扩展
校验,预警分级别
ODPS紧密结合的数据采集器
独立计算,不耗生产slots
![Page 28: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/28.jpg)
DQC
后续发展
支付宝
ICBU
淘宝
天猫一淘
阿里金融
阿里云
CBUCDO
聚划算
![Page 29: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/29.jpg)
Hive
HDFS
Shell
MR
DQC
后续发展
其他离线处理平台
多种数据传输通道
多种数据库存储
![Page 30: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/30.jpg)
后续发展
智能阈值算法体系
可热插拔的规则与校验服务
默认监控
监控前移
![Page 31: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/31.jpg)
Q and A
Q and A?
![Page 32: 大数据时代的数据质量保 障 -- 数据质量中心的设计与实现](https://reader034.fdocuments.net/reader034/viewer/2022052119/56815454550346895dc26d78/html5/thumbnails/32.jpg)
Thanks !