基于 CWM 的 数据仓库体系结构设计
description
Transcript of 基于 CWM 的 数据仓库体系结构设计
![Page 1: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/1.jpg)
基于 CWM 的数据仓库体系结构设计
![Page 2: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/2.jpg)
我的工作
提出了一个基于 CWM 的数据仓库体系结构
基于该体系结构,参与设计和实现了一个电信综合业务信息服务平台
![Page 3: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/3.jpg)
提纲
背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计
![Page 4: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/4.jpg)
背景介绍
数据仓库的应用越来越广泛
不同数据仓库工具之间无法进行数据交换
企业的应用受到工具的限制
利用元数据可以实现数据交换
![Page 5: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/5.jpg)
提纲
背景介绍
数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍
基于 CWM 的数据仓库体系结构设计
电信综合业务信息服务平台设计
![Page 6: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/6.jpg)
数据仓库理论
数据仓库的定义
数据仓库的建设
数据仓库的应用
国内数据仓库建设的问题
![Page 7: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/7.jpg)
元数据
定义 描述数据的数据
研究元数据的原因 管理、使用数据的需求 系统分布和互通的要求 元数据重用、共享的要求
![Page 8: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/8.jpg)
元数据的建模和标准化
建模的两大方向 元数据参考模型 元数据模型
标准化 OMG
MDC
![Page 9: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/9.jpg)
提纲
背景介绍 数据仓库、元数据理论介绍
CWM 、 MOF 、 UML 、 XMI 规范介绍
基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计
![Page 10: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/10.jpg)
元数据的层次
Student (“张东”,“男”,…)Student (“李芳”,“女”,…)……
Record (“ Student” ,Field (“ name” , String )
,(Field (“ sex” , String )…
)
MetaClass (“ Record” ,[MetaAttr( (“ name” ) ,String),MetaAttr((“fields”),list<Field>)]MetaClass (“ Field” ,…)
通用的元元模型
信息,数据( M0 )
模型( M1 )
元模型( M2 )
元元模型( M3 )
![Page 11: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/11.jpg)
OMG 规范和元数据层次的关系
元数据层次 MOF 术语 示例
M3 元元模型 MOF 模型
M2 元模型,元元数据
UML 元模型,CWM 元模型
M1 模型,元数据
UML 模型,CWM 模型
M0 对象,数据 数据仓库数据
![Page 12: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/12.jpg)
CWM 和相关规范的关系
CWM 和 MOF 的关系 CWM 和 UML 的关系
直接继承了 UML 核心元模型 使用 UML 图形标记 使用 UML 中的 OCL (对象约束语言)
CWM 和 XMI 的关系
![Page 13: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/13.jpg)
CWM 的组成
CWM 元模型 基础包 资源包 分析包 管理包
CWM DTD 和 CWM XML CWM IDL
![Page 14: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/14.jpg)
提纲
背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍
基于 CWM 的数据仓库体系结构设计
电信综合业务信息服务平台设计
![Page 15: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/15.jpg)
OLTP系统
遗留系统
办公系统
外部数据
DW管理系统
抽 取 清 洁 转 换 装 载
数据模型
本地元数据库
本地元数据库
元数据交换
数据集市
中央元数据库
OLAP工具
挖掘工具
报表工具
中央数据仓库
O D S
基于 CWM 的数据仓库体系结构
![Page 16: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/16.jpg)
数据源
OLTP 数据库
遗留数据
内部办公系统数据
外部数据
![Page 17: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/17.jpg)
数据源
多种类型:关系型、多维、 记录、 XML
以及其它一些工具类型
关系型:模式,物理表, 视图,字段,索引,触发器,外关键字 ,主关键字 ,数据类型,字段值,数据记录,记录的集合
![Page 18: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/18.jpg)
Relational 元模型
![Page 19: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/19.jpg)
Col umn
SQLQuery
Col umnSet
SQLDataType
Tabl e
Vi ewBaseTabl e
Catal og
Procedure
I ndex
Tri gger
Package
Relational 元模型(续 1 )
![Page 20: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/20.jpg)
Attri buteLi nkI nstanceExtent
RowSet
Col umnSet
Obj ect DataVal ue
Col umnVal ueRow Attri bute
Relational 元模型(续 2 )
![Page 21: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/21.jpg)
![Page 22: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/22.jpg)
关系型数据源的主要接口
BaseTable :查询和修改表的属性、触发器和结构
Catalog :查询和修改包含的元素 Column :查询和设置属性 Row :查询和修改一条记录的内容 RowSet :查询和修改包含的记录
![Page 23: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/23.jpg)
ETL
读取数据
清洁数据
转换数据
装载数据
![Page 24: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/24.jpg)
ETL 组件的接口
黑盒变换:Transformation , DataObjectSet , TransformationUse
白盒变换:FeatureMap , ClassifierMap , ClassifierFeatureMap , TransformationMap
变换的执行顺序控制:TransformationTask , TransformationStep , TransformationActivity , StepPrecedence , PrecedenceConstraint
![Page 25: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/25.jpg)
中央数据仓库
数据粒度最细且多层次 数据是历史的 数据是时间相关的 大数据量 数据是整合的 通用的、全局的
![Page 26: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/26.jpg)
操作数据存储 ODS
操作型系统
O D S
1/2 1/2
企 业数据仓库
![Page 27: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/27.jpg)
数据集市
企 业数 据仓 库
最细粒度
数据集市
部门 2
粒度 2
数据集市
部门 1
粒度 1
部门 3
粒度 3
外 部数据源
数据集市
![Page 28: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/28.jpg)
数据集市的特点
面向部门应用
规模小,投资少
使用方便且成本低
![Page 29: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/29.jpg)
元数据库
类型: 中央元数据库 本地元数据库
内容: 抽取过程:任务、执行顺序、映射关系、转换规则 描述数据 :方位图、数据之间的商业关系、商业规
则、数据的改变 数据仓库管理:安全性、运行状态、抽取过程的调
度、 I/O 对象及其关系
![Page 30: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/30.jpg)
数据仓库管理
访问控制和安全性管理 数据增长管理 抽取过程的管理 性能管理 故障恢复 扩充和演变管理
![Page 31: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/31.jpg)
数据仓库管理接口
抽取过程的调度( WarehouseProcess ,WarehouseEvent , InternalEvent , ScheduleEvent , ExternalEvent )
抽取过程的执行( TransformationExecution , StepExecution , ActivityExecution )
数据元素的变化( Measurement , ChangeRequest )
![Page 32: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/32.jpg)
OLAP 组件接口
立方体的定义:Cube , CubeDimAssoc , CubeRegion , Dimension , Hierarchy , Level , Mearsure , LevelBasedHierarchy , HierarchyLevelAsso , ValueBasedHierarchy , MemberSelection , MemberSelGrp ,
立方体到物理数据源的映射StructureMap , LevelBasedHierarchy , ValueBasedHierarchy
![Page 33: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/33.jpg)
数据挖掘组件的主要类及接口
MiningModel :模型属性和模型的输入 MiningSettings :对象属性,输入参数的说明 ApplicationInputSpecification , ApplicationAttribut
e :使用模型时的参数 MiningModelResult :挖掘的结果 SupervisedMiningModel: 描述预言性算法产生的模
型 StatisticsSettings, AssociationRulesSettings, Clusterin
gSettings, ClassificationSettings, RegressionSettings :对应模型的设置
![Page 34: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/34.jpg)
基于 CWM 的数据仓库体系结构的特点及优点
统一的数据集市和数据仓库 中央元数据库驱动机制 灵活高效的数据交换方式 易于升级 高度的可集成性 高度的可扩展性
![Page 35: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/35.jpg)
基于 CORBA 的企业数据仓库扩展结构
对 象 服 务
企业数据仓库 平台
C W M ( IDL)
通用数据仓库 工具
C W M ( IDL)
对象请求代理( ORB )
![Page 36: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/36.jpg)
提纲
背景介绍 数据仓库、元数据理论介绍 CWM 、 MOF 、 UML 、 XMI 规范介绍 基于 CWM 的数据仓库体系结构设计 电信综合业务信息服务平台设计
![Page 37: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/37.jpg)
系统体系结构设计
管 理 系 统
抽 取 清 洁 转 换 装 载
数 据 建 模
元数据交换
数据联机分析展示
元数据库
面向主题的企业数据仓库
省分公司上报数据
计费结算数据
WEB服务器
客户端
![Page 38: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/38.jpg)
系统部署图
WEB浏览
自动邮件
工具客户端
OLTP
服务器
数据仓库
服务器
OLAP
服务器
W W W
服务器
![Page 39: 基于 CWM 的 数据仓库体系结构设计](https://reader030.fdocuments.net/reader030/viewer/2022033005/56814e9b550346895dbc46b9/html5/thumbnails/39.jpg)
致谢