Ch1 - Kho DL Va Khai Pha DL
-
Upload
nguyen-gia-tri -
Category
Documents
-
view
56 -
download
0
Transcript of Ch1 - Kho DL Va Khai Pha DL
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆUIntroduction to Data Warehousing & Data Mining
KHAI PHÁ DỮ LIỆU
Page 2
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
1. Tổng quan2. Tạo kho dữ liệu3. Hỗ trợ quyết định & Xử lý
phân tích trực tuyến (OLAP)4. Khai phá dữ liệu
Page 3
Dữ liệu (Data), Thông tin (Information), Tri thức (Knowlegde)
Dữ liệu là tập các sự kiện thô và chúng được tổ chức ở các dạng logic. Thành phần nhỏ nhất của dữ liệu được “thừa nhận” bởi máy tính là các ký tự đơn, ví dụ: chữ A, số 1, ký tự *…Một ký tự được biểu diễn bởi 8 bít. Các bits thường được sử dụng để đo thông tin.
Tri thức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng. Tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và tổng quát.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Khám phá tri thức hay phát hiện tri thức là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu được.
Page 4
Tạo kho dữ liệu (Data Warehousing)
Một quá trình chuyển đổi dữ liệu thành thông tin và làm cho nó có sẵn cho người dùng một cách kịp thời, đủ để tạo sự khác biệt
[Forrester Research, 4/1996]
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 5
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Kho dữ liệu (Data Warehouse) là gì?
W.H.Inmon:
“Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, cập nhật theo thời gian nhằm hỗ trợ cho việc ra quyết định.
Một kho dữ liệu bao gồm:
– Một hoặc nhiều công cụ để chiết xuất dữ liệu
– Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp bằng cách thiết lập các bảng dữ liệu.”
Page 6
Mục đích của kho dữ liệu:
Mục tiêu chính của kho dữ liệu :
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình, như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất cao hơn, thu được lợi nhuận cao hơn, v.v.
Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác.
Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 7
Các giải pháp để Kho dữ liệu đạt mục đích
oNâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định
oTổng hợp và kết nối dữ liệu
oĐồng bộ hoá các nguồn dữ liệu với DW
oPhân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW.
oQuản lí siêu dữ liệu
oCung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề
oDùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 8
Thuộc tính của kho dữ liệu:
Tính tích hợp (Integration)
Dữ liệu gắn thời gian và có tính lịch sử
Dữ liệu có tính ổn định (nonvolatility)
Dữ liệu không biến động
Dữ liệu tổng hợp
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 9
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 10
Kho dữ liệu bao gồm 7 thành phần:
– Dữ liệu nguồn và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu.
– Kho siêu dữ liệu (MetaData)
– Các kỹ thuật tạo lập kho
– Kho dữ liệu theo chủ đề (Data marts): Với các kho dữ liệu này, có thể tổng hợp thành một kho dữ liệu thông minh. Ngược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh.
– Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực tuyến (OLAP) và khai phá dữ liệu (data mining) là các kỹ thuật khai thác kho dữ liệu để đem lại những “tri thức”..
– Quản trị kho dữ liệu.
– Hệ thống phân phối thông tin.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 11
35%
30%
25%
20%
15%
10%
5%
0%5GB
5-9GB
10-19GB 50-99GB 250-499GB
20-49GB 100-249GB 500GB-1TB
Initial
Projected 2Q96
Source: META Group, Inc.
Res
pond
ents
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Kho dữ liệu là CSDL rất lớn
Page 12
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Terabytes -- 10^12 bytes:
Petabytes -- 10^15 bytes:
Exabytes -- 10^18 bytes:
Zettabytes -- 10^21 bytes:
Zottabytes -- 10^24 bytes:
Walmart -- 24 Terabytes
Geographic Information Systems
National Medical Records
Weather images
Intelligence Agency Videos
Page 13
Sự khác biệt giữa các hệ thao tác CSDL & các hệ thông tin
Đặc trưng Thao tác CSDL Hệ thông tinĐặc điểm Xử lý thao tác Xử lý thông tin
Hướng Giao dịch Phân tích
Người dùng Nhân viên, quản trị CSDL, chuyên viên CSDL
Người quản lý, phân tích viên, người điều hành
Chức năng Thao tác hàng ngày Hỗ trợ quyết định
Data Hiện hành Mang tính lịch sử (lâu dài)
Khung nhìn Chi tiết, ít quan hệ Tổng hợp, đa chiều
Thiết kế CSDL Hướng ứng dụng Hướng chủ đề (Subject)
Đơn vị Giao dịch đ.giản, ngắn Truy vấn phức tạp
Truy cập Đọc/Ghi Hầu như chỉ đọc
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 14
Đặc trưng Thao tác CSDL Hệ thông tin
Chú trọng Dữ liệu vào Thông tin ra
Số lượng bản ghi truy cập
Bội số của 10 Bội số của triệu
Số lượng người dùng Hàng ngàn Hàng trăm
Kích thước dữ liệu 100MB đến GB 100 GB đến TB
Ưu điểm (Priority) Hiệu năng cao, tính sẳn sàng cao
Linh động cao, người sử dụng chủ động
Độ đo (Metric) Tốc độ xử lý giao dịch Tốc độ truy vấn
Sự khác biệt giữa các hệ thao tác CSDL & các hệ thông tin
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 15
Tạo kho dữ liệu:
Thực hiện các kỹ thuật hợp nhất và quản lý dữ liệu từ nhiều nguồn khác nhau. Mục đích trả lời các câu hỏi tác nghiệp, hỗ trợ cho các quyết định, mà trước đó không thể thực hiện được.
Một CSDL hỗ trợ quyết định được tạo lập và duy trì riêng biệt với cơ sở dữ liệu hoạt động của một tổ chức
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 16
Khai thác kho dữ liệu theo 3 cách chính:
1.Khai thác truyền thống
Truy vấn, báo cáo.. Dữ liệu tinh
2. Xử lý phân tích trực tuyến (OLAP)
Phân tích, kiểm định giả thuyết, chưa
đưa được các giả thuyết
3. Khai phá dữ liệu
Tạo dữ liệu tri thức
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 17
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN (OLAP)Hỗ trợ Quyết định chuyên sâu
04 đặc điểm chính
Phân tích dữ liệu đa chiều
Hỗ trợ cơ sở dữ liệu tiên tiến
Giao diện dễ dàng cho người sử dụng
Hỗ trợ kiến trúc Client / Server
Dữ liệu trong kho dữ liệu được thể hiện dưới dạng đa chiều (Multi Dimension) gọi là khối (cube). Mỗi chiều mô tả một đặc trưng nào đó của dữ liệu.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 18
CÁC KỸ THUẬT PHÂN TÍCH DỮ LIỆU ĐA CHIỀU
Các chức năng biểu diễn dữ liệu tiên tiếno Đồ họa 3-D, Pivot Tables, Crosstabs.
o Tương thích với Spreadsheets và gói thống kê
o Tổng hợp dữ liệu tiên tiến, củng cố và phân loại trên kích thước thời gian
o Các chức năng tính toán nâng cao
o Chức năng mô hình hóa dữ liệu tiên tiến
HỖ TRỢ CSDL TIẾN TIẾN
Các đặc trưng của xử lý CSDL tiên tiếno Truy cập nhiều loại của DBMS, các tập tin nền (flat), và các dữ liệu trong & ngoài hệ
thống
o Truy cập vào kho dữ liệu tổng hợp.
o Định hướng Dữ liệu tiên tiến (drill downs và roll-ups)
o Có khả năng ánh xạ yêu cầu người sử dụng đến các nguồn dữ liệu thích hợp
o Hỗ trợ cơ sở dữ liệu rất lớn
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 19
GIAO DIỆN DỄ DÀNG CHO NGƯỜI
SỬ DỤNG
o Giao diện đồ họa
o Có nhiều tiện ích để truy xuất dữ liệu dễ dàng
CẤU TRÚC CLIENT/SERVER
oLàm nền tảng để thiết kế, cài đặt, phát triển cho nhiều hệ thống mới
oChia hệ thống OLAP thành nhiều thành phần có định kiến trúc:
Trên cùng một máy
Phân tán trên nhiều máy
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 20
KIẾN TRÚC CỦA OLAP
– 03 thành phần chính:
• Giao diện đồ họa (GUI)
• Phân tích dữ liệu logic
• Xử lý dữ liệu logic
OLAP QUAN HỆ (Relational OLAP)
Xử lý phân tích trực tuyến quan hệ (Relational Online Analytical Processing)
• OLAP sử dụng CSDL quan hệ và họ các công cụ truy vấn để lưu trữ và phân tích dữ liệu đa chiều
Hỗ trợ lược đồ CSDL đa chiều
Có truy vấn và ngôn ngữ truy xuất dữ liệu hiệu năng
Hỗ trợ CSDL lớn
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 21
HỖ TRỢ LƯỢC ĐỒ CSDL ĐA CHIỀU
Dữ liệu hỗ trợ quyết định liệu có xu hướng được
o Không chuẩn hóa (Nonnormalized)oTrùng lặpoTổng hợp (Preaggregate) Các mô hình dữ liệu sử dụng trong OLAP
Mô hình dạng sao (Star Schema) Mô hình chòm sao sự kiện (Fact Constellation Schema) Mô hình bông tuyết (Snowflake Schema)Thiết kế kỹ thuật đặc biệt cho biểu diễn dữ liệu đa chiềuTối ưu hóa hoạt động truy vấn dữ liệu thay vì dữ liệu cập nhật hoạt động
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 22
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
MÔ HÌNH SAO-Thiết kế chuyên biệt để biểu diễn dữ liệu đa chiều- Tối ưu hóa các thao tác truy vấn dữ liệu thay cho các thao tác cập nhật dữ liệu- Ánh xạ dữ liệu hỗ trợ quyết định vào mô hình dữ liệu quan hệ
4 thành phần Sự kiện (Facts)Chiều (Dimensions)Thuộc tính (Attributes)Phân cấp thuộc tính (Attribute Hierarchies)
Page 23
SỰ KIỆN (Facts)
Độ đo (giá trị) số biểu diễn cho một khía cạnh kinh doanh hoặc một hoạt động cụ thể
Lưu trữ trong một bảng sự kiện tại trung tâm của mô hình sao Chứa các sự kiện được liên kết với các chiều của chúng Có thể được tính toán hoặc có suy dẫn lúc thực hiện Cập nhật định kỳ với các dữ liệu từ các thao tác cơ sở dữ liệu Bảng sự kiện (Fact Table): dùng để theo dõi các biến động của dữ liệu,
cấu trúc của Fact table gồm các khóa ngoại đó là các khóa chính của các bảng chiều (Dimension table).
Độ đo (Measure): Là đại lượng có thể tính toán được trên các thuộc tính của fact table.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 24
CHIỀU (Dimensions)
Mỗi chiều mô tả một đặc trưng nào đó của dữ liệu.
Dimension Table là các bảng mô tả các đặc trưng của các chiều như chiều thời gian, chiều khách hàng, chiều hàng hóa,…
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 25
THUỘC TÍNH (Attributes) Các bảng chiều chứa các thuộc tính Các thuộc tính được sử dụng để nghiên cứu, lọc và phân lớp các sự
kiện. Chiều mô tả các đặc trưng của các sự kiện thông qua các thuộc tính. Không có hạn chế về mặt toán học về số lượng chiều (3-D được mô hình
hóa dễ dàng)
PHÂN CẤP THUỘC TÍNH (Attribute Hierarchies) Khái niệm này mô tả sự phân cấp thứ bậc (mức độ chi tiết của dữ liệu).
Ví dụ đối với chiều thời gian, ta có thực bậc như sau: day<week<month<quarter<year. Tương tự đối với chiều location ta có thứ bậc street<city<province_or_state<country.
Trong khi phân tích dữ liệu chúng ta rất cần khái niệm này để tổng hợp hay chi tiết từng hạng mục dữ liệu trong DW.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 26
Store Key
Product Key
Period Key
Units
Price
Store Dimension
Time Dimension
Product Dimension
Fact Table
Tiện ích: Dễ hiểu, dễ định nghĩa phân cấp giảm số lượng kết nối vật lý
Store Key
Store Name
City
State
Region
Period Key
Year
Quarter
Month
Product Key
Product Desc
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Một ví dụ về mô hình sao
Page 27
MÔ HÌNH BÔNG TUYẾT (SnowFlake Schema)
Biến thể của mô hình sao.
Gồm một bảng sự kiện, gồm một hay nhiều bảng cho mỗi chiều.
Các bảng chiều được chuẩn hóa, phân chia bảng chiều thành nhiều bảng bổ sung.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 28
MÔ HÌNH BÔNG TUYẾT (SnowFlake Schema)
Store Key
Product Key
Period Key
Units
Price
Time Dimension
Product Dimension
Fact Table
Store Key
Store Name
City Key
Period Key
Year
Quarter
Month
Product Key
Product Desc
City Key
City
State
Region
City Dimension
Store Dimension
Nhược điểm: thời gian kết nối nhiều
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 29
MÔ HÌNH CHÒM SAO SƯ KIỆN (Fact Constellation)
Nhiều bảng sự kiện cùng chia sẻ các chiều.
Mô hình này được xem như là tập hợp nhiều mô hình ngôi sao vì thế được gọi là mô hình thiên hà hoặc chòm sao sự kiện (galaxy schema or fact constellation)
Ứng dụng phức tạp cần mô hình này.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 30
Store Key
Product Key
Period Key
Units
Price
Store Dimension
Product Dimension
SalesFact Table
Store Key
Store Name
City
State
Region
Product Key
Product Desc
Shipper Key
Store Key
Product Key
Period Key
Units
Price
ShippingFact Table
Mô hình chòm sao sự kiện
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 31
XÂY DỰNG KHO DỮ LIỆU (Building Data Warehouse)
Sưu tập dữ liệu (Data Selection)
Tiền xử lý dữ liệu (Data Preprocessing)
– Điền dữ liệu thiếu (Fill missing values)
– Loại bỏ dữ liệu không nhất quán (Remove inconsistency)
Tích hợp và chuyển đổi dữ liệu (Data Transformation & Integration)
Nhập dữ liệu (Data Loading)
Dữ liệu trong kho dữ liệu được lưu trữ trong các bảng sự kiện và các bảng chiều (Data in warehouse is stored in form of fact tables and dimension tables)
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 32
Thử nghiệm (Case Study)
Afco Foods & Beverages là một công ty mới sản xuất sữa, bánh mì và các sản phẩm thịt với các đơn vị sản xuất đặt tại Baroda.
Có sản phẩm được bán tại khu vực Bắc, Tây Bắc và Tây Ấn Độ.
Họ có các đơn vị bán hàng ở Mumbai, Pune, Ahemdabad, Delhi và Baroda.
Chủ tịch của công ty muốn có thông tin tiêu thụ.
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 33
Thông tin tiêu thụ (Sales Information)
Report: Số lượng các đơn vị bán ra (The number of units sold)
113
Report: Số lượng các đơn vị bán theo thời gian.(The number of units sold over time)
January February March April
14 41 33 25
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 34
Thông tin tiêu thụ (Sales Information)
Report : Số lượng các mặt hàng đã bán ứng mỗi sản phẩm theo thời gian(The number of items sold for each product with time)
Jan Feb Mar Apr
Wheat Bread 6 17
Cheese 6 16 6 8
Swiss Rolls 8 25 21
Product
Tim
e
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 35
Thông tin tiêu thụ (Sales Information)Report: Số lượng các mặt hàng đã bán tại mỗi công ty ứng với mỗi sản phẩm theo thời gian (The number of items sold in each City for each product with time)
Jan Feb Mar Apr
Mumbai Wheat Bread 3 10
Cheese 3 16 6
Swiss Rolls 4 16 6
Pune Wheat Bread 3 7
Cheese 3 8
Swiss Rolls 4 9 15
Product
Tim
e
City
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 36
Thông tin tiêu thụ (Sales Information)Report: Số lượng các mặt hàng bán ra và thu nhập trong từng khu vực ứng với mỗi sản phẩm với thời gian (The number of items sold and income in each region for each product with time)
Jan Feb Mar Apr
Rs U Rs U Rs U Rs U
Mumbai Wheat Bread 7.44 3 24.80 10
Cheese 7.95 3 42.40 16 15.90 6
Swiss Rolls 7.32 4 29.98 16 10.98 6
Pune Wheat Bread 7.44 3 17.36 7
Cheese 7.95 3 21.20 8
Swiss Rolls 7.32 4 16.47 9 27.45 15
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 37
Các độ đo tiêu thụ và chiều (Sales Measures & Dimensions)
Độ đo – Đơn vị bán ra, Số lượng
(Measure – Units sold, Amount)
Chiều – Sản phẩm, Thời gian, Vùng
(Dimensions – Product,Time,Region).
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 38
Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)
City Product Month Units Rupees
Mumbai Wheat Bread January 3 7.95
Mumbai Cheese January 4 7.32
Pune Wheat Bread January 3 7.95
Pune Cheese January 4 7.32
Mumbai Swiss Rolls February 16 42.40
Bảng sư kiện (Fact Table)
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 39
City_ID Prod_ID Month Units Rupees
1 589 1/1/1998 3 7.95
1 1218 1/1/1998 4 7.32
2 589 1/1/1998 3 7.95
2 1218 1/1/1998 4 7.32
1 589 2/1/1998 16 42.40
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)
Page 40
Các bảng chiều sản phẩm (Product Dimension Tables)
Prod_ID Product_Name Product_Category_ID
589 Wheat Bread 1
590 White Bread 1
288 Coconut Cookies 2
Product_Category_Id Product_Category
1 Bread
2 Cookies
Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 41
Bảng chiều vùng (Region Dimension Table)
City_ID City Region Country
1 Mumbai West India
2 Pune NorthWest India
Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 42
Sales Fact
Region
ProductProduct
Category
Time
Mô hình kho dữ liệu tiêu thụ (Sales Data Warehouse Model)
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 43
Xử lý phân tích trực tuyến (OLAP)
Nó cho phép các nhà phân tích, quản lý và điều hành để đạt được cái nhìn sâu sắc vào các dữ liệu thông qua truy cập nhanh chóng, phù hợp và tương tác, một loạt các quan điểm có thể có của thông tin đã được chuyển đổi từ dữ liệu thô để phản ánh đa chiều thực sự của doanh nghiệp theo cách hiểu của người sử dụng.
Data Warehouse
Time
Product
Reg
ion
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 44
OLAP Cube
City Product Time Units Dollars
All All All 113 251.26
Mumbai All All 64 146.07
Mumbai White Bread All 38 98.49
Mumbai Wheat Bread All 13 32.24
Mumbai Wheat Bread Qtr1 3 7.44
Mumbai Wheat Bread March 3 7.44
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 45
OLAP Operations
Drill Down
Time
Reg
ion
Product
Category e.g Electrical Appliance
Sub Category e.g Kitchen
Product e.g Toaster
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 46
OLAP Operations
Drill Up
Time
Reg
ion
Product
Category e.g Electrical Appliance
Sub Category e.g Kitchen
Product e.g Toaster
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 47
OLAP Operations
Slice and Dice
Time
Reg
ion
ProductProduct=Toaster
Time
Reg
ion
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 48
OLAP Operations
Pivot
Time
Reg
ion
Product
RegionT
ime
Product
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 49
OLAP
là một mô hình trực quan mạnh mẽ
cung cấp sự tương tác và thời gian đáp ứng nhanh chóng
tiếp cận phân tích chuỗi thời gian
là hữu ích để tìm thấy một số cụm và giá trị ngoại lệ
Nhiều nhà cung cấp cung cấp các công cụ OLAP
OLAP Is FASMI
Fast
Analysis
Shared
Multidimensional
Information
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 50
PHÁT HIỆN TRI THỨC & KHAI PHÁ DỮ LIỆU
Khám phá tri thức hay phát hiện tri thức trong cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu được.
Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, bao gồm các thuật toán chuyên dụng:
Tìm ra các mẫu hoặc các mô hình trong dữ liệu dung lượng lớn.
Phát hiện tri thức phục vụ cho các lợi ích trong thực tế và các yêu cầu trong nghiên cứu học thuật.
Mục đích chính của khai thác dữ liệu:
Mô tả (description) và dự đoán (prediction).
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 51
Các bài toán Khai phá DL:
Phân lớp (Classification [Predictive])
Phân cụm (Clustering [Descriptive])
Phát hiện luật kết hợp (Association Rule Discovery [Descriptive])
Phát hiện mẫu tuần tự (Sequential Pattern Discovery [Descriptive])
Hồi qui (Regression [Predictive])
Phát hiện độ lệch (Deviation Detection [Predictive])
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Học máy/Nhận dạng mẫu
Thống kê/Trí tuệ
nhân tạo
Khai phá DL
Các hệ CSDL
Page 52
Data Mining & Warehouse Data
Tạo kho dữ liệu cung cấp cho các doanh nghiệp không gian nhớ/lưu trữ
Khai thác dữ liệu cung cấp cho các doanh nghiệp sự thông minh
Chương 1: TẠO KHO DỮ LIỆU & KHAI PHÁ DỮ LIỆU
Page 53
Chương 2: TIỀN XỬ LÝ DỮ LIỆU
Tài liệu đọc thêm:
1.Data Mining Concepts & Technique (3rd) J.Han, M.Kamber, J.Pei
2.Principles of Data Mining Max Bramer
3.Data Warehousing and Data Mining S. Sudarshan Krithi Ramamritham
4. Introduction to Data Warehousing Ms Swapnil Shrivastava [email protected]
3.http://bis.net.vn – (Các bài viết của tác giả Ng Văn Chức)