Khai thác dữ liệu

16
Khai thác dữ liệu Khai thác dữ liệu Người trình bày : Hồ Hoàng Người trình bày : Hồ Hoàng Ánh Ánh

description

Khai thác dữ liệu. Người trình bày : Hồ Hoàng Ánh. Nội dung. Cách tiếp cận các vấn đề Khai Thác Dữ Liệu (KTDL). Các ứng dụng của KTDL. Các công cụ KTDL hiện đại sử dụng trong thương mại. Các cách tiếp cận KTDL. Discovery of Sequential Patterns. Discovery of Patterns in Time Series. - PowerPoint PPT Presentation

Transcript of Khai thác dữ liệu

Page 1: Khai thác dữ liệu

Khai thác dữ liệuKhai thác dữ liệu

Người trình bày : Hồ Hoàng ÁnhNgười trình bày : Hồ Hoàng Ánh

Page 2: Khai thác dữ liệu

2

Nội dung• Cách tiếp cận các vấn đề Khai

Thác Dữ Liệu (KTDL).

• Các ứng dụng của KTDL.

• Các công cụ KTDL hiện đại sử dụng trong thương mại.

Page 3: Khai thác dữ liệu

3

Các cách tiếp cận KTDL• Discovery of Sequential Patterns.• Discovery of Patterns in Time Series.• Discovery of Classification Rules.• Regression.• Neural Networks.• Genetic Algorithms.• Clustering and Segmentation.

Page 4: Khai thác dữ liệu

4

Discovery of Sequential Patterns

• Tập các hạng mục liên tục

• Ví dụ : {milk, bread, juice}, {bread, eggs}, {cookies, milk, coffe}

• Độ Support supp(X) = count(X)/|

D| => supp(S) >=

minsupp

Page 5: Khai thác dữ liệu

5

Discovery of Patterns in Time Series

• Chuỗi thời gian• Các mẫu theo chuỗi

thời gian => phân tích các

mẫu và tập con để trích xuất ra những thông tin cần thiết

Page 6: Khai thác dữ liệu

6

Discovery of Classification Rules

• Phân lớp : là quá trình học một chức năng để phân loại một chủ thể cho trước thành nhiều lớp hợp lý.

(var1 in range1) & (var2 in range2) &...(varn in rangen)

Page 7: Khai thác dữ liệu

Discovery of Classification Rules

• Ví dụ : xây dựng mô hình

7

Page 8: Khai thác dữ liệu

Discovery of Classification Rules

• Ví dụ : sử dụng mô hình

8

Page 9: Khai thác dữ liệu

9

Regression

Page 10: Khai thác dữ liệu

Neural Networks• Mạng nơron :

– Bắt nguồn từ lĩnh vực nghiên cứu trí tuệ nhân tạo.

– Sử dụng phép hồi quy suy rộng.• Phân loại :

– Mạng được giám sát : thuật toán tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn.

– Mạng không được giám sát : mô hình hóa một tập dữ liệu, không có sẵn các ví dụ đã được gán nhãn.

10

Page 11: Khai thác dữ liệu

Genetic Algorithms• Các thuật toán di truyền dựa trên một

ẩn dụ sinh học.• Các thuật toán này xem việc học như là

sự cạnh tranh trong quần thể gồm các lời giải ứng viên đang tiến hóa của bài toán.

11

Page 12: Khai thác dữ liệu

Genetic Algorithms• Ví dụ : mô tả giải thuật di truyền tổng

quát

12

Page 13: Khai thác dữ liệu

Clustering & Segmentation

• Gom nhóm (Phân cụm) : là quá trình nhóm các đối tượng thành những nhóm/cụm/lớp có ý nghĩa. Các đối tượng trong cùng một nhóm có nhiều tính chất chung và có những tính chất khác với các đối tượng ở nhóm khác.

• Phân lớp : học có giám sát.• Gom nhóm : học không có giám sát.

13

Page 14: Khai thác dữ liệu

Clustering & Segmentation

• Ví dụ :

14

Page 15: Khai thác dữ liệu

Các ứng dụng của KTDL

• Các lĩnh vực ứng dụng KTDL

15

Page 16: Khai thác dữ liệu

Các công cụ KTDL hiện đại sử dụng trong

thương mại

16