1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining)...

22
1 Chương 7: Phát triển ứng dụng Chương 7: Phát triển ứng dụng khai phá dữ liệu khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Trường Đại Học Bách Khoa Tp. Hồ Chí Minh

Transcript of 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining)...

Page 1: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

1

Chương 7: Phát triển ứng dụng Chương 7: Phát triển ứng dụng khai phá dữ liệukhai phá dữ liệu

Khai phá dữ liệu

(Data mining)

Học kỳ 1 – 2009-2010

Khoa Khoa Học & Kỹ Thuật Máy TínhKhoa Khoa Học & Kỹ Thuật Máy Tính

Trường Đại Học Bách Khoa Tp. Hồ Chí MinhTrường Đại Học Bách Khoa Tp. Hồ Chí Minh

Page 2: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

2

Nội dung

7.1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ liệu

7.2. Qui trình phát triển ứng dụng khai phá dữ liệu

7.3. Các chuẩn dành cho khai phá dữ liệu

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

7.5. Tóm tắt

Page 3: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

3

Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts

and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.

[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.

[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.

[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.

[5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005.

[6] Oracle, “Data Mining Concepts”, B28129-01, 2008.

[7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008.

Page 4: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

4

7.1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ liệu

Vấn đề dữ liệu Lượng và chất lượng dữ liệu

Kiểu dữ liệu

Vấn đề tri thức từ quá trình khai phá Biểu diễn và tích hợp vào ứng dụng

Vấn đề kỹ thuật khai phá Lựa chọn giải thuật khai phá

Vấn đề hiệu quả (effective) và hiệu suất (efficient)

Page 5: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

5

7.2. Qui trình phát triển ứng dụng khai phá dữ liệu

Qui trình phát triển ứng dụng

Qui trình phát triển ứng dụng khai phá dữ liệu

Tương đồng và khác biệt

Page 6: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

6

7.3. Các chuẩn dành cho khai phá dữ liệu

The Predictive Model Markup Language (PMML – www.dmg.org)

Standard application programming interfaces (APIs)

The Cross-Industry Standard Process for Data Mining (CRISP-DM – www.crisp-dm.org)

Nguồn: R. L. Grossman, M. F. Hornick, G. Meyer, Data Mining Standards Initiatives, Communications of the ACM 45 (8) 2002 59-61.

Page 7: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

7

7.3. Các chuẩn dành cho khai phá dữ liệu

The Predictive Model Markup Language (PMML – www.dmg.org) Chuẩn dựa trên XML

Mô tả các mô hình thống kê và khai phá dữ liệu, các tác vụ làm sạch và biến đổi dữ liệu

Các thành phần của PMML Data dictionary

Mining schema

Transformation dictionary

Model statistics

Models

Page 8: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

8

7.3. Các chuẩn dành cho khai phá dữ liệu

Page 9: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

9

7.3. Các chuẩn dành cho khai phá dữ liệu

Page 10: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

10

7.3. Các chuẩn dành cho khai phá dữ liệu

Page 11: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

11

7.3. Các chuẩn dành cho khai phá dữ liệu

Standard application programming interfaces (APIs)

SQL/MM Part 6: Data Mining

The Java Specification Request-73 (JSR-73)

Jcp.org/jsr/detail/073.jsp

Microsoft APIs

Microsoft.AnalysisServices.AdomdClient

Page 12: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

12

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Các công cụ mã nguồn mở (open-source tools)

Các công cụ thương mại

Page 13: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

13

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Các công cụ mã nguồn mở (open-source) R (www.r-project.org)

Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)

Weka (www.cs.waikato.ac.nz/ml/weka)

YALE (rapid-i.com)

KNIME (www.knime.org)

Orange (www.ailab.si/orange)

Nguồn: B. Zupan, J. Demsar, “Open-Source Tools for Data Mining”, Clinics in Laboratory Medicine 28(2008) 37-54.

Page 14: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

14

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 15: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

15

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 16: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

16

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 17: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

17

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 18: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

18

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 19: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

19

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 20: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

20

7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu

Các công cụ thương mại

Hỗ trợ từ Intelligent Miner (IBM)

Hỗ trợ từ Microsoft data mining tools (MS SQL Server 2000/2005/2008)

Hỗ trợ từ Oracle Data Mining

Hỗ trợ từ Enterprise Miner (SAS Institute)

Page 21: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

21

7.5. Tóm tắt

Xem xét sự tương đồng/khác biệt giữa qui trình phát triển ứng dụng truyền thống và ứng dụng khai phá dữ liệu

Sự cần thiết của các chuẩn (standards) dành cho khai phá dữ liệu

Sự quan tâm của các nhà sản xuất phần mềm đối với việc hỗ trợ phát triển ứng dụng khai phá dữ liệu

Page 22: 1 Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại

22

Hỏi & Đáp …Hỏi & Đáp …