Khai Phá Dữ Liệu -...

30
Khai Phá DLiu Nguyn Nht Quang [email protected] Trường Đại hc Bách Khoa Hà Ni Vin Công nghThông tin và Truyn thông Năm hc 2011-2012

Transcript of Khai Phá Dữ Liệu -...

Page 1: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Khai Phá Dữ Liệu

Nguyễn Nhật Quang

[email protected]

Trường Đại học Bách Khoa Hà NộiViện Công nghệ Thông tin và Truyền thông

Năm học 2011-2012

Page 2: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Nội dung môn học:

Giới thiệu về Khai phá dữ liệu

ềGiới thiệu về công cụ WEKA

Tiền xử lý dữ liệu

Phát hiện các luật kết hợp

Các kỹ thuật phân lớp và dự đoánCác kỹ thuật phân lớp và dự đoán

Các kỹ thuật phân nhóm

2Khai Phá Dữ Liệu

Page 3: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Tại sao cần khai phá dữ liệu?ạ p ệSự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes

Th hậ d liệ à ồ i ủ d liệThu thập dữ liệu và sự tồn tại của dữ liệuCác công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ liệu, World Wide Web, xã hội số

Cá ồ dữ liệ h húCác nguồn dữ liệu phong phúKinh doanh: Internet, thương mại điện tử, giao dịch thương mại, chứng khoán,…Khoa học: Tín hiệu cảm biến tin sinh thí nghiệm môKhoa học: Tín hiệu cảm biến, tin sinh, thí nghiệm mô phỏng/giả lập,…Xã hội: Tin tức, máy ảnh số, các mạng xã hội

Chúng ta bị tràn ngập trong dữ liệu Nhưng lại thiếu (cần) triChúng ta bị tràn ngập trong dữ liệu – Nhưng lại thiếu (cần) tri thứcKhai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất lớn để khám phá ra các tri thứclớn, để khám phá ra các tri thức

3Khai Phá Dữ Liệu

Page 4: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Khai phá dữ liệu – Định nghĩap ệ ị gKhai phá dữ liệu (Data mining – DM) – Khám phá tri thức từ dữ liệu (Knowledge discovery from data)

ẫLà việc trích rút ra được các mẫu hoặc tri thức quan trọng từ một lượng dữ liệu (rất) lớn

quan trọng = không tầm thường, ẩn, chưa được biết đến, và có thể hữu íchcó thể hữu ích

Các tên gọi khácKhám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD)in databases - KDD)Trích rút tri thức (Knowledge extraction)Phân tích mẫu/dữ liệu (Data/pattern analysis)…

Khai phá dữ liệu khác với…Tìm kiếm thông tin (Information retrieval)

ấ ốXử lý các câu truy vấn (SQL) đối với các cơ sở dữ liệu

4Khai Phá Dữ Liệu

Page 5: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Lịch sử phát triểnị p1989 IJCAI Workshop on Knowledge Discovery in Databases

Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)

1991-1994 Workshops on Knowledge Discovery in Databases

Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. g y g ( yy ,Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)

1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98)Databases and Data Mining (KDD 95 98)

Journal of Data Mining and Knowledge Discovery (1997)

ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations

More conferences on data mining

PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.

ACM Transactions on KDD starting in 2007

5Khai Phá Dữ Liệu

Page 6: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Các bước của quá trình KD1.Tìm hiểu lĩnh vực của bài toán (ứng dụng)

Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực2.Tạo nên (thu thập) một tập dữ liệu phù hợp3.Làm sạch và tiền xử lý dữ liệu4.Giảm kích thước của dữ liệu, chuyển đổi dữ liệu

Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến

5.Lựa chọn chức năng khai phá dữ liệuTóm tắt hóa (s mmari ation) phân loại/phân lớp hồi q /dTóm tắt hóa (summarization), phân loại/phân lớp, hồi quy/dự đoán, kết hợp, phân cụm

6.Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp7 Tiến hành quá trình khai phá dữ liệu7.Tiến hành quá trình khai phá dữ liệu8.Đánh giá mẫu thu được và biểu diễn tri thức

Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, …9 Sử dụng các tri thức được khám phá9.Sử dụng các tri thức được khám phá

6Khai Phá Dữ Liệu

Page 7: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Quá trình khám phá tri thức (1)Đây là cách nhìn của giới nghiên cứu về các hệ thống dữ liệu và kho dữ liệuliệu và kho dữ liệuKhai phá dữ liệu đóng vai trò quan trọng trong quá trình khám phá tri thức

Pattern Evaluation

khám phá tri thức

Task-relevant Data

Data Mining

Data Cleaning

Data Warehouse Selection

Data Cleaning

Data Integration

7Khai Phá Dữ Liệu

Databases (Han and Kamber - Data mining: Concepts and Techniques)

Page 8: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Quá trình khám phá tri thức (2)(Han and Kamber - Data mining: Concepts and Techniques)

Input Data Data Mining

Data Pre-Processing

Post-Processing

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation & correlationClassificationClustering

Pattern evaluationPattern selectionPattern interpretationPattern visualization

Đây là cách nhìn của giới nghiên cứu về học máy và thố kê

Dimension reduction Outlier analysis… … … …

Pattern visualization

thống kê

8Khai Phá Dữ Liệu

Page 9: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Kiến trúc hệ thống khai phá dữ liệu

Graphical User Interface

Pattern Evaluation

Knowledge

Database or Data

Data Mining EngineKnowledge

base

data cleaning, integration, and selection

Warehouse Server

Database Data Warehouse

World-WideWeb

Other InfoRepositories (Han and Kamber -

Data mining: Concepts

9Khai Phá Dữ Liệu

Data mining: Concepts and Techniques)

Page 10: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Khai phá dữ liệu cho kinh doanhIncreasing potentialto supportbusiness decisions End User

Business

DecisionMaking

Data PresentationAnalyst

DataAnalyst

Data PresentationVisualization Techniques

Data MiningInformation Discovery AnalystInformation Discovery

Data ExplorationStatistical Summary, Querying, and Reporting

DBAData Preprocessing/Integration, Data Warehouses

Data Sources

10Khai Phá Dữ Liệu

Paper, Files, Web documents, Scientific experiments, Database Systems

(Han and Kamber - Data mining: Concepts and Techniques)

Page 11: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM – Các lĩnh vực liên quanự qCông nghệ cơ sở dữ liệu (Database technology)

Giải thuật (Algorithm)

Thống kê (Statistics)

Học máy (Machine learning)

Nhận dạng mẫu (Pattern recognition)Nhận dạng mẫu (Pattern recognition)

Hiển thị hóa (Visualization)

Tính toán hiệu năng cao (High-performance computing)

11Khai Phá Dữ Liệu

Page 12: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Phân tích dữ liệuệLượng dữ liệu rất lớn

Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với những tập dữ liệu lên đến hàng terabytes hoặc thậm chínhững tập dữ liệu lên đến hàng terabytes, hoặc thậm chí petabytes

Dữ liệu được biểu diễn trong không gian nhiều chiều (số lượng rất lớn các thuộc tính)

Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) có thể được biểu diễn bởi hàng chục ngàn thuộc tính

Dữ liệu có độ phức tạp (rất) caoCá l ồ dữ liệ à dữ liệ th hậ từ á ả biếCác luồng dữ liệu và dữ liệu thu nhận từ các mạng cảm biếnDữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian, chuỗi dữ liệuDữ liệu có cấu trúc, dữ liệu dạng đồ thị, các mạng xã hộiDữ liệu có cấu trúc, dữ liệu dạng đồ thị, các mạng xã hộiCác cơ sở dữ liệu hỗn tạpDữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện

Cần các chương trình (ứng dụng) phân tích dữ liệu mới, phức g ( g ụ g) p ệ , ptạp hơn

12Khai Phá Dữ Liệu

Page 13: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM – Nhiều cách nhìn (quan điểm)Dữ liệu được khai phá

Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ liệ h ớ đối t dữ liệ h th ộ khô i dữ liệ liêliệu hướng đối tượng, dữ liệu phụ thuộc không gian, dữ liệu liên tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện, dữ liệu hỗn tạp, dữ liệu trên WWW, …

T i thứ đ khá háTri thức được khám pháSự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu hướng/dịch chuyển, phân tích ngoại lai (outlier)

Các kỹ thuật được sử dụngDựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống kê, hiển thị hóa, …

Các ứng dụng (bài toán) thực tếKinh doanh bán lẻ, viễn thông, ngân hàng, phát hiện gian lận tài chính, khai phá dữ liệu sinh học, phân tích thị trường chứng

ảg g

khoán, khai phá văn bản, khai phá Web, …

13Khai Phá Dữ Liệu

Page 14: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM – Các cách phân biệtp ệTheo chức năng tổng quát

Khai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thểKhai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thể hiểu/diễn giải được) biểu diễn/mô tả dữ liệuKhai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán giá trị (chưa biết, hoặc trong tương lai) của các biến khác

Các cách nhìn (quan điểm) khác nhau dẫn đến các cách phân biệt khác nhau về Khai phá dữ liệu

ểDựa theo dữ liệu: Những kiểu dữ liệu nào được khai phá?Dựa theo tri thức: Những kiểu tri thức nào được khám phá?Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng?Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng?Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán) nào phù hợp để giải quyết?

14Khai Phá Dữ Liệu

Page 15: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Khái quát hóaqTích hợp thông tin và xây dựng các kho dữ liệu

Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mô hì h d liệ hiề hiề ( l i di i l d d l)hình dữ liệu nhiều chiều (multi-dimensional data model)

Công nghệ khối dữ liệu (data cube)ể ế ề ềCác phương pháp hiệu quả để tính toán kết hợp nhiều chiều của

dữ liệuXử lý phân tích trực tuyến (Online analytical processing – OLAP)

Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự phân biệt

Tổng quát hóa tóm tắt và tương phản các đặc tính của dữ liệuTổng quát hóa, tóm tắt, và tương phản các đặc tính của dữ liệuVd: Các vùng khô vs. các vùng ướt

15Khai Phá Dữ Liệu

Page 16: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Phân tích kết hợp và tương quan

Các mẫu hoặc các tập mục (itemsets) thường xuyênNhững mục (sản phẩm) nào thường xuyên được muag ụ ( p ) g y ợcùng nhau, trong siêu thị BigC?

Kết hợp (association), tương quan (correlation), vànguyên nhân (causality)nguyên nhân (causality)

Ví dụ về một luật kết hợp (association rule)Bánh mỳ Sữa [0.5%, 75%] (độ hỗ trợ – support,

độ ti ậ fid )độ tin cậy – confidence)Các mục kết hợp ở mức cao, thì cũng tương quan ở mức cao?

Làm thế nào để khám phá các mẫu (luật) như vậy trongcác tập dữ liệu lớn?

16Khai Phá Dữ Liệu

Page 17: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Phân lớp và dự đoánp ựPhân lớp (classification) và dự đoán (prediction)

Xây dựng các mô hình (các hàm mục tiêu) dựa trên một số ví dụ h /h ấ l ệhọc/huấn luyệnMô tả và phân biệt các lớp (các khái niệm) cho việc dự đoán trong tương laiPhân lớp các ví dụ mới hoặc dự đoán các giá trị kiểu sốPhân lớp các ví dụ mới, hoặc dự đoán các giá trị kiểu số

Các phương pháp điển hìnhCây quyết định (Decision tree learning), Phân lớp Naïve Bayes (Naïve Bayes classification) Máy vectơ hỗ trợ (Support vector(Naïve Bayes classification), Máy vectơ hỗ trợ (Support vector machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear regression), …

Các ứng dụng điển hìnhPhát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với từng người), phân loại/dự đoán các loại bệnh, phân loại các trang g g ), p ạ ự ạ ệ , p ạ gWeb, …

17Khai Phá Dữ Liệu

Page 18: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Phân cụm và phân tích ngoại lai

Phân cụm (Cluster analysis)Phương pháp học không giám sát (unsupervised learning) –khô ó hô i ề h lớkhông có thông tin về nhãn lớpNhóm dữ liệu lại thành các cụm (clusters)Nguyên tắc: Cực đại hóa sự tương tự giữa các đối tượng trong cùng một cụm nhưng cực tiểu hóa sự tương tự giữa các đốicùng một cụm – nhưng cực tiểu hóa sự tương tự giữa các đối tượng khác cụmCó rất nhiều phương pháp và ứng dụng (bài toán)

Phân tích ngoại lai (Outlier analysis/detection)Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng khác (trong một cụm)Nhiễ ủ dữ liệ h là i lệ?Nhiễu của dữ liệu, hay là ngoại lệ?Các phương pháp: phân cụm, phân tích hồi quy, …Rất hữu ích trong các bài toán phát hiện gian lận (giả mạo), hoặc phân tích các sự kiện hiếm khi xảy raphân tích các sự kiện hiếm khi xảy ra

18Khai Phá Dữ Liệu

Page 19: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Phân tích xu hướng và tiến triển

Phân tích chuỗi (sequence), xu hướng (trend), và tiến triển (evolution)

Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng)Khai phá các mẫu kiểu chuỗi (sequential patterns)

Vd: Đầu tiên mua máy ảnh số sau đó mua các thẻ nhớ SDVd: Đầu tiên mua máy ảnh số, sau đó mua các thẻ nhớ SD dung lượng lớn, …

Phân tích tính chu kỳ (Periodicity analysis)Phâ tí h h ỗi dữ liệ liê t th thời i (ti i ) àPhân tích chuỗi dữ liệu liên tục theo thời gian (time-series) và chuỗi dữ liệu sinh họcPhân tích dựa trên sự tương tự (Similarity-based analysis)

Khai phá các luồng dữ liệuCó thứ tự, thay đổi theo thời gian, có thể vô hạn, các luồng dữ liệuliệu

19Khai Phá Dữ Liệu

Page 20: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Phân tích mạng và cấu trúcKhai phá đồ thị dữ liệu (Graph mining)

Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ liệu XML) các cấu trúc con (dữ liệu Web) thường xuyên xảy raliệu XML), các cấu trúc con (dữ liệu Web) … thường xuyên xảy ra

Phân tích mạng thông tin (Information network analysis)Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các mối quan hệ (các cạnh)q ệ ( ạ )

Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạoCác mạng hỗn tạp (khác nhau)

Vd: Một người có thể tham gia nhiều mạng khác nhau (bạn bè, gia đình bạn cùng lớp/trường những người cùng sở thích nghe nhạcđình, bạn cùng lớp/trường, những người cùng sở thích nghe nhạc Rock,…)

Các liên kết (links) mang rất nhiều thông tin ngữ nghĩa: Khai phá các liên kết (Link mining)

Kh i há W b (W b i i )Khai phá Web (Web mining)WWW là một mạng thông tin khổng lồ: PageRank (Google)Phân tích các mạng thông tin Web

Khám phá cộng đồng Web Khai phá ý kiến (Opinion mining) KhaiKhám phá cộng đồng Web, Khai phá ý kiến (Opinion mining), Khai phá dữ liệu truy cập Web (usage mining)

20Khai Phá Dữ Liệu

Page 21: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Tất cả các mẫu đều quan trọng?Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra hàng ngàn mẫu – Không phải tất cả các mẫu đều quan trọng

Các đánh giá về mức độ quan trọng của các mẫuMột mẫu là quan trọng, nếu nó: dễ hiểu đối với người dùng, vẫn đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất đị h) hữ d ới ẻ h ặ iú á hậ ột iả thiết à đóđịnh), hữu dụng, mới mẻ, hoặc giúp xác nhận một giả thiết nào đó của một người dùng

Các đánh giá dựa trên mục tiêu (objective) và dựa trên g ( j )chủ quan (subjective)

Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu trúc của các mẫu

Vd: dựa trên các giá trị độ hỗ trợ (support) độ tin cậyVd: dựa trên các giá trị độ hỗ trợ (support), độ tin cậy (confidence)

Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người dùng đối với dữ liệug

Vd: sự ngạc nhiên, sự mới mẻ, … đối với người dùng

21Khai Phá Dữ Liệu

Page 22: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Đánh giá mức độ quan trọng của mẫu

Mức độ đơn giản (Simplicity)Độ dài của các luật kết hợpĐộ dài của các luật kết hợpKích thước của cây quyết định học được

Mức độ tin cậy (Certainty/Confidence)y ( y )Độ tin cậy (confidence) của các luật kết hợpĐộ chính xác của phân lớp học được

Mức độ tiện ích (Utility): khả năng hữu ích của mẫuĐộ hỗ trợ của các luật kết hợpNgưỡng nhiễu đối với phân lớp học đượcNgưỡng nhiễu đối với phân lớp học được

Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được biết đến

22Khai Phá Dữ Liệu

Page 23: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Tìm tất cả các mẫu quan trọng?Tìm tất cả các mẫu quan trọng: Tính hoàn chỉnh (completeness)

Một hệ thống khai phá dữ liệu có thể tìm được tất cả các mẫu quan trọng không?Chúng ta có cần phải tìm tất cả các mẫu quan trọng không?g p q ọ g gTìm kiếm vét cạn (exhaustive) vs. heuristic

Chỉ tìm các mẫu quan trọng: Bài toán tối ưuq ọ gMột hệ thống khai phá dữ liệu có thể tìm chỉ các mẫu quan trọng?Các phương pháp

Trước hết cứ sinh (tìm) ra tất cả các mẫu sau đó loại bỏ đi cácTrước hết cứ sinh (tìm) ra tất cả các mẫu, sau đó loại bỏ đi các mẫu không quan trọng(Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan trọng

23Khai Phá Dữ Liệu

Page 24: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Hiển thị các mẫu tìm đượcị ợCác người dùng khác nhau, các mục đích sử dụng khác nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các ẫ tì đmẫu tìm đượcHiển thị bằng: các luật, các bảng, biểu đồ so sánh, …

Phân cấp khái niệmPhân cấp khái niệmTri thức khám phá được có thể sẽ dễ hiểu hơn khi được biểu diễn ở mức khái quát hóa cao hơnSự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách hì khá hnhìn khác nhau

Các kiểu tri thức khác nhau đòi hỏi các cách biểu diễn khác nhau (đối với các mẫu tìm được)( ợ )

Luật kết hợpPhân lớp,Phân cụm…

24Khai Phá Dữ Liệu

Page 25: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Các ứng dụng tiềm năngg ụ g gPhân tích dữ liệu và hỗ trợ quyết định

Phân tích và quản lý thị trườngQuảng cáo cá nhân (target marketing), quản lý quan hệ khách hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross-selling), phân chia thị trường

Phâ tí h à ả lý ủiPhân tích và quản lý rủi roDự đoán, giữ khách hàng, phân tích cạnh tranh

Phát hiện gian lận và phát hiện các mẫu bất thường (outliers)

Các ứng dụng khácKhai phá văn bản (nhóm tin – news group, email, tài liệu)Khai phá WebKhai phá WebKhai phá dữ liệu luồng (chuỗi)Phân tích dữ liệu sinh học và tin sinh

25Khai Phá Dữ Liệu

Page 26: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Ứng dụng: Phân tích thị trường (1)Nguồn của dữ liệu từ đâu?

Các giao dịch sử dụng thẻ tín dụng, các thẻ khách hàng thường ê á hiế iả iá á ộ i hà à ủ khá hxuyên, các phiếu giảm giá, các cuộc gọi phàn nàn của khách

hàng

Quảng cáo cá nhân (Target marketing)g ( g g)Tìm ra (xác định) những nhóm khách hàng “mẫu” có cùng các đặc điểm về sở thích, mức thu nhập, thói quen chi tiêu, …Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên

Phân tích thị trường (Cross-market analysis)Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra (hoặc giữa các đợt bán hàng), để đưa ra các dự đoán

Lập hồ sơ khách hàng (Customer profiling)Những kiểu khách hàng nào mua những mặt hàng nào (phân nhóm, hoặc phân loại)nhóm, hoặc phân loại)

26Khai Phá Dữ Liệu

Page 27: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Ứng dụng: Phân tích thị trường (2)Phân tích yêu cầu khách hàng

Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàngXác định các sản phẩm phù hợp nhất cho các nhóm khách hàng khác nhauDự đoán những yếu tố nào sẽ thu hút được các khách hàng mới

ấ ắCung cấp những thông tin tóm tắtCác báo cáo tóm tắt theo nhiều chiều (yếu tố)Các thông tin thống kê (xu hướng dịch chuyển)Các thông tin thống kê (xu hướng, dịch chuyển)

27Khai Phá Dữ Liệu

Page 28: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Ứng dụng: Quản lý rủi rog ụ g Q ýLập kế hoạch tài chính và đánh giá tài sản

Phân tích và dự đoán luồng tiền mặtPhân tích và dự đoán luồng tiền mặtPhân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài sảnPhân tích các chuỗi dữ liệu tài chínhPhân tích các chuỗi dữ liệu tài chính

Lập kế hoạch sử dụng tài nguyênTóm tắt và so sánh các tài nguyên và sự khai thác (sử dụng)

Cạnh tranh trong kinh doanhTheo dõi các đối thủ cạnh tranh trong kinh doanh và các xu hướng của thị trườnghướng của thị trườngNhóm các khách hàng theo từng lớp, và định giá cho từng lớpXây dựng chiến lược giá trong một thị trường cạnh tranh cao

28Khai Phá Dữ Liệu

Page 29: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

Ứng dụng: Phát hiện gian lậng ụ g ệ g ậCác phương pháp: Phân cụm và xây dựng mô hình dự đoán gian lận, phân tích ngoại lai (outlier)

Các ứng dụng: Chăm sóc sức khỏe, bán lẻ, các dịch vụ sử dụng thẻ tín dụng, viễn thông

ể ỗBảo hiểm ô-tô: “kịch bản” một chuỗi các va chạmRửa tiền: các giao dịch chuyển tiền đáng ngờBảo hiểm y tế: sự móc nối giữa bệnh nhân và bác sỹ các xétBảo hiểm y tế: sự móc nối giữa bệnh nhân và bác sỹ, các xét nghiệm không cần thiếtViễn thông: các kiểu cuộc gọi bất thườngCông nghiệp bán lẻ: phát hiện các người làm thuê gian lậnCông nghiệp bán lẻ: phát hiện các người làm thuê gian lậnChống khủng bố

29Khai Phá Dữ Liệu

Page 30: Khai Phá Dữ Liệu - ccs.hnue.edu.vnccs.hnue.edu.vn/hungtd/DM2012/NhatQuang/L1-Gioi_thieu_khai_pha_du_lieu.pdf · Công nghệ khối dữ liệu (data cube) Các phương pháp

DM: Các vấn đề thách thứcTính hiệu quả (efficiency) và tính ổn định (scalability) của các giải thuật khai phá dữ liệuCá á á ệ ồCác phương pháp khai phá dữ liệu song song, phân tán, luồng (stream), và tăng cường (incremental)Xử lý với dữ liệu có số chiều (số thuộc tính) lớnXử lý với dữ liệu chứa nhiễu (lỗi), không chắc chắn, không hoàn chỉnhĐưa (tích hợp) vào quá trình khai phá dữ liệu các ràng buộc triĐưa (tích hợp) vào quá trình khai phá dữ liệu các ràng buộc, tri thức chuyên gia, tri thức nền tảng (background knowledge)Đánh giá mẫu và tích hợp tri thứcKh i há á kiể dữ liệ ất khá h (dữ liệ ti i h W bKhai phá các kiểu dữ liệu rất khác nhau (dữ liệu tin sinh, Web, mạng thông tin,…)Tích hợp khai phá dữ liệu vào các thiết bị hoạt độngBảo đảm tính an ninh, toàn vẹn, riêng tư trong khai phá dữ liệu

30Khai Phá Dữ Liệu