Chapter 3 Data Preprocessing · Data Cleaning 5 Data Preprocessing โดย...
Transcript of Chapter 3 Data Preprocessing · Data Cleaning 5 Data Preprocessing โดย...
การเตรยมขอมล
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง2
เปนขนตอนกอนท าเหมองขอมล เนองจากขอมลในความเปนจรงอาจยงตองการตรวจสอบความถกตอง ซงอาจมขอมลลกษณะดงน คอ
- ขอมลไมสมบรณ (incomplete data) เชน คาของคณลกษณะขาด หาย(missing value) ขาดคณลกษณะทนาสนใจหรอขาด รายละเอยด ของขอมล - ขอมลรบกวน (noisy data) เชน ขอมลมคาผดพลาด (error) หรอม
คาผดปกต (Outliers) - ขอมลไมสอดคลอง (Inconsistent data) เชน ขอมลเดยวกน แตตง ชอตางกน หรอใชคาแทนขอมลทตางกน
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง3
• Data Cleaning เปนขนตอนส าหรบการคดขอมลทเปนสวนรบกวนหรอขอมลทไมเกยวของออกไป
• Data Integration เปนขนตอนการรวมแหลงขอมล ซงมขอมลหลายแหงมารวมไวทเดยวกน
• Data Transformation เปนขนตอนการแปลงขอมลในขนตอนการคดเลอก ใหเหมาะส าหรบขนตอนการท าเหมองขอมล
• Data Reduction เปนขนตอนการลดมตขอมล เพอเปนตวแทนจ านวนขอมลทงหมด
Data Preprocessing Technique
Data Cleaning
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง5
Real-world data tend to be incomplete, noisy and inconsistent. Data cleaning(or data cleansing) routines attempt to
fill in missing values, smooth out noise while identifying outlier and correct inconsistencies in the data.
วธการจดการคาทขาดหาย
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง6
ถานกศกษา เปนผจดการของบรษทแหงหนง และตองการวเคราะหขอมลการขายสนคา และขอมลของลกคา นกศกษา พบวา มหลายๆรายการ ไมมการบนทกคาในแตละ
ฟลด หรอ แอททรบวต เชน ไมมการบนทกขอมลรายไดของลกคา ค าถาม ???
นกศกษาจะมวธการจดการคาทขาดหายเหลานไดอยางไร
วธการจดการคาทขาดหาย
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง7
1. Ignore the tuple ตดทงรายการทมขอมลสญหาย นยมใชกบการท าเหมองขอมล
แบบจ าแนกประเภท (Classification) ในกรณทคาคณลกษณะขาดหายไปเปนจ านวนมาก
2. Fill in the missing value manuallyเตมคาทขาดหายดวยมอ วธนไมเหมาะสมกรณทชดขอมลมขนาดใหญ และมขอมลขาดหายจ านวนมาก
3. Use a global constant to fill in the missing valueเตมคาคณลกษณะของขอมลทขาดหายทกคา ดวยคาคงทคาหนง เชน ไมรคา หรอ unknown
วธการจดการคาทขาดหาย (ตอ)
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง8
4. Use the attribute mean to fill in the missing valueใชคาเฉลยของคณลกษณะ เตมคาขอมลทขาดหาย เชน ถาทราบวาลกคาทรายไดเฉลยเดอนละ 12,000 บาท จะใชคานแทนคารายไดของลกคาทขาดหาย
5. Use the attribute mean for all samples belonging to the same class as the given tupleใชคาเฉลยคณลกษณะของตวอยางทจดอยในประเภทเดยวกน เพอเตมคาขอมลทขาดหาย เชน เตมคารายไดของลกคาทขาดหาย ดวยคาเฉลยของลกคาทอยในกลมอาชพ เดยวกน
วธการจดการคาทขาดหาย (ตอ)
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง9
6. Use the most probable value to fill in the missing value ใชคาทเปนไปไดมากทสด เตมแทนคาขอมลทขาดหาย เชน คาทไดจากสมการความถดถอย (Regression) คาทไดจากการอนมาน โดยใชสตรของเบย (Bayesian formula) หรอตนไมตดสนใจ (Decision tree) เชน ใชขอมลลกคา มาสรางตนไมตดสนใจ เพอท านายรายไดของลกคา แลวน าไปแทนคาทขาดหาย วธนนยมกนแพรหลาย เนองจากท านายคาขอมลทขาดหาย โดยพจารณาจากคาของขอมลชดปจจบน และความสมพนธระหวางคณลกษณะในชดขอมล
ขอมลรบกวน (Noisy data)
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง10
ขอมลรบกวน เปนขอมลทมความผดพลาดแบบสม หรอคลาดเคลอนจากการวด สาเหตของความผดพลาด อาจสบเนองมาจาก
- อปกรณเกบรวบรวมขอมลท าหนาทผดพลาด
- ปญหาการบนทกหรอปอนคาขอมล - ปญหาการสงขอมล (data transmission) ผดพลาด
- ขอจ ากดทางเทคโนโลย เชน ขอจ ากดของขนาดบฟเฟอร
การจดการขอมลรบกวน
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง11
ท าไดหลายวธ เชน Binning Methods Regression Clustering
Binning Methods
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง12
การปรบขอมลใหเรยบดวยวธการแบบ binning ท าโดยเรยงล าดบขอมล แลวใชหลกการตดแบง (partition) แบงขอมลออกเปนสวนแตละสวนเรยกวา bin แลวท าการปรบเรยบขอมลในแตละ bin โดยใชการปรบเรยบขอมลแบบทองถน (local smoothing) โดยใชคาทไดจากเพอนบานใกลเคยง (neighborhood) ใน bin หรอ bucket เดยวกนเชน คาเฉลยของ bin (bin means) คากลางของ bin (bin medians) หรอคาขอบของ bin (bin boundaries)
Regression
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง14
วธความถดถอย ใชการท านายคาของตวแปรจากสมการความถดถอยทหาได ดวยวธความผดพลาดนอยทสด (Least-square error) จากชดตวอยางตวแปร สมการความถดถอยแบงเปนความสมพนธระหวาง 2 ตวแปร หรอมากกวา ไดแก
- ความถดถอยเชงเสน (Linear Regression)- ความถดถอยพหเชงเสน (Multiple Linear Regression)
ความถดถอยเชงเสน (Linear Regression)
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง15
Regression method เปนวธการอธบาย (explanatory) โดยมตวแปรอนทสมพนธกบตวแปรทเราตองการพยากรณ และสามารถสราง model เพอแสดงความสมพนธนนได
สมการความถดถอยเชงเสน เขยนในรปสมการ
1
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง16
ถาก าหนด D แทนเซตของขอมลทประกอบดวยคาตวแปร x ทสมพนธกบคาตวแปร y ซงแทนดวยคล าดบ (x1,y1),(x2,y2),..,(xD,yD)
คาสมประสทธความถดถอย หาไดจากสมการ
3
2
ความถดถอยเชงเสน (Linear Regression) (ตอ)
Example
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง17
Straight-line regression using a method of least squares. Table 3.1 shows a set of paired data where x is a number of years of work experience of a college graduate and y is a salary
Table 3.1
Clustering
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง20
การวเคราะหการจดกลม จะชวยตรวจหา และก าจดคาทผดปกต เชน คาทสงหรอต ากวาปกต จะไมสามารถจดอยในกลมใดๆ และตกอยนอกกลมOutliers may be detected by clustering, where similar
values are organized into groups, or “clusters.” Intuitively, values that fall outside of the set of clusters may be considered outliers (Figure 3.2)
Clustering (ตอ) –เทคนคทใชจะกลาวถงในบทถดไป-
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง21
Figure 3.2
Data Integration
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง22
เปนการรวบรวมขอมลจากแหลงทเกบตางๆมาไวทเดยวกน การผสานขอมลจากแหลงตางๆ เพอชวย
1. ลดหรอหลกเลยงความซ าซอนของขอมล (Data Redundancies) ซงจะน าไปสปญหาความไมสอดคลองกนของขอมล (Data inconsistencies)2. เพมความเรวและคณภาพในการท าเหมองขอมล
Process of Data Integration
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง23
การผสานโครงสรางการเกบขอมล (Schema Integration) โดยใช metadata ชวยในการบงช entities ในแหลงเกบขอมลตางๆ เชน คณลกษณะ Cusid ในแหลงขอมล A เปนคณลกษณะเดยวกบ CustNumber ในแหลงขอมล B หรอไม
ตรวจหาและแกไข คาขอมลทขดแยง เชน คาคณลกษณะเดยวกน แตใชหนวยวดตางกน ในแตละแหลงขอมล
การก าจดคาขอมลซ าซอน เชน คาคณลกษณะในแหลงขอมลหนง อาจเปนคาทไดจากการค านวณในอกแหลงขอมลหนง อาท คารายไดรายป
คาสหสมพนธ เปน 0 หมายถง ตวแปรทงสองเปนอสระ ไมมความสมพนธ ระหวางกน
Data Transformation
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง24
การแปลงขอมลทพบบอยในการท าเหมองขอมลคอ การท านอรมอลไลซ (Normalization) โดยแปลงคาขอมลใหอยในชวงสนๆ ทอลกอรทมการท าเหมองขอมลสามารถน าไปใชประมวลผลได วธการท านอรมอลไลซขอมลไดแก Min-Max Normalization
Decimal ScalingZ-Score
Min-Max Normalization
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง25
เปนการแปลงขอมลเชงเสนจากชวงทเปนไปไดเดมของคาอนพต ใหเปนชวงขอมลใหมทก าหนด ปกต ชวง 0-1
สมมตให v คอคาคณลกษณะเดม v’ คอคาคณลกษณะใหม minA , maxA คอคาต าสดและสงสดเดมของคณลกษณะ A
new_nimA , new_maxA คอคาต าสดและสงสดใหมของ คณลกษณะ Aไดสตร
Z-Score
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง27
เปนการปรบการกระจายของขอมลใหมคาเทากบ 0 และคาเบยงเบนมาตรฐานเทากบ 1
หาไดจากสตร
Example
Decimal scaling
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง28
เปนการแปลงคาขอมลเดมใหเปนเลขทศนยม ต าแหนงทศนยมก าหนดโดยคาสมบรณทมคามากทสด เชน คาทเปนไปไดของคณลกษณะ A อยในชวงระหวาง -999 ถง 997 จะไดวาคาสมบรณทมากทสด คอ |-999| = 999 ดงนนเราจะหารขอมลแตละคาดวย 1000 ผลลพธคอคา -999 จะถกแปลงเปน -0.999
Example
Data Reduction
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง29
คลงขอมลเกบขอมลจ านวนมาก ขนาดเปน เทราไบต ดงนนการวเคราะห หรอการท าเหมองขอมลทซบซอน ตองใชเวลานานในการประมวลผลขอมลปรมาณมากๆ
การลดรป เปนการกระท าเพอแทนขอมล ดวยรปแบบกะทดรด กนเนอทนอยกวา แตสามารถน าไปใชวเคราะห แลวเกดผลลพธทเทากนหรอเทยบเทากน กบการวเคราะหจากขอมลทงหมด
Technique of Data Reduction
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง30
Data Aggregation
Dimensionality Reduction
Numerosity Reduction Discretization and Concept Hierarchy Generation
แบบฝกหด
01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง32
1. ก าหนดขอมลทน ามาวเคราะห ประกอบดวยแอททรบวตอาย (age) ในแตละ เรคอรดประกอบดวยคาของแอททรบวต age ดงน 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 (a) ใชเทคนค min-max normalization เพอแปลงคาอาย 35 ป ใหอยในชวง ตวเลข [0:0;1:0] (b) ใชเทคนค z-score normalization เพอแปลงคาอาย 35 ป ก าหนดสวน เบยงเบนมาตรฐานของอายมคาเทากบ 12.94 ป (c) ใชเทคนค decimal scaling เพอแปลงคาอาย 35 ป เปนตวเลขทศนยม