Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น...

Data Mining – 1

Why Mine Data?

- เอาขอมลมาวเคราะห ท านายอนาคต

- Mine อะไรจาก Data? – เพราะวา Data เยอะ เกบอยใน warehouse มขอมลหลายแบบ เยอะแยะ

- เมอกอนคอมพแพง เดยวนคอมพถกเมมโมรถกลง Data กเกบพอ แตเราใช Algorithm มาชวยดวย เพอใหเกบขอมลขนาด

ใหญไดดขน ประหยด ใช Data Structure ทเหมาะสม

- เกดการแขงขนกน ท าใหเราตองพยายามเอาขอมลมาวเคราะห เพอใหเกงกวาคแขง

Mining Large Data Set – Motivation

- มกจะมอะไรใหมๆ อยใน data ทเรามองไมเหน (hidden) ท าใหเราตองดงมนออกมา

- Uncover hidden knowledge

What is Data Mining?

- ขดจาก Data ขนาดใหญ แลวเอาไปตดสนใจ

- คนขอมลเพอไปหาความสมพนธ รปแบบของขอมล

- เราไมจ าเปนตองวเคราะหดวย stat เลยในครงแรก เราท า explore ดกอนกได วามนมอะไร แลวคอยเอาไปตดสนใจ เชน เรา

อยากดการใชโทรศพทของคนไทย แตขอมลทเราม มแตขอมลของคนกรงเทพ เพราะงนแปลวาขอมลเราไมเวรค ท าใหมค าวา

Exploration & Analysis จาก large quantity of data เพอคนหารปแบบทมความหมายและเปนประโยชน

- แตถาเราไปคนเจออะไรทรอยแลว เปน fact อยแลวกไมนบวาเปน knowledge

- selection > preprocessing > transformation > data mining > interpretation/evaluation

- เชนเวลาขายของ บนเนต เราซออยางนง อกอยางจะโผลมาใหกดซอดวย

Evaluate of Database Technology

- เกดมานานแลวจา

- เดยวนกไปท า warehouse, mining

Database VS Data Mining

- Database จะเปนพวกการ search เชน คนท าบตรเครดต ใครชอ Smith บาง เดอนทแลวใครยอดซอสงกวา 100 บาท

บาง?

- Data Mining จะเปนการดวา ใครบางทมาท าบตรเครดต แลวจะสรางปญหา, ใครลงเรยนวชานแลวจะไดเอบาง? เอา

ลกษณะ เอาโมเดลมาวเคราะห ,ถามฐานขอมลลกคา แบงลกคาไดเปนกกลมทมพฤตกรรมผบรโภคทใกลเคยงกน

- การท า Mining ไมใชการดจาก group by เหมอนพวก Database โจทยของสองแบบตางกน

- Mining จะเปนการทขอมลพาเราไปเจอความรขอมลใหมอะไรบางอยาง

Data, Information, Knowledge

- Data เปนขอมลดบทสรางมาจากระบบตางๆ เชน เวบ ระบบเกบขอมลตางๆ

- Information เปนพวกรายงาน ทไดมาจาก Warehouse เชน กราฟตางๆ

- Knowledge เปนการสกดขอมลมาจาก Information ทเปนความรใหมๆ Guide ส าหรบการตดสนใจ

Database VS Data Warehousing

- Warehouse อยากรวายอดขายของจงหวดนเปนเทาไหร ทอ าเภอนเปนยงไงบาง ,hierarchy มาเกยวของ

- Database อยากรวายอดขายเดอนทแลวเปนเทาไหร

- Mining เปนการดวา เดอนหนายอดขายจะเปนเทาไหร แลวท าไมมนถงเปนแบบนน จะขนหรอจะลง ดแนวโนม ใช

Algorithm ใชคอมพวเตอรทมสมรรถนะเขามาชวย

Search VS Discovery

- Mining จะเปนการ Discover ไมใชการคนหาธรรมดา ถามโครงสรางจะเปนแบบ graph-mining, sequence-mining

ถาไมมโครงสรางจะเปน text-mining, web-mining, image-mining

- Search จะเปนพวกคนหาเฉยๆ เชน ถามโครงสราง จะเปน Data querying, warehousing ถาไมมโครงสรางกจะเปน

information retrieval

KDD Process

- Selection: เปนการเลอกขอมล มาจากขอมลทงหมดเพอเอามาท า mining เชน จะดเกรดนกเรยน กไมตองเอาอาชพของพอ

แมมาดกได เดยวนมวธในการเลอกทงายๆ โดยเปนการเลอก attribute ทสงผลตอ target (Feature Selection

Algorithm) เพราะบางท เปนพนๆ Attribute จะเลอกยงไง ขอมลทเปน text จะเลอกค ายงไง

- Preprocess: Data quality, sampling, clean data,… เยอะ เปนสวนทกนเวลามากทสด

- Transform: Algorithm จะตองการ specific format เรากตองเปลยนใหมนตรงกบทตองการ เชน อลกอตองการขอมล

ทมคาไมเกน 1 เรากตองท า normalization กอน

- Data mining: เลอกวธทจะใช ตองเลอกเทคนคทเหมาะสม ท า clustering? classification? มเทคนคใหเลอกเยอะ เรา

ตองจนพารามเตอรของเทคนคทจะใชใหด เพอใหไดโมเดลทดทสด

- Interpretation: เปนการตความ เพอใหได output pattern ทถกตองและนาสนใจ ถงจะได knowledge ออกมา

Data Mining

- เกดจากไอเดยของพวก ML / AI / pattern recognition / statistic / database system เพราะพวกนมเทคนคท

ตางกนไป รองรบตางกนไป

- วธเฉพาะตวบางอยาง อาจจะไมเหมาะเชน ขอมลขนาดใหญ ม dimension เยอะ ขอมลมาจากหลาย source ท าให

mining จะเอาวธพวกน มาท าใหเหมาะกบสเกลใหญๆ

Statistics -> KDD

- Stat เขาใจยาก ดงมาสวนนงแลวบอกวาอธบายไดทงหมด แต Mining เนนความแมนย า มากกวา ท าใหกระบวนการ Stat

สามารถตความไดงายขน แลวนกstat กมนอย (สมยกอน) ใชคนท า Mining กท าได

Basic Data Mining Task

- Prediction modeling เปนการท านาย ทไมใชตวเลข เชน ท านายวา จะอยหรอไป หนขนหรอลง(classification) แตถา

เปนตวเลขกจะเปนพวก ท านายเกรด (prediction)

- Clustering แบงขอมลเปนกลมๆ ทแตละกลมม record ทเหมอนกนหรอคลายกน แบงกลมอตโนมต ลกษณะวธการดวา

ของสองอยางเหมอนกน ดยงไง เชน โมเดล K-mean

- Link Analysis หา pattern ทเกดขนดวยกนบอยๆ เชนพวก ซอAจะซอBดวย

- Summarization ใหเอกสารไปแลวท าการยอ เปนการอธบาย Data สราง abstract

- Time Series Analysis เชน ดพวกหนตามเวลา

Classification: Application

- Direct Marketing เชน การดวา เวลาจะสงบตรเชญไปหาใคร ทมแนวโนมวาจะท าการซอ ท าใหไมตองสงไปหาทกคน

- Churn Prediction เปนการดวา ลกคาคนไหนจะหนจากเราไป เรากสงโปรโมชนไปใหลกคากอนทสายเกนไป

Clustering Definition

- แบงกลมใหแลว เอามา visualize ใหเราดไดดวยวา ขอมลแตละกลมเปนยงไง เรามความสนใจในกลมไหน

Sequential Pattern Discovery: Examples

- เชน ซอหนงสอเลมน ตอดวยเลมน …

www.kdnuggets.com

หนงสอใชแคครงเทอม แคบางบท ซลอกเอากได

Data Mining -2 - จากควซ คาบางคา correlate กนเกนไป ท าใหไมจ าเปนตองท า Data mining กได เพราะฉะนน คานนเลยไมเหมาะสม

Supervised Learning

- การเรยนรแบบมตวอยาง

- มตวอยาง ม target ทชดเจน ใช training เปน input ทมค าตอบระบไวอยแลว

- คาทระบ อาจจะเปน Mathematical หรอ Categorical เชนพวก เพศ คาสงหรอต า แลวกเปนคา predict ทระบตวอยาง

ค าตอบไวแลว

- ท า supervised เพราะเราตองการท านาย input ทเขามาใหม วาจะไดค าตอบเปนอะไร

- ถาเราไมม objective ชดเจนเราจะไมรวาอะไรจะเปน target ของการท านายน ท าใหไมสามารถท าไดหรอ รแตวาไมมคาค าตอบ

ของขอมลตวอยาง

- เพราะฉะนนปญหาคอ ไมมค าตอบ(เฉลย) ไมรวาจะใชอะไรเปน feature ในการท านาย

- Classification/prediction

Supervised: Classification

- ท านาย categorical target เชน ซอหรอไมซอ

- การพจารณา case เชน การท านายลกคาหนงคน ตองพจารณาจากการโทรศพทมากกวาหนงครง ไมใชแค transaction การโทร

ครงเดยว เพราะฉะนน grain ของการท านายนคอ ลกคา (Customer ID)

- ตวแปรทเอามาใชในการท านาย เรยกวา predictor, feature, attribute สวนคาทตองการคอ outcome (สวนใหญจะเปน

คา binary ใชหรอไมใช แต multiclass กม target มากกวา2)

Supervised: Prediction

- จะเปนการท านายตวเลข

Unsupervised Learning

- ตองการแบงขอมล ไมม target

- ใชการท า clustering, association rules, data exploration, data visualization

- อยางเวลา clustering จะแบงเปนกลมของขอมล แลวแสดงรายละเอยดใหเราเหนเลยวาแตละกลมของขอมลเปนแบบไหน

- Association Rule จะสรางกฎออกมาวา อะไรจะเกนขนกบอะไร เชน ลกคาซอนมจะซอโคกดวย

- Data Exploration จะแสดงขอมลเยอะๆ ดวยเทคนค visualization แบงขอมลเปนหนวยๆ ไมเหมอนเปนกลมแบบ

clustering

- Data Visualization

Steps in Data Mining

- ก าหนด purpose ทชดเจนของการท า mining ท า supervised, unsupervised

- ไปเอา Data มา ถามนเยอะมาก จะท า sampling กอนมย โดย sampling ตองท าแบบมหลกการ ใหไมเสยการกระจายของ

ขอมล ถาขอมลนอย อาจจะตอ งgenเพมเองดวย

- Explore, clean, pre-process

- Reduce attribute บางอนอาจจะเยอะไป เกด correlation มากเกนไป ตองเอาออก และถาเกดวาเราท า Supervised เรา

ตองแบงขอมลเปนสวนๆ ทจะเอาไวท า training, testing, validation

- เลอกเทคนคทใชวาจะท าอะไร classification, clustering, ….

- เลอกเทคนคทใช อลกอรทมของการท างาน เพอใหไดโมเดลทดทสด

- ถาเกดวายงไมด กตองกลบไปท าใหม ขอมลยงไมดกแกเพม ท าการจนระบบ

- ตองมการท าการ compare model เชน F-measure ,Precision , Recall หรออาจจะเลอกหลายๆ อลกอรทม

- โมเดลทดทสด คอ โมเดลทแมนทสด แมนกบ Unseen ไมใชแมนกบ data ทมาเทรน

Obtain Data: Sampling

- ปกตแลวท ากบขอมลขนาดใหญ ท าใหบาง tools อาจจะไมรองรบ

- ขอมลบางอยางอาจจะไมไดสนใจจรงๆ เชน อยางคนเปนมะเรง จ านวนปรมาณขอมลจะนอยมากๆ สวนใหญจะเปนคนทไมเปน ท า

ใหขอมลมนนอยเกนไป ตองท า oversampling ท าใหคลาสของคนทเปนมะเรงมจ านวนมากขน ท าใหขอมลสองสวน balance

กน แตการ oversampling กตองท าใหเหมาะสมดวย ไมใหมนเวอรเกนไป

- แลวเวลามการท า sampling เรากตองท าการ adjust result ดวย

Preprocessing

- กนเวลามาก 60-70% ทงหมด เพราะเวลาใชเทคนค มนมอลกออยแลวแคท าการปรบใหมนแมน

- แตขอมลทเราเอามา สวนใหญจะไมด ตองเอามาแกไข แปลง ไมงนโมเดลเราจะออกมาไมมประสทธภาพ

- หลกๆ เชน

- แปลงขอมลจากตวเลข เปนประเภท หรออยางอน บางอลกอเหมาะกบขอมลตวเลข บางอนเหมาะกบแบบประเภท บางอนตองการ

คา 0-1 เทานน

Variable Handling

- ส าหรบแบบ Numerical บาง tool ไมรองรบขอมลแบบละเอยด เราตองท า discretize ใหเปนชวงกอน

- ถาเปน categorical กเชน Naïve Bayes หรอบาง tool เปน binary วาใชหรอไม แทนทจะใสคาไดวา ยหอ A B C เราตองแก

เปน ใช A,ไมใชA ใชB,ไมใชB

Detecting Outlier

- บางขอมลเปนคาทแตกตางจากคาอนๆ มากๆ ซงจะเปนคาทสงผลท าใหโมเดลเพยนไป เชน คนอนเงนเดอนประมาณสามหมน แตม

สองสามคนสามลาน ท าใหโมเดลมนเพยน

- อาจจะตองใช domain knowledge เพอชวยเอามนออกไป

Handling Missing Data

- บางอนจะถกดรอปไปเพราะอลกอรทมเหนวาคาหลายๆคา หายไป

- แบบแรก omission เราอาจจะตดทงไปเลยได ถาเกดวาจ านวน row มนไมเยอะมาก แตถาเกดวามนมจ านวนมากๆ เรากไมควร

จะเอามนทง

- แบบทสอง ถาเกดวามจ านวน row มาก เราก replace อาจจะ replace โดยการเดาคาจาก mining กอนกได หรอจะแทนดวย

คา min/max

Data Reduction

- ลดจ านวนขอมลใหนอยลง

- ลด column ลดจ านวนตวแปรใหนอยลง

- ลดจ านวน record ดวยการ clustering ท าใหเราไดตวแทนของขอมลมา มาใชแทนขอมลทงหมดในกลม

Normalization

- การท าใหขอมลอยในสเกลเดยวกน

Partitioning the Data

- แบงขอมลเปนสองสวน คอ Training , Validation

- Training คอเอาไวเทรน มค าตอบอยแลว

- Validation คอขอมลทมค าตอบเหมอนกน เอาไวสงใหอลกอเพอปรบแตงโมเดล วาจะท างานกบ Unseen ไดมย ใชในการ

แกปญหาเรอง Overfitting (ขอมล fit กบโมเดลมากเกนไป ท าใหเวลาท างานกบ Unseen จะตอบไมได)

- สวนการ Testing คอขอมลทเอาไวใชตรวจสอบดเลยวาจรงๆ แลวโมเดลเราแมนมากนอยแคไหน มเฉลยเหมอนกน

- การ Test จะเปนสวนส าคญทใชในการเลอกโมเดล เราตองดวาทดสอบแลวไดความแมนมากทสด กจะเลอกอนนน

Problem of Overfitting

- อยางพวก stat จะเนนการหาโมเดลทตรงกบขอมลมากทสด ซง Data Mining จะไมตองการแบบนน เพราะตองการโมเดลท

เหมาะกบ unseen

- เราตองลองกบหลายๆ โมเดลดวาแบบไหนจะด เหมาะกบขอมลใหม อยาง decision tree ถาเกดวา tree มนลกมากๆ แปลวา

มนเกาะตดกบขอมลทเอามาเทรนมากๆ ท าใหไมเหมาะกบขอมลใหมๆ ซงถาเราตดกงมนทงไป กจะท าใหโมเดลเรา General มาก

ขน

Association Rules – Lecture 3

Association Rules

- เปน unsupervised learning

- ศกษาวา อะไรจะไปคกบอะไร เชน ซอของ A แลวจะซอของ B , เปนอาการ A แลวจะเปนโรค B

- บางทเรยกวา Marker Basket Analysis, Affinity Analysis

- ขอมลน าเขาจะเปน set ของขอมล ในแตละ transaction อาจจะไมตองเปนขอมลระดบ นมยหอxxx เราแคจบมนเปนกลมวา

นม กพอ

- k-item set คอ itemset ทมขอมล k ตว

- Support count ( ) เปนความถของการเกดของ itemset

- Support คอ คาทบอกวาเกดเทาไหร เชน {milk,bread} = 2/5

- Frequent itemset คอ itemset ทม support มากกวาหรอเทากบคา minsup threshold

Definition: Association Rule

- Association Rule จะเรยกตางกนเชน {Milk, Diaper} -> {Beer} อาจจะเรยกวา head, body/ antecedent,

consequence/ left-hand, right-hand

- ปกตเราไดกฎออกมาเยอะมาก แตจรงๆ เราอยากไดแคกฎทนาสนใจ strong rules/ interesting rules

- Rule evaluation metrics

Support (s): วาจ านวนการเกดมความถเทาไหร

Confident (c): วดใน transaction ทม Y มจ านวนเทาไหรทเกด X ดวย

- เชน กฎวา {x, y} -> {z}

- c= ({ })

- บางท การวดวามนเกดรวมกน เกอบ 100% กอาจจะไมมประโยชน เพราะวาจ านวนการเกดมนนอย แมวาจะเกดรวมกนมาก กไม

นาสนใจ

- เราเลยตองใชคา support เขามาชวย เลยตองใชทงคา confident และ support ในการพจารณา

Association Rule Mining Task

- วธถาเกดวาเราจะท าเอง จะท ายงไง -> Brute Force? แลวตองมานงค านวณคา support/confidence

- เกดวธชวยใหหากฎไดเรวขน กฎทนาสนใจ จะมาจาก Frequent itemset นบคา support มากอน (Rule ทมาจาก itemset

เดยวกน เชน {milk, diaper} -> {beer} กบ {milk, beer} -> {diaper} จะมคา support เทากน แตคา c ของกฏจะ

ตางกน)

Generating Association Rules

- ขนแรกไปหา frequent itemset กอน (ไดคา support) >> กนเวลามากกวา เพราะวาตองหาหลาย combination แลวนบ

ตองไปอาน HDD มา ตองหาวธ optimize

- ตอไปเอาแตละ itemset เอาออกมากระจายหากฎ ดคา confident แลวเลอกอนทผาน threshold ออกมา เรวกวาเพราะนบ

จาก Memory เลย

Frequent Itemset Generation Strategies

- ลดจ านวน candidates โดยใชการ pruning เพราะบางทยงไงมนกอาจจะไมผานคา support อยแลว

- ลดจ านวน transaction แทนทจะมอง database เปน transaction เรากมองกลบกน เชน จากมองวา transaction 1 ->

bread, milk เรากมองเปน bread อยใน transaction ไหนบาง

- ลดจ านวนของการเปรยบเทยบ ใช data structure ไมตองแมพทกๆ candidate กบ ทกๆ transaction

Mining Association Rules

- Apriori เปนอลกอรทม คอ

- ถา superset มน frequent subset กจะ frequent ดวย เชน BCE ใช BE กตองใชดวย

- ถา subset ไม frequent superset กจะไมดวย

Multi-dimension association rules

- ถาเกดวาขอมลน าเขาไมไดเปน binary database แตเปน relational database กจะสรางกฎไดเหมอนกน

- เปนคา ratio ทแสดงคาความขนตอกนของทางซายของกฎและขวาของกฎ วาแปรผนตอกนจรงๆ หรอเปลา

- ถา lift >1 ทางซายสงผลทางบวกตอทางขวา

- ถา lift =0 ไมขนตอกน

- lift <0 ทางซายสงผลตอทางขวาเชงลบ

- คอคา correlation นนเอง correlation = Confident/Expected Confident (support ของ ทางขวา)

K-nearest neighbor - Lecture 4

(Supervised Learning)

Data Classification

- ตองม training data set

- training data set จะม set ของ attribute ตองมสวนทบอกประเภทดวย

- เราตองการหาโมเดลส าหรบ attribute ตางๆ และคลาส

- เพอท านาย, ก าหนดคลาสใหกบ unseen record

- data ทจะเทรน กตองมครบแบบ เชน ท านายวาลกคาจะอยหรอไป กตอง อย/ไป

- ตองม validation set (เอาไวปรบโมเดล) , test set (ประเมน accuracy)

- confusion matrix จะเกดจากการ train / test กได แตผลจะออกมาตางกน

- ขอเสยของงานแบบนคอ ตองมคลาสมากอน คลาสอาจจะไมชดเจนดวย

- คลาสยงมาก ความแมนจะนอยลง

- ไดกฎออกมา ทางซายจะเปนคลาสเสมอ ได classification rules

- ถา attribute ขอมลเยอะ กอาจจะตองลดลง

- ลกษณะการใชขอมลเทรน พวก validation มาชวยปรบโมเดล โดยสรางโมเดลไวกอน เรยกวา eager learner

- ถาเปน แบบไมสรางโมเดล เราเอา unseen มาเทยบเลย จะเรยกวา lazy learning (instant base)

- แบบ lazy เวลามขอมลใหมเขามาเสยเวลา cost เพราะไมมโมเดลไวกอน

- k-nearest จะเปนแบบ lazy

K-nearest

- เวลาม data ใหมเขามา จะไปดวา ในขอมลเดม มอนไหนคลายมนมากๆ บาง (เรยกวา neighbor)

- neighbor สวนใหญอยคลาสไหน เรากจะตอบคลาสนน

- k คอ เลขจ านวน neighbor ทจะไปดงมาพจารณา

- เวลาจะหาความเหมอน กตองใช distance metric อยางครงกอนๆ กพวก Euclidean distance หรอจะเลอกแบบอน แลวก

ก าหนดคา k แลวเวลาม data ใหมมา กไปค านวณทกๆ distance แลวกเลอก record มาจ านวน k

- การทท านายออกมาไมด อาจจะเปนเพราะเลอก distance function ไมด คา k ไมเหมาะสม หรอวาเปนเรองของจ านวน

attribute

- k นอย เชน k =1 -> overfitting เพราะวา record นนอาจจะเปน noise ไมใชขอมลจรงๆ กได แคมนบงเอญตรง, k=n เยอะ

มาก กไมตองท าแลว มนจะ error เยอะมาก เลอกเอาจากคลาสทเยอะทสดเลยงายกวา

- เราจะพยายามเลอก k ต าทสดทได accuracy สงสด

- k มากพอ จะท าใหเราก าจดสวน error เพราะ noise ไดK

K-NN for prediction (numerical outcome)

- เอาพวก weight เอา average ออกมา ค านวณไดคาทเปนตวเลขออกมา

K- nearest problem

- scale problem

- การกระจายของหนวยวดทมชวงทตางกนมากๆ เชน salary , age, height

- จ านวนตวแปรเยอะ training set ใหญ กจะใชเวลา เสยเวลาเพมเปน expo

- ยงตวแปรมาก distance ยงใกล (curse of dimension)

K-nearest advantage

- งาย

- ไมตองมการก าหนดวาจะตองมการกระจายขอมลเทาไหร (เวรคทกกรณ)

- ใชงานได ไมตองสนใจเรองสถต วาตวแปรขนตอกนไมขนตอกน ไมสนใจ

Evaluation

- Error คอ แยกประเภทออกมาไดไมตรงกบคลาสทถกตองจรงๆ

- Error rate คอวดเปอรเซนตทแยกออกมาถกตอง

Naïve Rule

- คลายกบ majority vote สวนใหญเราจะใช most prevalent class มาตอบ

- สวนใหญจะใชเปน benchmark แลวออกกราฟมาเทยบกบกราฟของโมเดล

Separation of Records

- ถาเกดวาเราเลอก feature ทดจะท าใหเราแยกไดด -> high separation of records ซง record แตละคลาส แยกกนไดด

ท าให low error

- แตถาเราเลอกใช feature ทไมด -> low separation of records แตละ record แยกกนไมด ท าให error มากกวา อาจจะ

ไมคอย improve จาก naïve rule เทาไหร

- อยาง decision tree มนจะเลอก feature ใหเราเองเลยใน algorithm

Confusion Matrix

- สวนใหญเราจะเอา precision/recall มาพจารณา วาทงสองอยางตองสง

- ด F-measure คอดทง precision/recall ไปพรอมกน

- บางทจะดเปน TP: true positive, TN: true negative, FP: false positive, FN: false negative (true,false คอ

ท านายถกผด) True Positive: ท านายถก วามนตอบใช FP: ท านายผดวามนตอบใช

- สวนใหญเราจะตองการลด FN

Cutoff for classification

- สวนใหญโมเดลจะใช prob ในการตดสนใจวาจะเลอกโมเดลไหน

- default = 50% เราอาจจะก าหนดเพม/ลดได แตทวดมา เคาบอกวา 50% ดทสดแลว

- นอยเกนมากเกนอาจจะท าใหความถกตองมนลดลง

When one class is more important

- บางทเราตองการคลาสบางคลาสมากๆ เราอาจจะตองยอมให error rate โดยรวมมนเพมขน แตวาคนคา TP มามากขน

Alternate Accuracy Measure

- Sensitivity: % of C1 class correctly classified

- Specificity: % of C0 class correctly classified

- ROC curve: กราฟพลอตระหวาง ความแมนคลาส positive – ความแมนคลาส negative ตองการกราฟทมพท.ใตกราฟมาก

Lift and Decile Charts: Goal

- เชน เวลาเราจะตองการค าตอบลกคา สงจม.ไป แลวลกคาจะตอบ เราอยากใหโมเดลชวยเราลด cost คอ สงไปนอยๆ แตตอบ

กลบมา yes เยอะ

- Lift chart: cumulative performance

Decision & Regression Trees

Trees and Rules

- Rule base

- Classification rule คอ ดานซายจะเปน condition ดานขวาจะเปน class attribute

- Decision Tree: Categorical

- Regression Tree: Numerical

- Tree จะเปนกฎวา ถาม condition เปนแบบน จะไดผลเปนแบบไหน

- ยง attribute มคาไดเยอะ กจะท าให กง ของ tree มจ านวนเยอะดวย

- leave node จะเปน class label

- Training หนงอน สามารถสรางไดหลาย tree, model ทเขาไดกบ data

- เรากเอาแตละ tree ไปวด เชน confusion matrix, ROC curve แลวเลอกอนทมนแมนกบ unseen

- 1 node กคอ subset ของ training

Key Ideas

- ขนแรกในการสราง คอ recursive partitioning แบงๆ ไปเรอยๆ จนทายสด จะประกอบไปดวย record ทเปนคลาส 0 ทงหมด

/ 1 ทงหมด

Hunt’s Algorithm

Pre Pruning

- ถาเกดวาเราเจอจดทมนจะ overfit กหยดกอน

Data Clustering- Lecture 5 - Clustering = a set of Clusters

Cluster Analysis

- หากลมของ object ทไมตองม label กได ดวาแบงออกมาไดยงไง

- ภายในแตละกลม distance จะใกลกน (intra-cluster distance) ถาเปนระหวางกลม จะเรยกวา inter-cluster distance

- เวลามขอมลมา กลองเอามาท า clustering กอน กจะรวาขอมลมกลมไหนบาง

- บางคนบอกวาเปนการท า preprocessing ไมใช mining เพราะบางทท า clustering เสรจ กเอาแตละกลมไปท า

Association rule ส าหรบกลมนนๆ ตอ

- ตวใหมทวงเขามา จะพจารณาดวย distance วาใกลไกลกลมไหน แตละกลมจะมตวแทนอยตวหนง (centroid)

Classification vs. Clustering

- อาจจะเอา classification data ทม label เขาไปท า clustering

- ถา clustering ไดดจรงๆ มนกนาจะแบงได label ทดจรง (ด = pure)

Examples of Clustering Application

- Marketing: แบงกลมลกคา

- Astronomy: กลมดาว

- อยางเวลาการคนหาเอกสาร เราอาจจะคนคาใหเปนกลมของเอกสารไปเลยกได

- หรอท า visualization กได

- ถาขอมลทเอาไปท า clustering มขอมลเปนตวเลข จะท าใหสามารถวด error rate ได วด distance ไดงายกวา

- ถาเปน categorical กจะมวธการค านวณทตางออกไป

- เราจะตองม visualization ทด จะท าใหเราสามารถแบงขอมลไดด อานขอมลไดงาย ถามองจากกราฟ x,y กจะเหนแคสองมต

เทานน พอเรามองแลว กจะได label ออกมา (เพราะตอนแรกยงไมม label มาให)

- เพราะฉะนนตองใช software ทมกราฟฟกดๆ

Algorithm

- มหลายอน บางอนกจะเหมาะกบขอมลทเปนตวเลข บางอนกเหมาะกบทเปนประเภท

- การทเราถามวา unseen นจะไปอยใน cluster กจะไดคา prob มาดวยวา มโอกาสจะอยในกลมนแคไหน แตบางอนกไมบอก

- บาง clustering อาจจะท าแบบทง exclusive/overlap อยไดแค cluster เดยว หรอวาอยในหลาย cluster กได

- มทงแบบ flat/hierarchical คอ แบงไปเลยชนเดยวหรอ ม cluster ใหญครอบอยอกท เปนล าดบชนลงไป (partitional

clustering – hierarchical clustering

- top down คอ มองวาทงหมดเปนกลมใหญกอน แลวคอยแยกออกมา - bottom up มองวาแตละอนเปนคนละกลมกอน แลว

คอยๆ รวมกนขนไป (สวนใหญจะเปน hierarchical ดวย)

Distance

- มวธค านวณหลายแบบ เชนเอามาบวกลบกนเลย ใช weight ใช Euclidean distance

- ถาเปน nominal attribute กจะใช 1 = ตาง 0 = เหมอน

- Euclidean Distance ฮตทสด

Normalizing

- อาจจะมปญหาถาเกดวาม measurement เยอะมากๆ ท าใหคาระยะทางมนไกลเกนไป

- กใช z-score กได

K-means Z (partitioning)

- ใชเฉพาะกบ numerical data เทานน

- k คอจ านวน cluster

- เรมดวยการเลอก k ทด วาจะใหมก center แลวหยบมาเปน center

- แลวระบขอมลอนๆ ใหไปอยใกลๆ ตวทหยบมาแลว

- จากนนค านวณ centroid ใหม จนกวาจะหยด

- หยดเมอ centroid ไมขยบแลว หรอขยบนอยมากๆ

Problem

- ไมรวาจะเลอก k ยงไง (อาจจะเปนวาเรารลวงหนาวามกกลม ซงไมเสมอไป เราอาจจะตองคอยๆ เปลยนคา k ไปเรอยๆ แลวคอยด

วาแบบไหนด)

- ตอนเรมจะเลอกแรนดอมมายงไง จะใชอะไรตดสน (เราอาจจะบอก software ไดวาจะเลอกแบบไหน แลวแต domain

knowledge)

- k-means เลยมขอเสยในกรณเรมตนแบบน

- การแบง cluster เราอาจจะดจากระยะหางระหวาง cluster-cluster วามนหางกนดรเปลา

- อาจจะมปญหาเรองกลมกราฟหนาตาแปลกๆ มนจะตดกลมออกมาไดไมด (วธแก บางคนบอกวาใหแยก เยอะๆ แลวพอแยกเสรจ ก

คอยเอามารวมกนใหเปนกลม)

K-mediods

- โดยอลกอรทม คา center กคอคา mean

- แตบางท mean กไมเหมาะ ถาขอมลมนโดดมากๆ กควรจะใชคา median

- เปนการหา representative ของ cluster

- ถาเกดวาขอมลใหญมากๆ จะใชการ sampling

Preprocess

- กอนท าให normalize , eliminate outlier

Post-process

- ถาเรารวมมนเปนกลมใหญไป อาจจะตองเขยนการแยกใหมนแยกออกจากกนเพมเตม

- ถาตอนแรกเราแยกไวเยอะ อาจจะตองท าใหมนมารวมกน merge กน

Problem with centroid problem

- เราอาจจะไปหาเทคนคอนๆ เพอหาคา k มากอน แลวคอยเอามาท า k-means

Hierarchical Method

- Agglomerative Methods (bottom-up) แยกเดยวกอน

- Divisive( top-down) รวมใหญกอน

- ดกวา k-mean ตรงทไมตองก าหนดคา k

- แตวาถาตอนแรกๆ แยก แลวเรารวมกนขนไป กจะ backtrack กลบมาไมได รวมแลวรวมเลย

How to Find K

- อาจจะท า hierarchical แลวดวาจะแบงยงไงด แลวคอยเลอก k

DBSCAN (density base –solved K-means)

- ท า clustering โดยใชความหนาแนน

- Core point: เปนจดทม neighbor เยอะๆ ถา core มนรวมกนได กจะ merge เปนกลมเดยวกน

- Border point:

- Noise point:

- ใชความหนาแนน ท าใหสามารถใชไดกบ shape ทแปลกๆ ขนาดตางๆ

Clustering Validation

- Cluster interpretation: วดกนดวยความหมายของ cluster วาสามารถตความไดดหรอไม จะใช visualization tools

ชวย

- Cluster Stability:

- Cluster Separation ด distance ของ cluster

Interpretation

- ใช stat มาชวยอธบาย

- เวลาท า clustering แลว อาจจะเอาตวแปรทไมไดใชท า clustering มาเปนตว visualize

Evaluating K-means Cluster

- ใช SSE ด เปนการดความหางของobject แตละ cluster โดยเราอยากไดอนทม SSE ต าๆ

- k มาก SSE จะต าลง

- แตวา good clustering > k นอย SSE ต าดวย

Cluster Evaluating

- ท าแบบตอนแรก คอเราร label แลวเอามาแยกโดยใช clustering วดดวาตรงมากตรงนอยแคไหน

Cluster Validation

- วดดวย F-measure เลยกได

- แตวธทดทสด คอดดวยตาคน

Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น...

Documents

Transcript of Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น...

Interleaved Text/Image Deep Mining on a Large-Scale ...lelu/publication/cvpr15_0371.pdf · Interleaved Text/Image Deep Mining on a Large-Scale Radiology Database ... learning’s

슬라이드 1lumieyes.com/download/cmad.pdf · 2018-04-24 · image image text image text image image text image text issue poll

Text Mining with Oracle - Text Mining Summit

Mining Unstructured Data (Text Data Mining) - Chapters Site IIA Nov5...Mining Unstructured Data (Text Data Mining) ... Text Mining tools and tips for beginning to use text ... free

Text mining and data mining

Interleaved Text/Image Deep Mining on a Large-Scale ...lelu/publication/cvpr15_0371-supp.pdf · Interleaved Text/Image Deep Mining on a Large-Scale Radiology Database . Hoo ... 71

Data Mining on NIJ data Sangjik Lee. Unstructured Data Mining Text Keyword Extraction Structured Data Base Data Mining Image Feature Extraction Structured.

Employee Data Mining Based on Text and Image Processing

A Brief Survey of Text Mining · Text Mining = Text Data Mining. Text mining can be also deﬁned — similar to data mining — as the application of algorithms and methods from

CSE 634 – Data Mining: Text Mining · Text Mining vs. • Data Mining – In Text Mining, patterns are extracted from natural language text rather than databases. • Web Mining

Introduction to Text Mining - en.cs.uni-paderborn.de · Introduction to Text Mining Part VIII: Text Mining using Classiﬁcation and Regression Henning Wachsmuth Text Mining VIII

Mining Text Using Keyword Distributions - Hebrew …pluto.huji.ac.il/~rfeldman/papers/feldmanHirsh.pdfKeywords: data mining, text mining, text categorization, distribution comparison,

Building Truly Large-Scale Medical Image Databases: Deep ...on-demand.gputechconf.com/gtc/2017/presentation/S... · Interleaved Text/Image Deep Mining on a LargeScale Radiology Image

Introduction to Text Mining and SAS Text Minersupport.sas.com/publishing/pubcat/chaps/59410.pdf · Introduction to Text Mining and SAS Text Miner Tips for Text Mining 3 The Text Mining

Introduction to Text Mining - uni-paderborn.de...Introduction to Text Mining Part VII: Text Mining using Clustering Henning Wachsmuth Text Mining VII Text Mining using Clustering ©Wachsmuth

Interleaved Text/Image Deep Mining on a Very Large-Scale Radiology Database · PDF file · 2015-05-26Interleaved Text/Image Deep Mining on a Large-Scale Radiology Database Hoo-Chang

Text Mining for Clementine Improve Insights with Text Mining

Text Mining Infrastructure in R - University of Idahostevel/517/Text Mining Infrastructure in R.pdf4 Text Mining Infrastructure in R an established text mining framework with architecture

Text Mining Webinar - KNIME€¦ · Text Mining Webinar The Textprocessing Extension Rosaria Silipo and Kilian Thiel. KNIME Text Mining Webinar 2 Agenda ... Text Mining Workflow Create

Introduction to Text Mining - EDBT 2006 · Text Mining Text Mining (Def. Wikipedia) Text mining, also known as intelligent text analysis, text data mining or knowledge-discovery in