โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner...

24
1 รายงานผลการเข้าฝึกอบรม หลักสูตร "การวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidMiner Studio 6 (ขั ้นพื้นฐานและปานกลาง)" จัดโดย ห้างหุ ้นส่วนสามัญดาต้า คิวบ์ ณ โรงแรมเคยูโฮม มหาวิทยาลัยเกษตรศาสาตร์ วิทยาเขตบางเขน กรุงเทพฯ วันที25-27 มิถุนายน 2558 ผู ้จัดทา รองศาสตราจารย์ ณัฐพร เห็นเจริญเลิศ สาขาวิชาวิทยาศาสตร์และเทคโนโลยี โครงการนี้ได ้รับการสนับสนุนจากทุนพัฒนาบุคลากรประจาปีงบประมาณ 2558

Transcript of โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner...

Page 1: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

1

รายงานผลการเขาฝกอบรม หลกสตร

"การวเคราะหขอมลดวยเทคนค Data Mining

โดยซอฟตแวร RapidMiner Studio 6 (ขนพนฐานและปานกลาง)"

จดโดย

หางหนสวนสามญดาตา ควบ

ณ โรงแรมเคยโฮม มหาวทยาลยเกษตรศาสาตร วทยาเขตบางเขน กรงเทพฯ

วนท 25-27 มถนายน 2558

ผจดท า

รองศาสตราจารย ณฐพร เหนเจรญเลศ

สาขาวชาวทยาศาสตรและเทคโนโลย

โครงการนไดรบการสนบสนนจากทนพฒนาบคลากรประจ าปงบประมาณ 2558

Page 2: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

2

1. ชอ น.ส.ณฐพร นามสกล เหนเจรญเลศ อาย 50 ป ต าแหนง รองศาสตราจารย ระดบ 9 สงกด สาขาวชาวทยาศาสตรและเทคโนโลย ไปเขารวมฝกอบรมหลกสตร การวเคราะหขอมลดวยเทคนค Data Mining โดยซอฟตแวร RapidMiner Studio 6 (ขนพนฐานและปานกลาง) วนท 25-27 มถนายน 2558 รวมระยะเวลา 3 วน 2.วตถประสงคของการฝกอบรม

1) เพอศกษาการวเคราะหขอมลดวยเทคนค Data Mining โดยซอฟตแวร RapidMiner Studio 6

2) เพอน าความรไปประยกตใชในการวจย

3.สรปเนอหา จากการฝกอบรมการวเคราะหขอมลดวยเทคนค Data Mining โดยซอฟตแวร RapidMiner Studio 6 บรรยายโดย อ.ดร.เอกสทธ พชรวงศศกดา ดงน

ภาพรวมของหลกสตร

โลกในยคปจจบนไดกาวเขาไปสยคทเรยกวา “Big Data” หรอ “ขอมลอภมหาศาล” เนองจากในแตละวนมขอมลเกดขนมากมาย อาทเชน ขอมลสมาชกของ Facebook ขอมลการซอสนคาจากในซปเปอรมารเกตตางๆ และเพอใหเกดประโยชนมากทสดเราจ าเปนตองน าขอมลอภมหาศาลเหลานมาท าการวเคราะห (analyze) ซงเทคนคหนงทไดรบการนยมอยางสงในปจจบน คอ เทคนค Data Mining ซงเปนเทคนคทคนหาความสมพนธในขอมล เชน ถาลกคาซอเบยรแลวลกคาจะซอผาออมรวมไปดวย หรอถาเรากด Like หนา Facebook page เราจะเหนวา Facebook มระบบแนะน า page อนๆ ทเกยวของมาใหดวย หรอ การสรางโมเดลเพอท านายสงทจะเกดขนในอนาคต เชน ท านายยอดขายในไตรมาสถดไป หรอ การท านายวาพนกงานคนไหนทจะลาออกจากบรษทในชวง 3 เดอนขางหนา ตวอยางเหลานลวนเปนผลมาจากการวเคราะหขอมลทางดาน Data Mining

การวเคราะหขอมลดวย Data Mining นก าลงเปนทนยมไปทวโลกดวยแรงขบเคลอนอยางหนงคอ การมซอฟตแวรทชวยใหท าการวเคราะหไดงายขน แตซอฟตแวรสวนใหญจะเปนซอฟตแวรเชงพาณชย (commercial software) เชน SAS Enterprise Miner หรอ IBM Intelligent Miner ทวาการลงทนซอซอฟตแวรเชงธรกจเหลานมาใชงานอาจจะไมคมคาในการลงทนส าหรบผประกอบการวสาหกจขนาดกลางและขนาดยอม (SMEs) หรออาจารย นกวจย และ นกศกษาระดบปรญญาโทและเอก ในมหาวทยาลยตางๆ ดงนนวธการหนงทจะท าใหเราสามารถวเคราะหขอมลเหลานไดคอการใช open source software ทสามารถดาวนโหลดมาใชงานไดโดยไมเสยคาใชจาย (ฟร !!!) เชน ซอฟตแวร Weka ผมคลกคลกบ Weka มาเปนเวลาหลายป เคยเขยนคมอการใชงาน Weka Explorer ลงในนตยสาร OpenSource2Day สรางหลกสตรการอบรม

Page 3: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

3

การใชงาน Weka Explorer และอบรมการใชงานซอฟตแวรตวนมาเปนจ านวนเกอบยสบรน แมวาซอฟตแวรนจะใชงานไดงายส าหรบผเรมตนและสะดวกทจะน าไปใชในการพฒนา Web Application แตในหลายๆ ครงผมมกจะพบขอจ ากดหรอความยากในการแสดงผลจากซอฟตแวรตวน ดงน นผมจงหนมาสนใจซอฟตแวรตวอนทสามารถทดแทนหรอดกวาซอฟตแวร Weka Explorer และผมกพบกบซอฟตแวร RapidMiner Studio 6 ซงเปนซอฟตแวรทาง Data Mining ทไดรบการโหวตวามผใชงานมากทสดจากเวบไซต KDnuggets.com เมอป 2013

ความรเกยวกบขอมล และการท าเหมองขอมล

ขอมลสามารถแบงตามแหลงทมาไดดงน 1. ขอมลภายในองคกร/บรษท เชน ขอมลเกยวกบการซอขาย ขอมลประวตลกคา ขอมลประวต

พนกงาน เปน transaction 88% log data 73% Emails 57% 2. ขอมลภายนอกองคกร/บรษท เชน ขอมลจาก social media ตางๆ ขาว ขอมลรปภาพ เสยง

ซงสามารถน าขอมลเหลานมาวเคราะหใหมประโยชนตอองคกรได

ค าจ ากดความ ฐานขอมล (Database) ฐานขอมลใชในการจดเกบขอมล ลดความซ าซอนของขอมล เนนการจดเกบ เพม แกไขและลบขอมลไดถกตอง คลงขอมล (Data Warehouse) คลงขอมลรวบรวมขอมลจากหลายๆ ฐานขอมล แปลงขอมลใหมความเหมอนกน เหมาะส าหรบการเรยกด (view) เพอสรางรายงานสรปผลตางๆ การท าเหมองขอมล (Data Mining) การวเคราะหขอมลเพอคนหาความสมพนธหรอรปแบบทมประโยชนในฐานขอมล ตวอยางการน า Data Mining ไปใชงาน เชน การท าบตรสมาชก (loyalty card) ของหางรานตางๆ เพอ ตดตามพฤตกรรมการซอสนคาของลกคาจากบตร loyalty น ามาวเคราะหและน าเสนอเปนโปรโมชนพเศาใหแตละบคคล เพมโอกาสในการขายสนคาใหกบลกคา กระตนใหลกคาไดซอสนคามากขน เชน ซอสนคาวนน จะไดสวนลดพเศษ ท าใหลกคาเกดการ

ตดสนใจซอทนท

Page 4: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

4

ตวอยางการวเคราะห เชน หาง Walmart พบวาทกวนศกรหลงบายโมงจะมลกคาเพศชายอายระหวาง 25-35 ปซอสนคาเบยรและ Diapersมากทสด หาง Target ท าการวเคราะหการซอสนคาของลกคาเพศหญงพบรปแบบวาถามการซอวตามน ซออาหารบ ารง ซอตเตยงเพม ลกคาจะเรมตงครรภ Target จะสงโปรโมชนทเกยวของไปใหลกคาเหลานน การแนะน าสนคาทเกยวของของเวบไซต amazon.com ใหกบลกคาทเคยเขาสงซอหนงสอ หรอเวบ Netflix แนะน าภาพยนตทคลายกบทเคยด การท านายอายและเพศจากรปภาพ การแนะน าขาวทเกยวของ

การวเคราะหโดยท าเหมองขอมลตาม methodology ของ CRISP-DM (Cross-Industry Standard Process for Data Mining) ซงพฒนาโดย 3 บรษทคอ บรษท SPSS บรษท DaimlerChrysler และบรษท NCR เปน workflow มาตรฐานส าหรบท า data mining ประกอบดวย 6 ขนตอน

Page 5: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

5

1. Business Understanding เปนขนตอนแรกของ CRISP-DM โดยการท าความเขากบปญหาหรอโอกาสเชงธรกจ เปนการตงเปาหมาย ระบ output หรอเปาหมายทตองการไดจากการวเคราะหขอมลดวย data mining ตวอยางเชน ท าอยางไรถงเพมยอดขายใหกบสนคาชนดตางๆ ได ตองการแบงกลมนกศกษาออกตามความสนใจ ท าอยางไรใหลกคากลบมาซอสนคาไดอก อยากท านายปรมาณน าฝนทตกใน 2 วนถดไป อยากรวาลกคาคนใดบางมโอกาสปวยเปนโรคมะเรง

2. Data Understanding ขนตอนนเปนการรวบรวมขอมลทเกยวของ ซงขอมลถกตองนาเชอถอ ขอมลทไดมปรมาณมากเพยงพอ ขอมลทไดมความเหมาะสม มรายละเอยดเพยงพอตอการน าไปใชในการวเคราะห ตวอยางเชน ขอมลการซอสนคาของแตละบคคล ขอมลการลงทะเบยนและผลการศกษาของนกศกษา

3. Data Preparation ขนตอนการเตรยมขอมลเปนขนตอนทใชเวลานานทสด เนองจากโมเดลทไดจากการท าดาตาไมนงจะใหผลลพธทถกตองหรอไมนนขนอยกบคณภาพของขอมลทใช แบงออกไดเปน 3 ขนตอนยอยคอ 3.1 ท าการคดเลอกขอมล (Data Selection) เปนการก าหนดเปาหมายกอนวาเราจะท าการวเคราะหอะไร เลอกใชเฉพาะขอมลทเกยวของกบสงทเราจะท าการวเคราะห

Page 6: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

6

3.2 ท าการกลนกรองขอมล (Data Cleaning) เปนการลบขอมลซ าซอน แกไขขอมลทผดพลาด เชน ขอมลผดรปแบบ ขอมลทหายไป ขอมลท outlier ทแปลกแยกจากคนอน 3.3 แปลงรปแบบของขอมล (Data transformation) เปนขนตอนการเตรยมขอมลใหอยในรปแบบทพรอมน าไปใชในการวเคราะห ตามอลกอรธมของ data mining ทเลอกใช

4. Modeling เปนขนตอนการวเคราะหขอมลดวยเทคนคดาตาไมนง เชน - classification สรางโมเดลจากขอมลทมอยเพอท านายอนาคต เชน ท านายปรมาณน าฝนทตกใน

วนถดไป - clustering เปนการแบงขอมลหลายๆ กลมตามความคลายคลง เชน แบงกลมนกศกษาตามคะแนน ทได - association rules เปนการหาความสมพนธของขอมลทเกดรวมกน เชน คนหาสนคาทมการซอ รวมกนบอยๆ 5. Evaluation เปนการประเมนหรอวดประสทธภาพของโมเดลวเคราะหขอมลขนตอนกอนหนานน 6. Deployment น าโมเดลทไดหรอผลการวเคราะหไดไปใชงานจรง ตวอยาง CRISP-DM อางองจากงานวจยเรอง การใชเทคนคดาตาไมนนงเพอพฒนาคณภาพการศกษานสตคณะวศวกรรมศาสตร

1. Business Understanding ปญหาคอ นสตคณะวศวกรรมศาสตร ม.เกษตรศาสตรจะเลอกภาควชาเมอขนชนปท 2 นสตเลอกภาควชาไมตรงกบความสามารถของตนเอง โดยเลอกตามเพอนหรอเลอกตามทผปกครองแนะน า ผลทตามมานสตบางคนไดผลการเรยนตกต าและท าใหตองออกจากมหาวทยาลยกลางคน

2. Data Understanding ขอมลคณะวศวกรรมศาสตร ม.เกษตรศาสตรชวงป พ.ศ. 2535-2542 มนสตประมาณ 10,000 คน ขอมลมจ านวน 476,085 แถว โดยขอมลแบงเปน 2 สวน ขอมลประวตสวนตวของนสตประกอบดวย เพศ ทอย GPA ระดบมธยมปลาย GPA ชนปท 1 และขอมลการลงทะเบยนของนสต ประกอบดวยเกรดวชาคณตศาสตร เกรดวชาฟสกส เกรดวชาเคม

3. Data Preparation คดเลอกวชาทเกยวของกบภาควชาตางๆ ในคณะวศวกรรมศาสตร แปลงขอมลใหเหมาะสมกบการวเคราะห

4. Modeling แบงขอมลออกเปน 2 สวน คอ 70% ของขอมลทงหมดใชในการสรางโมเดล 30%ของขอมลทงหมดใชในการทดสอบประสทธภาพของโมเดล สรางโมเดลดวยเทคนค Decision Tree วงจะเปนโมเดลทเขาใจไดงาย โมเดลแบงแยกตามภาควชาตางๆ เชน ภาควชาวศวกรรมคอมพวเตอร วศวกรรมไฟฟา ค าตอบ (class) จะแบงเปน 2 ประเภท คอ Good หมายถงนสตเรยนในภาควชานแลวจบมาได GPA อยในชวง 40% แรก (top 40%) Bad หมายถง นสตเรยนในภาควชานแลวจบมาได GPA อยในชวง 40% จากทาย (bottom 40%)

5. Evaluation ทดสอบดวยขอมล 30% ทแบงไว แลวค านวณคาความถกตอง

Page 7: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

7

6. Deployment น าไปแนะน านสตชนปท 1 ทก าลงจะเลอกภาควชา พจารณาจากเกรดตามโมเดลทสรางได

สวนการใชซอฟตแวร RapidMiner RapidMiner ในตอนแรกใชชอบรษทวา Rapid-I กอนตงขนเมอป 2006 ในชวงแรกบรษทตงอยทประเทสเยอรมนน ป 2013 ไดเปลยนชอบรษทเปน RapidMiner หลงจากไดรบเงนลงทนจ านวน 5 ลานเหรยญและยายบรษทมาอยทบอสตน ประเทศสหรฐอเมรกา ผลตภณฑหลกของบรษทคอ RapidMiner Studio 6 บรษทชนน าตางๆ เชน PayPal ใชซอฟตแวร RapidMiner Studio 6 โดยสามารถดาวนโหลดไดจาก http://rapidminer.com/download-rapidminer/ เมอเรมใชงานจะพบกบหนาตาง Home Screen ดงรป

Page 8: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

8

การเตรยมขอมล ขอมลแสดงในรปแบบของตาราง แถวเรยกวา ตวอยาง (example) คอลมนเรยกวา แอตทรบวต (attribute) ม 3 หนาททใชงานบอย

- ไอด (ID) เปนแอตทรบวตทแสดงหมายเลขของขอมลหรอ primary key ในฐานขอมล - แอตทรบวตทวไป (attribute) เปนแอตทรบวตปกตทจะใชในการสรางโมเดลหรอเรยกวาเปน

ฟเจอร (feature) หรอตวแปรตน (independent variable) - ลาเบล (label) เปนแอตทรบวตชนดพเศษทมกจะใชแสดงค าตอบของสงทเราตองการจะสราง

โมเดลท านาย หรอเรยกวาคลาส (class) หรอตวแปรตาม (dependent variable) ประเภทของขอมลทเกบไวในแตละแอตทรบวต

- Nominal ขอมลประเภท category (ขอมลทไมใชตวเลข) มคามากกวา 2 คาขนไป - Binomial ขอมลประเภท category (ขอมลทไมใชตวเลข) มคาเพยง 2 คาเทานน - Numeric ขอมลประเภทตวเลข - Text ขอมลประเภทขอความ

Page 9: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

9

ไฟลประเภท CSV ยอมาจาก Comma Separated Value ใชเครองหมาย , (comma) คนระหวางแอตทรบวต ไฟล CSV สามารถ export ไดจาก Excel หรอ database ตางๆ การโหลดไฟล CSV เขาไปใชใน RapidMiner Studio 6 ท าได 2 แบบ

- ใชการ import ในสวนของ Repositories โหลดเขามาเกบไวและใชงานไดตลอด ถาขอมลในไฟล CSV มการเปลยนแปลงจะไม update ตองท าการโหลดใหม

- ใชโอเปอรเรเตอร Read CSV โหลดเขามาใชงานโดยการอานจากไฟล CSV ทกครง เมอไฟล update ขอมลจะเปลยนตาม

Page 10: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

10

Page 11: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

11

ตวอยางการใช Association Rules โดยการท า Market Basket Analysis เรมจากการสงเกตการซอสนคาของลกคาแตละราย วเคราะหขอมลเพอดวา สนคาอะไรบางทลกคามกจะซอรวมกนบอยๆ เพอใชในการออกโปรโมชนเพอเพมยอดขาย โดยน าขอมลทไดจากการซอสนคาแตละครงของลกคาทจดเกบไวใน database มาท าการแปลงขอมลจาก POS database เปน transaction database โดย group by ตามเวลาทซอสนคา

- นบจ านวนครงการซอสนคาแตละชนดคดเปน % ของการซอสนคา - วเคราะหเพอหาสนคาทมการซอมากกวาหรอเทากบ 50%

Page 12: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

12

การประยกตใชในการเพมยอดขายโดยแนะน าสนคาทลกคามกจะซอพรอมกนบอยๆ (cross-selling)

และใชในการจดสนคาในรานโดย การวางสนคาทลกคามกซอพรอมกนไวใกลๆ กน หรอวางสนคาทลกคามกซอพรอมกนไวไกลๆ กน

การหากฎความสมพนธ (association rules) ม 2 ขนตอน ขนตอนท 1 หา frequent itemset ซงใชเวลานานกวาขนตอนท 2 ม 2 เทคนคทนยมใชคอ - เทคนค Apriori (Agrawal and Srikant,1994)

- สรางรปแบบของสนคา (itemset) ทมจ านวนเพมทละ 1 - ค านวณคา support จากในฐานขอมล - ขอเสยคอตองดงขอมลจากฐานขอมลหลายรอบท าใหท างานชา

- เทคนค FP-Growth ( Han, Pei and Yin, 2000) - อานขอมลในฐานขอมลและสราง FP-tree - ค านวณคา support จาก FP-tree - ท างานไดเรวกวาวธ Apriori

การใชงานโปรแกรม

Page 13: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

13

Page 14: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

14

การท า Clustering คอการแบงกลมขอมล ขอมลทมลกษณะคลายๆ กนอยกลมเดยวกน ขอมลทอยคนละกลมจะมลกษณะทแตตางกนมากๆ แตละกลมจะเรยกวาคลสเตอร (cluster)

การจดขอมลใหอยในกลมตางๆ จะตองมการวดคาความคลายคลง (similarity) หรอคาระยะหาง (distance) ระหวางขอมลแตละตว คาระยะหางทนยมใช เชน ระยะหางยคลเดยน (Euclidean distance)

ตวอยางการท า clustering ลกคาตามพฤตกรรมการใช SMS และ Phone

Page 15: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

15

การประยกตใช เชน แบงขอมลลกคาออกเปนกลมยอยๆ เพอจะไดเขาใจพฤตกรรมการบรโภคของลกคาไดดขน สงโปรโมชนไดตรงกบความตองการของลกคาแตละกลม ชวยในการจดกลมเอกสารตามความคลายคลง เทคนคทนยมใชในการท า clustering

- K-Means เปนประเภท partitional clustering ทนยมมากทสด - ตองก าหนดจ านวนกลม หรอคลสเตอรทตองการจะแบงในตวแปร k - วธการท างาน

- ก าหนดจดศนยกลางของแตละคลสเตอร - หาระยะหางระหวางขอมลกบจดศนยกลาง (mean) ของแตละคลสเตอร - ก าหนดใหขอมลทอยในคลสเตอรใกลทสด - ค านวณหาจดศนยกลางของแตละคลสเตอรใหม - ท าซ าจนขอมลอยในคลสเตอรเดมไมมการเปลยนแปลง

Page 16: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

16

- การท า Agglomerative clustering เปนประเภท hierarchical clustering - การท า DBSCAN (Density Based Spatial Clustering of Applications with Noise) เปนประเภท

density-base clustering การท า Classification ตวอยางเชน การท า spam e-mail classification โดยระบวาอเมลไหนเปน spam อเมลไหนเปนเมลปกต

Page 17: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

17

ตวอยาง spam e-mail classification สรางดมเดลจาก training data ซงมลาเบล (lable)

น าขอมลใหม (unseen data ) มาท านายโดยใชโมเดล

Page 18: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

18

Classification Techniques โดยใช Decision Tree สรางกฎไดจาก Decision Tress โดยการใสไปตามแตละ Path ของ Tree

Decision Tree เปนเทคนคทนยมใชในการท า Classification ขนตอนการสราง decision tree จะเลอกแอตทรบวตทมความสมพนธกบคลาสมาใชงาน

- ค านวณคา Entropy และ Information Gain (IG) Entropy (c1) = - p(c1) log p(c1) IG (parent, child) = Entropy(parent )-[p(c1) x Entropy(c1) + p(c2) x Entropy (c2)+…]

ตวอยางการใชโมเดล Decision Tree ทสรางไดเพอท านายผลการเลอกสาขาวชาของนกศกษา

Page 19: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

19

ผลลพธทไดจากการ run

เทคนคการใช Naïve Bayes จะใชค านวณคาความนาจะเปน (probability) โอกาสทเกดเหตการณจากเหตการณทงหมด ใชสญลกษณ P() หรอ Pr() เชน โยนเหรยญบาท (มหวและกอย) โอกาสไดหว มความนาจะเปน ½ = 0.5 โอกาสไดกอย มความนาจะเปน ½ = 0.5 ตวอยาง ความนาจะเปนของการพบ spam mail เมอม email ทงหมด 100 ฉบบ ม spam email ทงหมด 20 ฉบบ ม normal email ทงหมด 80 ฉบบ โอกาสท email จะเปน spam มความนาจะเปน 20/100 = 0.2 หรอ P(spam)= 0.2 โอกาสท email จะเปน normal มความนาจะเปน 80/100 = 0.8 หรอ P(normal) = 0.8 Naïve Bayes จะใชหลกการของความนาจะเปนแบบมเงอนไข

Page 20: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

20

P(A|B) = P(AB) P(B) โดยการประยกตเปน P(C|A) = P(A|C) x P(C) P(A) เมอ P(C|A) คอความนาจะเปนของขอมลทมแอตทรบวต A จะมคลาส C P(A|C) คอ ความนาจะเปนของขอมลใน training data ทมแอตทรบวต A และมคลาส C P(A|C) = P(a1a2a3... am|C) P(A|C) = P(a1|C )x P(a2|C) x P(a3|C) x …P(am|C) P(C) หรอ P(A) คอ ความนาจะเปนของคลาส C หรอแอตทรบวต A

ผลจากการ run Naïve Bayes

การ Classification โดยใช K-nearest Neighbors (kMN) เปนการจ าแนกขอมลทมลกษณะคลายๆ กนใหอยใน class เดยวกน โดย K เปนจ านวนขอมล ตวอยางการใหยาของคนไขโดยดจากอายและคา Na/K

Page 21: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

21

ID Na/k Age Type 1 10 20 A 2 25 15 A 3 10 15 A 4 50 15 B 5 55 20 B 6 60 30 B 7 35 40 C 8 25 50 C 9 30 60 C

10 40 55 C

ผลลพธจากการ Run K-nearest Neighbors (kMN)

Page 22: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

22

การท า Text Mining เบองตน ขอมลแบงเปนแบบมโครงสราง (structure) และไมมโครงสราง (unstructure) ขอมลแบบมโครงสราง เชนขอมลเกบในรปแบบตาราง

ID outlook humidity windy play 1 Sunny High FALSE No 2 Sunny High TRUE No 3 Overcast Normal FALSE yes

numeric nominal binominal ขอมลแบบไมมโครงสราง เชน ขอมลทเปนขอความ ขอมลทเปนรปภาพ ขอมลทไมมโครงสรางทเกบอยในรปแบบขอความ รปภาพ เสยงมจ านวนมากถง 80%ของขอมลทงหมด เชน ขอความใน Social Network ตางๆ เชน Facebook, Twitter, LinkedIN ขอความในเอกสารตางๆ เชน email, SMS , รายงานตางๆ ขอความในขาวตางๆ เชน หนงสอพมพ, Google News การประยกตใชขอมลประเภทขอความ เชน การหาขาวทใกลเคยง การวเคราะหทศนคตในแงตางๆ จากสงคมออนไลน ในการวเคราะหขอมลขอความตองท าการแปลงขอมลใหอยในรปแบบทมโครงสราง เชน การนบ ความถของค า (ทสนใจจะแปลความหมาย) ทเกดขนในขอความ ในทนเปนขอความภาษาองกฤษ โดยท าการแปลงค าใหเปนนรากศพท (root) เชน finding แปลงเปน find ตดค าเชอมหรอค าทเปนบพบททง และนบค าทเกดนในแตละเอกสร ถามค านนใหเปน 1 ถาไมเกดขนใหเปน 0 แลวพจารณาความถหรอจ านวนครงทค านนเกดขนในเอกสารทงหมด (Term Frequency) -TF-IDF คอจ านวนครงของค าทเกดขนคณกบจ านวนค าทเกดขนเฉพาะเอกสารในคลาส - จ านวนค าทพจารณาตอกน N ตว unigram พจารณาการเกดของแตละค า bi-gram พจารณาการเกดขนของค าทตดกน 2 ค า เชน so good tri-gram พจารณาการเกดขนของค าทตดกน 3 ค า เชน smell so good วธการโดยการตดตง text mining plugin ลงใน RapidMiner Studio 6 โดยเลอกเมน Help>Updates and Extension (Marketplace)… คนหา plugin ทชอวา text mining โดยมกระบวนการดงน

โอเปอเรเตอร ค าอธบาย Process Document from files อานขอความตางๆ และค านวนคา term representation X-Validation แบงขอมลส าหรบสรางและทดสอบโมเดลแบบ 10-flod

Page 23: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

23

cross-validation Store ส าหรบบนทกผลลงใน Repositories Tokenize ส าหรบตดขอความ text ออกเปนค าศพทตางๆ (term) Filter Token (by Length) ส าหรบกรองค าศพททมความยาวนอยกวาหรอมากกวาท

ก าหนด Stem (Porter) ส าหรบแปลงค าใหอยในรปของรากศพท Filter Stopwords (English) ส าหรบลบค าทเปน Stopwords เชน an, an, the SVM(linear) สรางโมเดล Support Vector Machines ดวย Linear

Kernal

ผลลพธของโมเดล

Page 24: โดยซอฟต์แวร์ RapidMiner Studio 6 … Post/58/RapidMiner.pdf · RapidMiner ในตอนแรกใช้ชื่อบริษทัว่า Rapid-I

24

4. ประโยชนทไดรบ 1. ไดความรและทกษะในการใชโปรแกรม RapidMiner Studio 6 ในการท า Data Mining 2. น าความรและประสบการณทไดไปผลต/ปรบปรงชดวชาทางของแขนงวชาเทคโนโลย

สารสนเทศและการสอสาร 3. น าความรและประสบการณทไดไปใชในงานวจย

ค าชแจงการใชเอกสาร ขอขอบคณททานใหความสนใจศกษาเอกสารเผยแพรความร (KM) ของสาขาวชาวทยาศาสตรและเทคโนโลย มสธ. ซงจดท าขนเพอเผยแพรใหเกดประโยชนเชงวชาการในวงกวาง ทงน หากทานน าขอมลจากเอกสารนไปใชประโยชน ขอใหอางองแหลงทมาของเราดวย พรอมทงแจงใหเราทราบถงแหลงททานน าไปใชอางอง

โดยแจงมาทางอเมล [email protected] เพอประโยชนในการบรณาการขอมลรวมกน