IT26 - nphothi.com

10

Transcript of IT26 - nphothi.com

Page 1: IT26 - nphothi.com
Page 2: IT26 - nphothi.com
Page 3: IT26 - nphothi.com

การเปรยบเทยบประสทธภาพการคดเลอกและจาแนกขอมล ดวยวธการทางเครอขายประสาทเทยม (A Comparative Efficiency of Feature Selection and Neural Network Classification)

ภรณยา อามฤครตน, เดช ธรรมศร, วาทน นยเพยร ,ภทราวฒ แสงศร, ณรงค โพธ และพยง มสจ

ภาควชาเทคโนโลยสารสนเทศ คณะเทคโนโลยสารสนเทศ มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ

[email protected] ,[email protected], [email protected], [email protected], [email protected], [email protected]

บทคดยอ งานวจยนนาเสนอการเปรยบเทยบประสทธภาพของ

แบบจาลองในการคดเลอกและจาแนกขอมลโดยใชขอมล Ozone จากฐานขอมล UCI machine learning database repository นามาวเคราะหทาการเปรยบเทยบประสทธภาพ โดยใชวธการคดเลอกขอมล (Feature Selection) แบบ CfsSubsetEval และ Principal Components และ วธการจาแนกขอมลแบบ โครงขายประสาทเทยมแบบ Multi-Layer Perceptron (MLP ) และ ซพพอรตเวกเตอรแมชชน (Support Vector Machines - SVM)

การวดประสทธภาพสามารถวดไดจากความถกตองของการจาแนกประเภทของขอมลโดยนบจากคาความถกตองของการจาแนกประเภทขอมลทวดได ซงการทดสอบแบบจาลองทไดจะทาการทดสอบผลบนพนฐานวธ 5 - fold Cross Validation โดยผลการทดลองทได พบวา การใช SVM ทใช kernel ดวย rbf เขามาใชในการจาแนกขอมลนนจะมประสทธภาพทดกวาการใชแบบจาลองโครงขายประสาทเทยม MLP

คาสาคญ : การคดเลอกขอมล การจาแนกประเภทขอมลโครงขายประสาทเทยม ซพพอรตเวกเตอรแมชชน

Abstract

This paper represented comparing efficiency of

model selection and classification between CfsSubsetEval

Feature Selection, Principle Component Analysis, Artificial

Neural Network (Multi-layer Perceptron: MLP), and

Support Vector Machine-SVM) using Ozone data set from

UCI machine learning database repository. The accuracy

rate of classification is used for evaluating efficiency.

Moreover, the 5-fold cross validation is used to testing

model. The result of experiment shows Support Vector

Machine with kernel function RBF for classification that

high efficiency more than artificial neural network (MLP).

Keyword: Feature Selection, Classification, Multi-Layer Perceptron, Support Vector Machines 1. บทนา

Data Mining คอ การนาขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยการสรางแบบจาลอง และความสมพนธทางสถต เทคนคทใชในการทา data mining มมากมาย เชน Neural Network, Decision Tree, Genetic Algorithm และ K-nearest neighbor เปนตน การเลอกใชควรเลอกใชใหเหมาะสมกบเปาหมายหรอปญหาตามความเหมาะสมโดยทวไปประเภทของงานตามลกษณะของแบบจาลองทใชในการทา Data Mining นนสามารถแบงกลมไดเปน 2 ประเภทใหญ ๆ คอ 1) Predictive Data Mining คอ เปนการคาดคะเนลกษณะหรอประมาณคาทชดเจนของขอมลทจะเกดขนโดยใชพนฐานจากขอมลทผานมาในอดต 2) Descriptive Data Mining คอ เปนการหาแบบจาลองเพอ

The 5th National Conference on Computing and Information Technology NCCIT 2009

131

Page 4: IT26 - nphothi.com

อธบายลกษณะบางอยางของขอมลทมอยซงโดยสวน มากจะเปนลกษณะการแบงกลมใหกบขอมล

ในสงคมในยคปจจบนมการแขงขนกนสงในทกๆดานไม วาจะเปนการแขงขนทางดานเศรษฐกจ การแขงขนกนในการ เรยนร และแนวโนมของการนาสารสนเทศมาประกอบการตดสนใจในงานสาขาตาง ๆ มมากขนแตบางครงไมสามารถ สรางสารสนเทศทตรงกบความตองการขององคก รได ซงในองคกรตาง ๆ สวนใหญไดมการเกบขอมล ไวเปนจานวนมาก โดยทขอมลเหลานสามารถนามาใชประโยชนไดมากแตไม คอย ไดถกนามาใชอยางจรงจง การทาเหมองขอมล (Data Mining) เปนวธการหนงทสามารถนามาขอมลเหลาน นมาใชใหเกดประโยชน

เทคนคการจาแนกประเภทขอมล (Data classification) [1] เ ปนเทคนคหนงทสาคญของการสบคนความรบนฐานขอมลขนาดใหญ (Knowledge Discovery from very large Database: KDD) หรอดาตาไมนนง (Data Mining) จดประสงคของการจาแนกประเภทขอมลคอการสรางโมเดลการแยกแอทรบวทหนงโดยขนกบแอทรบวทอน โมเดลทไดจากการจาแนกประเภทขอมลจะทาใหสามารถพจารณาคลาสในขอมลทยงมไดแบงกลมในอนาคตได เทคนคการจาแนก ประเภทขอมลนไดนาไปประยกตใชในหลายดาน เชน การจดกลมลกคาทางการตลาด การตรวจสอบความผดปกต และการวเคราะหทางการแพทย เปนตน

เทคนคการคดเลอกขอมล (Feature Selection) ในการทาเหมองขอมลมวตถประสงคหลกสามประการ คอ เพอเพมประสทธภาพการทานาย เพอการสงเคราะหโมเดลไดอยางรวดเรว และเพอลดความซบซอนของรปแบบโมเดล

ในงานวจยฉบบนจะเนนการนาเสนอวธการจาแนกประเภท (Classification) ขอมล ซงวธการหนงทเปนทนยมในการนามาประยกตใชในการจาแนกขอมลวธหนงกคอโครงขายประสาทเทยมชนด Multi-Layer Perceptron (MLP)

ซงพบวาวธการดงกลาวมความสามารถในการจาแน กขอมลอยในเกณฑทด และยงไดนาวธการทม ความนยมในการจาแนกขอมลและมประสทธภาพสงอกวธหนง คอ Support Vector Machines (SVM) เขามาเปรยบเทยบประสทธภาพและวธการเลอกขอมล (Feature Selection) ทเหมาะกบการ

จาแนกประเภทของขอมล เปนหลก โดยนาขอมล Ozone จาก UCI มาทาการทดสอบการวจยในครงน โดยเนอหาในบทความไดแบงเปนสวนดงน สวนท 2 กลาวถงทฤษฎทเกยวของ สวนท 3 วธการดาเนนการวจย สวนท 4 ผลการดาเนนงานวจย สวนท 5 กลาวถง การสรปผล การอภปรายผล และขอเสนอแนะ และสวนท 6 ไดกลาวถงเอกสารอางองทไดศกษา 2. ทฤษฎทเกยวของ 2.1 ดาตาไมนนง (Data Mining)

ดาตาไมนนง เปนกระบวนการเพอกลนกรองขอมลจากฐานขอมลขนาดใหญทมอย [2] โดยมองทความสมพนธของขอมล แนวโนมของขอมลตางๆ เพอใหสามารถนาขอมลทกลนกรองไดนาไปใชประโยชน เปนขอมลสนบสนนในการตดสนใจในเรองตาง ๆ ตอไป ซงมดวยกน 5 รปแบบ คอ

2.1.1 Association Rule เปนการคนหากฎความสมพนธของขอมลโดยคนหาความสมพนธหรอความเชอมโยงของขอมลทงสองชดหรอมากกวาสองชดขนไปไวดวยกน

2.1.2 Classification and Prediction การจาแนกประเภทและการทานาย ใชคนหาโมเดลทอธบายขอมลแตละประเภทได โดยการนาเสนออาจอยในรปแบบ Decision-tree, Classification Rule และ Neural Network ซงผใชทานายคาบางอยางทไมร หรอคาทหายไปในฐานขอมล

2.1.3 การจดกลมขอมล (Cluster analysis) ตองมความคลายกนมากทสด

2.1.4 การหาคาผดปกตทเกดขน (Outlier analysis) หรอขอมลบางอยางไมนาจะเปนจรงได

2.1.5 การวเคราะหแนวโนม (Trend and evolution analysis) 2.2 เทคนคการจาแนกขอมล Data Mining

เทคนคดาตาไมนนงทสาคญเทคนคหนงคอ Data Classification [1] เปนกระบวนการสรางโมเดลจดการขอมลใหอยใน กลม ทกาหนดมาให โดยการสรางกฎเพอชวยในการ ตดสนใจจากขอมลทมอย เพอใชทานายแนวโนมการเกดขน ของขอมลทยงไมเกดขน โดยการนาเสนอกฎทไดจากเทคนคการจาแนกประเภทขอมล

The 5th National Conference on Computing and Information Technology NCCIT 2009

132

Page 5: IT26 - nphothi.com

2.2.1 โครงขายประสาทเทยม (artificial neural network: ANN) [3] มพนฐานมาจากการจาลองการทางานของสมองมนษย ดวยโปรแกรมคอมพวเตอร จดมงหมายของโครงขายประสาทเทยมคอตองการใหคอมพวเตอรมความชาญฉลาดในการเรยนรเหมอนท มนษยมการเรยนร สามารถฝกฝนได และสามารถนาความรและทกษะ รวมทงสามารถนาไปประยกตใชไดดกบปญหา Classification, Regression และ Clustering เทคนคน มกถกเรยกวา “black box” เนองจากการทางานมความ ซบซอนมากกวาเทคนคอน ๆ คอนขางมาก การเรยนรของนวรอลเนตเวรก ทาไดโดยการสงขอมลเขามายงสวนทเรยกวาเพอรเซปตรอน (perceptron) สามารถเทยบไดกบเซ ลสมองของมนษย โดยทเพอรเซปตรอนทาการรบขอมลทอยในรปของเมทรกซซงเปนตวเลข เขามาคานวณ ดงภาพท 1

1x

1x

nx

1w

2w

nw

fn a

b

ภาพท 1 โครงขายประสาทเทยม เพอรเซปตรอน

Function ผลรวม (Summation Function)

1

z

i ii

n x w b=

= +∑ (1)

โดยท ตวแปร n คอ ผลรวมทไดจากฟงกชนผลรวม

ตวแปร ix คอ คาขอมลเขาตวท i

ตวแปร iw คอ คานาหนกของนวรอนตวท i

ตวแปร z คอ จานวนนวรอนชนขอมลเขา

ตวแปร b คอ คาความโนมเอยง

ตวแปร i มคาตงแต 1 ถง z

โครงขายประสาทเทยมแบบ Multilayer Perceptron (MLP) [4] โครงขายประสาทเทยมแบบ MLP เปนรปแบบหนงของโครงขายประสาทเทยมทมโครงสรางเปนแบบชน ใชสาหรบงานทมความซบซอนไดผลเปนอยางด โดยมกระบวนการฝกฝนเปนแบบ Superviseและใชขนตอนการสง

คา ยอนกลบ (Backpropagation) สาหรบการฝกฝนกระบวนการสงคายอนกลบประกอบดวย 2 สวนยอยคอ การสงผานไปขางหนา (Forward Pass) การสงผานยอนกลบ (Backward Pass) สาหรบการสงผานไปขางหนา ขอมลจะผานเขาโครงขายประสารทเทยมทชนของขอมลเขาและจะ สงผาน จากอกชนหนงไปสอกชนหนงจนกระทงถงชนขอมลออก สวนการสงผานยอนกลบคานาหนกการเชอมตอจะถกร เปลยนใหสอดคลองกบกฎการแกขอผดพลาด (error-correction) คอผลตางของผลตอบท แทจรง (actual response) กบผลตอบเปาหมาย (target response) เกดเปนสญญาณผดพลาด (error signal) ซงสญญาณผดพลาดนจะถกสงยอนกลบเขาสโครงขายประสาทเทยมในทศทางตรงกนขาม กบการเชอมตอ คานาหนกการเชอมตอจะถกปรบจนกระทงผ ตอบทแทจรงเขาใกลผลตอบเปาหมาย ดงภาพท 2

ภาพท 2 โครงขายประสาทเทยม Multilayer Perceptron แบบ 1 hidden layer

2.2.2 Support Vector Machines (SVM) ตวแบบ

ของ SVM มความคลายคลงกบเพอรเซฟตรอน ซงเปนขายงานประสาทเทยมแบบงายมหนวยเดยวทจาลองลกษณะของ เซลลประสาท ดวยการใช Kernal Function ในสอตพมพเกยวกบ SVM จะเรยกตวแปรในการตดสนใจวาคณสมบตและตวแปรทเปลยนแปลงใชในการกาหนดระนาบ หลายมต เรยกวา คณลกษณะ (feature) สวนการเลอกทมความเหมาะสมทสดเรยกวา การคดเลอก คณลกษณะ (feature selection) จานวนเซตของคณลกษณะทใชอธบายในกรณหนง (เชน แถวของการคาคาดการณ ) เรยกวา เวกเตอร (vector) ดงนนจดมงหมายของตวแบบ SVM คอการประโยชนสงสดจากระนาบหลายมตทแบงแยกกลมของเวกเตอรในกรณนดวย หนงกลมของตวแปรเปาหมายทอย ขางหนงของระนาบ และ

The 5th National Conference on Computing and Information Technology NCCIT 2009

133

Page 6: IT26 - nphothi.com

กรณของกลมอนทอยทางระนาบตางกน ซงเวกเตอรทอยขาง ระนาบหลายมตทงหมดเรยกวา ซพพอรตเวกเตอร (Support Vectors)

SVM เปนวธการทสามารถนามาใชในการจาแนกรปแบบหรอกลมของขอมลได โดยจะอาศยระนาบ มาใชในการแบงเขตของ ขอมลออกเปนสองฝง และ support vector machines นจะมคณลกษณะแบบ inner-product ระหวาง ตว support vector และ input vector

1

1( , )2

nT

ii

w w w Cφ ξ ξ=

= + ∑ (2)

จากสมการท (2) เปนการแสดงเวกเตอรคานาหนกของ w โดยจะพยายามลดคาใน เทอมแรกของสมการท (2) ใหมคานอยทสด และคา C จะเปนคาคงททใช สาหรบกาหนดคา ความผดพลาดในการแยกกลมขอมลและ คา iξ หรอ slack variable ซงจะเปนการวดคา ความผดพลาดทคลาดเคลอนไปจากตาแหนงทเหมาะสม

1( , ) 0

n

i i ii

d K x xα−

=∑ (3)

จากสมการท (3) แสดงคา decision surface โดย ท K(x,xi) เปน Inner-Product Kernel และ αi คอ คา lagrange multipliers และ di คอคา target output สาหรบ kernel ของ SVM ทนยมใชกน คอ แบบpolynomial เปนการคานวณหาเสนแบงโดยใชสมการเ ชงเสนทม degree มากกวาสองและแบบ RBF ซงเปนการคานวณหาขอบเขตขอมลโดยอาศยวธการแบบ Radial Basis เขามาชวยในการคานวณดงแสดงไวในสมการท (4) และ (5) ตามลาดบ

( , ) ( 1)T Pi iK x x x x= + (4)

2( , ) exp( || || )i iK x x y x x= − − (5) 2.3 เทคนคการคดเลอกขอมล Data Mining

Feature selection [5] การเลอกแอทรบวตทมความสาคญนอยออกเพอดประสทธภาพในการทานายหลงจากทไดตดแอทรบวตบางตวออกซงสวนใหญจะใหคา ความถกตองสงขนเพราะแอทรบวตทเหลอจะเปนแอทรบวตทมความสาคญ

อลกอร ทมในการ เ ลอกขอมล ท มใหของ WEKA (Waikato Environment for Knowledge Analysis) ซงพฒนาโดย University of Waikato New Zealand เปนโปรแกรมใน

การเรยนรของเครองสวนใหญใชในดาน data mining ซงใหผลลพธดและเขาใจงาย เชน CfsSubsetEval, Principal Components, eRAtributeEval 2.4 วธการวเคราะหความแมนตรงของโมเดล k-fold cross-validation

การตรวจสอบไขวกน (Cross Validation) [6] เปนวธการในตรวจสอบคาความผดพลาด ในการคาดการณของโมเดล โดยพนฐานของวธการการตรวจสอบไขวกนคอการสมตวอยาง (resampling) โดยเรมจากแบงชดขอมลออกเปนสวน ๆ และนาบางสวนจ ากชดขอมลนนมาตรวจสอบ ผลลพธจากการทาการตรวจสอบไขวกนมกถกใชเปนตวเลอกในการกาหนดโมเดล เชน สถาปตยกรรมเครอขายการสอสาร (network architecture) โมเดลในการคดแยกประเภท(classification model)

ในกรณการทา K - fold cross-validation เราจะแบงขอมลออกเปน K ชดเทาๆกน และทาการคานวณคาความ ผดพลาด K รอบ โดยแตละรอบการคานวณขอมลชดหนงจากขอมล K ชดจะถกเลอกออกมาเพอเปนขอมลทดสอบ และขอมลอก K - 1 ชดจะถกใชเปนขอมลสาหรบการเรยนร

K - fold Cross Validation ( K = 5) ชดขอมลหลงจากทาการแบงออกเปน 5 ชดขอมลยอยเทาๆกน โดยแตละกลอง คอชดขอมลยอย 1 ชดตวอยางดงภาพท 3

ภาพท 3 5 - fold Cross Validation

3. วธการดาเนนการวจย 3.1 ศกษาปญหาและความตองการของระบบ

เพอนามาเปนขอมลในการวเคราะหและออกแบบพฒนาในขนตอไปผพ ฒนาจงไดทาการวเคราะหรปแบบ ขอมลโดยใชอลกอรทม(Algorithm) ของโครงขายประสาทเทยม (Neural Network) แบบ Multi-LayerPerceptron (MLP)

The 5th National Conference on Computing and Information Technology NCCIT 2009

134

Page 7: IT26 - nphothi.com

และซพพอรตเวกเตอร แมชชน (Support Vector Machines: SVM) มาทาการเทยบเคยงหาประสทธภาพเพอความแมนยาในการทานายคาโดยว เคราะหลกษณะของชดขอมล (Datasets) ซงชดขอมลทใชเปนขอมลทไดจาก UCI เปนชดขอมลในป 2008 โดยขอมล เหลานไดทาการ ทาการบนทกทก 1 ชวโมง ตงแตป 1998 ถง ป 2004 จากในเมอง 3 เมอง ประกอบดวย Houston, Galveston และ Brazoria โดยมรายละเอยดขอมล คอ จานวนขอมลทงหมด 2536 จานวน Attribute ทงหมด 73 Attribute ม 2 classes คอ คลาส 1 เปน ozone day และ คลาส 0 เปน normal day มขนตอนจาลองการทดลองดงภาพท 4 3.2 การเตรยมขอมลสาหรบทาดาตาไมนนง (Data

preparation) ขนตอนการ เต ร ยมขอม ลกอน ทจะสงไป เขา ส

กระบวนการหาอลกอรทมและวเคราะห ซงขนตอนนสาคญมากเนองจากเปนขนตอนการเตรยมขอมลกอนทจะสงไปเขา สกระบวนการหาอลกอรทมและวเคราะห แล ะนา data ททาการโหลดมา Onehr.data มาทาการวเคราะห

นาไปกาจด Missing value โดยใชการแทนคา แบบ Series Mean และ ทาการวเคราะหพฤตกรรมของขอมลโดยไดเลอกวธการ พลอตขอมลแบบ BoxPlot จะพบวา ขอมลสวนใหญกระจายตวแบบเกาะกลมกนจะมบาง Attribute ทมขอมลมการกระจายมาก และขอมลสวนใหญจะมคา Outlier นอย ตวอยางดงภาพท 5

ภาพท 4 ขนตอนจาลองการทดลอง

ภาพท 5 ตวอยางการ plot แบบ Box PlotของAttributeท 3

โปรแกรมทใชในงานวจยครงน ผจ ดทาไดเลอกใชโปรแกรม Weka เวอรชน 3.5.7 และ Matlab ซงเปนซอฟตแวรดานการทาเหมองขอมลทไดรบการยอมรบอยางแพรหลาย มาทาการวจย

ทาการคดเลอกขอมล (Feature selection) โดยอลกอรทมในการเลอกขอมลทมใหของ WEKA แบบ CfsSubsetEval และ Principal Components มาทาการเปรยบเทยบผลกบการเลอกใช แอทรบวตทงหมด 3.3 การสรางโมเดลระบบและการสอนขอมล

การเรยนรแบบมการควบคม (Supervised Learning) เปนการเรยนรซงตองมชดขอมลสาหรบการเรยนร (Training Data)

3.3.1 สรางโมเดลโครงขายประสาทเทยม (Neural Network) แบบ Multi-Layer Perceptron (MLP )

3.3.2 สรางโมเดลซพพอรตเวกเตอร แมชชน (Support Vector Machines -SVM) ทใช kernel ดวย rbf 3.4 การวดประสทธภาพ

 

Attribute  Selection  

Classification

 CfsSubsetEval 

ขอมลทใชในการทดลอง 

Series  Mean 

Neural Network  SVM 

การวดประสทธภาพ MSE / Confusion Matrix

วเคราะหและสรปผล

 PrincipalComponents 

 

Original 

กาจด missing

The 5th National Conference on Computing and Information Technology NCCIT 2009

135

Page 8: IT26 - nphothi.com

จานวนขอมลทเลอกมาทดสอบทงหมด 146 ตวอยาง โดยใชการทดสอบแบบ 5-fold Cross-Validation ในงานวจยนใชการแบงขอมลสาหรบการทดสอบเปน 5 ชดยอย (fold) แตละชดยอยมจานวนขอมลตามแตละวงจรการเดนทบนทก ได ชดขอมลทไดแบงเปน 5 ชดยอย ฝกสอนดวยชดขอมล 4 ชด สวนทเหลออก 1 ชดเกบไว สาหรบการทดสอบ ทาการทดลองซา 5 ครงแตเปลยนชดขอมลสาหรบ ฝกสอนและทดสอบใหม โดยการวดประสทธภาพของความถกตองของขอมลในงานวจยน วดไดจากคาความถกตองของการจดกลม ของขอมล ซงการทดสอบประสทธภาพจะแบงออกเปนสองแนวทางดวยกน คอ สวนแรกจะเปนก ารทดสอบ Multi-layer perceptron และสวนทสองจะใชอลกอรทมข อง Support Vector Machines 3.5 การทดสอบขอมลและปรบปรงแกไข

เปนขนตอนสดทายของการประมวลผลเพอนา ผลลพธทอยในรปของขอความ (Text Output) และ แผนภาพ (Graphics Output) นาไปแสดงผล 4. ผลการดาเนนงาน

การทานายโดยใชเทคนคดาตาไมนนง โดยจะแบงเปนอลกอรทม โครงขายประสาทเทยม (Neural Network) แบบ Multi-Layer Perceptron (MLP) และซพพอรตเวกเตอร แมชชน (Support Vector Machines: SVM) เปนตวคดแยก (Classifier) 4.1 ผลการทดสอบขอมลดวยอลกอลทม MLP ในสวนนจะเปนการนาโครงสรางของ multi-layer perceptron เขามาทดสอบ และทาการปรบเปลยนจานวน node ใน hidden layer 1-5 และเลอกประสทธภาพทดทสด ซงผลลพธทไดสามารถสรปไดดงตารางท 1

ตารางท 1 การเปรยบเทยบประสทธภาพของ MLP โดยใชการเปลยนโนดในชนซอน 1 ถง 5

Type Nodes Correctly Incorrect 1 96.57 3.42 2 93.83 6.16

original

3 93.83 6.16

4 93.83 6.16 5 93.83 6.16 1 93.83 6.16 2 93.83 6.16 3 93.83 6.16 4 93.83 6.16

cfs

5 93.83 6.16 1 92.46 7.53 2 91.78 8.21 3 91.05 8.90 4 90.41 9.50

pca

5 90.41 9.50

4.2 ผลการทดสอบขอมลดวยอลกอลทม SVM ในสวนนจะเปนการนาโครงสรางของ SVM มาทดสอบ โดยจะทาการปรบเปลยนคา C และคา gamma เพอหาคาทเหมาะสมสาหรบ kernel แบบ RBF เพอทดสอบหาคาทเหมาะสมทใหประสทธภาพสงสด ตวอยาง แสดงในภาพท 6

ภาพท 6 ตวอยาง แสดงคาความถกตองของผลการทดสอบขอมลแบบ pca เปรยบเทยบระหวางคา C และคา gamma

ปญหาหลายๆอยางของ การสราง model SVM ทด

ปญหาอยางหนง นนกคอ การหาคาพารามเตอรทเหมาะสม (parameter tuning) โดยปกตแลว SVM กจะม parameter ตวหนงนนกคอ C (อาจจะมparameter ตวอนๆ สาหรบ kernel ทตาง กนไป ) ซงคา C ทแตกตางกนกจะได model ของ SVM

 

The 5th National Conference on Computing and Information Technology NCCIT 2009

136

Page 9: IT26 - nphothi.com

ทใหผลไมเหมอนกนดวย โดยปกตแลวนน คา C เปนตวกาหนด tradeoff ระหวาง error บน training set กบขนาดของ margin หรออกนยหนงกคอจะใหความสาคญกบ error บน training set มากนอยแคไหน

จากงานวจยนไดพยายามหาคา C ทเหมาะสม โดยเลอกใช คา C = 14.01 และไดพบวาการเพมคา gamma ใหสง นนจะทาใหผลการทดสอบความถกตองมคาลดลง สรปผลไดดงตารางท 2

ตารางท 2 ผลการเปรยบเทยบคาความถกตอง ของ SVM โดยเลอกใช คา C = 14.01

Type Gamma Correctly original 0.11 100

cfs 0.11 100 pca 2.51 96.55

นามาทาการเปรยบเทยบคาความถ กตองระหวาง MLP

และ SVM สรปไดดงตารางท 3 และ ภาพท 7

ตารางท 3 การเปรยบเทยบคาควา มถกตองระหวาง MLP และ SVM

Type Correctly Incorrect original 96.57 3.42 cfs 93.83 6.16 MLP

pca 92.46 7.53 original 100 0 cfs 100 0 SVM

pca 96.55 3.45

ภาพท 7 การเปรยบเทยบของการทดสอบในแตละอลกอลทม

จากตารางท 3 ผลลพธทไดจากการทาดาตาไมนนง โดยใชโมเดลในการเรยนรดวยอลกอรทมโครงขายประสา ทเทยมมคาความผดพลาดเมอนามา ทดสอบ สงมากกวาโมเดล SVM จากผลการทดลองนสรปไดวาโมเดลในการเรยนและการทดสอบทควรใช คอ SVM เพราะ ใหคาพยากรณทมความถกตองสงทสดถง 100 % ในขณะท โมเดลของอลกอรทม MLP มคาความถกตอง ทสงทสดเพยง 96.57% 5. สรป อภปรายผล และขอเสนอแนะ

จากผลการทดสอบน เปนการเปรยบเทยบคาประสทธภาพในการจาแนกขอมล Ozone โดยใชเครองมอทางเครอขายประสาทเทยมนน ผลทไดอยในระดบทยอมรบไดทจะนาว ธการดงกลาวไปใชเพอ พยากรณสถานะ (Class) วาเปนวนปกต หรอเปนวนทมปรมาณโอโซนสง (0: normal day และ 1: ozone day)

จากผลการทดลองทได จะเหนวาคาประสทธภาพของ แตละวธจากการใชขอมลชดเดยวกน นในการทดสอบนนพบวา คา ประสทธภาพการจดกลมของชดขอมลทใชในการทดสอบแบบ SVM ทใช kernel แบบ RBF นนจะใหผลการทดสอบทสงกวา MLP คอ ไดคาความถกตอง 96.55 - 100 เปอรเซนต จากการใชคา C เทากบ 14.01

จากการทไดนาเสนอการนาเทคนคการคดเลอกขอมลทเหมาะสม เพอเพมประสทธภาพการทานาย เพอการสงเคราะหโมเดลไดอยางรวดเรว และเพอลดความซบซอนของรปแบบโมเดลนนจะพบวา ผลของประสทธภาพการจาแนกไมตางกบการเลอกใช แอทรบวต ทงหมดมากนก โดยเฉพาะในการทดสอบแบบ SVM ดวยอลกอรทมในการคดเลอกขอมล แบบ CfsSubsetEval จะเหนวาประสทธภาพในการจาแนกขอมล ไดคาความถกตอง 100 เปอรเซนต ไม

The 5th National Conference on Computing and Information Technology NCCIT 2009

137

Page 10: IT26 - nphothi.com

ตางกบการเลอกใช แอทรบวตทงหมด ซงผลลพธทไดอยในระดบทยอมรบได

ในการศกษาครงตอไปผวจยมงศกษาทจะหาวาปจจย ใดบางทมผลทาใหการวเคราะหการจาแนกขอมลใหมความถกตองมากขน รวมไปถงการศกษาปรบปรงขนตอนวธใหมประสทธภาพมากขนดวยและจากการทไดนาเสนอการนาเทคนคการคดเลอกขอมล นาจะเปนประโยชนกบเทคนคการ ทาเหมองขอมลเทคนคอน ๆ ในการจาแนกประเภทขอมล ซงอาจจะทาใหประสทธภาพของการทาเหมองขอมลเพมขน 6. เอกสารอางอง [1] Jiawei Han and Micheline Kamber., Data Mining

Concepts and Techniques, Morgan Kaufmann Publishers, 2001.

[2] พนดา ยนยงสวสด. การพยากรณปรมาณการใชยาโดยใชโครงขายประสาทเทยม, สารนพนธ ภาควชา เทคโนโลยสารสนเทศ คณะเทคโนโลยสารสนเทศ บณฑตวทยาลย สถาบนเทคโนโลยพระจอมเกลา พระนครเหนอ, 2547.

[3] พยง มสจ, ระบบฟซซและโครงขายประสาทเทยม, เอกสารประกอบการสอน, คณะเทคโนโลยสารสนเทศ สถาบนเทคโนโลยพระจอมเกลาพระนครเหนอ 2551.

[4] เอกรนทร แซเฮง, โครงขายประสาทเทยมกบการประยกตใชงาน (ตอนท 1 รจกกบโครงขายประสาทเทยม), แผนกสารสนเทศ สานกวชาการ วทยาลยนอรท กรงเทพ6/999 ซอยพหลโยธน 52 แขวงคลองถนน เขตสายไหม กรงเทพมหานคร 10220 http://ba.northbkk.ac.th/download/ File_PDF/neural_network1.pdf

[5] WEKA http://learners.in.th/blog/kanjanablog/110815 [6] Kohavi, “A study of cross-validation and bootstrap for

accuracy estimation and model selection,” Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, vol. 2, no. 12, pp. 1137–1143, 1995.

[7] Quinlan, J. R., C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

[8] Quinlan, J. R., “Improved use of continuous attributes in C4.5”, Journal of Artificial Intelligence Research, 4:77-90, 1996.

The 5th National Conference on Computing and Information Technology NCCIT 2009

138