Obtención de los dominios de competencia de C4.5 por ... fileObtención de los dominios de...

12
Obtención de los dominios de competencia de C4.5 por medio de medidas de separabilidad de clases Julián Luengo Francisco Herrera Dept. Ciencias de la Computación e Inteligencia Artificial CITIC-Universidad de Granada, 18071 Granada [email protected] [email protected] Resumen Cuando se trata con problemas usando algo- ritmos de aprendizaje automático es difícil de- terminar a priori si éstos son adecuados para un problema concreto. En esta contribución se presenta un nuevo enfoque hacia este objetivo, basado en medidas de complejidad de datos para problemas de clasificación, extrayendo los dominios de competencia del algoritmo de aprendizaje. Empleando medidas de complejidad de datos los dominios de competencia asociados al método de aprendizaje pueden ser extraídos describiendo las regiones en las cuales este al- goritmo funciona adecuadamente o no en me- dia. En esta contribución se extraen los domi- nios de competencia de C4.5 usando una cate- goría en particular de medidas de complejidad conocidas como medidas de separabilidad de clases. Estos dominios de competencia se de- finen por medio de reglas que describen tanto el buen como el mal comportamiento de C4.5 sobre un amplio conjunto de bases de datos obtenidas a partir de datos reales. La mayoría de las bases de datos son caracterizadas por estos dominios de competencia, mostrando las buenas capacidades descriptivas de las medi- das consideradas. 1. Introducción El estudio del rendimiento de algoritmos de Machine Learning (ML) no es una tarea re- ciente. Ha sido tratada tanto empíricamente como teóricamente [24, 16, 22]. Con el aumen- to de aplicaciones de ML y Minería de Datos y la creciente complejidad de los datos mane- jados, es útil conocer a priori si un algorit- mo dado funcionará satisfactoriamente para un problema en concreto. Por tanto, uno de los temas de investigación actuales más impor- tantes es identificar los dominios de competen- cia de un esquema de clasificación particular. Uno de los mayores obstáculos en este tipo de investigación es la dificultad en caracterizar las diferencias entre varios problemas del mundo real, y relacionar el comportamiento del clasifi- cador con estas diferencias. Con esta informa- ción, sería posible por ejemplo estimar para bases de datos reales de gran tamaño si es in- teresante aplicar el método de aprendizaje (en bioinformática), o elegir los clasificadores rele- vantes de un ensemble de cara a una base de datos concreta. La tarea de elegir el mejor algoritmo en función de un problema dado ha sido una cuestión clave en las últimas décadas. El pro- blema del Meta-Aprendizaje (Meta-Learning - MetaL-) formalizó este proceso [10, 18, 6], pero se han encontrado algunos inconvenientes [14]. Una aproximación alternativa al MetaL es el paradigma de Transición de Fase (Phase Tran- sition -PT-) [8]. Ha sido usado para estudiar la escalabilidad y el impacto de la barrera de complejidad en los rendimientos de aprendiza- je [9]. Baskiotis y Sebag investigan el uso del paradigma PT para construir mapas de prin- cipios de competencia asignados al algoritmo de aprendizaje C4.5 en [3], caracterizando las regiones en las cuales este algoritmo funciona adecuadamente o no en promedio. Aquellos

Transcript of Obtención de los dominios de competencia de C4.5 por ... fileObtención de los dominios de...

Obtención de los dominios de competencia de C4.5 por medio de medidas deseparabilidad de clases

Julián Luengo Francisco HerreraDept. Ciencias de la Computación e Inteligencia Artificial

CITIC-Universidad de Granada, 18071 Granada

[email protected] [email protected]

Resumen

Cuando se trata con problemas usando algo-ritmos de aprendizaje automático es difícil de-terminar a priori si éstos son adecuados paraun problema concreto. En esta contribución sepresenta un nuevo enfoque hacia este objetivo,basado en medidas de complejidad de datospara problemas de clasificación, extrayendolos dominios de competencia del algoritmo deaprendizaje.

Empleando medidas de complejidad dedatos los dominios de competencia asociadosal método de aprendizaje pueden ser extraídosdescribiendo las regiones en las cuales este al-goritmo funciona adecuadamente o no en me-dia. En esta contribución se extraen los domi-nios de competencia de C4.5 usando una cate-goría en particular de medidas de complejidadconocidas como medidas de separabilidad declases. Estos dominios de competencia se de-finen por medio de reglas que describen tantoel buen como el mal comportamiento de C4.5sobre un amplio conjunto de bases de datosobtenidas a partir de datos reales. La mayoríade las bases de datos son caracterizadas porestos dominios de competencia, mostrando lasbuenas capacidades descriptivas de las medi-das consideradas.

1. Introducción

El estudio del rendimiento de algoritmos deMachine Learning (ML) no es una tarea re-ciente. Ha sido tratada tanto empíricamentecomo teóricamente [24, 16, 22]. Con el aumen-

to de aplicaciones de ML y Minería de Datosy la creciente complejidad de los datos mane-jados, es útil conocer a priori si un algorit-mo dado funcionará satisfactoriamente paraun problema en concreto. Por tanto, uno delos temas de investigación actuales más impor-tantes es identificar los dominios de competen-cia de un esquema de clasificación particular.Uno de los mayores obstáculos en este tipo deinvestigación es la dificultad en caracterizar lasdiferencias entre varios problemas del mundoreal, y relacionar el comportamiento del clasifi-cador con estas diferencias. Con esta informa-ción, sería posible por ejemplo estimar parabases de datos reales de gran tamaño si es in-teresante aplicar el método de aprendizaje (enbioinformática), o elegir los clasificadores rele-vantes de un ensemble de cara a una base dedatos concreta.

La tarea de elegir el mejor algoritmo enfunción de un problema dado ha sido unacuestión clave en las últimas décadas. El pro-blema del Meta-Aprendizaje (Meta-Learning -MetaL-) formalizó este proceso [10, 18, 6], perose han encontrado algunos inconvenientes [14].Una aproximación alternativa al MetaL es elparadigma de Transición de Fase (Phase Tran-sition -PT-) [8]. Ha sido usado para estudiarla escalabilidad y el impacto de la barrera decomplejidad en los rendimientos de aprendiza-je [9]. Baskiotis y Sebag investigan el uso delparadigma PT para construir mapas de prin-cipios de competencia asignados al algoritmode aprendizaje C4.5 en [3], caracterizando lasregiones en las cuales este algoritmo funcionaadecuadamente o no en promedio. Aquellos

problemas que son difíciles de caracterizar sondescritos también, en la denominada región detransición de fase.

Esta contribución presenta una alternativaa las aproximaciones anteriores, empleando lasmedidas de complejidad de datos prupuestaspor Ho y Basu [13] para analizar a priori elrendimiento de los algoritmos de aprendizaje.Estas medidas cuantifican aspectos particula-res del problema que se consideran relevantespara la tarea de clasificación [4]. El estudiode las medidas de complejidad y sus aplica-ciones se encuentra muy activo actualmente[7, 5, 12, 20, 17].

El objetivo de esta contribución es investi-gar el uso de las medidas de complejidad dedatos para construir los dominios de compe-tencia de algoritmos de aprendizaje de reglas,en particular el algoritmo de aprendizaje C4.5.Tales dominios de competencia tratan de car-acterizar los problemas en los cuales C4.5 fun-cionará adecuadamente o no en promedio.

Para definir los dominios de competencia deC4.5 en esta propuesta emplearemos una ca-tegoría particular de medidas de complejidadde datos, formalmente conocidas como “Me-didas de Separabilidad de Clases”, las cualeshan demostrado ser las más informativas paralos algoritmos de aprendizaje de reglas [17].Los dominios de competencia serán construi-dos a partir de un conjunto extenso de bases dedatos, teniendo en cuenta dos conceptos clave:

• La precisión del modelo, considerando laprecisión media en entrenamiento y entest, y la diferencia de cada una con elcomportamiento global del método.

• La presencia de sobre-aprendizaje, obser-vada en la diferencia entre la precisión enentrenamiento y en test del modelo.

Definiremos los dominios de competencia co-mo reglas. Éstas pueden ser explotadas indi-cando el o los algoritmos más adecuados paraun problema a priori. Pueden ser usadas tam-bién para determinar los dominios problemáti-cos de un algoritmo, caracterizando sus limita-ciones en los datos.

El resto de la contribución está organiza-da como sigue. La Sección 2 presenta el en-

foque de la complejidad de datos y define losdominios de competencia de un algoritmo deaprendizaje. En la Sección 3 se revisan breve-mente los trabajos relacionados con esta con-tribución. En la Sección 4 se describe el proce-so seguido para extraer los dominios de com-petencia de C4.5. La Sección 5 presenta losintervalos obtenidos y los dominios de com-petencia extraídos, y proporciona un análisisde los mismos. Finalmente, en la Sección 6 semuestran nuestras conclusiones.

2. Complejidad de datos y dominiosde competencia

En esta sección presentamos las medidas decomplejidad usadas en esta contribución en laSubsección 2.1, la categoría de las medidas deseparabilidad de clases en la Subsección 2.2y los dominios de competencia así como sudefinición en la Subsección 2.3.

2.1. Medidas de complejidad de datos

Ho y Basu [13] propusieron y reunieron docemedidas de complejidad de datos, que se en-cuentran resumidas en el Cuadro 1. Estas me-didas de complejidad de datos son una seriede métricas que tratan de capturar diferentesaspectos o fuentes de complejidad que son con-sideradas complicadas para la tarea de clasifi-cación [4].

Cuadro 1: Medidas de complejidad por cate-gorías

Tipo Identif. NombreMedidas de F1 Razón discriminante de Fisher

solapamiento F2 Volumen de la región de solapamientode atributos F3 Máxima eficiencia individual

de los atributosL1 Mínimización de la suma de error

Medidas de distancia por Programación Linealseparabilidad L2 Error del clasificador linealde las clases por Programación Lineal

N1 Fracción de puntos en los bordes delas clases

N2 Media de la distancia de VecinosMás Cercanos intra/inter-clases

N3 Error del clasificador 1-NNL3 No-linealidad del clasificador

Medidas de lineal por Programación Linealgeometría, N4 No-linealidad del clasificador 1-NNtopología y T1 Fracción de puntos condensidad subconjuntos adheridos

T2 Media de puntos por dimensión

Las medidas de complejidad de datos men-cionadas han sido usadas para buscar las zonasde datos de mayor influencia para XCS [7] yla caracterización del rendimiento del métodoFH-GBML [17]. También han sido empleadaspara estudiar el efecto de la complejidad de losdatos en el clasificador de vecinos más cercanos[20] o incluso para analizar el comportamien-to de la selección de prototipos con algoritmosevolutivos, considerando una medida de com-plejidad para problemas de clasificación basa-da en el solapamiento [12]. Una descripciónmás detallada de las doce medidas se puedeencontrar en [4].

2.2. Medidas de separabilidad de las clases

En nuestro trabajo emplearemos una categoríaparticular de las doce medidas de complejidad,conocidas como “Medidas de Separabilidad delas Clases”. Estas medidas proporcionan unacaracterización indirecta de la separabilidadde las clases. Asumen que una clase está cons-tituida a partir de una o múltiples variedadesque constituyen el soporte de la distribuciónde probabilidad de la clase considerada. La for-ma, posición e interconexión de estas varieda-des indican pistas del grado de separación dedos clases, pero no describen la separabilidaddirectamente. La definición de las medidas esla que sigue.

L1: suma del error de la distancia mini-mizada por programación lineal. Los clasifi-cadores lineales pueden obtenerse a partir de laformulación para la programación lineal pro-puesta por Smith [21]. El método minimizala suma de las distancias de los puntos erró-neos al hiperplano separador (substrayendo unmargen constante):

minimize att

subject to Ztw + t ≥ b

t ≥ 0

donde a, b son vectores constantes arbitrarios(ambos elegidos para ser 1), w es el vector depesos que debe ser determinado, t es un vectorde error, y Z es una matriz donde cada colum-na z se define sobre un vector de entrada x(aumentado añadiendo una dimensión con un

valor constante de 1) y su clase C (con valorC 1 o C 2) como sigue:

{z = +x if C = C1,z = −x if C = C2.

El valor de la función objetivo en esta formu-lación es empleado como una medida (L1). Lamedida tiene un valor cero para un problemalinealmente separable. Su valor puede verse se-riamente afectado por los valores atípicos lo-calizados en el lado erróneo del hiperplano óp-timo. La medida se normaliza por el númerode puntos en el problema y también por lalongitud de la diagonal del la región hiper-rectangular que contiene todos los puntos deentrenamiento en el espacio de características.

L2: error del clasificador lineal definido porProgramación Lineal (LP). Esta medida es elerror del clasificador lineal definido para L1,medido con el conjunto de entrenamiento. Conun conjunto de entrenamiento pequeño puedeobtenerse una estimación del error verdaderomuy sesgada.

N1: fracción de puntos en la frontera de lasclases. Este método construye un árbol de ex-pansión (sin considerar las clases) sobre la basede datos completa, y se cuenta el número depuntos conectados a una arista que una dosclases diferentes. La fracción de tales puntossobre todos los puntos contenidos en la basede datos se emplea como una medida. Parados clases fuertemente solapadas, la mayoríade los puntos se encuentran localizados próxi-mos a la frontera de la clase. Sin embargo, es-to puede ser cierto también para un problemalinealmente separable que haya sido muestrea-do de manera dispersa con los márgenes entrelas clases más cercanos que las distancias entrepuntos de la misma clase.

N2: media de la distancia de vecinos máscercanos intra/inter-clases. Para cada instan-cia de entrada xp, se calcula la distancia a suvecino más cercano en la clase (intraDist(xp))y la distancia al vecino más cercano decualquier otra clase (interDist(xp)). Entonces,el resultado es la razón de la suma de las dis-tancias intra-clase y a la suma de las distancias

inter-clases para cada ejemplo de entrada.

N2 =

∑mi=0 intraDist(xi)∑mi=0 interDist(xi)

,

donde m es el número de ejemplos en cada basede datos. Esta métrica compara la dispersiónen la clase con las distancias a los vecinos máscercanos de otras clases. Valores bajos indicanque los valores de la misma clase se encuentrandispersos. Es sensible a las clases de los veci-nos más cercanos a un punto, y también a ladiferencia en magnitud de las distancias entrelas clases y las internas a las propias clases.

N3: error del clasificador 1-NN. Esta me-dida es el error de un clasificador de vecinosmás cercanos medido sobre el conjunto de en-trenamiento. El error es estimado empleandoel método leave-one-out. La medida denota có-mo de cercanos se encuentran los ejemplos dediferentes clases. Valores bajos en esta medi-da indican que hay grandes espacios entre lasfronteras de las clases.

2.3. Dominios de competencia por mediode medidas de complejidad de datos

Bernadó y Ho [7] definieron inicialmente elconcepto de dominios de competencia para elclasificador XCS. Sus dominios de competen-cia indican la “región” del espacio de comple-jidad de problemas adecuados para las carac-terísticas del método de aprendizaje.

Tal caracterización podría ser útil para con-centrar los esfuerzos en las mejoras del algorit-mo de aprendizaje en esas áreas difíciles. Parapoder establecer dichos límites, emplearon seisde las doce medidas de complejidad de datos.También observaron qué clase de medidas per-mite discriminar mejor entre los problemassencillos y complejos para XCS.

En [17] se extiende la noción de dominios decompetencia para un Sistema de ClasificaciónBasado en Reglas Difusas conocido como FH-GBML, empleando las doce medidas de com-plejidad de datos. Para ello se extraen inter-valos específicos de las medidas en las cualesFH-GBML funciona bien o mal en promedio(en vez de relacionar su rendimiento a valores“altos” o “bajos”). Estos intervalos se codifican

como reglas que constituyen los dominios decompetencia del método de aprendizaje.

Estas reglas pueden usarse para predecir lasregiones de comportamiento a priori del méto-do de aprendizaje. En este trabajo analizare-mos el uso de las medidas de separabilidad delas clases para obtener regiones o intervalospara cada medida, e intentar combinarlas paraextraer con precisión los dominios de compe-tencia de C4.5.

3. Trabajos relacionados

En esta sección se revisa brevemente los tra-bajos relacionados con la estimación a prioridel rendimiento de un método de aprendizaje.Este problema de estimación fue formalizadocomo un nuevo problema de aprendizaje en elMetaL [10]. Por tanto el MetaL afronta el pro-blema de la selección y representación de ejem-plos de MetaL. Un ejemplo de MetaL implicaun par en la mayoría de ocasiones (instanciadel problema de ML, algoritmo de ML), eti-quetados con el rendimiento del algoritmo enla instancia del problema de ML.

El MetaL presenta dos problemas conocidos:

• Cómo representar un problema de ML hasido tratado usando diversos descriptores,como el número de ejemplos, número deatributos, porcentaje de valores perdidos,puntos de referencia [18]. La dificultadse debe al hecho de que los descriptoresdeben tener en cuenta la distribución delos ejemplos, que no es fácil de obtener enla mayoría de los casos.

• La segunda dificultad concierne a la se-lección de las instancias de problemas deML. Kalousis [14] indica que la represen-tatividad de los problemas y la pertur-bación inducen fuertes sesgos en el clasi-ficador de MetaL.

Por otra parte el paradigma PT fue desa-rrollado inicialmente para comprender mejorlos rendimientos de algoritmos de Satisfacciónde Restricciones indicando donde se encuen-tran los problemas verdaderamente difíciles[11]. Por medio de este paradigm se puede ob-servar una superficie de complejidad regular:

la complejidad es despreciable en dos regionesamplias, la región SI y NO, donde la proba-bilidad de satisfactibilidad es respectivamentecercana a 1 y cercana a 0. Estas regiones es-tán separadas por la denominada transición defase, donde los problemas más difíciles se con-centran en media. Baskiotis y Sebag [3] adap-taron la representación de k-términos DNF deRückert et al. [19] evaluando el rendimiento deC4.5 respecto al concepto objetivo subyacente.

Las medidas de complejidad de datos hansido usadas para estimar las capacidades delos algoritmos de aprendizaje, gracias a sucapacidad de describir los aspectos más difí-ciles de los datos. Han sido empleadas paramostrar altas correlaciones entre el rendimien-to de XCS y regiones de complejidad [7], y re-cientemente para caracterizar el rendimientodel método FH-GBML [17]. Ambas aproxima-ciones proporcionan información de los méto-dos de aprendizaje, que pueden ser usadaspara describir los problemas fáciles y difícilespara ambos métodos a priori

4. Análisis del problema

En esta sección se presenta el proceso segui-do para extraer los dominios de competenciade C4.5. La Subsección 4.1 describe la moti-vación presente detrás del uso de las medidasde complejidad de datos, y la Subsección 4.2describe el proceso seguido para extraer dichosdominios.

4.1. Motivación

Determinar cuando un método funcionará bieno mal no es una tarea trivial, considerandola precisión como una medida de rendimiento.Un indicador inicial del rendimiento del méto-do es la precisión en entrenamiento. Sin em-bargo, no es siempre una medida adecuada.La Figura 1 contienen los resultados de pre-cisión en entrenamiento y test para C4.5 paratodas las bases de datos usadas en este traba-jo, dibujados en orden ascendente respecto ala precisión en entrenamiento.

Es importante indicar la presencia de sobre-aprendizaje. Por tanto, la necesidad de otro

0102030405060708090100

0 50 100 150 200 250 300 350 400 450C4.5 %Precisión Entrenamiento C4.5 %Precisión TestFigura 1: Precisión de C4.5 ordenada por los val-ores en entrenamiento

tipo de herramientas para caracterizar el com-portamiento de los métodos aparece, como seha discutido en la Sección 3.

En particular, las medidas de complejidadpresentadas pueden ser usadas para realizar lacaracterización de los métodos de aprendiza-je. Una aproximación directa sería analizarla relación entre los valores de las medidasde complejidad para una base de datos, yel rendimiento obtenido por el algoritmo deaprendizaje.

4.2. Construcción de los dominios de com-petencia

Hemos evaluado C4.5 sobre un conjunto de 438problemas de clasificación binarios. Hemos res-tringido nuestra investigación a problemas dedos clases debido a que la mayoría de las me-didas de complejidad sólo están bien definidaspara este tipo de problemas. Estas bases dedatos son generadas a partir de la combinaciónpor parejas de las clases de 21 problemas delrepositorio de la Universidad de California,Irvine (UCI) [2]. En particular son iris, wine,new-thyroid, solar-flare, led7digit, zoo, yeast,tae, balanced, car, contraceptive, ecoli, hayes-roth, shuttle, australian, pima, monks, bupa,glass, haberman y vehicle. Para cada base dedatos se calculan los valores de las cinco me-didas de separabilidad de clases consideradas.Si una base de datos obtenida mediante esteprocedimiento resulta ser linealmente separa-ble (la medida de complejidad L1 de [13] indi-ca si un problema es linealmente separable) es

descartado, dado que podría ser tratado conun clasificador lineal sin error alguno.

Para estimar la precisión del método deaprendizaje hemos empleado un esquema devalidación 10-fold cross validation una vez quelas medidas se han calculado sobre la basede datos completa. Tomamos la precisión me-dia sobre las 10 particiones como una me-dida representativa del rendimiento de C4.5.Hemos considerado los parámetros recomen-dados para C4.5 empleando la herramientaKEEL1 [1], que son los que siguen:

• nivel de confianza = 0.25• número mínimo de items por hoja = 2• poda del árbol = si

En el Cuadro 2 hemos resumido la precisiónmedia global en entrenamiento y test obtenidapor C4.5 para las 438 bases de datos, que seránusadas más adelante como referencia.

Cuadro 2: Precisión media y desviación típicaglobal para C4.5 en entrenamiento y test

% Global precisión entrenamiento % Global precisión testdesv. típica global entrenamiento desv. típica global test

C4.5 96.29% 90.85%4.44 9.87

Para cada medida de separabilidad declases, las bases de datos se ordenan por elvalor de la medida, permitiendo extraer inter-valos de valores de dicha medida. Definimosintervalos de buen y mal comportamiento.

• Entendemos por buen comportamientouna precisión en test alta (al menos 80%)en el intervalo, así como la ausencia desobre-aprendizaje.

• Por mal comportamiento nos referimos ala presencia de sobre-aprendizaje y/o unaprecisión en test baja en el intervalo.

Estos intervalos pueden ser traducidos a re-glas, que emplean los intervalos como an-tecedentes para definir los dominios de com-petencia de C4.5.

1http:\\keel.es

5. Dominios de competencia deC4.5

En esta sección se realiza la extracción y análi-sis de los dominios de competencia de C4.5basados en los resultados experimentales usan-do las medidas de solapamiento entre clases.En la Subsección 5.1 se analizan los intervalosextraídos y sus reglas derivadas. En la Subsec-ción 5.2 se presenta la unión colectiva de lasreglas y los dominios de competencia.

5.1. Extracción de las reglas e intervalos

Para cada medida de complejidad considerada(L1, L2, N1, N2 y N3), las bases de datos se or-denan por el valor ascendente de la medida decomplejidad correspondiente, y se representanen una figura. En este caso, las bases de datosen el eje X están distribuidas uniformemente,de forma que cada base de datos tenga el mis-mo espacio en la representación gráfica. Paraaquellas medidas donde se pueden encontrardiferentes intervalos ad-hoc que presentan elbuen o mal comportamiento de C4.5, usamosuna línea vertical para delimitar la región deinterés. En el Cuadro 3 indicamos los interva-los obtenidos a partir de las Figuras 2 a 6.

Cuadro 3: Intervalos significativos extraídosInterval C4.5 BehaviorN1 ≤ 0,167 buen comportamientoN2 ≤ 0,237 buen comportamientoL1 ≤ 0,389 buen comportamientoN1 ≥ 0.320 mal comportamientoN2 ≥ 0,627 mal comportamientoN3 ≥ 0,164 mal comportamientoL2 ≥ 0,286 mal comportamiento

A partir de estos intervalos ad-hoc cons-truimos una serie de reglas que modelan elrendimiento de C4.5. En el Cuadro 4 se mues-tran las reglas derivadas del Cuadro 3. Dadauna base de datos X, se indica el valor de lamedida de complejidad CM para X con la no-tación CM [X]. El Cuadro 4 está organizadocon las siguientes columnas:

• La primera columna corresponde al iden-tificador de la regla.

0,0000010,0000020,0000030,0000040,0000050,0000060,0000070,0000080,0000090,00000100,00000

0 50 100 150 200 250 300 350 400 450% Precisión

Bases de datosC4.5 %Precisión Entrenamiento C4.5 %Precisión Test mal comportamientobuen comportamiento

Figura 2: Precisión en entrenamiento/test para C4.5ordenado por N1

0102030405060708090100

0 50 100 150 200 250 300 350 400 450

% Precisión

Bases de datosC4.5 %Precisión Entrenamiento C4.5 %Precisión Testbuen comportamiento mal comportamiento

Figura 3: Precisión en entrenamiento/test para C4.5ordenado por N2

0102030405060708090100

0 50 100 150 200 250 300 350 400 450% Precisión

Bases de datosC4.5 %Precisión Entrenamiento C4.5 %Precisión Test mal comportamiento

Figura 4: Precisión en entrenamiento/test para C4.5ordenado por N3

0102030405060708090100

0 50 100 150 200 250 300 350 400 450% Precisión

Bases de datosC4.5 %Precisión Entrenamiento C4.5 %Precisión Testbuen comportamiento

Figura 5: Precisión en entrenamiento/test para C4.5ordenado por L1

0102030405060708090100

0 50 100 150 200 250 300 350 400 450

% Precisión

Bases de datosC4.5 %Precisión Entrenamiento C4.5 %Precisión Test mal comportamiento

Figura 6: Precisión en entrenamiento/test para C4.5ordenado por L2

Cuadro 4: Reglas con una medida obtenidas de los intervalosId. Rango % Soporte % Entrenamiento Dif. % Test Dif. Test

EntrenamientoR1+ If N1[X] ≤ 0.167 61.87% 98.37% 2.08% 95.68% 4.88%

then buen comportamientoR2+ If N2[X] ≤ 0.237 26.94% 96.63% 0.34% 97.30% 6.45%

then buen comportamientoR3+ If L1[X] ≤ 0.389 43.15% 97.71% 1.42% 95.33% 4.48%

then buen comportamientoR1- If N1[X] ≥ 0.320 18.72% 90.23% -6.06% 78.00% -12.85%

then mal comportamientoR2- If N2[X] ≥ 0.627 12.33% 90.67% -5.62% 76.55% -14.30%

then mal comportamientoR3- If N3[X] ≥ 0.164 21.00% 90.47% -5.82% 77.84% -13.01%

then mal comportamientoR4- If L2[X] ≥ 0.286 22.15% 92.98% -3.31% 80.67% -10.18%

then mal comportamiento

Cuadro 5: Reglas colectivas para C4.5Id. Rango % Soporte % Entrenamiento Dif. % Test Dif. Test

EntrenamientoURP If R1+ or R2+ or R3+ 69.41 97.87 1.58 95.12 4.27

then buen comportamientoURN If R1- or R2- or R3- or R4- 33.79 92.71 -3.58 82.70 -8.15

then mal comportamientoIf URP and URN then 8.22 94.70 .1.59 91.60 0.75

URP ∧URN buen comportamientoIf URP and not URN then 61.19 98.29 2.00 95.59 4.74

URP ∧q URN buen comportamientoIf URN and not URP then 25.57 92.07 -1.22 79.83 -11.02

URN∧qURP mal comportamientonot If not (URP or URN) 5.02 96.01 -0.28 87.91 -2.94

characterized then mal comportamiento

• La columna Rango indica el dominio dela regla.

• La columna Soporte indica el porcentajede bases de datos cubiertas del total.

• La columna% Entrenamiento indica elporcentaje medio de precisión en entre-namiento de C4.5 en las bases de datoscubiertas por la regla.

• La columna Dif. Entrenamiento muestrala diferencia entre el % Entrenamiento y elporcentaje medio de entrenamiento globalde C4.5.

• La columna% Test indica el porcentajemedio de precisión en test de C4.5 en lasbases de datos cubiertas por la regla.

• La columna Dif. Test muestra la diferen-

cia entre el% Test y el porcentaje mediode test global de C4.5.

Como se puede observar en el Cuadro 4,las reglas positivas (denotadas con un símbolo“+” en su identificador) siempre muestran unadiferencia positiva en precisión con la mediaglobal, tanto en entrenamiento como en test.Las reglas negativas (indicadas con símbolo “-”en su identificador) verifican el caso opuesto.El soporte de las reglas muestra que es posiblecaracterizar un amplio rango de bases de datoscon diferencias significativas en precisión.

A partir de este conjunto de reglas se puedeafirmar que valores bajos en las medidas N1,N2 y L1 indican un buen comportamiento deC4.5. Por otro lado, un valor alto de N1, N2,

0102030405060708090100

0 50 100 150 200 250 300 350 400 450C4.5 %Precisión Entrenamiento C4.5 %Precisión TestURP - buen comportamiento69.41% nocaracterizado5.02%URN^¬URP - mal comportamiento25.57%

Figura 7: Representación en tres bloques para C4.5: URP, URN∧qURP y bases de datos no caracterizadas

N3 y L2 se relaciona con el mal comportamien-to de C4.5.

5.2. Evaluación conjunta de las reglas sim-ples

El objetivo de esta sección es analizar el efectode la combinación de las reglas. Hemos consid-erado la disyunción de todas las reglas positi-vas para obtener una única regla (Unión deReglas Positivas -URP-). Esto es, empleamosel operador or para combinar las reglas posi-tivas individuales. El mismo procedimiento esrealizado con todas las reglas negativas, de ma-nera que se obtiene otra regla (Unión de ReglasNegativas -URN-). Las nuevas reglas disyun-tivas se activarán si cualquiera de las reglasque las componen se verifican. Gracias a launión de las reglas individuales podemos al-canzar una descripción más general y con ma-yor soporte del comportamiento de C4.5.

Las reglas URP y URN pueden presentarsolapamiento en su soporte, y sería deseableuna descripción mutuamente exclusiva de lasregiones buenas y malas. Para afrontar es-ta cuestión consideramos la conjunción and yla diferencia and not entre las reglas URP yURN. La diferencia eliminará aquellas bases dedatos para las cuales C4.5 presenta buen o malcomportamiento de la regla URN o URP res-pectivamente. Por tanto se obtienen tres tiposde intersecciones y una región extra:

• Intersección de la disyunción positiva y ladisyunción negativa (URP∧URN).

• Diferencia de la disyunción positiva y ladisyunción negativa (URP∧qURN).

• Diferencia de la disyunción negativa y ladisyunción positiva (URN∧qURP).

• Región no caracterizada, en la cual ningu-na base de datos está cubierta por ningu-na regla.

Todas estas nuevas reglas se encuentran repre-sentadas en el Cuadro 5.

Considerando las nuevas reglas disyuntivasy conjuntivas, podemos presentar a URP co-mo una descripción representativa de los do-minios de competencia de C4.5 para las bue-nas bases de datos. De forma complemen-taria URN∧qURP puede considerarse comouna descripción representativa de los domi-nios de competencia de C4.5 para las bases dedatos malas, siendo ambas descripciones mu-tuamente exclusivas entre sí. Podemos consi-derar entonces tres bloques de bases de datoscon su respectivo soporte, como se muestra enla Figura 7 (sin ningún orden particular de lasbases de datos en cada bloque):

• El primer bloque (a la izquierda) repre-senta las bases de datos cubiertas por laregla URP. Son las bases de datos in-cluidas en el dominio de competencia debuen comportamiento para C4.5.

• El segundo bloque (en el centro) mues-tra las bases de datos para la reglaURN∧qURP, los cuales son aquellas cu-biertas por el dominio de competencia demal comportamiento de C4.5.

• El tercer y último bloque (a la derecha)contiene las bases de datos no clasificadaspor ninguno de los dominios previos.

Aproximadamente el 95% de las bases dedatos analizadas son cubiertas por estas dosreglas. Por tanto es posible definir bien los do-minios de competencia de C4.5 empleando lasmedidas de separabilidad de clases.

6. Conclusiones

En la literatura se han propuesto varios mar-cos de trabajo para analizar el error de ge-neralización desde un punto de vista teórico,desde el aprendizaje PAC [15] al aprendizajeestadístico y no paramétrico [23].

En esta contribución hemos realizadouna aproximación empírica, proponiendo unametodología para extraer los dominios de com-petencia de un algoritmo de aprendizaje em-pleando medidas de complejidad de datos. Seha realizado un estudio sobre un conjuntode bases de datos binarias con el método deaprendizaje C4.5, obteniendo intervalos de lasmedidas de separabilidad de clases que se tra-ducen a reglas. Estas reglas muestran infor-mación acerca de las limitaciones de C4.5, asícomo la posibilidad de estimar su rendimientoa priori.

Como resultado final, hemos obtenido dosreglas que son simples y precisas para describirlos dominios de competencia de C4.5, presen-tando la posibilidad de determinar para quebases de datos C4.5 funcionaría bien o mal demanera previa a su ejecución.

Este trabajo abre nuevas perspectivas quepueden extenderse a otros métodos de apren-dizaje, para analizar sus dominios de compe-tencia y desarrollar nuevas medidas que puededar más información sobre el comportamientode los clasificadores para el reconocimiento depatrones.

Como trabajo futuro sería necesario consi-derar el uso de otras medidas de rendimiento

del método de aprendizaje. La precisión clási-ca puede verse afectada por el no balanceo delas clases, aspecto que no ha sido considera-do en esta contribución. Es necesario tambiénrealizar una validación de los dominios de com-petencia obtenidos empleando bases de datosno utilizadas en el propio proceso de construc-ción de los dominios.

Agradecimientos

Este trabajo de investigación ha sido posiblegracias a la subvención del proyecto del Minis-terio de Ciencia e Innovación TIN2008-06681-C06-01. J. Luengo está subvencionado por unabeca FPU del Ministerio de Ciencia e Inno-vación.

Referencias

[1] J. Alcalá-Fdez, L. Sánchez, S. García,M.J. del Jesus, S. Ventura, J.M. Gar-rell, J. Otero, C. Romero, J. Bacardit,V.M. Rivas, J.C. Fernández, and F. Her-rera. KEEL: A software tool to assessevolutionary algorithms to data miningproblems. Soft Computing, 13(3):307–318, 2009.

[2] A. Asuncion and D.J. Newman. UCI ma-chine learning repository, 2007.

[3] N. Baskiotis and M. Sebag. C4.5 com-petence map: a phase transition-inspiredapproach. In ICML ’04: Proceedings ofthe twenty-first international conferenceon Machine learning, page 8, New York,NY, USA, 2004. ACM.

[4] M. Basu and T. K. Ho. Data Com-plexity in Pattern Recognition (AdvancedInformation and Knowledge Processing).Springer-Verlag New York, Inc., Secau-cus, NJ, USA, 2006.

[5] R. Baumgartner and R. L. Somorjai.Data complexity assessment in under-sampled classification of high-dimensionalbiomedical data. Pattern Recognition Let-ters, 12:1383–1389, 2006.

[6] H. Bensusan and A. Kalousis. Estimatingthe predictive accuracy of a classifier. InEMCL ’01: Proceedings of the 12th Eu-ropean Conference on Machine Learning,pages 25–36, London, UK, 2001. Springer-Verlag.

[7] E. Bernadó-Mansilla and T. K. Ho. Do-main of competence of XCS classifi-er system in complexity measurementspace. IEEE Transactions on Evolution-ary Computation, 9(1):82–104, 2005.

[8] D. G. Bobrow, T. Hogg, B. A. Huber-man, and C. P. Williams, editors. Spe-cial volume on frontiers in problem solv-ing: phase transitions and complexity, vol-ume 81. Elsevier Science Publishers Ltd.,Essex, UK, 1996.

[9] M. Botta, A. Giordana, L. Saitta, andM. Sebag. Relational learning as searchin a critical region. Journal of MachineLearning Research, 4:431–463, 2003.

[10] P. Brazdil, C. Giraud-Carrier, C. Soares,and R. Vilalta. Metalearning: Applica-tions to Data Mining. Cognitive Tech-nologies. Springer, January 2009.

[11] P. Cheeseman, B. Kanefsky, and W. M.Taylor. Where the really hard prob-lems are. In IJCAI’91: Proceedings ofthe 12th international joint conference onArtificial intelligence, pages 331–337, SanFrancisco, CA, USA, 1991. Morgan Kauf-mann Publishers Inc.

[12] S. García, J. R. Cano, E. Bernadó-Mansilla, and F. Herrera. Diagnose ofeffective evolutionary prototype selectionusing an overlapping measure. Inter-national Journal of Pattern Recognitionand Artificial Intelligence, 23(8):2378–2398, 2009.

[13] T. K. Ho and M. Basu. Complexi-ty measures of supervised classificationproblems. IEEE Transactions on Pat-tern Analysins and Machine Intelligence,24(3):289–300, 2002.

[14] A. Kalousis. Algorithm selection viameta-learning. PhD thesis, Université deGeneve, 2002.

[15] M. J. Kearns and U. V. Vazirani. An in-troduction to computational learning the-ory. MIT Press, Cambridge, MA, USA,1994.

[16] T. Lim, W. Loh, and Y. Shih. A com-parison of prediction accuracy, complex-ity, and training time of thirty-three oldand new classification algorithms. Ma-chine Learning, 40(3):203–228, 2000.

[17] J. Luengo and F. Herrera. Domainsof competence of fuzzy rule based clas-sification systems with data complexi-ty measures: A case of study using afuzzy hybrid genetic based machine learn-ing method. Fuzzy Sets and Systems,161(1):3–19, 2010.

[18] B. Pfahringer, H. Bensusan, and C. G.Giraud-Carrier. Meta-learning by land-marking various learning algorithms. InICML ’00: Proceedings of the Seven-teenth International Conference on Ma-chine Learning, pages 743–750, San Fran-cisco, CA, USA, 2000. Morgan KaufmannPublishers Inc.

[19] U. Rückert, S. Kramer, and L. D. Raedt.Phase transitions and stochastic localsearch in k-term dnf learning. In ECML’02: Proceedings of the 13th EuropeanConference on Machine Learning, pages405–417, London, UK, 2002. Springer-Verlag.

[20] J. S. Sánchez, R. A. Mollineda, and J. M.Sotoca. An analysis of how training da-ta complexity affects the nearest neighborclassifiers. Pattern Analysis & Applica-tions, 10(3):189–201, 2007.

[21] F. W. Smith. Pattern classifier design bylinear programming. IEEE Transactionson Computers, 17(4):367–372, 1968.

[22] K. Toh. An error-counting network forpattern classification. Neurocomputing,71(7-9):1680–1693, 2008.

[23] V. N. Vapnik. Statistical Learning Theo-ry. Wiley-Interscience, 1998.

[24] D. H. Wolpert. The lack of a pri-ori distinctions between learning algo-

rithms. Neural Computation, 8(7):1341–1390, 1996.