Tarea04 Maribel Hernandez

18
REDES NEURONALES MINERIA DE DATOS

description

Minería de Datos

Transcript of Tarea04 Maribel Hernandez

Page 1: Tarea04 Maribel Hernandez

REDES NEURONALES MINERIA DE DATOS

Page 2: Tarea04 Maribel Hernandez

Ejercicio 1: Esta pregunta ut iliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La variable que queremos predecir es

chd que es un indicador de muerte coronaria basado en algunas variables predict ivas (factores de riesgo) como son el fumado, la

obesidad, las bebidas alcohólicas, entre otras.

1. Use el método de Redes Neuronales con 10 niveles ocultos y luego con 50 niveles ocultos en Rattle para generar modelos predictivos para la tabla SAheart.csv usando el 70 % de los datos para la tabla aprendizaje y un 30 % para la tabla testing.

Page 3: Tarea04 Maribel Hernandez

2. Para ambos modelos calcule para los datos de testing la precisión global, la matriz de confusión, la precisión, la precisión positiva, la precisión negativa, los falsos positivos, los falsos negativos, la asertividad positiva y la asertividad negativa para este modelo (algunas deben calcularse “a mano” a partir de la matriz de confusión). ¿Desde este punto de vista cuál modelo es mejor para estos datos, con 10 o con 50 niveles? (recuerde que si Rattle no despliega la segunda columna de la matriz de confusión significa que esos valores son 0).

Matriz de confusión con 50 niveles

Page 4: Tarea04 Maribel Hernandez

PREDICHO

REAL NO SI

NO 264 38

SI 57 103

PRECISIÓN P = (a+d)/(a+b+c+d)

0,794372294

Precisión Positiva (PP)

PP = d/(c+d)

0,64375

Precisión Negativa(PN)

PN = a/(a+b)

0,874172185

Falsos Positivos (FP)

FP = b/(a+b)

0,125827815

Falsos Negativos(FN)

FN = c/(c+d)

0,35625

Asertividad Positiva (AP)

AP = d/(b+d)

0,730496454

Asertividad Negativa (AN)

AN = a/(a+c)

0,822429907

Matriz de confusión con 10 niveles

Error in x[1, 2] : subíndice fuera de los límites

Error in x[2, 1] : subíndice fuera de los límites

Page 5: Tarea04 Maribel Hernandez

PREDICHO

REAL NO SI

NO 302 0

SI 160 0

PRECISIÓN P = (a+d)/(a+b+c+d)

0,653679654

Precisión Positiva (PP)

PP = d/(c+d)

0

Precisión Negativa(PN)

PN = a/(a+b)

1

Falsos Positivos (FP)

FP = b/(a+b)

0

Falsos Negativos(FN)

FN = c/(c+d)

1

Asertividad Positiva (AP)

AP = d/(b+d)

#¡DIV/0!

Asertividad Negativa (AN)

AN = a/(a+c)

0,653679654

3. Genere la curva ROC para la Red Neuronal (con 50 niveles ocultos) y compare con todos los modelos de las tareas anteriores, ¿desde este punto de vista cuál modelo es mejor para estos datos?

Page 6: Tarea04 Maribel Hernandez

Según los resultados obtenidos de los demás modelos, se llegó a la conclusión que el

mejor modelo en este caso es RF o Bosque; con un valor de 0,9587.

Page 7: Tarea04 Maribel Hernandez

Ejercicio 2: Para esta pregunta usaremos los datos SpamData.csv,

esta tabla contiene 57 variables predict ivas y el Tipo que es la

variable a predecir, la cual indica si un e-mail es spam o no.

1. Use el método de Redes Neuronales con 20 niveles ocultos en Rattle para generar modelos predictivos para la tabla SpamData.csv usando 70 % de los datos para tabla aprendizaje y un 30 % para la tabla testing.

Page 8: Tarea04 Maribel Hernandez

2. Para este modelo calcule para los datos de testing y para toda la tabla la precisión global y la matriz de confusión. Interprete la calidad de los resultados.

PREDICHO

REAL email Spam

email 774 47

spam 53 507

PRECISIÓN P = (a+d)/(a+b+c+d)

0,927588704

Precisión Positiva (PP)

PP = d/(c+d)

0,905357143

Precisión Negativa(PN)

PN = a/(a+b)

0,942752741

Falsos Positivos (FP)

FP = b/(a+b)

0,057247259

Falsos Negativos(FN)

FN = c/(c+d)

0,094642857

Asertividad Positiva (AP)

AP = d/(b+d)

0,915162455

Asertividad Negativa (AN)

AN = a/(a+c)

0,935912938

Page 9: Tarea04 Maribel Hernandez

PREDICHO

REAL email Spam

email 2680 108

spam 120 1693

PRECISIÓN P = (a+d)/(a+b+c+d)

0,950445555

Precisión Positiva (PP)

PP = d/(c+d)

0,933811362

Precisión Negativa(PN)

PN = a/(a+b)

0,961262554

Falsos Positivos (FP)

FP = b/(a+b)

0,038737446

Falsos Negativos(FN)

FN = c/(c+d)

0,066188638

Asertividad Positiva (AP)

AP = d/(b+d)

0,940033315

Asertividad Negativa (AN)

AN = a/(a+c)

0,957142857

Page 10: Tarea04 Maribel Hernandez

3. Genere la curva ROC de la Red Neuronal y compare con todos los modelos de las tareas anteriores, ¿desde este punto de vista cuál modelo es mejor para estos datos?

Page 11: Tarea04 Maribel Hernandez

Según los resultados obtenidos de los demás modelos, se llegó a la conclusión que el

mejor modelo en este caso es RF o Bosque; con un valor de 0,9969.

Page 12: Tarea04 Maribel Hernandez

Ejercicio 3: Reto Predict ivo: En este ejercicio usted t iene una tabla de datos Seguros.csv con información sobre fraudes en seguros,

esta tabla t iene 16 variables y 6413 casos, se trata de predecir la variable Fraude que indica si hubo o no fraude. Este ejercicio es un

verdadero reto 1 predict ivo ya que se trata de un problema muy

desbalanceado, se t ienen 6146 no fraudes y apenas 267 fraudes, esto hace que sea muy difícil el aprendizaje para cualquier modelo

predict ivo. Para este ejercicio usted recibe además el archivo SegurosNuevosVE.csv en el cual la variable Fraude viene con un

NA para todos sus registros. El reto consiste en predecir para este

archivo los valores de la variable Fraude, para esto haga lo siguiente:

• Determine cuál de los modelos estudiados en el curso funciona mejor para estos datos, debe calibrar los modelos, por ejemplo, para Redes Neuronales debe determinar el Números de Capas Ocultas, para Arboles debe determinar ´ La Profundidad Máxima etc. etc....

Page 13: Tarea04 Maribel Hernandez
Page 14: Tarea04 Maribel Hernandez
Page 15: Tarea04 Maribel Hernandez

• Para hacer las predicciones en Rattle use las opciones Calificación y Clase de la pestaña

Evaluar y guarde el archivo con los resultados.

USANDO LA PARTICON 90/0/10

Page 16: Tarea04 Maribel Hernandez

PREDICHO

REAL NO SI

NO 6137 9

SI 25 242

PRECISIÓN P = (a+d)/(a+b+c+d)

0,994698269

Precisión Positiva (PP)

PP = d/(c+d)

0,906367041

Precisión Negativa(PN)

PN = a/(a+b)

0,998535633

Falsos Positivos (FP)

FP = b/(a+b)

0,001464367

Falsos Negativos(FN)

FN = c/(c+d)

0,093632959

Asertividad Positiva (AP)

AP = d/(b+d)

0,964143426

Asertividad Negativa (AN)

AN = a/(a+c)

0,995942876

COMO RESULTADO TENEMOS 43 FRAUDES USANDO LOS SIGUIENTES PAFRAMETROS:

Número de Árboles= 1000

Profundidad Máxima= 10

División Mínima= 10

Page 17: Tarea04 Maribel Hernandez

PARTICION 80/0/20

Page 18: Tarea04 Maribel Hernandez

PREDICHO

REAL NO SI

NO 1204 16

SI 44 19

PRECISIÓN P = (a+d)/(a+b+c+d)

0,953234606

Precisión Positiva (PP)

PP = d/(c+d)

0,301587302

Precisión Negativa(PN)

PN = a/(a+b)

0,986885246

Falsos Positivos (FP)

FP = b/(a+b)

0,013114754

Falsos Negativos(FN)

FN = c/(c+d)

0,698412698

Asertividad Positiva (AP)

AP = d/(b+d)

0,542857143

Asertividad Negativa (AN)

AN = a/(a+c)

0,96474359

COMO RESULTADO TENEMOS 39 FRAUDES USANDO LOS SIGUIENTES PARÁMETROS:

Número de Árboles= 1000

Profundidad Máxima= 10

División Mínima= 10