Tarea04 Maribel Hernandez
-
Upload
maribel-hernandez -
Category
Documents
-
view
290 -
download
2
description
Transcript of Tarea04 Maribel Hernandez
REDES NEURONALES MINERIA DE DATOS
Ejercicio 1: Esta pregunta ut iliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La variable que queremos predecir es
chd que es un indicador de muerte coronaria basado en algunas variables predict ivas (factores de riesgo) como son el fumado, la
obesidad, las bebidas alcohólicas, entre otras.
1. Use el método de Redes Neuronales con 10 niveles ocultos y luego con 50 niveles ocultos en Rattle para generar modelos predictivos para la tabla SAheart.csv usando el 70 % de los datos para la tabla aprendizaje y un 30 % para la tabla testing.
2. Para ambos modelos calcule para los datos de testing la precisión global, la matriz de confusión, la precisión, la precisión positiva, la precisión negativa, los falsos positivos, los falsos negativos, la asertividad positiva y la asertividad negativa para este modelo (algunas deben calcularse “a mano” a partir de la matriz de confusión). ¿Desde este punto de vista cuál modelo es mejor para estos datos, con 10 o con 50 niveles? (recuerde que si Rattle no despliega la segunda columna de la matriz de confusión significa que esos valores son 0).
Matriz de confusión con 50 niveles
PREDICHO
REAL NO SI
NO 264 38
SI 57 103
PRECISIÓN P = (a+d)/(a+b+c+d)
0,794372294
Precisión Positiva (PP)
PP = d/(c+d)
0,64375
Precisión Negativa(PN)
PN = a/(a+b)
0,874172185
Falsos Positivos (FP)
FP = b/(a+b)
0,125827815
Falsos Negativos(FN)
FN = c/(c+d)
0,35625
Asertividad Positiva (AP)
AP = d/(b+d)
0,730496454
Asertividad Negativa (AN)
AN = a/(a+c)
0,822429907
Matriz de confusión con 10 niveles
Error in x[1, 2] : subíndice fuera de los límites
Error in x[2, 1] : subíndice fuera de los límites
PREDICHO
REAL NO SI
NO 302 0
SI 160 0
PRECISIÓN P = (a+d)/(a+b+c+d)
0,653679654
Precisión Positiva (PP)
PP = d/(c+d)
0
Precisión Negativa(PN)
PN = a/(a+b)
1
Falsos Positivos (FP)
FP = b/(a+b)
0
Falsos Negativos(FN)
FN = c/(c+d)
1
Asertividad Positiva (AP)
AP = d/(b+d)
#¡DIV/0!
Asertividad Negativa (AN)
AN = a/(a+c)
0,653679654
3. Genere la curva ROC para la Red Neuronal (con 50 niveles ocultos) y compare con todos los modelos de las tareas anteriores, ¿desde este punto de vista cuál modelo es mejor para estos datos?
Según los resultados obtenidos de los demás modelos, se llegó a la conclusión que el
mejor modelo en este caso es RF o Bosque; con un valor de 0,9587.
Ejercicio 2: Para esta pregunta usaremos los datos SpamData.csv,
esta tabla contiene 57 variables predict ivas y el Tipo que es la
variable a predecir, la cual indica si un e-mail es spam o no.
1. Use el método de Redes Neuronales con 20 niveles ocultos en Rattle para generar modelos predictivos para la tabla SpamData.csv usando 70 % de los datos para tabla aprendizaje y un 30 % para la tabla testing.
2. Para este modelo calcule para los datos de testing y para toda la tabla la precisión global y la matriz de confusión. Interprete la calidad de los resultados.
PREDICHO
REAL email Spam
email 774 47
spam 53 507
PRECISIÓN P = (a+d)/(a+b+c+d)
0,927588704
Precisión Positiva (PP)
PP = d/(c+d)
0,905357143
Precisión Negativa(PN)
PN = a/(a+b)
0,942752741
Falsos Positivos (FP)
FP = b/(a+b)
0,057247259
Falsos Negativos(FN)
FN = c/(c+d)
0,094642857
Asertividad Positiva (AP)
AP = d/(b+d)
0,915162455
Asertividad Negativa (AN)
AN = a/(a+c)
0,935912938
PREDICHO
REAL email Spam
email 2680 108
spam 120 1693
PRECISIÓN P = (a+d)/(a+b+c+d)
0,950445555
Precisión Positiva (PP)
PP = d/(c+d)
0,933811362
Precisión Negativa(PN)
PN = a/(a+b)
0,961262554
Falsos Positivos (FP)
FP = b/(a+b)
0,038737446
Falsos Negativos(FN)
FN = c/(c+d)
0,066188638
Asertividad Positiva (AP)
AP = d/(b+d)
0,940033315
Asertividad Negativa (AN)
AN = a/(a+c)
0,957142857
3. Genere la curva ROC de la Red Neuronal y compare con todos los modelos de las tareas anteriores, ¿desde este punto de vista cuál modelo es mejor para estos datos?
Según los resultados obtenidos de los demás modelos, se llegó a la conclusión que el
mejor modelo en este caso es RF o Bosque; con un valor de 0,9969.
Ejercicio 3: Reto Predict ivo: En este ejercicio usted t iene una tabla de datos Seguros.csv con información sobre fraudes en seguros,
esta tabla t iene 16 variables y 6413 casos, se trata de predecir la variable Fraude que indica si hubo o no fraude. Este ejercicio es un
verdadero reto 1 predict ivo ya que se trata de un problema muy
desbalanceado, se t ienen 6146 no fraudes y apenas 267 fraudes, esto hace que sea muy difícil el aprendizaje para cualquier modelo
predict ivo. Para este ejercicio usted recibe además el archivo SegurosNuevosVE.csv en el cual la variable Fraude viene con un
NA para todos sus registros. El reto consiste en predecir para este
archivo los valores de la variable Fraude, para esto haga lo siguiente:
• Determine cuál de los modelos estudiados en el curso funciona mejor para estos datos, debe calibrar los modelos, por ejemplo, para Redes Neuronales debe determinar el Números de Capas Ocultas, para Arboles debe determinar ´ La Profundidad Máxima etc. etc....
• Para hacer las predicciones en Rattle use las opciones Calificación y Clase de la pestaña
Evaluar y guarde el archivo con los resultados.
USANDO LA PARTICON 90/0/10
PREDICHO
REAL NO SI
NO 6137 9
SI 25 242
PRECISIÓN P = (a+d)/(a+b+c+d)
0,994698269
Precisión Positiva (PP)
PP = d/(c+d)
0,906367041
Precisión Negativa(PN)
PN = a/(a+b)
0,998535633
Falsos Positivos (FP)
FP = b/(a+b)
0,001464367
Falsos Negativos(FN)
FN = c/(c+d)
0,093632959
Asertividad Positiva (AP)
AP = d/(b+d)
0,964143426
Asertividad Negativa (AN)
AN = a/(a+c)
0,995942876
COMO RESULTADO TENEMOS 43 FRAUDES USANDO LOS SIGUIENTES PAFRAMETROS:
Número de Árboles= 1000
Profundidad Máxima= 10
División Mínima= 10
PARTICION 80/0/20
PREDICHO
REAL NO SI
NO 1204 16
SI 44 19
PRECISIÓN P = (a+d)/(a+b+c+d)
0,953234606
Precisión Positiva (PP)
PP = d/(c+d)
0,301587302
Precisión Negativa(PN)
PN = a/(a+b)
0,986885246
Falsos Positivos (FP)
FP = b/(a+b)
0,013114754
Falsos Negativos(FN)
FN = c/(c+d)
0,698412698
Asertividad Positiva (AP)
AP = d/(b+d)
0,542857143
Asertividad Negativa (AN)
AN = a/(a+c)
0,96474359
COMO RESULTADO TENEMOS 39 FRAUDES USANDO LOS SIGUIENTES PARÁMETROS:
Número de Árboles= 1000
Profundidad Máxima= 10
División Mínima= 10