Analisis exploratorio

35
ANALISIS EXPLORATORIO ANALISIS EXPLORATORIO DE DATOS DE DATOS LIC. ESPERANZA GARCIA CRIBILLEROS 2006

description

EJEMPLO: Borja, (2010), realizó la investigación: La administración de recursos humanos y su relación con la formación profesional en el Instituto de Educación Superior Tecnológico Público José María Arguedas de Sicaya - 2010, en la Escuela de Post Grado de la Universidad Ricardo Palma. La investigación llegó a las siguientes principales conclusiones: 1. Se ha determinado con un nivel de significancia del 5% y una prueba r = 0,703 la relación que existe entre la administración de recursos humanos de los docentes y la formación profesional de los estudiantes del Instituto de Educación Superior Tecnológico “José María Arguedas” de Sicaya. 2. Los directivos, docentes y administrativos del Instituto de Educación Superior Tecnológico “José María Arguedas” de Sicaya son óptimos, ya que estos están comprometidos con sacar adelante a su institución, muestra de ello es el trabajo cooperativo y comprometido que realizan diariamente. 3. Los estudiantes del Instituto de Educación Superior Tecnológico “José María Arguedas” de Sicaya casi siempre logran reconocer sus fortalezas y debilidades, asimismo son capaces de controlar su estado emocional de acuerdo a la circunstancia.

Transcript of Analisis exploratorio

Page 1: Analisis exploratorio

ANALISIS EXPLORATORIOANALISIS EXPLORATORIODE DATOSDE DATOS

LIC. ESPERANZA GARCIA CRIBILLEROS

2006

Page 2: Analisis exploratorio

ENFOQUES DE ANALISIS ENFOQUES DE ANALISIS ESTADISTICOESTADISTICO

Confirmatorio (ClConfirmatorio (Cláásico)sico)

Exploratorio (Exploratorio (TukeyTukey, 1977), 1977)

Page 3: Analisis exploratorio

COMPARACION DE LOS ENFOQUES DE COMPARACION DE LOS ENFOQUES DE ANALISIS (ANALISIS (BertrandBertrand))

EXPLOTARIOEXPLOTARIOEnfoque descriptivoEnfoque descriptivoIndica las hipIndica las hipóótesis a tesis a probarprobarUsa estadUsa estadíísticos sticos Plan de investigaciPlan de investigacióón n flexible y poco definidoflexible y poco definidoUsa los datos Usa los datos disponiblesdisponiblesPrivilegia la Privilegia la representacirepresentacióón grn grááfica.fica.Tiene visiTiene visióón intuitiva de n intuitiva de los datoslos datosSemeja una Semeja una investigaciinvestigacióón policial.n policial.

CONFIRMATORIOCONFIRMATORIOEnfoque Enfoque inferencialinferencialPrueba hipPrueba hipóótesistesisUsa estadUsa estadíísticos sticos Plan de investigaciPlan de investigacióón n riguroso y bien definido.riguroso y bien definido.Usa datos sin error Usa datos sin error (ideal).(ideal).Poca importancia a la Poca importancia a la representacirepresentacióón grn grááfica.fica.Tiene una visiTiene una visióón precisa n precisa de los datos.de los datos.Semeja a un juicioSemeja a un juicio

Page 4: Analisis exploratorio

Evaluar la calidad y la consistencia de Evaluar la calidad y la consistencia de los datos.los datos.Determinar la distribuciDeterminar la distribucióón de las n de las variables en estudio.variables en estudio.Aplicar el tratamiento de datos Aplicar el tratamiento de datos ausentes.ausentes.Detectar datos atDetectar datos atíípicos (picos (outliersoutliers).).

DefiniciDefinicióón de ann de anáálisis exploratorio lisis exploratorio de datos:de datos:Conjunto de herramientas estadConjunto de herramientas estadíísticas que sticas que permiten una visualizacipermiten una visualizacióón previa al ann previa al anáálisis lisis definitivo de los datos en estudio. Este andefinitivo de los datos en estudio. Este anáálisis lisis tiene los siguientes objetivos:tiene los siguientes objetivos:

Page 5: Analisis exploratorio

Comprobar supuestos: normalidad, Comprobar supuestos: normalidad, linealidad, linealidad, homocedasticidadhomocedasticidad. . Resumir los datos mediante el uso conjunto Resumir los datos mediante el uso conjunto de medidas de resumen y sus grde medidas de resumen y sus grááficos.ficos.Explorar formas de categorizar variables a Explorar formas de categorizar variables a travtravéés de bs de búúsqueda de puntos de corte.squeda de puntos de corte.

Page 6: Analisis exploratorio

El anEl anáálisis exploratorio de datos puede ser:lisis exploratorio de datos puede ser:

UnivariadoUnivariado:: Estatura, peso, pulso, Estatura, peso, pulso, temperatura, etc.temperatura, etc.

BivariadoBivariado:: Estatura y peso, frecuencia Estatura y peso, frecuencia cardiaca y nivel de colesterol.cardiaca y nivel de colesterol.

MultivariadoMultivariado:: Se quiere medir la Se quiere medir la relacirelacióón entre la presin entre la presióón arterial, n arterial, edad, peso y estredad, peso y estréés.s.

Page 7: Analisis exploratorio

El anEl anáálisis exploratorio de datos se lisis exploratorio de datos se puede realizar en:puede realizar en:

Forma de grForma de grááficosficos

Pruebas de contrastePruebas de contraste

Page 8: Analisis exploratorio

ANANÁÁLISIS EXPLORATORIO UNIVARIADOLISIS EXPLORATORIO UNIVARIADO

HISTOGRAMA:HISTOGRAMA:Muestra la forma de distribuciMuestra la forma de distribucióón de n de los datos.los datos.Revela la presencia o no de simetrRevela la presencia o no de simetríía a Proporciona informaciProporciona informacióón respecto a n respecto a la variabilidad de los datos.la variabilidad de los datos.

Page 9: Analisis exploratorio

Ejemplo:Ejemplo:Edades de un grupo de pacientes que Edades de un grupo de pacientes que participaron en un trabajo de participaron en un trabajo de investigaciinvestigacióón.n.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2020 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 3334 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 4141 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 4848 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 5757 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 65

Page 10: Analisis exploratorio

Histograma

Page 11: Analisis exploratorio

Histograma y curva normal

Page 12: Analisis exploratorio

AsimetrAsimetrííaa

Identifica datos Identifica datos extremos extremos

Page 13: Analisis exploratorio

Se observa Se observa simetrsimetrííaa

NormalidadNormalidad

Ausencia de Ausencia de datos datos extremosextremos

Page 14: Analisis exploratorio

Diagrama de tallo y hojasDiagrama de tallo y hojas

Permite observar al conjunto de Permite observar al conjunto de datos como un todo y destacar datos como un todo y destacar algunas caracteralgunas caracteríísticas, tales como:sticas, tales como:La simetrLa simetríía del conjunto de datosa del conjunto de datosLa variabilidad de los datosLa variabilidad de los datosLa presencia o no de La presencia o no de ““outliersoutliers””ConcentraciConcentracióón de los datosn de los datosBrechas en el conjunto de datos Brechas en el conjunto de datos

Page 15: Analisis exploratorio

Ejemplo: Se tienen las edades de 100 pacientes que participaron en un estudio de investigación.

896564646362626160605959585858575757575757565656555555545353525251505049494948484847474746464545444444444343434242424241414040393938383737373636363535343434343433333232303030303030292828262625252423202019181716151413121110987654321

Page 16: Analisis exploratorio

Diagrama de tallo y hojas en Diagrama de tallo y hojas en forma compacta:forma compacta:

Stem-and-leaf of EDAD N = 100Leaf Unit = 1.0

10 2 034556688937 3 000000223344444556667778899(28) 4 001122223334444556677788899935 5 001223345556667777778889910 6 001223445

HI 89,

SimetrSimetrííaa

NormalidadNormalidad

Valor extremo alto (89)Valor extremo alto (89)

Page 17: Analisis exploratorio

Edad de los pacientes Stem-and-Leaf Plot

Frec. Tallo Hojas

3 2 . 0347 2 . 556688915 3 . 00000022334444412 3 . 55666777889915 4 . 00112222333444413 4 . 55667778889998 5 . 0012233417 5 . 555666777777888998 6 . 001223441 6 . 51 Extremes (>=89)

Stem width: 10Each leaf: 1 case(s)

Tallo desdoblada

CCumple las mismas funciones que el histograma.

Conserva todos los datos y se pueden determinar los datos extremos.

Adecuado para muestras grandes y pequeñas.

Page 18: Analisis exploratorio

Tallo y hojas con brechasTallo y hojas con brechasStemStem--andand--leafleaf ofof Edad N = 20Edad N = 20LeafLeaf UnitUnit = 1.0= 1.0

2 1 792 1 792 2 2 2 7 3 025797 3 02579

(4) 4 1356(4) 4 13569 5 9 5 9 6 0023457899 6 002345789

Page 19: Analisis exploratorio

GRGRÁÁFICO DE CAJAS FICO DE CAJAS (BOXPLOT)(BOXPLOT)

Es una presentaciEs una presentacióón simple de la n simple de la informaciinformacióón que permite conocer:n que permite conocer:

La localizaciLa localizacióón del centro de los n del centro de los datosdatosDispersiDispersióónn

Page 20: Analisis exploratorio

DIAGRAMA O GRDIAGRAMA O GRÁÁFICO DE FICO DE CAJAS (BOXPLOT)CAJAS (BOXPLOT)

SimetrSimetrííaa

La extensiLa extensióón: n: Limite Superior = (QLimite Superior = (Q33 +1.5*+1.5*dQdQ); ); Limite inferior =(QLimite inferior =(Q11--1.5*1.5*dQdQ

La existencia de los valores extremos La existencia de los valores extremos ((outliersoutliers).).

Page 21: Analisis exploratorio

Me=44

Q3=55

Q1=34.25

Valor min=20

valor max=65

Page 22: Analisis exploratorio

DATOS ATDATOS ATÍÍPICOS (OUTLIERS)PICOS (OUTLIERS)

TIPOS:TIPOS:Aquellos que surgen de un error de Aquellos que surgen de un error de procedimiento.procedimiento.Los que ocurren por un hecho Los que ocurren por un hecho extraordinario, tiene explicaciextraordinario, tiene explicacióón. n. Observaciones extraordinaria sin Observaciones extraordinaria sin explicaciexplicacióón.n.

Page 23: Analisis exploratorio

Normalidad de los datos:Normalidad de los datos:

Se considera que los datos son normales si Se considera que los datos son normales si la distribucila distribucióón de la poblacin de la poblacióón de la cual ha n de la cual ha sido extrasido extraíída la muestra se aproxima a la da la muestra se aproxima a la distribucidistribucióón ten teóórica.rica.Se puede verificar esta propiedad por:Se puede verificar esta propiedad por:

MMéétodos grtodos grááficos para ver normalidadficos para ver normalidadContrastes de normalidadContrastes de normalidad

Page 24: Analisis exploratorio

MMÉÉTODOS GRTODOS GRÁÁFICOS PARA VER FICOS PARA VER NORMALIDAD:NORMALIDAD:

Histogramas Histogramas GrGrááfico Pfico P--P P GrGrááfico QQ fico QQ plotplot. .

CONTRASTES DE NORMALIDAD:CONTRASTES DE NORMALIDAD:Prueba Chi cuadrado: Prueba Chi cuadrado: Bondad de ajusteBondad de ajuste

( ) s/xxZ i −= ( )∑ −=

i

2

ii2

EEo

χ

Page 25: Analisis exploratorio

Prueba de Prueba de ColmogorovColmogorov--SmirnovSmirnov

Prueba de Prueba de ShapiroShapiro WilksWilks

( ) ( )xFoxFnmaxD −=

2

2

nsDW =

Todas las pruebas plantean Ho de normalidad.

Page 26: Analisis exploratorio

TRASFORMACITRASFORMACIÓÓN DE LOS N DE LOS DATOSDATOS

• En este gráfico se observa que los datos son normales.

• Si existe normalidad la recta del diagrama pasa por el origen.

• Es un artificio para normalizar datos.

• Se construye a partir de la transformación de los datos a su lognatural.

Page 27: Analisis exploratorio

Tests of Normality

.072 100 .200* .971 100 .024Edad de los pacienStatistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova Shapiro-Wilk

This is a lower bound of the true significance.*.

Lilliefors Significance Correctiona.

Para este caso es conveniente interpretar el resultado con la prueba de Kolmogorov-Smirnov. La de Shapiro-Wilk es útil con muestras no mayores de 50.

Ho, (normalidad) no se puede rechazar porque el valor calculado es mayor que 0.05.

Page 28: Analisis exploratorio

En el gráfico P-P se observa la normalidad de los datos.

Page 29: Analisis exploratorio

ANALISIS BIVARIADOANALISIS BIVARIADONo Sexo Peso Estatura No Sexo Peso Estatura1 1 18.2 112 21 1 18.3 114.32 1 14.6 103.4 22 1 21.3 1153 1 19.4 114.9 23 1 16.2 1034 2 15.7 104.1 24 1 23.31 117.75 2 18.7 104.9 25 1 20 113.46 1 16.6 105.5 26 2 22.3 114.37 2 20.7 113 27 2 25.4 1218 2 19.3 109.4 28 1 17.6 106.69 1 16.6 104.7 29 1 19.8 111.410 1 20.6 114.4 30 1 17.1 108.311 1 18.2 112.9 31 1 18.2 109.612 1 20.4 110.1 32 2 25.1 114.613 1 21.8 122.5 33 2 16.9 104.514 1 22.6 116.3 34 1 18.4 107.315 1 20.7 115.9 35 1 18.8 106.816 2 15.5 107.2 36 2 17.5 108.517 2 18.9 110.4 37 1 21.4 112.918 2 15.4 113.2 38 1 19.4 111.619 2 18.4 109.5 39 1 18.9 106.820 1 18.3 110.4 40 1 20.2 115.8

Page 30: Analisis exploratorio

AnAnáálisis exploratorio lisis exploratorio bivariadobivariado::

Page 31: Analisis exploratorio

GrGrááfico de dispersifico de dispersióón de estatura n de estatura y peso por sexoy peso por sexo

Page 32: Analisis exploratorio

NINIÑÑOS SEGOS SEGÚÚN PESO Y SEXON PESO Y SEXO

Page 33: Analisis exploratorio

ANÁLISIS EXPLORATORIO MULTIVARIADO

Page 34: Analisis exploratorio
Page 35: Analisis exploratorio

FINFIN