Estadística Aplicada Usando SPSS Material.pdf
-
Upload
recsonherrerahuamani -
Category
Documents
-
view
255 -
download
0
Transcript of Estadística Aplicada Usando SPSS Material.pdf
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
1/40
1
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
INTRODUCCIÓN
La estadística es una herramienta que sirve de apoyo a distintas disciplinas interesadas en conocer
regularidades de su objeto de estudio. La estadística es de suma utilidad para la construcción de modelos
que permitan verificar las hipótesis planteadas, y además, desde una perspectiva aplicada, brinda soporte
en la toma de decisiones.
Este curso no requiere de mayores conocimientos estadísticos, informáticos o matemáticos. En esta
oportunidad se hará uso del software de IBM Statistical Package for the Social Sciences (SPSS), una de las
principales herramientas en el análisis estadístico en ciencias sociales. Dicho software se hará cargo de los
cálculos matemáticos y de la construcción de los reportes numéricos y gráficos. Este curso será
completamente teórico y práctico, y buscará desarrollar los distintos temas de manera incremental para
facilitar el aprendizaje.
El curso se ha dividido en cinco unidades básicas:
1. Gestión del conocimiento y limpieza de datos
2. Exploración Univariada
3. Análisis Bivariado
4. Técnicas multivariadas básicas: Análisis Factorial
5. Técnicas de regresión: Regresión binomial y logística
Para el desarrollo del curso, se emplearán datos estadísticos acordes a los procedimientos a tratar.
Además, cada sección práctica estará acompañada de videos instructivos que permitan revisar los
procedimientos desarrollados en la clase.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
2/40
2
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
UNIDAD 1: GESTIÓN DEL CONOCIMIENTO
Para conocer el mundo de la estadística es necesario concebir en qué parte del proceso de gestión del
conocimiento está contemplada. Cuando nosotros concebimos la realidad, no la vemos tal cual; puesto
que, la complejidad de la misma nos impide tener una concepción sistémica. Es por ello que nuestro
cerebro procesa la realidad a través de modelos.
Estos modelos, o teorías, nos crean una concepción acerca de todo, desde cuestiones tan elementales
como nuestra percepción acerca de lo bueno y malo, hasta asuntos complejos como lo políticamente
correcto. Este mismo fenómeno se reproduce en las Ciencias Sociales. El ciclo escalonado del
procesamiento de la información parte del hecho que los diferentes modelos o teorías pueden interactuar
entre ellos para producir conocimiento. A este proceso se le conoce como gestión del conocimiento.
Un modelo podrá ser aceptado dentro de la investigación cuantitativa cuando éste sea válido, confiable y
factible. Por válido entendemos que el modelo puede ser generalizado; por confiable, que puede ser
replicado; y por factible, que puede responder a las interrogantes que el modelo plantea.
MODELO HIPÓTESISOPERACIONALIZACIÓN
CONCEPTUAL
ELECCIÓN DE DISEÑO DEINVESTIGACIÓN
RECOLECCIÓN DE DATOSANÁLISIS DE DATOS
REPORTE DE HALLAZGOS
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
3/40
3
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
1.1 Modelamiento estadístico y metodología de la investigación
Los modelos estadísticos son sumamente útiles para la prueba de hipótesis, etapa importante dentro de
la metodología de la investigación. No obstante, llegar a probar una hipótesis no es un proceso sencillo;
puesto que, existe una serie de pasos previos para lograr la formulación de una hipótesis adecuada. Eneste curso solo delinearemos la secuencia de la investigación para ubicar adecuadamente el momento en
que la estadística es útil como herramienta apoyo.
1.2 Esquema básico de investigación
Cualquier investigación comienza cuando se percibe que una explicación no es satisfactoria. Este
problema no es extraño, sin embargo, no siempre se presta suficiente interés. Es precisamente cuando se
presta mayor atención que se decide estructurar el problema. Estas etapas son conocidas como los
antecedentes del problema y la formulación de la pregunta de investigación.
El desarrollo de una buena pregunta de investigación es primordial, dado que, será esta la que oriente el
trabajo. En ella deberán estar contenidos los conceptos de interés que luego serán teóricamente
analizados. Así pues, los conceptos de interés, al igual que las relaciones que se plantean en la pregunta,
serán el punto de partida para confeccionar nuestro marco teórico.
Una vez que se haya estructurado el tema de investigación de manera teórica se podrá plantear la
hipótesis, que es básicamente, la respuesta a la pregunta inicialmente formulada. En la hipótesis deben
estar claramente expuestos los conceptos de interés y la relación existente entre ellos propuesta. A partir
de allí solo queda contrastar tal hipótesis con lo que sucede en la realidad. Hecho el análisis respectivo se
podrá reportar si la hipótesis era sostenible y se redactarán las conclusiones.
1.3 Concepto, definición, variable, caso y valor
Existen algunos conceptos clave en las ciencias sociales: concepto, definición, variable, caso y valor. Cada
uno de ellos representa ideas bastante complejas. Por ejemplo, diferenciemos el concepto democracia
del concepto temperatura mediante sus definiciones. Empecemos por el concepto temperatura. La
temperatura según la física, es el promedio de energía cinética en la materia. El concepto es entonces un
modelo mental de algo que existe y le damos nombre (el término que denota al concepto, o significante)
para conocerlo. Su definición es la explicitación del concepto que permite que este se diferencie de lo ya
conocido. De ahí que la variable es simplemente una manera en que el concepto se manifiesta en el
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
4/40
4
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
mundo y que puede tomar diversos valores. El valor se obtiene para cada uno de los casos de estudio
(unidad de análisis).
Sin embargo, en el caso del concepto democracia enfrentaremos algunos problemas metodológicos. En
primer lugar, el concepto puede tener diversas definiciones y no una única universalmente aceptada. Conla definición (y postura) de democracia elegida, se querrá saber el "nivel de democracia" en los países.
Pero esta variable tendrá algunos problemas (que "temperatura" no tuvo) pues no tiene una única manera
de ser medida. No existe un instrumento como el termómetro que permita saber el nivel de democracia,
por lo que se recurrirá a más de un valor para medir la variable. Cuando este es el caso, se llama variable
latente a aquella que hace uso de muchos valores. De ahí que, según la definición por la que optemos
habrá que buscar o recolectar varios valores.
Por ejemplo, la revista The Economist tiene una definición tal de democracia que usa los valores (o máspropiamente "modalidades") "proceso electoral y pluralismo", "libertades civiles", "funcionamiento real
del gobierno", "participación política" y "cultura política". Estos aún son constructos abstractos, por lo
que cada uno necesitará de sus propios valores. El resultado es la variable "nivel de democracia". Cuando
una variable se haya construido a partir del cálculo de otras, recibe el nombre de índice. Los valores de
una variable también son llamados indicadores.
1.4 Escalas de medición
Todo lo anterior puede parecer muy complicado, no obstante, son simplemente las pautas de cómo dar
valores a cualquier evento de la realidad. En este caso asumiremos que esto está dado ya que
trabajaremos con datas ya elaboradas. Sin embargo, al observar los datos será sumamente importante
saber diferenciar las distintas escalas en las que se hicieron las mediciones. En nuestro caso particular,
utilizaremos tres escalas: la nominal, la ordinal y la numérica.
a. La escala nominal
Las modalidades de la variable no presentan un orden entre sí, son solo categorías. Un ejemplo puede ser
la variable "país de nacimiento", "diario favorito", "empresa celular que utiliza". Cada una de estas
variables tendrá respuestas como "Perú", "Argentina", "El Comercio", "La República”, "Movistar", etc. Tal
como podemos observar, estas no provienen de conjuntos de alternativas que deban respetar un orden.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
5/40
5
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
b. La escala ordinal
Las modalidades siguen siendo cualitativas; por ejemplo, la variable "nivel educativo" puede referirse a
personas con nivel "primaria", "secundaria", "superior". Sin embargo, el conjunto de todas estas posibles
respuestas tiene un orden particular, que denota un mínimo (primaria) y un máximo, (superior).
c. La escala numérica
Las escalas nominal y ordinal representan estados cualitativos; sin embargo, cuando tratamos la escala
numérica, sí estamos haciendo referencia a la idea de magnitud. Cuando hablamos de magnitud podemos
referirnos a cosas tan cotidianas como nuestros "ahorros en soles", "peso", "altura", etc.
1.5 Codificación
Las escalas no serían muy difíciles de entender si no fuera porque la mayoría de las veces aparecen
codificadas, lo que puede causar confusión. La codificación es un paso sumamente necesario para que
cualquier programa informático sea capaz de procesar la información. Es mucho más sencillo para las
computadoras realizar cálculos estadísticos si los datos que manejan son números. Por ello, cuando se
abren y revisan algunas bases de datos en una computadora, lo único que se observa son caracteres
numéricos, aun cuando solo algunos de ellos representan variables en escala numérica y los demás,
variables en escala nominal u ordinal. Así, en vez de decir "en letras" el nivel educativo, aparecen números
que indican algún nivel de educación (1 para primaria, 2 para secundaria, 3 para educación superior, etc.).
Tal como mencionamos anteriormente, solo en el caso de las variables en escala numérica los números
representan una magnitud. Así pues, si la variable "empresa celular preferida" tiene el valor 2 para
“movistar” y el 1 para "nextel", no implica que la empresa movistar sea el doble o más importante que la
empresa nextel. En otras palabras, no es más que una simple etiqueta, un simple rótulo. Es diferente si la
variable fuera "número de hijos"; en ese caso, el que tiene 4 hijos posee más que el que tiene 2 (el doble).
Otro uso particular e importante de los códigos son los valores perdidos (missing values), que son los
códigos que se utilizan para indicar respuestas inadecuadas o inapropiadas o faltantes, pero que se
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
6/40
6
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
señalan de manera explícita. Estos valores no se utilizan en los cálculos; más bien, la codificación que
tienen permite que los programas informáticos los ignoren (99, 999, .)
Una vez que disponemos de las definiciones de los conceptos que vamos a utilizar y habiendo definido
una estrategia de investigación que nos permita comprobar nuestra hipótesis es necesario puesoperacionalizar nuestras variables para obtener una mejor recolección de los datos, lo cual representa el
siguiente paso en el ciclo de investigación.
En el presente curso abordaremos el área de análisis de datos. El análisis de datos al igual que la
recolección de los mismos son ambos trabajados por la estadística, puesto que esta se define como la
ciencia de la organización, análisis e interpretación de los datos. Esto nos permite, como vemos en el
último punto; reportar hallazgos, que no es más que conocimiento producido a partir de los datos
disponibles. En otras palabras, la razón por la que la estadística es relevante es porque nos permiteproducir conocimiento que nos sirve para la toma de decisiones, esto es así, tanto para las ciencias
formales, como para el campo de las ciencias sociales.
Sin embargo, existen diferentes tipos de estadística. Por un lado tenemos la estadística matemática, la
cual se encarga de estudiar y desarrollar la teoría existente sobre esta ciencia. Esta rama nos provee de
las herramientas matemáticas para desarrollar el análisis estadístico de los procesos en las ciencias
sociales. Por otro lado, tenemos la estadística aplicada, la cual se encarga del procesamiento y análisis de
datos orientado a la toma de decisiones, será esta la que desarrollaremos en el presente curso. Esta rama
se subdivide en dos campos de estudio. La estadística descriptiva y la estadística inferencial.
La estadística descriptiva, presente en las unidades 2 y 3 se encarga de los métodos de visualización y
resumen numérico o gráfico de los datos de la población analizada. Es la rama donde se analiza de manera
unilateral la interacción de distintas variables. La estadística descriptiva llega a ver relación entre variables,
sin embargo, esta relación es simétrica. (Este concepto se desarrollará con mayor amplitud en la unidad
5).
La estadística inferencial, por otro lado, se dedica a la generación de los modelos direccionales, inferencias
y predicciones teniendo en cuenta lo aleatorio en las observaciones de una muestra. Esta rama de la
estadística ha sido ampliamente desarrollada por la economía, y su uso está en expansión dentro de las
demás ramas de las ciencias sociales.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
7/40
7
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
1b) MINERÍA DE DATOS
1.1 Definición
La Minería Datos es un sub-campo interdisciplinario de lo que se conoce como ciencias de la computación.
Es un mecanismo de explotación consistente con la búsqueda de información valiosa en grandesvolúmenes de datos. Su principal objetivo es extraer información de una base de datos y transformarla
para un uso más profundo. Involucra aspectos de manejo de bases de datos, procesamiento de data,
modelamiento y consideraciones inferenciales, consideraciones complejas, visualización, entre otros. En
ese sentido, y con fines de este curso, llamaremos “minería de datos” a todo el proceso del curso y en lo
puntual al proceso de organización y limpieza de datos.
Para comenzar esta parte del curso se les proveerá a los alumnos inscritos de una carpeta en DROPBOX o
un Google Drive de donde podrán descargar softwares libres en versión portable. Los softwares que se
van a utilizar para esta parte son los siguientes:
AbbyyFine Reader V.12Snagit v.11Acrobat v.11También se usará el Excel de Microsoft Office.El URL de donde se puede descargar los softwares portables es el siguiente:
https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M#
La carpeta de Dropbox se compartirá con los alumnos a través de los correos con los que se inscriban en
el curso.
1.2 Características de los Softwares
El AbbyyFine Reader es un software muy potente que tiene la finalidad de simplificar la conversión de
documentos a una versión editable. Particularmente el Abbyy Fine Reader es un sistema de
reconocimiento óptico de caracteres (OCR) que fácilmente puede convertir cualquier tipo de PDF,
documentos digitales y ficheros de imagen, incluyendo las fotos digitales, en documentos editables que
luego se pueden usar en las aplicaciones y el entorno Office. Este software servirá de pivote y se
complementará con los otros tres.
El Snagit es un simple software cuya función radica en capturar pantallas e imágenes previa selección del
marco. Este software es bastante intuitivo. Luego de capturar la pantalla o la sección que se quiere sepuede copiar y llevar aun documento. Sin embargo, usaremos este software para grabar las imágenes
como PDF’s y llevarlo al Abbyy Fine Reader.
El Acrobat es un software que permite editar PDF’s y es de fácil uso para ordenar páginas dentro de un
PDF. No se explorarán mayores funciones.
1.3 Índice de Temas
https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2Mhttps://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2Mhttps://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
8/40
8
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
1. Importación de datos desde documentos PDF.
a. Uso práctico del Abbyy Fine Reader.
b. Uso práctico del Snagit.
2. Importación de datos desde una página web.
a. Copy/Paste
b. Usar el Democracy Indexc. Importación hacia Excel.
3. Limpieza de Datos
a. Eliminación de valores repetidos
b. Sustitución de “,” por “.”
c. Separación de datos en columnas.
d. Eliminación de espacios dobles.
e. Concatenación de datos.
f. Filtrar y ordenar
g. Sustitución sistemática de caracteres.
h. Transcripción de datos y extraer valores únicos
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
9/40
9
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
UNIDAD 2: EXPLORACIÓN UNIVARIADA
La exploración univariada está comprendida dentro del campo de la estadística descriptiva. Su uso es uno
de los más sencillos y a la vez más usados por los “promotores” de información cuantitativa. Así tenemos
que, en la presentación de una encuesta, lo que se presenta comúnmente son estadísticos descriptivos
de variables: resúmenes de conteos muestrales. El análisis puede darse a nivel de la variable misma o a
nivel de categorías, tal como vemos en la imagen.
En el ejemplo anterior, vemos que la variable es “preferencias electorales”, y el cuadro presentado es
simplemente el recuento de intención de voto hacia Ollanta Humala y Keiko Fujimori. En este caso, cada
opción de las filas: “Blanco/ Viciado” y “No sabe / No responde”, más la preferencia por ambos candidatos,
vendrían a ser las categorías de la variable; y las cifras obtenidas son una subdivisión por categorías.
Fuente: IOP PUCP
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
10/40
10
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
En la exploración univariada debemos considerar que vamos a contar siempre con tres categorías de
análisis. El análisis de Tablas de frecuencia, medidas y gráficos. Estas tres categorías nos presentarán
diversas herramientas dependiendo de la naturaleza de la variable, si es de tipo Nominal, Ordinal o
Escalar.
2.1 Exploración de variables Nominales
Como vimos en la Unidad 1, las variables pueden encontrarse en tres escalas de medición. Dependiendo
de estas es que vamos a determinar qué tipo de análisis podemos aplicarle a una variable determinada.
En este caso, vamos a analizar las variables nominales.
a. Tablas de frecuencia
Una variable nominal solo reporta un registro no jerarquizado de categorías. En el ejemplo anterior,vemos que Ollanta Humala y Keiko Fujimori son dos categorías de una variable nominal, puesto que
ninguno de los dos presentan una jerarquía respecto del otro. Lo que vimos en el ejemplo anterior es una
tabla de frecuencias; ya que, esta presenta la información de la variable dividida en sus categorías; y hace
un recuentro de los datos que esta nos ofrece. En una variable nominal, las tablas de frecuencia se
presentan de manera similar a la del ejemplo.
b. Medidas
Además, tenemos el análisis de las medidas. Las variables nominales solo presentan una medida de
tendencia central y una de dispersión. Las primeras son llamadas así porque sirven para determinar una
medida que represente un punto principal o estadísticamente relevante dentro de la variable. Para el caso
de la variables nominales, el valor central es la moda.
Moda
La moda es una medida que muestra el valor que más se repite dentro de los datos que provee una
variable. Así, si uno tiene un salón de clases donde la distribución de notas es la siguiente:
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
11/40
11
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Podemos observar que el valor que más se repite en este caso es “Católico”.
Variación Modal
La variación modal es una medida de dispersión aplicable para la exploración de una variable nominal y
puede entenderse como “el porcentaje que no está representado por la moda”. Así, si tenemos que en
nuestro ejemplo de 5 casos, el 60% tiene una inclinación hacia una sola categoría (en este caso “Católico”),
entonces vemos que la variación modal serían los otros dos casos que son parte de la variable pero no
son parte de la moda (En este caso, es 40%).
c. Gráficos
Con respecto a los gráficos, tenemos al gráfico de barras y al gráfico de segmentos (Gráfico Pie). Estos se
encargan de presentar de manera visual el contenido de la información que presenta la variable a analizar.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
12/40
12
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Ejemplos:
2.2 Exploración de variables Ordinales
Las variables ordinales si presentan una diferenciación jerarquizada de sus categorías, así podemos ver
que en una variable de tipo “Interés en la política”, podemos encontrar una diferenciación gradual que
puede ir desde “Ningún interés”, hasta “Interés absoluto”
Como vemos en nuestro ejemplo, la categorización abarca distintos grupos de clasificación, los cuales se
presentan en un orden ascendente de interés.
a. Tablas de Frecuencia
La tabla de frecuencias se presenta de manera similar a la de las variables nominales, con la diferencia de
que el orden de aparición ya no es arbitrario, sino que representa una estratificación que va desde la
menor intensidad hacia la mayor intensidad.
b. Medidas de tendencia central
En el caso de las medidas, a las ya vistas anteriormente (Moda y variación modal) se le une unan nueva
medida de valor central: La Mediana.
0
1
2
3
Encuestados
Encuestados
Serie 1Católico
Evangélico
Judio
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
13/40
13
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Mediana
La mediana es una medida de valor central que determina el punto medio de todos los casos que contiene
una variable. En otras palabras, cuando hablamos de mediana, hablamos del valor que dentro de los casos
se ubica en el centro.
Al tener una variable ordinal como Interés en la política:
Vemos que hasta el 50% de los valores que muestra la variable (En este ejemplo; el caso 5), la mediana
vendría a ser “Interés Moderado”. Podría darse el caso que la mediana sea igual a la moda, en la medida
que esta se ubique en el valor central de la distribución de los datos.
c. Medidas de Dispersión – N – Tiles.
Así como el valor central en una distribución de los datos es la mediana, existen diferentes divisiones en
la distribución de los datos, y por ello podemos hablar de toda una rama de divisiones que indican la
dispersión de los datos así como su posicionamiento. Estos son los N- tiles. Algunos de los N-tiles más
conocidos son los cuartiles y percentiles. Los cuartiles dividen los datos de una variable en tres cortes,
donde el 25%, será el cuartil 1, el 50% (la mediana) será el cuartil 2 y el 75% será el cuartil 3. Normalmente
se asume que los cuartiles indican tres momentos de posición de los datos, tal como vemos en la sección
de gráficos.
d. Gráficos
Además de los gráficos ya mencionados, la escala ordinal presenta los diagramas de caja o boxplots, los
cuales grafican los cuartiles.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
14/40
14
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Como hemos visto en el ejemplo anterior,
1. Percentiles: 25 - 50 - 75
2.2 Exploración de variables Escalares
Para el caso de las variables escalares, el valor de los números dejan de tener un valor arbitrario para
pasar a tener un valor efectivo. Así, cuando hablamos de variables escalares nos referimos a una variable
BOX PLOT
Q3 = Q2=Máximo
Q1 = Q2
Q3 = Mediana,
mínimo, máximo
[Rpts: 1, 1, 1, 1]
Q1
Q3 = Máxima
Q2
Q1 = Mínimo
Mediana = Q3
Máximo
Mínimo
Ancho: A más ancho mayor dispersión Largo: Relación con respecto al máximo y al mínimo
Q3
Mediana
Q2
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
15/40
15
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
numérica; en la medida que, lo que se recoge son cifras acerca de la variable. Como ejemplo tenemos a
“Número de casas”, “Percepción de ingresos mensuales”, etc.
Las tablas de frecuencia en las variables escalares sólo tienen sentido cuando esta se agrupa en intervalos.
De otra forma, el hacer una tabla de frecuencias nos da como resultado la presentación del a variable“caso por caso”. Como en este tipo de variables ya no tenemos categorías, vamos a ver que lo que
obtendremos es un recuento de todos los valores que se encuentran en la variable escalar; lo cual podrían
ser cientos o miles. Tamaña tabla no solo no es extensa, sino que su utilidad para el análisis estadístico es
nula.
Las variables escalares logran recuperar todas las medidas vistas anteriormente más la consideración de
que ahora entra a tallar la medida de tendencia central “Media” o “promedio”.
a. Medidas de tendencia Central
Media
La media es, como ya dijimos, el promedio de los valores que contiene la variable. En este caso, si tenemos
una variable donde se detalla el ingreso anual de una persona, vamos a ver que el promedio es la cifra de
la suma de sus sueldos mensuales, dividida entre el número de sueldos recibidos. La media es muy
importante pues este valor central se muestra como homogeneizador de la información de la variable. Sin
embargo, como veremos más adelante, la media no es el único valor que debe ser tomado en cuenta a la
hora de realizar un análisis.
Con la media debemos tener en cuenta varios aspectos. Primero, que la suma de los valores dentro de la
media empieza con el valor mínimo y va hasta el máximo. Esto es necesario de saber puesto que estos
valores extremos pueden distorsionar el resultado de la media.
b. Medidas de dispersión
Dentro de las medidas de dispersión, se incorporan la varianza, la desviación típica, la amplitud
intercuartil, y los valores mínimos y máximos.
Desviación típica y Varianza
La desviación típica muestra cuán alejados están los valores de la media. Es por ello que esta medida nos
puede dar una idea acerca de la dispersión de los datos de la variable. Si es que la desviación estándar/
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
16/40
16
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
típica es alta, habrá mayor dispersión y la media será más robusta. Si es que la cifra es baja y se acerca al
0; los valores están más próximos a la media y, por ello, habrá menor dispersión.
La varianza es la desviación típica elevada al cuadrado. Esto se hace con el objetivo de lograr una mayor
precisión a la hora de comparar valores que se pueden diferenciar por milésimas en la desviaciónestándar, pero la distancia se agranda con la comparación entre varianzas.
Asimetría
La asimetría nos permite observar cual ha sido la naturaleza de la distribución de los datos. Es decir, cual
ha sido la forma en la que todos los datos se han desplazado a lo largo de la variable.
Así, tenemos que esta puede ser negativa, Nula (simétrica) o positiva.
Curtosis
La curtosis se refiere al apuntamiento o concentración de las variables a lo largo de la data. Ahora ya no
vemos si es que los datos están concentrados en determinado cuartil de la distribución, sino cuan
concentrados están.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
17/40
17
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Estimadores M:
Además de los las medidas de tendencia central clásicas en las variables escalares: Moda, mediana y
media; vemos que existe una serie de pruebas estadísticas para contrastar el valor de la media y tener
una idea acerca de la robustez de la misma. Estos test se llaman los estimadores M y son 4.
- Onda de Andrews
- M de Hampel.
- M de Tuckey
- M de Huber.
Estos cuatro estimadores se leen en simultaneo y la forma correcta de interpretarlos es comparando el
resultado entre los cuatro y con la media. Si la variación entre los estimadores M y la Media es mínima,
significa que la media es robusta. Sin embargo, si esta es considerable, es mejor guiarse de los estimadores
M más que de la media, pues existen valores dentro de la variable que están sesgando la media.
c. Gráficos
Barras de Error: Las barras de error se encargan de representar de manera gráfica a la media y a la
desviación estándar. El gráfico se interpreta como “La media” como el centro circular, y el rango en donde
la media se puede desplazar, los “bigotes” del error bar.
Fig 1
ddddddddddd
dddd0
Mesocúrtica
Fig 2
> 0
Leptocurtica
Fig. 3
< 0
Platicúrtica
Una media será
robusta cuando
tenga dispersión
baja, cuando sea
simétrica ymesocurtica. El
coeficiente de
Simetría y curtosis
debe acercarse a
0.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
18/40
18
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Histogramas: Es la representación segmentada de la distribución de
valores numéricos. En tal sentido, las barras no representan categorías
como sí lo son en el caso de los gráficos de barras, sino que
representan un determinado N-til, es decir, cierto sector de la
distribución de los datos de una variable.
Media
Barras de Error.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
19/40
19
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
UNIDAD 3: ANÁLISIS BIVARIADO
La exploración de dos variables siempre analiza la interacción entre las mismas, y es por ello que podemosver diferentes tipos de interacción. Una de ellas nos informa acerca de si existe o no relación entre dos
variables y cuál es la naturaleza de dicha relación. Por naturaleza de la relación me refiero a las
características que esta tiene. Como veremos, la relación por si misma se ve complementada con medidas
de intensidad y sentido.
Ahora, para empezar a trabajar esta unidad es necesario hacer una precisión metodológica. El análisis
bivariado parte de una básica distinción. Para el caso de las variables cualitativas (Categóricas, atributivas,
etc.) vamos a usar el análisis de las tablas de contingencia, pues esta sirve para analizar variables
nominales y/u ordinales. En el caso que necesite hallar una relación entre una variable cualitativa y una
cuantitativa o escalar, una forma de analizar esta relación entre variables es a través de la recodificación.
Análisis entre:
Nominal Nominal
Ordinal Nominal
Ordinal Ordinal
Las tablas de contingencia son matrices donde se visualizan cruces de información entre dos variables.
Con esto se pretende analizar la dinámica de la relación entre las dos variables que estemos analizando.
La forma cómo se presentan las tablas de contingencia es simétrica, es decir, que no importa que variable
vaya en las filas o columnas, ya que la relación existente entre las dos variables es de doble sentido (Una
afecta a la otra sin estar de por medio un vínculo relacional de causalidad o impacto).
Dentro del análisis bivariado dentro de las tablas de contingencia, nos podemos permitir la subdivisión de
los resultados de las relaciones de las variables relacionables a través de la introducción de variables de
control. Estas generarán un análisis bivariado, pero dividido de acuerdo a las categorías que la variable de
control necesita. (recuérdese que las variables deben ser cualitativas, es decir, nominales, ordinales, o
escalares reconvertidas en intervalos).
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
20/40
20
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Ejemplo: Relación entre las variables: “¿Politicamente se considera?” y “Nivel Educativo”
% de Nivel Educativo
Nivel Educativo
Total1. Menos que
Secundaria
2. Secundaria
Completa
3. Más que
secundaria
Politicamente
se considera?
1. Muy liberal 3.1% 3.5% 6.0% 5.1%
2. Liberal 7.8% 8.1% 10.7% 9.8%
3. Algo liberal 19.5% 21.9% 21.8% 21.6%
4. Moderado 9.4% 7.4% 6.1% 6.7%
5. Algo
conservador46.1% 36.3% 29.1% 32.5%
6. Conservador 8.6% 13.6% 17.0% 15.4%
7. Muy
Conservador
5.5% 9.2% 9.3% 9.0%
Total 100.0% 100.0% 100.0% 100.0%
3.1 Principales Medidas – Estadísticos
a. Chi – Cuadrado
Chi – Cuadrado es un test estadístico que nos permite hallar la relación entre variables. Este test solo tepermite hallar si es que una variable está relacionada con la otra, sin embargo, para saber más acerca de
la naturaleza de la relación, es necesario elaborar algunas pruebas más. La forma como se debe
interpretar el test de Chi – Cuadrado es a través de la significancia. La significancia es el valor que se debe
considerar para aceptar o rechazar la hipótesis neutra que la prueba tiene como premisa. En el caso de
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
21/40
21
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Chi – Cuadrado, la premisa es: “Las variables no están relacionadas entre sí”. La forma como se intepreta
la significancia es:
Mayor a 0,050 Aceptas la Hipótesis.
Menor a 0,050 Rechazas la Hipótesis.
Pruebas de chi-cuadrado
Vemos la sig. Asintótica (bilateral) para determinar si hay o no hay relación. Va a haber relación siempre
y cuando la significancia de la fila del chi-cuadrado de Pearson sea menor a 0.05. Y no habrá relación
cuando sea mayor a 0.05. Por ejemplo, en la tabla anterior, como la significancia es menor a 0.05 sí habrá
relación.
3.2 Medidas de Intensidad y Sentido
Una vez que confirmamos la relación entre las variables, conviene analizar la naturaleza de la misma. De
esto se desprenden las medidas de intensidad y Sentido. La primera nos ayudará a ver la fortaleza de la
relación entre las variables, de manera que:
Valor gl Sig. asintótica (bilateral)
Chi-cuadrado de
Pearson31.812(a) 12 .001
Razón de
verosimilitudes32.298 12 .001
Asociación lineal por
lineal1.052 1 .305
N de casos válidos 1619
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
22/40
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
23/40
23
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Las pruebas de sentido o de dirección de la relación entre variables sirven para ver la forma cómo varía la
intensidad en la relación entre las variables. Así, podemos hablar de dos conceptos clave. Directamente
proporcional (sentido Positivo) o Inversamente proporcional (sentido Negativo). El primero quiere decir
que a mayor cantidad de uno, mayor cantidad de otro, Mientras que el segundo nos dice que a mayor
cantidad de uno, menor cantidad del otro.
Las pruebas estadísticas que nos presentan la dirección solo se pueden usar para variables ordinales. Esto
es así porque no podemos determinar a mayor cantidad de una y otra categoría sin antes asignarle un
valor jerárquico a la variable en sí. Como podemos recordar, en las variables nominales no podemos
asignar valores de orden o jerarquía, por lo que la prueba de dirección no puede ser aplicable.
La prueba de sentido de la relación entre dos variables es la D de Sommers. Esta herramienta permite al
mismo tiempo analizar la fuerza o intensidad y el sentido o dirección de la relación. Esta se leeinterpretando el coeficiente, de manera que una relación con sentido directamente proporcional tendrá
el signo positivo en el coeficiente que se presenta; mientras que una relación con sentido inversamente
proporcional mostrará el coeficiente en números negativos. El valor absoluto del coeficiente nos servirá
para analizar la fuerza del mismo.
3.3 R de Pearson y Correlación Parcial
R de Pearson es una prueba estadística que mide la correlación lineal entre variables numéricas que se
distribuyen normalmente. La hipótesis nula de R de Pearson es que “no existe una correlación lineal entre
las variables”.
Dentro de las correlaciones, tenemos a la correlación parcial, que es una prueba que permite evaluar el
resultado de una correlación entre dos variables numéricas, teniendo en cuenta el retiro del efecto de
una que puede intervenir. En otras palabras, con la correlación parcial se puede estimar “que hubiera
pasado sí” dicha variable no estuviera relacionada en lo absoluto con la correlación inicial.
3.4 Notas adicionales – Otros tipos de Interacción entre dos variables
a. Kappa
La prueba de Kappa se usa para medir el índice de acuerdo entre dos variables, categórica y politómica en
distintos modelos. Por ejemplo, la aprobación en un momento dado y la aprobación en un momento
previo.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
24/40
24
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
b. Mc Nemar
La prueba de Mc Nemar nos ayuda a comparar el cambio en el tiempo de una variable determinada. Es
considerado un análisis bivariado porque se tiene una doble medición de la variable, pero en dos
momentos distintos. Comparas a la Variable “Momento N” respecto de la variable “Momento N + M”.
UNIDAD 4: ESCALAMIENTO ÓPTICO Y TÉCNICAS MULTIVARIADAS BÁSICAS ANÁLISIS FACTORIAL
4.1 Escalamiento óptimo: Análisis de Componentes Principales Categóricos - CATPCA
Definición
El análisis de Componentes Principales Categóricos (también por el acrónimo CATPCA, del inglés
CATegorical Principal Components Analysis) es una técnica de reducción de dimensiones, que por mediodel escalamiento óptimo obtiene, de un conjunto de variables con determinadas características o
propiedades específicas, un número menor de variables generales, las cuales agrupan un porcentaje de
las propiedades de cada variable específica en términos de medida mixtos. Este procedimiento cuantifica
simultáneamente las variables categóricas a la vez que reduce la dimensionalidad de los datos.
El objetivo de los análisis de componentes principales es la reducción de un conjunto original de variables
en un conjunto más pequeño de componentes no correlacionados que representen la mayor parte de la
información encontrada en las variables originales. La técnica es más útil cuando un extenso número de
variables impide una interpretación eficaz de las relaciones entre los objetos (sujetos y unidades). Al
reducir la dimensionalidad, se interpreta un pequeño número de componentes en lugar de un extenso
número de variables.
A diferencia del Análisis Factorial, en donde se realiza un análisis de relaciones lineales entre variablesnuméricas; el método de escalamiento óptimo permite escalar las variables a diferentes niveles, siendoposible en análisis para variables cualitativas. Las variables categóricas se cuantifican de forma óptimabajo una dimensionalidad especificada.
Dentro de los casos en donde se usa esta prueba estadística con mayor frecuencia tenemos a la creación
de indicadores a partir de un conjunto determinado de variables, así como la verificación estadística de
indicadores creados previamente. Se puede utilizar también para representar gráficamente la relación
entre la categoría laboral de un ciudadano, la región a la que pertenece, el número de desplazamientos
(alto, medio y bajo) y la satisfacción laboral. Al usar la prueba se puede apreciar que cuantificando las
variables a dos dimensiones, se puede explicar una gran cantidad de varianza. La primera dimensión
podría separar la categoría laboral de la región, mientras que la segunda dimensión podría separar la
división laboral del número de desplazamientos. También podrá observar que la alta satisfacción laboral
está relacionada con un número medio de desplazamientos.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
25/40
25
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Características y diferencias
El análisis de Componente Principales Categóricos (CATPCA) convierte a los valores de una variable
cuantitativa en números enteros positivos por orden alfabético ascendente. Los valores perdidos del
usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos. Sin
embargo, se puede añadir una constante o recodificar las variables con valores inferiores a 1 para evitar
que se pierdan los mismos. Para que la prueba pueda ser válida los datos deben contener al menos tres
casos válidos, es por ello que si se encuentran casos que necesiten una estandarización en sus valores, se
puede aplicar un análisis de discrecionalización, que agrupará las variables al valor entero más próximo
para rescatar la información. El análisis se basa en datos enteros positivos.
¿Cómo realizar el Análisis de Componentes Principales Categóricos (CATPCA) en SPSS?
Dentro del Menú analizar, seleccionar la opción “Reducción de datos”, y dentro de ellas, “Escalamiento
Óptimo”.
La técnica de Escalamiento óptimo está diseñada para variables categóricas. Como mencionamos
inicialmente, existen variables categóricas nominales dicotómicas y politómicas; además de variablescategóricas ordinales. Es por ello que para realizar la prueba debemos reconocer dicha diferenciación.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
26/40
26
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
La diferencia que establece el SPSS refiere a las variables nominales politómicas y las que no lo son. En
caso se trabaje con variables ordinales se debe seleccionar la segunda opción. Una vez seleccionadas las
variables de análisis, se debe definir la escala y ponderación que esta sigue.
En caso el análisis de las variables no considera la ponderación de variables, mantendrá un valor de
ponderación 1. Asimismo, se puede establecer el nivel de escalamiento óptimo de acuerdo al tipo de
variable.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
27/40
27
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
El escalamiento óptimo es sensible a analizar la información en función a los valores identificados,
independientemente de si estos han sido válidos o perdidos. Para ello es importante recalcar que los
valores perdidos deben ser excluídos.
Los resultados del escalamiento óptimo deben estar expresados en función de las variables resultantes
que obtendremos, pero para dicho fin no es necesario contar con las correlaciones de las variables
transformadas.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
28/40
28
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
La lectura se realiza de manera similar al análisis factorial. Sin embargo existen ciertas diferencias en la
interpretación de los reclutados en torno al Alfa de Cronbach. Esta prueba debe tener un coeficiente
superior a 0.700, para considerar que la confiabilidad de la operativización de las variables es fuerte, y por
lo tanto el nivel de información de las variables resultantes es representativo.
4.2 ¿Qué es el análisis factorial?
El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de
variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos se forman con las
variables que se correlacionan mucho entre sí y que los grupos sean independientes de otros.
Cuando recogemos un gran número de variables de forma simultánea, como en una encuesta sobre el
nivel de gobernabilidad, podemos estar interesados en averiguar si las preguntas del cuestionario se
agrupan de alguna forma característica. Aplicando un análisis factorial a las respuestas de los individuos
podemos encontrar grupos de variables con significado común y conseguir de esta manera reducir el
número de dimensiones necesarias para explicar las respuestas de los sujetos.
A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regresión, en el análisis
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
29/40
29
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
factorial todas las variables del análisis cumplen el mismo papel: todas ellas son independientes en el
sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Vale recordar
por tanto que con el análisis factorial no estamos planteando un modelo explicativo o causal entre
variables independientes y dependientes.
4.3 Etapas
Para el desarrollo del análisis factorial en SPSS (PASW) tenemos 4 etapas principales:
a. El cálculo de una matriz que expresa la variabilidad conjunta de todas las variables
b. La extracción del número óptimo de factores
c. La rotación de la solución para facilitar la interpretación
d. La estimación de las puntuaciones de los sujetos en las nuevas dimensiones
4.4 Leyendo los resultados
La tabla a continuación contiene las comunalidades asignadas inicialmente a las variables (inicial ) y las
comunalidades reproducidas por la solución factorial (extracción). Podemos entender la comunalidad
de una variable como la proporción de su varianza que puede ser explicada por el modelo factorial
obtenido. Estudiando las ‘comunalidades’ de la extracción podemos valorar cuáles de las variables son
peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor explicada: el
modelo sólo es capaz de reproducir el 68,2% de su variabilidad original.
Para hallar estas comunalidades se ha utiliza el método de extracción denominado componentes
principales. Dicho método de extracción, activado por defecto, asume que es posible explicar el 100% de
la varianza observada y por tanto considera que todas las comunalidades iniciales son iguales a la unidad
(que es justamente la varianza de una variable en puntuaciones típicas).
A partir de esta tabla podemos empezar a plantearnos si el número de factores obtenidos (enseguida
veremos cuáles son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en
el análisis. También podemos empezar a plantearnos en este momento si, dando por bueno el número de
factores extraído, alguna de las variables incluidas podría quedar fuera del análisis.
Inicial Extracción
Nivel educativo 1.00
.682 Categoría laboral 1.00
.782 Salario actual 1.00
.901 Salario inicial 1.00
.887
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
30/40
30
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Meses desde el contrato 1.00
.997 Experiencia previa (meses) 1.00
.894 Edad años 1.00
.889 Método de extracción: Análisis de Componentes principales.
La tabla de porcentajes de varianza explicada ofrece un listado de los autovaloresde la matriz de varianzasy del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la
varianza total que está explicada por cada factor; y los porcentajes de varianza explicada asociados a cada
factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide
con el número de variables). Por defecto, se extraen tantos factores como autovalores mayores que 1
tiene la matriz analizada.
Autovalores iniciales Sumas de las saturaciones al
cuadrado de la extracciónComponente Total % de la
varianza
%
acumulado
Total % de la
varianza
%
acumulado
1 3.167 45.242 45.242 3.167 45.242 45.242
2 1.857 26.528 71.769 1.857 26.528 71.769
3 1.008 14.405 86.174 1.008 14.405 86.174
4 0.429 6.125 92.299
5 0.247 3.523 95.822
6 0.194 2.776 98.598
7 0.098 1.402 100
La matriz de componentes principales contiene las correlaciones entre las variables originales (o
saturaciones) y cada uno de los factores. Conviene señalar que esta matriz cambia de denominación
dependiendo del método de extracción elegido. En este caso se denomina matriz de componentes
porque vamos a utilizar el método de componentes principales como método de extracción (activado
por defecto en el SPSS).
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
31/40
31
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Com onente 1 2 3
Nivel educativo .806 -.172 .047
Categoría laboral .843 .260 -
Salario actual .944 .089 .041Salario inicial .910 .232 -
Meses desde el contrato .043 .053 .996Ex eriencia revia meses -.179 .927 -
Edad años -.232 .914 .026Método de extracción: Análisis de componentes principales.
4.5 Requisitos
KMO y prueba de esfericidad de Bartlett . La medida de adecuación muestral KMO (Kaiser-Meyer-Olkin)
contrasta si las correlaciones parciales entre las variables son suficientemente pequeñas. Permite
comparar la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de
correlación parcial. El esta dístico KMO varía entre 0 y 1. Los valores pequeños indican que el análisis
factorial no es confiable; mientras más se acerque a 1 la cantidad de muestra es suficiente y las
correlaciones parciales son pequeñas.
La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es una
matriz identidad, en cuyo caso no existirían correlaciones significativas entre las variables y el modelo
factorial no sería pertinente.
4.6 Gráfico
El gráfico de sedimentación sirve para determinar el número óptimo de factores y es una representación
gráfica del tamaño de los autovalores.
Tanto la tabla de porcentajes de varianza explicada como el gráfico de sedimentación nos ofrecen
autovalores ordenados de mayor a menor. Si un autovalor se aproxima a cero, esto significa que el factor
correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por
tanto, un factor al que corresponde un autovalor próximo a cero se considera un factor residual y carente
de sentido en el análisis.
Los autovalores residuales se encuentran en la parte derecha del gráfico formando una planicie de poca
inclinación frente a la fuerte pendiente formada por los autovalores que explican la mayor parte de la
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
32/40
32
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
varianza disponible. Por ello, es conveniente inspeccionar el gráfico de sedimentación de izquierda a
derecha, buscando el punto de inflexión en el que los autovalores dejan de formar una pendiente
significativa y comienzan a describir una caída de poca inclinación.
4.7 Rotación.-Con la rotación se busca interpretar los casos en los que las cargas factoriales no estén
claras. Las rotaciones simplemente son movimientos de los ejes de tal manera que se mantenga la
comunalidad y el porcentaje de varianza explicada por el modelo, aunque no por cada eje. Lo que
buscamos es que cada factor tenga unos pocos pesos altos y el resto cercanos a cero, y que cada
variable este saturada en solo un factor.
El PASW tiene los siguientes tipos de rotación: varimax, equamax, quartimax, oblimin directo y
promax.
l
Número de factor
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
33/40
33
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
UNIDAD 5: MODELO LINEAL GENERAL
5.1 Regresión Lineal
Utilizamos la técnica de regresión lineal o mínimos cuadrados parciales dado que nos permite explicar unconcepto operacionalizado, como Desarrollo Humano o Calidad de la Democracia, por otros también
operacionalizados. Entablar una relación explicativa amerita que tengamos las denominaciones de
variable dependiente (variable a ser explicada) y variable independiente (variable explicativa). La técnica
de regresión se denominará regresión lineal simple si tenemos solo una independiente y regresión lineal
multivariante si tenemos más de una independiente. Las variables independientes pueden ser numéricas
(covariables) y categóricas (factores), cumpliendo estas últimas un rol de control; las variables
dependientes deben ser numéricas continuas, normales y no acotadas.
Al formar parte de los modelos lineales tenemos que considerar algunos aspectos a manera de requisitos.
En primer lugar tenemos que explorar nuestras variables y ver cómo se comportan: si es que existen
valores extremos, atípicos, palanca e influyentes.
Valores extremos.- Son aquellos valores lejanos del valor medio.
Valores atípicos.- Son valores extraños para lo normal de la variable.
Valores palanca.- Es un valor que está lejano del centroide. El centroide es el punto donde coinciden las
medias en una regresión.
Valores influyentes.- Estos valores son atípicos y palancas. Los valores atípicos o palanca no tienen que ser
influyentes necesariamente.
Variabledependiente
y
z
x
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
34/40
34
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
A la hora de correr la regresión debemos a su vez tener en cuenta la relación entre las variables incluidas
en el modelo. Para afirmar que hay explicación tenemos que encontrar significancia en las predictoras y
considerar que en el modelo no se presente multicolinealidad, que haya normalidad de los residuos,
homocedasticidad, no autocorrelación y no espuriedad.
Multicolinealidad.- Mientras se encuentre mayor relación entre las predictoras, los coeficientes del
modelo serán más inestables. Cuando tenemos que las predictoras se correlacionan entre sí es posible
que diferentes conceptos recojan información muy parecida y formen un patrón entre ellos (una recta si
están fuertemente correlacionados). No hay multicolinealidad si tenemos que el factor de inflación de
varianza (VIF) es menor que 4 y los valores de tolerancia son mayores a 0.25. Para evitar la
multicolinealidad se propone usar una técnica de reducción de dimensiones como el análisis factorial.
Normalidad de los residuos.- Los residuos se deben distribuir normalmente, sino la regresión se vuelve
ineficiente y se compromete a la explicación del modelo. Visualizamos la no normalidad cuando
graficamos un histograma de los residuos estandarizados. Las pruebas estadísticas para deslindar si
estamos ante un caso de normalidad o no son las siguientes: Kolmogorov-Smirnov, Anderson-Darling,
Shapiro-Francia y el Cramer von Misses.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
35/40
35
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Gráficamente no encontramos normalidad, pero para confirmar sacamos la prueba K-S.
Heterocedasticidad.- Tenemos heterocedasticidad cuando los errores se incrementan conforme varía la
variable de respuesta (Y). Se visualiza e en un gráfico de dispersión de puntos éntrelos residuos
estandarizados y los valores pronosticados tipificados. Cuando hay una forma en la dispersión diremos
que estamos ante un caso de heterocedasticidad; mientras que si tenemos una dispersión aleatoria (no
se presenta ninguna forma) diremos que estamos ante un caso de homocedasticidad. En otros paquetes
estadísticos como el R y el STATA podemos hallar el coeficiente de Breusch-Pagan que nos permite
deslindar si estamos ante un caso u otro. Si tenemos heterocedasticidad se recomienda hacer uso de la
regresión ponderada.
No autocorrelación.- Otro de los requisitos es que no se presente correlación entre los residuos. Para
afirmar esto vamos a considerar que el coeficiente de Durbin-Watson se encuentre entre 1.5 y 2.5.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
36/40
36
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
No espuriedad.- Se espera que las correlaciones de orden cero, parcial y semiparcial no decaigan
drásticamente. Si encontráramos tal caso afirmaríamos que la correlación mostrada es espúrea, y la
correlación estaría mediada por una tercera variable.
UNIDAD 6: MODELO DE REGRESIÓN LOGÍSTICA BINARIA
5.1 Definición
La regresión logística se caracteriza porque la variable respuesta (explicada) es dicotómica, es decir, oscila
entre valores 0 o 1, de manera que se pueda medir el "éxito" y "fracaso" de un evento determinado. Se
denota a la ocurrencia del evento como 1 y a la no ocurrencia del evento como 0. Por tanto, el modelo de
regresión logística permite observar si una variable dicotómica depende o no de, de otra u otras variables
explicativas. . Es importante recordar que la regresión logística es una técnica de causalidad que permite
estimar la probabilidad de que ocurra un suceso en función de la dependencia de otras variables.
La aplicación de la regresión logística tiene múltiples usos en las ciencias sociales, en ciencias naturales,
estudios de opinión pública, psicológicos, epistemológicos, etc.
Ejemplos de variables dependientes: Si /No posee una enfermedad, Aprobación/Desaprobación de una
autoridad pública.
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
37/40
37
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
5.2 Notación:
El modelo de regresión logística tiene la siguiente forma:
[()] = ()
− () = +
Donde, π(x) denota el éxito de la probabilidad del valor de X . El parámetro β determina la velocidad en
que π(x) aumenta o disminuye: El signo de β indica si la curva está ascendiendo (β > 0) o
descendiendo (β < 0)
La probabilidad de que ocurra el evento en cuestión como función de ciertas variables explicativas. Si ese
hecho que queremos modelizar o predecir lo representamos por Y (la variable dependiente), y las k
variables explicativas (independientes y de control) se designan por , , , … , la ecuación general(o función logística) es:
( = ) = +( − − − − … − )
5.2 Tratamiento de la variable Y:
En caso de no contar con unca variable dicotonima se puede realizar la transformaciòn de variable a una
variable dicotomica.
Ejemplo: Hablando del distrito donde usted vive, y pensando en la posibilidad de ser víctima de un delito,
¿Se siente…?
Muy seguroSensación de seguridad
Seguro
Variabledependiente
(Dicotómica)
y
zx
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
38/40
38
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
InseguroSensaciòn de inseguridad
Muy inseguro
5.3
Descripción del Modelo (Estádisticos del modelo):
Log-verosimilitud
El estimador mide hasta qué punto un modelo se ajusta bien a los datos. Cuanto más pequeñosea el valor, mejor será el ajuste.
R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke:
Indica la varianza de la variable dependiente explicada por el modelo. En general, la variable
dependiente explicada por el modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de
Nagelkerke. Cuanto más alto es la R-cuadrado más explicativo es el modelo, es decir, las variablesindependientes explican la variable dependiente. El R cuadrado de Cox y Snell se basa en la
comparación del log de la verosimilitud (LL) para el modelo respecto al log de la verosimilitud (LL)
para un modelo de línea base. Sus valores oscilan entre 0 y 1. En nuestro caso es el valor (0,124)
que indica que sólo el 12,4% de la variación de la variable dependiente es explicada por la variable
incluida en el modelo. El R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de
Cox y Snell. La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo
"perfecto". La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango
completo de 0 a 1, en este caso, el valor es 0.172 que indica que el 17,2% de la variación de la
variable dependiente es explicada por la variable incluida en el modelo.
Significación de chi-cuadrado del modelo en la prueba ómnibus:
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
39/40
39
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Se verifica el valor de significancia y la prueba de Ho : No hay relación, si la significancia de chi-
cuadrado es menor que 0.05 entonces se indica que el modelo ayuda a explicar el evento, es
decir, las variables independientes explican la variable dependiente.
Porcentaje global correctamente clasificado: Este porcentaje indica el número de casos que el
modelo es capaz de predecir correctamente. Si es modelo clasifica correctamente más del 50%
de los casos, el modelo se acepta.
Interpretación:
-
8/16/2019 Estadística Aplicada Usando SPSS Material.pdf
40/40
Curso-Taller:
ESTADÍSTICA APLICADA USANDO SPSS
Significación de b: si es menor de 0,05 esa variable independiente explica la variabledependiente
Signo de b: indica la dirección de la relación. Por ejemplo, a más nivel de ingresosmayor probabilidad de nivel educativo.
Exp(b) –exponencial de b: indica la fortaleza de la relación. Cuanto más alejada de 1está más fuerte es la relación.
( = 1 ) = 1
1+exp( − − − − … − )
Ejemplo: la ecuación de regresión logística del modelo en función de las mujeres (SEXO=1)
(=) = 11+ e xp(0.318− (−0.254) × ) =0.367