Estadística Aplicada Usando SPSS Material.pdf

8/16/2019 Estadística Aplicada Usando SPSS Material.pdf

1/40

1

Curso-Taller:

ESTADÍSTICA APLICADA USANDO SPSS

INTRODUCCIÓN

La estadística es una herramienta que sirve de apoyo a distintas disciplinas interesadas en conocer

regularidades de su objeto de estudio. La estadística es de suma utilidad para la construcción de modelos

que permitan verificar las hipótesis planteadas, y además, desde una perspectiva aplicada, brinda soporte

en la toma de decisiones.

Este curso no requiere de mayores conocimientos estadísticos, informáticos o matemáticos. En esta

oportunidad se hará uso del software de IBM Statistical Package for the Social Sciences (SPSS), una de las

principales herramientas en el análisis estadístico en ciencias sociales. Dicho software se hará cargo de los

cálculos matemáticos y de la construcción de los reportes numéricos y gráficos. Este curso será

completamente teórico y práctico, y buscará desarrollar los distintos temas de manera incremental para

facilitar el aprendizaje.

El curso se ha dividido en cinco unidades básicas:

1. Gestión del conocimiento y limpieza de datos

2. Exploración Univariada

3. Análisis Bivariado

4. Técnicas multivariadas básicas: Análisis Factorial

5. Técnicas de regresión: Regresión binomial y logística

Para el desarrollo del curso, se emplearán datos estadísticos acordes a los procedimientos a tratar.

Además, cada sección práctica estará acompañada de videos instructivos que permitan revisar los

procedimientos desarrollados en la clase.


2/40

2

Curso-Taller:


UNIDAD 1: GESTIÓN DEL CONOCIMIENTO

Para conocer el mundo de la estadística es necesario concebir en qué parte del proceso de gestión del

conocimiento está contemplada. Cuando nosotros concebimos la realidad, no la vemos tal cual; puesto

que, la complejidad de la misma nos impide tener una concepción sistémica. Es por ello que nuestro

cerebro procesa la realidad a través de modelos.

Estos modelos, o teorías, nos crean una concepción acerca de todo, desde cuestiones tan elementales

como nuestra percepción acerca de lo bueno y malo, hasta asuntos complejos como lo políticamente

correcto. Este mismo fenómeno se reproduce en las Ciencias Sociales. El ciclo escalonado del

procesamiento de la información parte del hecho que los diferentes modelos o teorías pueden interactuar

entre ellos para producir conocimiento. A este proceso se le conoce como gestión del conocimiento.

Un modelo podrá ser aceptado dentro de la investigación cuantitativa cuando éste sea válido, confiable y

factible. Por válido entendemos que el modelo puede ser generalizado; por confiable, que puede ser

replicado; y por factible, que puede responder a las interrogantes que el modelo plantea.

MODELO HIPÓTESISOPERACIONALIZACIÓN

CONCEPTUAL

ELECCIÓN DE DISEÑO DEINVESTIGACIÓN

RECOLECCIÓN DE DATOSANÁLISIS DE DATOS

REPORTE DE HALLAZGOS


3/40

3

Curso-Taller:


1.1 Modelamiento estadístico y metodología de la investigación

Los modelos estadísticos son sumamente útiles para la prueba de hipótesis, etapa importante dentro de

la metodología de la investigación. No obstante, llegar a probar una hipótesis no es un proceso sencillo;

puesto que, existe una serie de pasos previos para lograr la formulación de una hipótesis adecuada. Eneste curso solo delinearemos la secuencia de la investigación para ubicar adecuadamente el momento en

que la estadística es útil como herramienta apoyo.

1.2 Esquema básico de investigación

Cualquier investigación comienza cuando se percibe que una explicación no es satisfactoria. Este

problema no es extraño, sin embargo, no siempre se presta suficiente interés. Es precisamente cuando se

presta mayor atención que se decide estructurar el problema. Estas etapas son conocidas como los

antecedentes del problema y la formulación de la pregunta de investigación.

El desarrollo de una buena pregunta de investigación es primordial, dado que, será esta la que oriente el

trabajo. En ella deberán estar contenidos los conceptos de interés que luego serán teóricamente

analizados. Así pues, los conceptos de interés, al igual que las relaciones que se plantean en la pregunta,

serán el punto de partida para confeccionar nuestro marco teórico.

Una vez que se haya estructurado el tema de investigación de manera teórica se podrá plantear la

hipótesis, que es básicamente, la respuesta a la pregunta inicialmente formulada. En la hipótesis deben

estar claramente expuestos los conceptos de interés y la relación existente entre ellos propuesta. A partir

de allí solo queda contrastar tal hipótesis con lo que sucede en la realidad. Hecho el análisis respectivo se

podrá reportar si la hipótesis era sostenible y se redactarán las conclusiones.

1.3 Concepto, definición, variable, caso y valor

Existen algunos conceptos clave en las ciencias sociales: concepto, definición, variable, caso y valor. Cada

uno de ellos representa ideas bastante complejas. Por ejemplo, diferenciemos el concepto democracia

del concepto temperatura mediante sus definiciones. Empecemos por el concepto temperatura. La

temperatura según la física, es el promedio de energía cinética en la materia. El concepto es entonces un

modelo mental de algo que existe y le damos nombre (el término que denota al concepto, o significante)

para conocerlo. Su definición es la explicitación del concepto que permite que este se diferencie de lo ya

conocido. De ahí que la variable es simplemente una manera en que el concepto se manifiesta en el


4/40

4

Curso-Taller:


mundo y que puede tomar diversos valores. El valor se obtiene para cada uno de los casos de estudio

(unidad de análisis).

Sin embargo, en el caso del concepto democracia enfrentaremos algunos problemas metodológicos. En

primer lugar, el concepto puede tener diversas definiciones y no una única universalmente aceptada. Conla definición (y postura) de democracia elegida, se querrá saber el "nivel de democracia" en los países.

Pero esta variable tendrá algunos problemas (que "temperatura" no tuvo) pues no tiene una única manera

de ser medida. No existe un instrumento como el termómetro que permita saber el nivel de democracia,

por lo que se recurrirá a más de un valor para medir la variable. Cuando este es el caso, se llama variable

latente a aquella que hace uso de muchos valores. De ahí que, según la definición por la que optemos

habrá que buscar o recolectar varios valores.

Por ejemplo, la revista The Economist tiene una definición tal de democracia que usa los valores (o máspropiamente "modalidades") "proceso electoral y pluralismo", "libertades civiles", "funcionamiento real

del gobierno", "participación política" y "cultura política". Estos aún son constructos abstractos, por lo

que cada uno necesitará de sus propios valores. El resultado es la variable "nivel de democracia". Cuando

una variable se haya construido a partir del cálculo de otras, recibe el nombre de índice. Los valores de

una variable también son llamados indicadores.

1.4 Escalas de medición

Todo lo anterior puede parecer muy complicado, no obstante, son simplemente las pautas de cómo dar

valores a cualquier evento de la realidad. En este caso asumiremos que esto está dado ya que

trabajaremos con datas ya elaboradas. Sin embargo, al observar los datos será sumamente importante

saber diferenciar las distintas escalas en las que se hicieron las mediciones. En nuestro caso particular,

utilizaremos tres escalas: la nominal, la ordinal y la numérica.

a. La escala nominal

Las modalidades de la variable no presentan un orden entre sí, son solo categorías. Un ejemplo puede ser

la variable "país de nacimiento", "diario favorito", "empresa celular que utiliza". Cada una de estas

variables tendrá respuestas como "Perú", "Argentina", "El Comercio", "La República”, "Movistar", etc. Tal

como podemos observar, estas no provienen de conjuntos de alternativas que deban respetar un orden.


5/40

5

Curso-Taller:


b. La escala ordinal

Las modalidades siguen siendo cualitativas; por ejemplo, la variable "nivel educativo" puede referirse a

personas con nivel "primaria", "secundaria", "superior". Sin embargo, el conjunto de todas estas posibles

respuestas tiene un orden particular, que denota un mínimo (primaria) y un máximo, (superior).

c. La escala numérica

Las escalas nominal y ordinal representan estados cualitativos; sin embargo, cuando tratamos la escala

numérica, sí estamos haciendo referencia a la idea de magnitud. Cuando hablamos de magnitud podemos

referirnos a cosas tan cotidianas como nuestros "ahorros en soles", "peso", "altura", etc.

1.5 Codificación

Las escalas no serían muy difíciles de entender si no fuera porque la mayoría de las veces aparecen

codificadas, lo que puede causar confusión. La codificación es un paso sumamente necesario para que

cualquier programa informático sea capaz de procesar la información. Es mucho más sencillo para las

computadoras realizar cálculos estadísticos si los datos que manejan son números. Por ello, cuando se

abren y revisan algunas bases de datos en una computadora, lo único que se observa son caracteres

numéricos, aun cuando solo algunos de ellos representan variables en escala numérica y los demás,

variables en escala nominal u ordinal. Así, en vez de decir "en letras" el nivel educativo, aparecen números

que indican algún nivel de educación (1 para primaria, 2 para secundaria, 3 para educación superior, etc.).

Tal como mencionamos anteriormente, solo en el caso de las variables en escala numérica los números

representan una magnitud. Así pues, si la variable "empresa celular preferida" tiene el valor 2 para

“movistar” y el 1 para "nextel", no implica que la empresa movistar sea el doble o más importante que la

empresa nextel. En otras palabras, no es más que una simple etiqueta, un simple rótulo. Es diferente si la

variable fuera "número de hijos"; en ese caso, el que tiene 4 hijos posee más que el que tiene 2 (el doble).

Otro uso particular e importante de los códigos son los valores perdidos (missing values), que son los

códigos que se utilizan para indicar respuestas inadecuadas o inapropiadas o faltantes, pero que se


6/40

6

Curso-Taller:


señalan de manera explícita. Estos valores no se utilizan en los cálculos; más bien, la codificación que

tienen permite que los programas informáticos los ignoren (99, 999, .)

Una vez que disponemos de las definiciones de los conceptos que vamos a utilizar y habiendo definido

una estrategia de investigación que nos permita comprobar nuestra hipótesis es necesario puesoperacionalizar nuestras variables para obtener una mejor recolección de los datos, lo cual representa el

siguiente paso en el ciclo de investigación.

En el presente curso abordaremos el área de análisis de datos. El análisis de datos al igual que la

recolección de los mismos son ambos trabajados por la estadística, puesto que esta se define como la

ciencia de la organización, análisis e interpretación de los datos. Esto nos permite, como vemos en el

último punto; reportar hallazgos, que no es más que conocimiento producido a partir de los datos

disponibles. En otras palabras, la razón por la que la estadística es relevante es porque nos permiteproducir conocimiento que nos sirve para la toma de decisiones, esto es así, tanto para las ciencias

formales, como para el campo de las ciencias sociales.

Sin embargo, existen diferentes tipos de estadística. Por un lado tenemos la estadística matemática, la

cual se encarga de estudiar y desarrollar la teoría existente sobre esta ciencia. Esta rama nos provee de

las herramientas matemáticas para desarrollar el análisis estadístico de los procesos en las ciencias

sociales. Por otro lado, tenemos la estadística aplicada, la cual se encarga del procesamiento y análisis de

datos orientado a la toma de decisiones, será esta la que desarrollaremos en el presente curso. Esta rama

se subdivide en dos campos de estudio. La estadística descriptiva y la estadística inferencial.

La estadística descriptiva, presente en las unidades 2 y 3 se encarga de los métodos de visualización y

resumen numérico o gráfico de los datos de la población analizada. Es la rama donde se analiza de manera

unilateral la interacción de distintas variables. La estadística descriptiva llega a ver relación entre variables,

sin embargo, esta relación es simétrica. (Este concepto se desarrollará con mayor amplitud en la unidad

5).

La estadística inferencial, por otro lado, se dedica a la generación de los modelos direccionales, inferencias

y predicciones teniendo en cuenta lo aleatorio en las observaciones de una muestra. Esta rama de la

estadística ha sido ampliamente desarrollada por la economía, y su uso está en expansión dentro de las

demás ramas de las ciencias sociales.


7/40

7

Curso-Taller:


1b) MINERÍA DE DATOS

1.1 Definición

La Minería Datos es un sub-campo interdisciplinario de lo que se conoce como ciencias de la computación.

Es un mecanismo de explotación consistente con la búsqueda de información valiosa en grandesvolúmenes de datos. Su principal objetivo es extraer información de una base de datos y transformarla

para un uso más profundo. Involucra aspectos de manejo de bases de datos, procesamiento de data,

modelamiento y consideraciones inferenciales, consideraciones complejas, visualización, entre otros. En

ese sentido, y con fines de este curso, llamaremos “minería de datos” a todo el proceso del curso y en lo

puntual al proceso de organización y limpieza de datos.

Para comenzar esta parte del curso se les proveerá a los alumnos inscritos de una carpeta en DROPBOX o

un Google Drive de donde podrán descargar softwares libres en versión portable. Los softwares que se

van a utilizar para esta parte son los siguientes:

AbbyyFine Reader V.12Snagit v.11Acrobat v.11También se usará el Excel de Microsoft Office.El URL de donde se puede descargar los softwares portables es el siguiente:

https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M#

La carpeta de Dropbox se compartirá con los alumnos a través de los correos con los que se inscriban en

el curso.

1.2 Características de los Softwares

El AbbyyFine Reader es un software muy potente que tiene la finalidad de simplificar la conversión de

documentos a una versión editable. Particularmente el Abbyy Fine Reader es un sistema de

reconocimiento óptico de caracteres (OCR) que fácilmente puede convertir cualquier tipo de PDF,

documentos digitales y ficheros de imagen, incluyendo las fotos digitales, en documentos editables que

luego se pueden usar en las aplicaciones y el entorno Office. Este software servirá de pivote y se

complementará con los otros tres.

El Snagit es un simple software cuya función radica en capturar pantallas e imágenes previa selección del

marco. Este software es bastante intuitivo. Luego de capturar la pantalla o la sección que se quiere sepuede copiar y llevar aun documento. Sin embargo, usaremos este software para grabar las imágenes

como PDF’s y llevarlo al Abbyy Fine Reader.

El Acrobat es un software que permite editar PDF’s y es de fácil uso para ordenar páginas dentro de un

PDF. No se explorarán mayores funciones.

1.3 Índice de Temas

https://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2Mhttps://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2Mhttps://drive.google.com/folderview?id=0ByrDcIZ-4u1ed1RlYlgzMGswN2M


8/40

8

Curso-Taller:


1. Importación de datos desde documentos PDF.

a. Uso práctico del Abbyy Fine Reader.

b. Uso práctico del Snagit.

2. Importación de datos desde una página web.

a. Copy/Paste

b. Usar el Democracy Indexc. Importación hacia Excel.

3. Limpieza de Datos

a. Eliminación de valores repetidos

b. Sustitución de “,” por “.”

c. Separación de datos en columnas.

d. Eliminación de espacios dobles.

e. Concatenación de datos.

f. Filtrar y ordenar

g. Sustitución sistemática de caracteres.

h. Transcripción de datos y extraer valores únicos


9/40

9

Curso-Taller:


UNIDAD 2: EXPLORACIÓN UNIVARIADA

La exploración univariada está comprendida dentro del campo de la estadística descriptiva. Su uso es uno

de los más sencillos y a la vez más usados por los “promotores” de información cuantitativa. Así tenemos

que, en la presentación de una encuesta, lo que se presenta comúnmente son estadísticos descriptivos

de variables: resúmenes de conteos muestrales. El análisis puede darse a nivel de la variable misma o a

nivel de categorías, tal como vemos en la imagen.

En el ejemplo anterior, vemos que la variable es “preferencias electorales”, y el cuadro presentado es

simplemente el recuento de intención de voto hacia Ollanta Humala y Keiko Fujimori. En este caso, cada

opción de las filas: “Blanco/ Viciado” y “No sabe / No responde”, más la preferencia por ambos candidatos,

vendrían a ser las categorías de la variable; y las cifras obtenidas son una subdivisión por categorías.

Fuente: IOP PUCP


10/40

10

Curso-Taller:


En la exploración univariada debemos considerar que vamos a contar siempre con tres categorías de

análisis. El análisis de Tablas de frecuencia, medidas y gráficos. Estas tres categorías nos presentarán

diversas herramientas dependiendo de la naturaleza de la variable, si es de tipo Nominal, Ordinal o

Escalar.

2.1 Exploración de variables Nominales

Como vimos en la Unidad 1, las variables pueden encontrarse en tres escalas de medición. Dependiendo

de estas es que vamos a determinar qué tipo de análisis podemos aplicarle a una variable determinada.

En este caso, vamos a analizar las variables nominales.

a. Tablas de frecuencia

Una variable nominal solo reporta un registro no jerarquizado de categorías. En el ejemplo anterior,vemos que Ollanta Humala y Keiko Fujimori son dos categorías de una variable nominal, puesto que

ninguno de los dos presentan una jerarquía respecto del otro. Lo que vimos en el ejemplo anterior es una

tabla de frecuencias; ya que, esta presenta la información de la variable dividida en sus categorías; y hace

un recuentro de los datos que esta nos ofrece. En una variable nominal, las tablas de frecuencia se

presentan de manera similar a la del ejemplo.

b. Medidas

Además, tenemos el análisis de las medidas. Las variables nominales solo presentan una medida de

tendencia central y una de dispersión. Las primeras son llamadas así porque sirven para determinar una

medida que represente un punto principal o estadísticamente relevante dentro de la variable. Para el caso

de la variables nominales, el valor central es la moda.

Moda

La moda es una medida que muestra el valor que más se repite dentro de los datos que provee una

variable. Así, si uno tiene un salón de clases donde la distribución de notas es la siguiente:


11/40

11

Curso-Taller:


Podemos observar que el valor que más se repite en este caso es “Católico”.

Variación Modal

La variación modal es una medida de dispersión aplicable para la exploración de una variable nominal y

puede entenderse como “el porcentaje que no está representado por la moda”. Así, si tenemos que en

nuestro ejemplo de 5 casos, el 60% tiene una inclinación hacia una sola categoría (en este caso “Católico”),

entonces vemos que la variación modal serían los otros dos casos que son parte de la variable pero no

son parte de la moda (En este caso, es 40%).

c. Gráficos

Con respecto a los gráficos, tenemos al gráfico de barras y al gráfico de segmentos (Gráfico Pie). Estos se

encargan de presentar de manera visual el contenido de la información que presenta la variable a analizar.


12/40

12

Curso-Taller:


Ejemplos:

2.2 Exploración de variables Ordinales

Las variables ordinales si presentan una diferenciación jerarquizada de sus categorías, así podemos ver

que en una variable de tipo “Interés en la política”, podemos encontrar una diferenciación gradual que

puede ir desde “Ningún interés”, hasta “Interés absoluto”

Como vemos en nuestro ejemplo, la categorización abarca distintos grupos de clasificación, los cuales se

presentan en un orden ascendente de interés.

a. Tablas de Frecuencia

La tabla de frecuencias se presenta de manera similar a la de las variables nominales, con la diferencia de

que el orden de aparición ya no es arbitrario, sino que representa una estratificación que va desde la

menor intensidad hacia la mayor intensidad.

b. Medidas de tendencia central

En el caso de las medidas, a las ya vistas anteriormente (Moda y variación modal) se le une unan nueva

medida de valor central: La Mediana.

0

1

2

3

Encuestados

Encuestados

Serie 1Católico

Evangélico

Judio


13/40

13

Curso-Taller:


Mediana

La mediana es una medida de valor central que determina el punto medio de todos los casos que contiene

una variable. En otras palabras, cuando hablamos de mediana, hablamos del valor que dentro de los casos

se ubica en el centro.

Al tener una variable ordinal como Interés en la política:

Vemos que hasta el 50% de los valores que muestra la variable (En este ejemplo; el caso 5), la mediana

vendría a ser “Interés Moderado”. Podría darse el caso que la mediana sea igual a la moda, en la medida

que esta se ubique en el valor central de la distribución de los datos.

c. Medidas de Dispersión – N – Tiles.

Así como el valor central en una distribución de los datos es la mediana, existen diferentes divisiones en

la distribución de los datos, y por ello podemos hablar de toda una rama de divisiones que indican la

dispersión de los datos así como su posicionamiento. Estos son los N- tiles. Algunos de los N-tiles más

conocidos son los cuartiles y percentiles. Los cuartiles dividen los datos de una variable en tres cortes,

donde el 25%, será el cuartil 1, el 50% (la mediana) será el cuartil 2 y el 75% será el cuartil 3. Normalmente

se asume que los cuartiles indican tres momentos de posición de los datos, tal como vemos en la sección

de gráficos.

d. Gráficos

Además de los gráficos ya mencionados, la escala ordinal presenta los diagramas de caja o boxplots, los

cuales grafican los cuartiles.


14/40

14

Curso-Taller:


Como hemos visto en el ejemplo anterior,

1. Percentiles: 25 - 50 - 75

2.2 Exploración de variables Escalares

Para el caso de las variables escalares, el valor de los números dejan de tener un valor arbitrario para

pasar a tener un valor efectivo. Así, cuando hablamos de variables escalares nos referimos a una variable

BOX PLOT

Q3 = Q2=Máximo

Q1 = Q2

Q3 = Mediana,

mínimo, máximo

[Rpts: 1, 1, 1, 1]

Q1

Q3 = Máxima

Q2

Q1 = Mínimo

Mediana = Q3

Máximo

Mínimo

Ancho: A más ancho mayor dispersión Largo: Relación con respecto al máximo y al mínimo

Q3

Mediana

Q2


15/40

15

Curso-Taller:


numérica; en la medida que, lo que se recoge son cifras acerca de la variable. Como ejemplo tenemos a

“Número de casas”, “Percepción de ingresos mensuales”, etc.

Las tablas de frecuencia en las variables escalares sólo tienen sentido cuando esta se agrupa en intervalos.

De otra forma, el hacer una tabla de frecuencias nos da como resultado la presentación del a variable“caso por caso”. Como en este tipo de variables ya no tenemos categorías, vamos a ver que lo que

obtendremos es un recuento de todos los valores que se encuentran en la variable escalar; lo cual podrían

ser cientos o miles. Tamaña tabla no solo no es extensa, sino que su utilidad para el análisis estadístico es

nula.

Las variables escalares logran recuperar todas las medidas vistas anteriormente más la consideración de

que ahora entra a tallar la medida de tendencia central “Media” o “promedio”.

a. Medidas de tendencia Central

Media

La media es, como ya dijimos, el promedio de los valores que contiene la variable. En este caso, si tenemos

una variable donde se detalla el ingreso anual de una persona, vamos a ver que el promedio es la cifra de

la suma de sus sueldos mensuales, dividida entre el número de sueldos recibidos. La media es muy

importante pues este valor central se muestra como homogeneizador de la información de la variable. Sin

embargo, como veremos más adelante, la media no es el único valor que debe ser tomado en cuenta a la

hora de realizar un análisis.

Con la media debemos tener en cuenta varios aspectos. Primero, que la suma de los valores dentro de la

media empieza con el valor mínimo y va hasta el máximo. Esto es necesario de saber puesto que estos

valores extremos pueden distorsionar el resultado de la media.

b. Medidas de dispersión

Dentro de las medidas de dispersión, se incorporan la varianza, la desviación típica, la amplitud

intercuartil, y los valores mínimos y máximos.

Desviación típica y Varianza

La desviación típica muestra cuán alejados están los valores de la media. Es por ello que esta medida nos

puede dar una idea acerca de la dispersión de los datos de la variable. Si es que la desviación estándar/


16/40

16

Curso-Taller:


típica es alta, habrá mayor dispersión y la media será más robusta. Si es que la cifra es baja y se acerca al

0; los valores están más próximos a la media y, por ello, habrá menor dispersión.

La varianza es la desviación típica elevada al cuadrado. Esto se hace con el objetivo de lograr una mayor

precisión a la hora de comparar valores que se pueden diferenciar por milésimas en la desviaciónestándar, pero la distancia se agranda con la comparación entre varianzas.

Asimetría

La asimetría nos permite observar cual ha sido la naturaleza de la distribución de los datos. Es decir, cual

ha sido la forma en la que todos los datos se han desplazado a lo largo de la variable.

Así, tenemos que esta puede ser negativa, Nula (simétrica) o positiva.

Curtosis

La curtosis se refiere al apuntamiento o concentración de las variables a lo largo de la data. Ahora ya no

vemos si es que los datos están concentrados en determinado cuartil de la distribución, sino cuan

concentrados están.


17/40

17

Curso-Taller:


Estimadores M:

Además de los las medidas de tendencia central clásicas en las variables escalares: Moda, mediana y

media; vemos que existe una serie de pruebas estadísticas para contrastar el valor de la media y tener

una idea acerca de la robustez de la misma. Estos test se llaman los estimadores M y son 4.

- Onda de Andrews

- M de Hampel.

- M de Tuckey

- M de Huber.

Estos cuatro estimadores se leen en simultaneo y la forma correcta de interpretarlos es comparando el

resultado entre los cuatro y con la media. Si la variación entre los estimadores M y la Media es mínima,

significa que la media es robusta. Sin embargo, si esta es considerable, es mejor guiarse de los estimadores

M más que de la media, pues existen valores dentro de la variable que están sesgando la media.

c. Gráficos

Barras de Error: Las barras de error se encargan de representar de manera gráfica a la media y a la

desviación estándar. El gráfico se interpreta como “La media” como el centro circular, y el rango en donde

la media se puede desplazar, los “bigotes” del error bar.

Fig 1

ddddddddddd

dddd0

Mesocúrtica

Fig 2

> 0

Leptocurtica

Fig. 3

< 0

Platicúrtica

Una media será

robusta cuando

tenga dispersión

baja, cuando sea

simétrica ymesocurtica. El

coeficiente de

Simetría y curtosis

debe acercarse a

0.


18/40

18

Curso-Taller:


Histogramas: Es la representación segmentada de la distribución de

valores numéricos. En tal sentido, las barras no representan categorías

como sí lo son en el caso de los gráficos de barras, sino que

representan un determinado N-til, es decir, cierto sector de la

distribución de los datos de una variable.

Media

Barras de Error.


19/40

19

Curso-Taller:


UNIDAD 3: ANÁLISIS BIVARIADO

La exploración de dos variables siempre analiza la interacción entre las mismas, y es por ello que podemosver diferentes tipos de interacción. Una de ellas nos informa acerca de si existe o no relación entre dos

variables y cuál es la naturaleza de dicha relación. Por naturaleza de la relación me refiero a las

características que esta tiene. Como veremos, la relación por si misma se ve complementada con medidas

de intensidad y sentido.

Ahora, para empezar a trabajar esta unidad es necesario hacer una precisión metodológica. El análisis

bivariado parte de una básica distinción. Para el caso de las variables cualitativas (Categóricas, atributivas,

etc.) vamos a usar el análisis de las tablas de contingencia, pues esta sirve para analizar variables

nominales y/u ordinales. En el caso que necesite hallar una relación entre una variable cualitativa y una

cuantitativa o escalar, una forma de analizar esta relación entre variables es a través de la recodificación.

Análisis entre:

Nominal Nominal

Ordinal Nominal

Ordinal Ordinal

Las tablas de contingencia son matrices donde se visualizan cruces de información entre dos variables.

Con esto se pretende analizar la dinámica de la relación entre las dos variables que estemos analizando.

La forma cómo se presentan las tablas de contingencia es simétrica, es decir, que no importa que variable

vaya en las filas o columnas, ya que la relación existente entre las dos variables es de doble sentido (Una

afecta a la otra sin estar de por medio un vínculo relacional de causalidad o impacto).

Dentro del análisis bivariado dentro de las tablas de contingencia, nos podemos permitir la subdivisión de

los resultados de las relaciones de las variables relacionables a través de la introducción de variables de

control. Estas generarán un análisis bivariado, pero dividido de acuerdo a las categorías que la variable de

control necesita. (recuérdese que las variables deben ser cualitativas, es decir, nominales, ordinales, o

escalares reconvertidas en intervalos).


20/40

20

Curso-Taller:


Ejemplo: Relación entre las variables: “¿Politicamente se considera?” y “Nivel Educativo”

% de Nivel Educativo

Nivel Educativo

Total1. Menos que

Secundaria

2. Secundaria

Completa

3. Más que

secundaria

Politicamente

se considera?

1. Muy liberal 3.1% 3.5% 6.0% 5.1%

2. Liberal 7.8% 8.1% 10.7% 9.8%

3. Algo liberal 19.5% 21.9% 21.8% 21.6%

4. Moderado 9.4% 7.4% 6.1% 6.7%

5. Algo

conservador46.1% 36.3% 29.1% 32.5%

6. Conservador 8.6% 13.6% 17.0% 15.4%

7. Muy

Conservador

5.5% 9.2% 9.3% 9.0%

Total 100.0% 100.0% 100.0% 100.0%

3.1 Principales Medidas – Estadísticos

a. Chi – Cuadrado

Chi – Cuadrado es un test estadístico que nos permite hallar la relación entre variables. Este test solo tepermite hallar si es que una variable está relacionada con la otra, sin embargo, para saber más acerca de

la naturaleza de la relación, es necesario elaborar algunas pruebas más. La forma como se debe

interpretar el test de Chi – Cuadrado es a través de la significancia. La significancia es el valor que se debe

considerar para aceptar o rechazar la hipótesis neutra que la prueba tiene como premisa. En el caso de


21/40

21

Curso-Taller:


Chi – Cuadrado, la premisa es: “Las variables no están relacionadas entre sí”. La forma como se intepreta

la significancia es:

Mayor a 0,050 Aceptas la Hipótesis.

Menor a 0,050 Rechazas la Hipótesis.

Pruebas de chi-cuadrado

Vemos la sig. Asintótica (bilateral) para determinar si hay o no hay relación. Va a haber relación siempre

y cuando la significancia de la fila del chi-cuadrado de Pearson sea menor a 0.05. Y no habrá relación

cuando sea mayor a 0.05. Por ejemplo, en la tabla anterior, como la significancia es menor a 0.05 sí habrá

relación.

3.2 Medidas de Intensidad y Sentido

Una vez que confirmamos la relación entre las variables, conviene analizar la naturaleza de la misma. De

esto se desprenden las medidas de intensidad y Sentido. La primera nos ayudará a ver la fortaleza de la

relación entre las variables, de manera que:

Valor gl Sig. asintótica (bilateral)

Chi-cuadrado de

Pearson31.812(a) 12 .001

Razón de

verosimilitudes32.298 12 .001

Asociación lineal por

lineal1.052 1 .305

N de casos válidos 1619


22/40


23/40

23

Curso-Taller:


Las pruebas de sentido o de dirección de la relación entre variables sirven para ver la forma cómo varía la

intensidad en la relación entre las variables. Así, podemos hablar de dos conceptos clave. Directamente

proporcional (sentido Positivo) o Inversamente proporcional (sentido Negativo). El primero quiere decir

que a mayor cantidad de uno, mayor cantidad de otro, Mientras que el segundo nos dice que a mayor

cantidad de uno, menor cantidad del otro.

Las pruebas estadísticas que nos presentan la dirección solo se pueden usar para variables ordinales. Esto

es así porque no podemos determinar a mayor cantidad de una y otra categoría sin antes asignarle un

valor jerárquico a la variable en sí. Como podemos recordar, en las variables nominales no podemos

asignar valores de orden o jerarquía, por lo que la prueba de dirección no puede ser aplicable.

La prueba de sentido de la relación entre dos variables es la D de Sommers. Esta herramienta permite al

mismo tiempo analizar la fuerza o intensidad y el sentido o dirección de la relación. Esta se leeinterpretando el coeficiente, de manera que una relación con sentido directamente proporcional tendrá

el signo positivo en el coeficiente que se presenta; mientras que una relación con sentido inversamente

proporcional mostrará el coeficiente en números negativos. El valor absoluto del coeficiente nos servirá

para analizar la fuerza del mismo.

3.3 R de Pearson y Correlación Parcial

R de Pearson es una prueba estadística que mide la correlación lineal entre variables numéricas que se

distribuyen normalmente. La hipótesis nula de R de Pearson es que “no existe una correlación lineal entre

las variables”.

Dentro de las correlaciones, tenemos a la correlación parcial, que es una prueba que permite evaluar el

resultado de una correlación entre dos variables numéricas, teniendo en cuenta el retiro del efecto de

una que puede intervenir. En otras palabras, con la correlación parcial se puede estimar “que hubiera

pasado sí” dicha variable no estuviera relacionada en lo absoluto con la correlación inicial.

3.4 Notas adicionales – Otros tipos de Interacción entre dos variables

a. Kappa

La prueba de Kappa se usa para medir el índice de acuerdo entre dos variables, categórica y politómica en

distintos modelos. Por ejemplo, la aprobación en un momento dado y la aprobación en un momento

previo.


24/40

24

Curso-Taller:


b. Mc Nemar

La prueba de Mc Nemar nos ayuda a comparar el cambio en el tiempo de una variable determinada. Es

considerado un análisis bivariado porque se tiene una doble medición de la variable, pero en dos

momentos distintos. Comparas a la Variable “Momento N” respecto de la variable “Momento N + M”.

UNIDAD 4: ESCALAMIENTO ÓPTICO Y TÉCNICAS MULTIVARIADAS BÁSICAS ANÁLISIS FACTORIAL

4.1 Escalamiento óptimo: Análisis de Componentes Principales Categóricos - CATPCA

Definición

El análisis de Componentes Principales Categóricos (también por el acrónimo CATPCA, del inglés

CATegorical Principal Components Analysis) es una técnica de reducción de dimensiones, que por mediodel escalamiento óptimo obtiene, de un conjunto de variables con determinadas características o

propiedades específicas, un número menor de variables generales, las cuales agrupan un porcentaje de

las propiedades de cada variable específica en términos de medida mixtos. Este procedimiento cuantifica

simultáneamente las variables categóricas a la vez que reduce la dimensionalidad de los datos.

El objetivo de los análisis de componentes principales es la reducción de un conjunto original de variables

en un conjunto más pequeño de componentes no correlacionados que representen la mayor parte de la

información encontrada en las variables originales. La técnica es más útil cuando un extenso número de

variables impide una interpretación eficaz de las relaciones entre los objetos (sujetos y unidades). Al

reducir la dimensionalidad, se interpreta un pequeño número de componentes en lugar de un extenso

número de variables.

A diferencia del Análisis Factorial, en donde se realiza un análisis de relaciones lineales entre variablesnuméricas; el método de escalamiento óptimo permite escalar las variables a diferentes niveles, siendoposible en análisis para variables cualitativas. Las variables categóricas se cuantifican de forma óptimabajo una dimensionalidad especificada.

Dentro de los casos en donde se usa esta prueba estadística con mayor frecuencia tenemos a la creación

de indicadores a partir de un conjunto determinado de variables, así como la verificación estadística de

indicadores creados previamente. Se puede utilizar también para representar gráficamente la relación

entre la categoría laboral de un ciudadano, la región a la que pertenece, el número de desplazamientos

(alto, medio y bajo) y la satisfacción laboral. Al usar la prueba se puede apreciar que cuantificando las

variables a dos dimensiones, se puede explicar una gran cantidad de varianza. La primera dimensión

podría separar la categoría laboral de la región, mientras que la segunda dimensión podría separar la

división laboral del número de desplazamientos. También podrá observar que la alta satisfacción laboral

está relacionada con un número medio de desplazamientos.


25/40

25

Curso-Taller:


Características y diferencias

El análisis de Componente Principales Categóricos (CATPCA) convierte a los valores de una variable

cuantitativa en números enteros positivos por orden alfabético ascendente. Los valores perdidos del

usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos. Sin

embargo, se puede añadir una constante o recodificar las variables con valores inferiores a 1 para evitar

que se pierdan los mismos. Para que la prueba pueda ser válida los datos deben contener al menos tres

casos válidos, es por ello que si se encuentran casos que necesiten una estandarización en sus valores, se

puede aplicar un análisis de discrecionalización, que agrupará las variables al valor entero más próximo

para rescatar la información. El análisis se basa en datos enteros positivos.

¿Cómo realizar el Análisis de Componentes Principales Categóricos (CATPCA) en SPSS?

Dentro del Menú analizar, seleccionar la opción “Reducción de datos”, y dentro de ellas, “Escalamiento

Óptimo”.

La técnica de Escalamiento óptimo está diseñada para variables categóricas. Como mencionamos

inicialmente, existen variables categóricas nominales dicotómicas y politómicas; además de variablescategóricas ordinales. Es por ello que para realizar la prueba debemos reconocer dicha diferenciación.


26/40

26

Curso-Taller:


La diferencia que establece el SPSS refiere a las variables nominales politómicas y las que no lo son. En

caso se trabaje con variables ordinales se debe seleccionar la segunda opción. Una vez seleccionadas las

variables de análisis, se debe definir la escala y ponderación que esta sigue.

En caso el análisis de las variables no considera la ponderación de variables, mantendrá un valor de

ponderación 1. Asimismo, se puede establecer el nivel de escalamiento óptimo de acuerdo al tipo de

variable.


27/40

27

Curso-Taller:


El escalamiento óptimo es sensible a analizar la información en función a los valores identificados,

independientemente de si estos han sido válidos o perdidos. Para ello es importante recalcar que los

valores perdidos deben ser excluídos.

Los resultados del escalamiento óptimo deben estar expresados en función de las variables resultantes

que obtendremos, pero para dicho fin no es necesario contar con las correlaciones de las variables

transformadas.


28/40

28

Curso-Taller:


La lectura se realiza de manera similar al análisis factorial. Sin embargo existen ciertas diferencias en la

interpretación de los reclutados en torno al Alfa de Cronbach. Esta prueba debe tener un coeficiente

superior a 0.700, para considerar que la confiabilidad de la operativización de las variables es fuerte, y por

lo tanto el nivel de información de las variables resultantes es representativo.

4.2 ¿Qué es el análisis factorial?

El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de

variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos se forman con las

variables que se correlacionan mucho entre sí y que los grupos sean independientes de otros.

Cuando recogemos un gran número de variables de forma simultánea, como en una encuesta sobre el

nivel de gobernabilidad, podemos estar interesados en averiguar si las preguntas del cuestionario se

agrupan de alguna forma característica. Aplicando un análisis factorial a las respuestas de los individuos

podemos encontrar grupos de variables con significado común y conseguir de esta manera reducir el

número de dimensiones necesarias para explicar las respuestas de los sujetos.

A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regresión, en el análisis


29/40

29

Curso-Taller:


factorial todas las variables del análisis cumplen el mismo papel: todas ellas son independientes en el

sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Vale recordar

por tanto que con el análisis factorial no estamos planteando un modelo explicativo o causal entre

variables independientes y dependientes.

4.3 Etapas

Para el desarrollo del análisis factorial en SPSS (PASW) tenemos 4 etapas principales:

a. El cálculo de una matriz que expresa la variabilidad conjunta de todas las variables

b. La extracción del número óptimo de factores

c. La rotación de la solución para facilitar la interpretación

d. La estimación de las puntuaciones de los sujetos en las nuevas dimensiones

4.4 Leyendo los resultados

La tabla a continuación contiene las comunalidades asignadas inicialmente a las variables (inicial ) y las

comunalidades reproducidas por la solución factorial (extracción). Podemos entender la comunalidad

de una variable como la proporción de su varianza que puede ser explicada por el modelo factorial

obtenido. Estudiando las ‘comunalidades’ de la extracción podemos valorar cuáles de las variables son

peor explicadas por el modelo. En nuestro ejemplo, la variable nivel educativo es la peor explicada: el

modelo sólo es capaz de reproducir el 68,2% de su variabilidad original.

Para hallar estas comunalidades se ha utiliza el método de extracción denominado componentes

principales. Dicho método de extracción, activado por defecto, asume que es posible explicar el 100% de

la varianza observada y por tanto considera que todas las comunalidades iniciales son iguales a la unidad

(que es justamente la varianza de una variable en puntuaciones típicas).

A partir de esta tabla podemos empezar a plantearnos si el número de factores obtenidos (enseguida

veremos cuáles son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en

el análisis. También podemos empezar a plantearnos en este momento si, dando por bueno el número de

factores extraído, alguna de las variables incluidas podría quedar fuera del análisis.

Inicial Extracción

Nivel educativo 1.00

.682 Categoría laboral 1.00

.782 Salario actual 1.00

.901 Salario inicial 1.00

.887


30/40

30

Curso-Taller:


Meses desde el contrato 1.00

.997 Experiencia previa (meses) 1.00

.894 Edad años 1.00

.889 Método de extracción: Análisis de Componentes principales.

La tabla de porcentajes de varianza explicada ofrece un listado de los autovaloresde la matriz de varianzasy del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la

varianza total que está explicada por cada factor; y los porcentajes de varianza explicada asociados a cada

factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide

con el número de variables). Por defecto, se extraen tantos factores como autovalores mayores que 1

tiene la matriz analizada.

Autovalores iniciales Sumas de las saturaciones al

cuadrado de la extracciónComponente Total % de la

varianza

%

acumulado

Total % de la

varianza

%

acumulado

1 3.167 45.242 45.242 3.167 45.242 45.242

2 1.857 26.528 71.769 1.857 26.528 71.769

3 1.008 14.405 86.174 1.008 14.405 86.174

4 0.429 6.125 92.299

5 0.247 3.523 95.822

6 0.194 2.776 98.598

7 0.098 1.402 100

La matriz de componentes principales contiene las correlaciones entre las variables originales (o

saturaciones) y cada uno de los factores. Conviene señalar que esta matriz cambia de denominación

dependiendo del método de extracción elegido. En este caso se denomina matriz de componentes

porque vamos a utilizar el método de componentes principales como método de extracción (activado

por defecto en el SPSS).


31/40

31

Curso-Taller:


Com onente 1 2 3

Nivel educativo .806 -.172 .047

Categoría laboral .843 .260 -

Salario actual .944 .089 .041Salario inicial .910 .232 -

Meses desde el contrato .043 .053 .996Ex eriencia revia meses -.179 .927 -

Edad años -.232 .914 .026Método de extracción: Análisis de componentes principales.

4.5 Requisitos

KMO y prueba de esfericidad de Bartlett . La medida de adecuación muestral KMO (Kaiser-Meyer-Olkin)

contrasta si las correlaciones parciales entre las variables son suficientemente pequeñas. Permite

comparar la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de

correlación parcial. El esta dístico KMO varía entre 0 y 1. Los valores pequeños indican que el análisis

factorial no es confiable; mientras más se acerque a 1 la cantidad de muestra es suficiente y las

correlaciones parciales son pequeñas.

La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es una

matriz identidad, en cuyo caso no existirían correlaciones significativas entre las variables y el modelo

factorial no sería pertinente.

4.6 Gráfico

El gráfico de sedimentación sirve para determinar el número óptimo de factores y es una representación

gráfica del tamaño de los autovalores.

Tanto la tabla de porcentajes de varianza explicada como el gráfico de sedimentación nos ofrecen

autovalores ordenados de mayor a menor. Si un autovalor se aproxima a cero, esto significa que el factor

correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por

tanto, un factor al que corresponde un autovalor próximo a cero se considera un factor residual y carente

de sentido en el análisis.

Los autovalores residuales se encuentran en la parte derecha del gráfico formando una planicie de poca

inclinación frente a la fuerte pendiente formada por los autovalores que explican la mayor parte de la


32/40

32

Curso-Taller:


varianza disponible. Por ello, es conveniente inspeccionar el gráfico de sedimentación de izquierda a

derecha, buscando el punto de inflexión en el que los autovalores dejan de formar una pendiente

significativa y comienzan a describir una caída de poca inclinación.

4.7 Rotación.-Con la rotación se busca interpretar los casos en los que las cargas factoriales no estén

claras. Las rotaciones simplemente son movimientos de los ejes de tal manera que se mantenga la

comunalidad y el porcentaje de varianza explicada por el modelo, aunque no por cada eje. Lo que

buscamos es que cada factor tenga unos pocos pesos altos y el resto cercanos a cero, y que cada

variable este saturada en solo un factor.

El PASW tiene los siguientes tipos de rotación: varimax, equamax, quartimax, oblimin directo y

promax.

l

Número de factor


33/40

33

Curso-Taller:


UNIDAD 5: MODELO LINEAL GENERAL

5.1 Regresión Lineal

Utilizamos la técnica de regresión lineal o mínimos cuadrados parciales dado que nos permite explicar unconcepto operacionalizado, como Desarrollo Humano o Calidad de la Democracia, por otros también

operacionalizados. Entablar una relación explicativa amerita que tengamos las denominaciones de

variable dependiente (variable a ser explicada) y variable independiente (variable explicativa). La técnica

de regresión se denominará regresión lineal simple si tenemos solo una independiente y regresión lineal

multivariante si tenemos más de una independiente. Las variables independientes pueden ser numéricas

(covariables) y categóricas (factores), cumpliendo estas últimas un rol de control; las variables

dependientes deben ser numéricas continuas, normales y no acotadas.

Al formar parte de los modelos lineales tenemos que considerar algunos aspectos a manera de requisitos.

En primer lugar tenemos que explorar nuestras variables y ver cómo se comportan: si es que existen

valores extremos, atípicos, palanca e influyentes.

Valores extremos.- Son aquellos valores lejanos del valor medio.

Valores atípicos.- Son valores extraños para lo normal de la variable.

Valores palanca.- Es un valor que está lejano del centroide. El centroide es el punto donde coinciden las

medias en una regresión.

Valores influyentes.- Estos valores son atípicos y palancas. Los valores atípicos o palanca no tienen que ser

influyentes necesariamente.

Variabledependiente

y

z

x


34/40

34

Curso-Taller:


A la hora de correr la regresión debemos a su vez tener en cuenta la relación entre las variables incluidas

en el modelo. Para afirmar que hay explicación tenemos que encontrar significancia en las predictoras y

considerar que en el modelo no se presente multicolinealidad, que haya normalidad de los residuos,

homocedasticidad, no autocorrelación y no espuriedad.

Multicolinealidad.- Mientras se encuentre mayor relación entre las predictoras, los coeficientes del

modelo serán más inestables. Cuando tenemos que las predictoras se correlacionan entre sí es posible

que diferentes conceptos recojan información muy parecida y formen un patrón entre ellos (una recta si

están fuertemente correlacionados). No hay multicolinealidad si tenemos que el factor de inflación de

varianza (VIF) es menor que 4 y los valores de tolerancia son mayores a 0.25. Para evitar la

multicolinealidad se propone usar una técnica de reducción de dimensiones como el análisis factorial.

Normalidad de los residuos.- Los residuos se deben distribuir normalmente, sino la regresión se vuelve

ineficiente y se compromete a la explicación del modelo. Visualizamos la no normalidad cuando

graficamos un histograma de los residuos estandarizados. Las pruebas estadísticas para deslindar si

estamos ante un caso de normalidad o no son las siguientes: Kolmogorov-Smirnov, Anderson-Darling,

Shapiro-Francia y el Cramer von Misses.


35/40

35

Curso-Taller:


Gráficamente no encontramos normalidad, pero para confirmar sacamos la prueba K-S.

Heterocedasticidad.- Tenemos heterocedasticidad cuando los errores se incrementan conforme varía la

variable de respuesta (Y). Se visualiza e en un gráfico de dispersión de puntos éntrelos residuos

estandarizados y los valores pronosticados tipificados. Cuando hay una forma en la dispersión diremos

que estamos ante un caso de heterocedasticidad; mientras que si tenemos una dispersión aleatoria (no

se presenta ninguna forma) diremos que estamos ante un caso de homocedasticidad. En otros paquetes

estadísticos como el R y el STATA podemos hallar el coeficiente de Breusch-Pagan que nos permite

deslindar si estamos ante un caso u otro. Si tenemos heterocedasticidad se recomienda hacer uso de la

regresión ponderada.

No autocorrelación.- Otro de los requisitos es que no se presente correlación entre los residuos. Para

afirmar esto vamos a considerar que el coeficiente de Durbin-Watson se encuentre entre 1.5 y 2.5.


36/40

36

Curso-Taller:


No espuriedad.- Se espera que las correlaciones de orden cero, parcial y semiparcial no decaigan

drásticamente. Si encontráramos tal caso afirmaríamos que la correlación mostrada es espúrea, y la

correlación estaría mediada por una tercera variable.

UNIDAD 6: MODELO DE REGRESIÓN LOGÍSTICA BINARIA

5.1 Definición

La regresión logística se caracteriza porque la variable respuesta (explicada) es dicotómica, es decir, oscila

entre valores 0 o 1, de manera que se pueda medir el "éxito" y "fracaso" de un evento determinado. Se

denota a la ocurrencia del evento como 1 y a la no ocurrencia del evento como 0. Por tanto, el modelo de

regresión logística permite observar si una variable dicotómica depende o no de, de otra u otras variables

explicativas. . Es importante recordar que la regresión logística es una técnica de causalidad que permite

estimar la probabilidad de que ocurra un suceso en función de la dependencia de otras variables.

La aplicación de la regresión logística tiene múltiples usos en las ciencias sociales, en ciencias naturales,

estudios de opinión pública, psicológicos, epistemológicos, etc.

Ejemplos de variables dependientes: Si /No posee una enfermedad, Aprobación/Desaprobación de una

autoridad pública.


37/40

37

Curso-Taller:


5.2 Notación:

El modelo de regresión logística tiene la siguiente forma:

[()] = ()

− () = +

Donde, π(x) denota el éxito de la probabilidad del valor de X . El parámetro β determina la velocidad en

que π(x) aumenta o disminuye: El signo de β indica si la curva está ascendiendo (β > 0) o

descendiendo (β < 0)

La probabilidad de que ocurra el evento en cuestión como función de ciertas variables explicativas. Si ese

hecho que queremos modelizar o predecir lo representamos por Y (la variable dependiente), y las k

variables explicativas (independientes y de control) se designan por , , , … , la ecuación general(o función logística) es:

( = ) = +( − − − − … − )

5.2 Tratamiento de la variable Y:

En caso de no contar con unca variable dicotonima se puede realizar la transformaciòn de variable a una

variable dicotomica.

Ejemplo: Hablando del distrito donde usted vive, y pensando en la posibilidad de ser víctima de un delito,

¿Se siente…?

Muy seguroSensación de seguridad

Seguro

Variabledependiente

(Dicotómica)

y

zx


38/40

38

Curso-Taller:


InseguroSensaciòn de inseguridad

Muy inseguro

5.3

Descripción del Modelo (Estádisticos del modelo):

Log-verosimilitud

El estimador mide hasta qué punto un modelo se ajusta bien a los datos. Cuanto más pequeñosea el valor, mejor será el ajuste.

R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke:

Indica la varianza de la variable dependiente explicada por el modelo. En general, la variable

dependiente explicada por el modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de

Nagelkerke. Cuanto más alto es la R-cuadrado más explicativo es el modelo, es decir, las variablesindependientes explican la variable dependiente. El R cuadrado de Cox y Snell se basa en la

comparación del log de la verosimilitud (LL) para el modelo respecto al log de la verosimilitud (LL)

para un modelo de línea base. Sus valores oscilan entre 0 y 1. En nuestro caso es el valor (0,124)

que indica que sólo el 12,4% de la variación de la variable dependiente es explicada por la variable

incluida en el modelo. El R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de

Cox y Snell. La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo

"perfecto". La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango

completo de 0 a 1, en este caso, el valor es 0.172 que indica que el 17,2% de la variación de la

variable dependiente es explicada por la variable incluida en el modelo.

Significación de chi-cuadrado del modelo en la prueba ómnibus:


39/40

39

Curso-Taller:


Se verifica el valor de significancia y la prueba de Ho : No hay relación, si la significancia de chi-

cuadrado es menor que 0.05 entonces se indica que el modelo ayuda a explicar el evento, es

decir, las variables independientes explican la variable dependiente.

Porcentaje global correctamente clasificado: Este porcentaje indica el número de casos que el

modelo es capaz de predecir correctamente. Si es modelo clasifica correctamente más del 50%

de los casos, el modelo se acepta.

Interpretación:


40/40

Curso-Taller:


Significación de b: si es menor de 0,05 esa variable independiente explica la variabledependiente

Signo de b: indica la dirección de la relación. Por ejemplo, a más nivel de ingresosmayor probabilidad de nivel educativo.

Exp(b) –exponencial de b: indica la fortaleza de la relación. Cuanto más alejada de 1está más fuerte es la relación.

( = 1 ) = 1

1+exp( − − − − … − )

Ejemplo: la ecuación de regresión logística del modelo en función de las mujeres (SEXO=1)

(=) = 11+ e xp(0.318− (−0.254) × ) =0.367

Estadística Aplicada Usando SPSS Material.pdf

Documents

Transcript of Estadística Aplicada Usando SPSS Material.pdf