Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores...

39
Análisis estadístico básico (I) Magdalena Cladera Munar [email protected] Departament d’Economia Aplicada Universitat de les Illes Balears

Transcript of Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores...

Page 1: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Análisis estadístico básico (I)

Magdalena Cladera [email protected]

Departament d’Economia AplicadaUniversitat de les Illes Balears

Page 2: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

CONTENIDOS

Introducción a la inferencia estadística.Muestreo.

Estimación de parámetros.

Contrastación de hipótesis.

Asociación de variables categóricas.Tablas de contingencia.

Medidas de asociación.

Page 3: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

REFERENCIAS

Alegre, J. y Cladera, M. (2003). Introducción a la Estadística Descriptiva para Economistas. Materials Didàctics UIB, 101. Palma de Mallorca.

Newbold, P. (1997). Estadística para los Negocios y la Economía. Prentice-Hall. Madrid.

Peña, D. y Romo, D. (1997). Introducción a la Estadística para las Ciencias Sociales. McGrawHill. Madrid.

Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el análisis de datos. Accesible en: http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf.

Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid.

Page 4: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Contenidos:

Muestreo.

Estimación de parámetros.

Contrastación de hipótesis.

Page 5: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Objetivo: extraer conclusiones sobre una población a partir de la información contenida en un subconjunto de elementos extraídos de la misma, es decir, una muestra.

En el contexto de la inferencia estadística se supone que en la población se estudia una variable aleatoria, X, con una determinada función de probabilidad, caracterizada por un/os parámetro/s. Mediante el análisis de las observaciones contenidas en una muestra extraída de esta población, se querrán obtener aproximaciones de las características de la distribución poblacional de X, y utilizar esta información para contrastar hipótesis sobre la misma.

Page 6: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Ejemplo. Coste en farmacia por habitante de los EAP.

Page 7: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Conceptos:

Población. Conjunto de todos los elementos que se quieren analizar.

Muestra. Subconjunto de la población seleccionado para el análisis, cuando no es posible estudiar toda la población.

Parámetro. Medida estadística de una variable en la población.

Estimación. Valor obtenido a partir de la muestra, que se utiliza como aproximación al valor de un parámetro.

Estimador. Función matemática que se aplica a las observaciones muestrales para obtener estimaciones. Es una variable aleatoria.

Page 8: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Procedimientos:

Estimación de parámetros. Obtención de aproximaciones al valor de parámetros poblacionales a partir de una muestra.

Puntual. Se obtiene un único valor como aproximación al valor del parámetro poblacional.

Por intervalos. Se obtiene un rango de valores como aproximación al valor del parámetro.

Contraste de hipótesis. Utilización de la información muestral para comprobar la validez de una afirmación sobre una característica de la población.

Page 9: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Etapas de un estudio de muestreo:

1) ¿Qué infomación se necesita?

2) ¿Cuál es la población relevante? ¿Es posible analizarla?

3) ¿Cómo se seleccionan los elementos de la muestra? ¿Cuántos?

4) ¿Cómo se obtiene la información de los elementos de la muestra?

5) ¿Cómo se utilizará la información de la muestra para realizar inferencias sobre la población?

6) ¿Qué conclusiones pueden extraerse sobre la población?

Métodos de muestreo

Determinación del tamaño muestral

Estimación

Contrastación

Page 10: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Estimación puntual:

X

POBLACIÓN

Parámetro

Observaciones muestrales

(x1, x2, x3,..., xn)

MUESTRA

Aproximación

Estimador

Estimación

Page 11: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Estimación puntual:

Estimadores más utilizados.

Parámetro Estimador

Media (µ) Media muestral n

xx

n

ii∑

== 1

Varianza (σ2) Varianza muestral ( )

1ˆ 1

2

2

−=∑=

n

xxS

n

ii

Proporción (p) Proporción muestral nn

p 1ˆ =

Page 12: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Estimación por intervalos:

Un intervalo de confianza consiste en dos valores entre los que se espera que esté contenido el verdadero valor del parámetro con una determinada probabilidad.

Nivel de confianza: probabilidad de que el intervalo contenga el verdadero valor del parámetro. 90%, 95% y 99% son los más habituales.

Hay una relación positiva entre el nivel de confianza y la amplitud del intervalo.

Hay una relación inversa entre el tamaño de la muestra y la amplitud del intervalo.

Page 13: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Ejemplo. Coste en farmacia por habitante de los EAP.

Descriptivos

136,7028134,5845

138,8210

1353,24836,78652

MediaLímite inf eriorLímite superior

Interv alo de conf ianzapara la media al 95%

VarianzaDesv. típ.

Costes totales porhabitante (poblacióntotal) en euros

Estadíst ico

Page 14: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Contraste de hipótesis:

Objetivo: comprobar la certeza de una afirmación sobre alguna característica de la población, utilizando la información contenida en una muestra extraída de dicha población.

Definiciones:Hipótesis estadística. Afirmación sobre alguna característica de la

población.

Contraste de hipótesis. Comparación de la hipótesis con la realidad observada (muestra), para decidir, con un margen de error admisible, si esta realidad contradice o no la hipótesis.

Hipótesis nula (H0). Afirmación sobre una característica de la población, de la que se quiere contrastar su validez.

Hipótesis alternativa (HA). Hipótesis por la que será substituida la hipótesis nula, en caso de que la evidencia muestral la contradiga.

Page 15: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Contraste de hipótesis:

Metodología. Para realizar un contraste de hipótesis se necesita:

Un estadístico de contraste

Una regla de decisión. Para aplicar esta regla seránecesario fijar el nivel de significación del contraste (α).

Page 16: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Inferencia estadística

Contraste de hipótesis:

Ejemplo. Contraste sobre la igualdad de medias del gasto en farmacia de la C.A. de Madrid y de las Illes Balears.

Estadísticos de grupo

41 119,8415 26,98319 4,21407

289 102,2012 28,72670 1,68981

Nombre de laComunidad autónomaIlles Balears

Madrid

Costes totales porhabitante (poblacióntotal) en euros

N MediaDesviación

típ.Error típ. de

la media

Prueba de muestras independientes

,395 ,530 3,706 328 ,000 17,64028 4,75951 8,27726 27,00330

3,885 53,705 ,000 17,64028 4,54024 8,53650 26,74406

Se han asumidovarianzas igualesNo se han asumidovarianzas iguales

Costes totales porhabitante (poblacióntotal) en euros

F Sig.

Prueba de Lev enepara la igualdad de

varianzas

t gl Sig. (bilateral)Diferenciade medias

Error típ. dela diferencia Inf erior Superior

95% Intervalo deconf ianza para la

diferencia

Prueba T para la igualdad de medias

Page 17: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Instrumentos estadísticos:

Tablas de frecuencias conjuntas. Tablas de contingencia.

Estadísticos de asociación.

Asociación de variables categóricas

Page 18: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Ejemplo. Relación entre la edad y la impresión sobre la prestación de un servicio recibido.

Tabla de contingencia IMPRESIÓN * EDAD

Asociación de variables categóricas

Page 19: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada una de las variables. Para ello es suficientecon sumar todas las celdas correspondientes a cada una de las filas o de las columnas.

Asociación de variables categóricas

Page 20: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Distribución de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas respecto al total de observaciones

Asociación de variables categóricas

Page 21: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas

Asociación de variables categóricas

Page 22: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas

Asociación de variables categóricas

Page 23: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Distribución de frecuencias conjuntas

Asociación de variables categóricas

Page 24: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Distribución de frecuencias marginales

Asociación de variables categóricas

Page 25: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Distribución conjunta de frecuencias relativas

Asociación de variables categóricas

Page 26: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Perfiles fila

Asociación de variables categóricas

Page 27: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Perfiles columna

Asociación de variables categóricas

Page 28: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Estadísticos de asociación:

Para variables nominales u ordinales:

chi-cuadrado

C de contingencia

lambda

Para variables ordinales

Gamma

Asociación de variables categóricas

Page 29: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un servicio.

Tabla de porcentajes columna (observada)

Asociación de variables categóricas

Page 30: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un servicio.

Tabla de porcentajes columna (esperada)

Asociación de variables categóricas

EDAD

MENOS DE 30 AÑOS

ENTRE 30 Y 45

ENTRE 45 Y 60

MÁS DE 60

AÑOS Total MUY BUENA 42,1% 42,1% 42,1% 42,1% 42,1%

BUENA 44,3% 44,3% 44,3% 44,3% 44,3%NORMAL 12,3% 12,3% 12,3% 12,3% 12,3%

IMPRESIÓN

MALA 1,4% 1,4% 1,4% 1,4% 1,4%Total 100 100 100 100 100

Page 31: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un servicio.

Tabla de frecuencias observadas

Tabla de frecuencias esperadas

Asociación de variables categóricas

EDAD Total

MENOS DE 30 AÑOS

ENTRE 30 Y 45

ENTRE 45 Y 60

MÁS DE 60 AÑOS

IMPRESIÓN MUY BUENA 42,1%*2229 42,1%*1657 42,1%*755 42,1%*211

BUENA 44,3%*2229 44,3%*1657 44,3%*755 44,3%*211 NORMAL 12,3%*2229 12,3%*1657 12,3%*755 12,3%*211 MALA 1,4%*2229 1,4%*1657 1,4%*755 1,4%*211Total 2229 1657 755 211

Page 32: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un servicio.

Tabla de frecuencias esperadas

Asociación de variables categóricas

EDAD Total

MENOS DE 30 AÑOS

ENTRE 30 Y 45

ENTRE 45 Y 60

MÁS DE 60 AÑOS

IMPRESIÓN MUY BUENA 938,1 697,4 317,7 88,8 2042

BUENA 987,2 733,9 334,4 93,5 2149 NORMAL 273,3 203,2 92,6 25,9 595 MALA 30,3 22,5 10,3 2,9 66 Total 2229 1657 755 211 4852

Page 33: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

EDAD Total

MENOS DE 30 AÑOS

ENTRE 30 Y 45

ENTRE 45 Y 60

MÁS DE 60 AÑOS

IMPRESIÓN MUY BUENA 938,1 697,4 317,7 88,8 2042

BUENA 987,2 733,9 334,4 93,5 2149 NORMAL 273,3 203,2 92,6 25,9 595 MALA 30,3 22,5 10,3 2,9 66 Total 2229 1657 755 211 4852

Estadístico Chi-Cuadrado

Asociación de variables categóricas

Page 34: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Estadístico Chi-Cuadrado

Asociación de variables categóricas

( )χ 2

2

11=

==∑∑

n e

eij ij

ijj

J

i

I

= 7,035

EDAD

MENOS DE 30

AÑOS ENTRE 30 Y

45 ENTRE 45 Y

60 MÁS DE 60

AÑOS MUY BUENA 1,46723164 0,49607112 0,21683979 1,17162162BUENA 0,89955429 0,38916746 0,00586124 1,4144385NORMAL 0,08082693 0,00019685 0,33866091 0,04671815

IMPRESIÓN

MALA 0,24059406 0,1 0,16407767 0,00344828

Page 35: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Estadístico C de contingencia

Límite máximo:

Asociación de variables categóricas

2

2

χχ+

=n

C

( ) ( ) 2,11 ≥− JI,mínJI,mín

Page 36: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Estadístico C de contingencia

Ejemplo. Impresión sobre un servicio y edad

Asociación de variables categóricas

038003574852

0357 ,,

,C =+

=

Límite máximo = 8660411 ,=−

Page 37: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Estadístico Lambda

Estadístico Gamma (sólo para variables ordinales)

Asociación de variables categóricas

Lambda toma valores entre cero y uno: 0 1≤ ≤λ : ⇒=0λ La predicción condicionada no reduce el error original. ⇒=1λ La predicción condicionada reduce el error original en un 100%.

⇒<< 10 λ El error de predicción se reduciría en un %100 λ⋅

El estadístico gamma proporciona valores entre -1 y 1. El grado más alto de asociación positiva entre dos variables se da cuando 1=γ . El grado más alto de asociación negativa se da cuando 1−=γ . Un valor de 0=γ se interpreta como la ausencia de asociación.

Page 38: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Asociación de variables categóricas. Ejemplo.

% de médicos con formación MIR y dispersión de la zona.

Asociación de variables categóricas

abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * DispersiónZBS (geográfica)

Recuento

0 0 2 21 2399 84 158 308 649

113 61 34 22 23092 25 9 2 128

304 170 203 353 1030

0inferior al 34%entre el 34% y el 66%superior al 66%

Formación de médicosy pediatras. % demédicos y pediatrascon f ormación MIR

Total

ZBS pocodispersa ZBS dispersa

ZBS bastantedispersa

ZBS muydispersa

Dispersión ZBS (geográf ica)

Total

abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * DispersiónZBS (geográfica)

% de Dispersión ZBS (geográf ica)

1,0% 5,9% 2,2%32,6% 49,4% 77,8% 87,3% 63,0%37,2% 35,9% 16,7% 6,2% 22,3%30,3% 14,7% 4,4% ,6% 12,4%

100,0% 100,0% 100,0% 100,0% 100,0%

0inferior al 34%entre el 34% y el 66%superior al 66%

Formación de médicosy pediatras. % demédicos y pediatrascon f ormación MIR

Total

ZBS pocodispersa ZBS dispersa

ZBS bastantedispersa

ZBS muydispersa

Dispersión ZBS (geográf ica)

Total

Page 39: Análisis estadístico básico (I) - uib. · PDF fileLambda toma valores entre cero y uno: 01

Asociación de variables categóricas. Ejemplo.

Proporción de médicos con formación MIR y dispersión de la zona.

Asociación de variables categóricas

Pruebas de chi-cuadrado

340,230a 9 ,0001030

Chi-cuadrado de PearsonN de casos válidos

Valor glSig. asintótica

(bilateral)

2 casillas (12,5%) tienen una f recuencia esperada inferior a 5.La f recuencia mínima esperada es 3,80.

a.

Medidas direccionales

,184 ,022 7,768 ,000c

c

SimétricaLambdaNominalpor nominal

ValorError típ.

asint.a T aproximadabSig.

aproximada

Asumiendo la hipótesis alternativa.a.

Empleando el error t ípico asintótico basado en la hipótesis nula.b.

Basado en la aproximación chi-cuadrado.c.

Medidas simétricas

,498 ,000

-,731 ,024 -22,392 ,0001030

Coef iciente decontingencia

Nominal pornominal

GammaOrdinal por ordinalN de casos válidos

ValorError típ.

asint.a T aproximadabSig.

aproximada

Asumiendo la hipótesis alternativa.a.

Empleando el error típico asintótico basado en la hipótesis nula.b.