Diez Garcia Rafael - Guia Didactica De Estadistica Descriptiva Para Las Cs
Diez Garcia Rafael - Guia Didactica de Estadistica Descriptiva Para Las Cs
description
Transcript of Diez Garcia Rafael - Guia Didactica de Estadistica Descriptiva Para Las Cs
-
Rafael Dez Vicente Coll
Olga M Blasco
GGuuaa ddiiddccttiiccaa ddee
EEssttaaddssttiiccaa DDeessccrriippttiivvaa ppaarraa llaass
CCiieenncciiaass SSoocciiaalleess
Eumed.net Universidad de Mlaga 2008
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales Rafael Dez Garca, Vicente Coll Serrano y Olga M Blasco Blasco Diseo de cubierta: Rafael Dez Garca
Vicente Coll Serrano Olga M Blasco Blasco
Reservados los derechos para todos los pases. De conformidad con lo dispuesto en el artculo 270 del Cdigo penal vigente, podrn ser castigados con multas y privacin de libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artstica o cientfica fijada en cualquier tipo de soporte sin la preceptiva autorizacin. Ninguna parte de esta publicacin, incluido el diseo de la cubierta, puede ser reproducida, almacenada o transmitida de ninguna forma, ni por ningn medio, sea ste electrnico, qumico, mecnico, electro-ptico, grabacin, fotocopia o cualquier otro, sin la previa autorizacin escrita por parte de los autores. ISBN: Depsito Legal: Maquetacin: Rafael Dez Garca
Vicente Coll Serrano Olga M Blasco Blasco
-
ndice
-
ndice analtico.
Rafael Dez, Vicente Coll y Olga Blasco
6
Pgina
TEMA 1. INTRODUCCIN.
Ficha del tema 1. 16 Objetivos de aprendizaje. 17 Bibliografa bsica para complementar el tema. 18 Programacin de la gua didctica: 1.1. Estadstica: concepto, contenido y relaciones con el rea econmi-ca y empresarial. 19 1.2. La investigacin estadstica. Anlisis descriptivo, modelizacin e in-ferencia. 28 1.3. Datos estadsticos: naturaleza, descripcin numrica y representa-cin grfica. 32 Conceptos clave. 43 Ejemplos. 44 TEMA 2. ANALISIS DE DATOS UNIDIMENSIONALES.
Ficha del tema 2. 53 Objetivos de aprendizaje. 54
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
7
Pgina
Bibliografa bsica para complementar el tema. 55 Programacin de la gua didctica: 2.1. Principales medidas de posicin, dispersin y de forma o perfil. 56 2.2. Transformaciones lineales y tipificacin de variables. 76
2.2.1. Transformaciones lineales. 76 2.2.2. Tipificacin de variables. 83 2.2.3. Regla de Tchebysheff. 86
2.3. Otras medidas de posicin: moda y cuantiles (mediana). 88 Conceptos clave. 95 Ejemplos. 96 TEMA 3. MEDIDAS DE CONCENTRACIN.
Ficha del tema 3. 116 Objetivos de aprendizaje. 117 Bibliografa bsica para complementar el tema. 118 Programacin de la gua didctica: 3.1. Introduccin: concepto, instrumentos, concentracin mnima y mxima. 119
3.2. Curva de Lorenz. 122
-
ndice analtico.
Rafael Dez, Vicente Coll y Olga Blasco
8
Pgina
3.3. ndice de Gini. 123 Conceptos clave. 124 Ejemplos. 125 TEMA 4. ANLISIS DE DATOS BIDIMENSINALES.
Ficha del tema 4. 128 Objetivos de aprendizaje. 129 Bibliografa bsica para complementar el tema. 130 Programacin de la gua didctica: 4.1. Representacin de datos multidimensionales: matriz de datos, ta-blas de correlacin y contingencia, grfico de dispersin. 131 4.2. Distribuciones conjuntas, marginales y condicionadas. Indepen-dencia estadstica. 134 4.3. Momentos. Vector de valores medios y matriz de varianzas-covarianzas. 146 4.4. El coeficiente de correlacin lineal simple. Matriz de correlacin. 155 4.5. Asociacin. 158 Conceptos clave. 163 Ejemplos. 164
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
9
Pgina
TEMA 5. ANLISIS DE REGRESIN.
Ficha del tema 5. 176 Objetivos de aprendizaje. 177 Bibliografa bsica para complementar el tema. 178 Programacin de la gua didctica: 5.1. Introduccin. 179 5.2. Regresin mnimo-cuadrtica: caso lineal. 187 5.3. Anlisis de la bondad de un ajuste: capacidad explicativa de una ecuacin de regresin. Coeficiente de determinacin. Caso lineal. 199 5.4. Regresin no lineal: potencial y exponencial. 211 Conceptos clave. 216 Ejemplos. 217 TEMA 6. TASAS DE VARIACIN Y NMEROS NDICE.
Ficha del tema 6. 224 Objetivos de aprendizaje. 225 Bibliografa bsica para complementar el tema. 226
-
ndice analtico.
Rafael Dez, Vicente Coll y Olga Blasco
10
Pgina
Programacin de la gua didctica: 6.1. Introduccin. 227 6.2. Tasas de variacin. 229 6.3. Nmeros ndices: clasificacin y propiedades. 230
6.3.1. Definicin y clasificacin. 230 6.3.2. ndices simples. 231 6.3.3. ndices complejos. 233 6.3.4. Propiedades. 236
6.4. ndices de precios y cantidades ms importantes. 237 6.4.1. ndice de precios complejo ponderado. 239 6.4.2. ndice de cantidad complejo ponderado. 240 6.4.3. ndice complejo de valor. 241
6.5. Cambio de base, renovacin y enlace. 242 6.6. Deflactacin de series estadsticas. 244 Conceptos clave. 248 Ejemplos. 249 TEMA 7. ANLISIS CLSICO DE SERIES TEMPORALES.
Ficha del tema 7. 256
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
11
Pgina
Objetivos de aprendizaje. 257 Bibliografa bsica para complementar el tema. 258 Programacin de la gua didctica: 7.1. Introduccin. 259 7.2. Componentes de una serie. Descomposicin. 260 7.3. Anlisis de la tendencia. 262
7.3.1. Tendencia anual. 265 7.3.2. Tendencia k-esimal. 267
7.4. Anlisis de la variacin estacional. Desestacionalizacin. 270 7.4.1. Obtencin de los IVE. 272 7.4.2. Desestacionalizacin. 275
7.5. Prediccin. Correccin por estacionalidad. 276 7.5.1. Prediccin de la tendencia. 276 7.5.2. Correccin por estacionalidad. 277
Conceptos clave. 278 Ejemplos. 279
-
Rafael Dez, Vicente Coll y Olga Blasco
12
PRLOGO
El texto de Estadstica que se presenta con el nombre de Gua Didctica de Estadstica Descripti-
va para las Ciencias Sociales, tiene una estructura que lo sita entre un conjunto de fichas resu-
men de los contenidos de una materia y un libro de texto. Es mucho ms amplio que un mero re-
sumen de conceptos y frmulas, pero no supone un desarrollo exhaustivo de los epgrafes de una
programacin; tampoco contiene demostraciones salvo alguna conveniente excepcin. No por ello
deja de ser un texto riguroso y sistemtico, ajustado a una programacin. Hemos diseado esta
Gua didctica de forma que su contenido sirva de refuerzo a la clase presencial de un curso de in-
troduccin de Estadstica.
La Gua Didctica pretende ser un texto que acompae y encamine a los estudiantes en el estu-
dio de la materia, aportndoles informacin concreta y precisa sobre los conceptos clave y tcni-
cas de la Estadstica Descriptiva. Cada uno de estos conceptos viene acompaado por ejemplos
ilustrativos que ayudarn al estudiante a asimilarlos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
13
Se encuentra tambin disponible, como material complementario de esta Gua Didctica, las Fi-
chas Tcnicas de Estadstica Descriptiva para las Ciencias Sociales.
Cmo utilizar la Gua Didctica de Estadstica Descriptiva para las Ciencias Sociales.
La Gua Didctica se compone de un total de 7 temas. En cada tema se facilita una ficha que
presenta su estructura-organizacin:
Objetivos de aprendizaje.
Bibliografa bsica para complementar el tema.
Programacin del tema.
Conceptos clave.
Ejemplos.
Los apartados de la ficha estn hipervinculados. Tambin estn vinculados los ejemplos pro-
puestos que aparecen en el desarrollo de los epgrafes de cada tema. Observar que el puntero de
ratn cambia de forma. Al hacer clic sobre el texto vinculado se acceder a la parte del documento
donde se desarrolla el contenido.
-
Rafael Dez, Vicente Coll y Olga Blasco
14
A pie de pgina aparecen dos o tres iconos.
ndice
Para acceder al ndice de la Gua Didctica.
Ficha
Para volver a la ficha del tema.
Texto
Para volver al texto (solo disponible en los enunciados de ejemplos)
Esperamos que los contenidos tratados en la Gua Didctica de Estadstica Descriptiva para las
Ciencias Sociales resulten de utilidad al lector.
Contacto con los autores:
Rafael Dez Garca: [email protected]
Vicente Coll Serrano: [email protected]
Olga Blasco Blasco: [email protected]
-
TEMA 1 INTRODUCCIN
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
16
Ficha del tema 1. Objetivos de aprendizaje.
Bibliografa bsica para complementar el tema.
Programacin de la gua didctica:
1.1. Estadstica: concepto, contenido y relaciones con el rea econmica y
empresarial.
1.2. La investigacin estadstica. Anlisis descriptivo, modelizacin e infe-
rencia.
1.3. Datos estadsticos: naturaleza, descripcin numrica y representacin
grfica.
Conceptos clave.
Ejemplos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
17
OBJETIVOS DE APRENDIZAJE. Conocer y distinguir las dos ramas bsicas de la estadstica, la estadstica descriptiva y la inferencia estadstica, intuyendo como interacciona entre ambas la teora matemtica de la probabilidad creando modelos. Distinguir entre datos de tipo cualitativo y cuantitativo, discreto y continuo, aprendiendo a ordenarlos en distribuciones de frecuencias agrupadas y sin agrupar. Construir histogramas y polgonos acumulativos partir de una distribucin de frecuencias agrupada en intervalos.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
18
BIBLIOGRAFA BSICA (teora y problemas)
ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-
dad, Ed. Thomson, 2005.
Tema 1. (Con ejercicios, cuestiones de autoevaluacin y problemas
resueltos y propuestos).
MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica
Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.
Captulos 1 y 2.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
19
1.1. ESTADSTICA: CONCEPTO, CONTENIDO Y RELACIONES CON EL REA ECONMICA Y EMPRESARIAL.
Ejemplo introductorio. Se ha contabilizado el nmero de das de baja, du-rante un trimestre, de los trabajadores de dos empresas obtenindose los siguientes resultados:
Compara el nmero de das de ba-ja en las dos empresas:
Distribucin frecuencias. Media aritmtica Varianza
DATOS empresa A 0 2 1 1 3 2 0 1 5 2 2 3 3 2 1 4 2 2 1 3
DATOS empresa B 0 1 1 2 9 1 0 0 1 1 0 0 1 1 0 1 1 1 9 9 9 0 0 1 0 0 1 1 9 0
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
20
La ESTADSTICA, como ciencia, compara series de datos y ayuda a tomar
decisiones ante lo incierto, es decir, a resolver casos de incertidumbre. La
informacin estadstica se utiliza muy a menudo para validar o avalar que
las decisiones que pretendemos tomar son las ms verosmiles o probables.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
21
N das baja empresa A N trabajadores
Valores Frecuencia Porcentaje Porcentaje acumulado
0 2 10 10 1 5 25 35 2 7 35 70 3 4 20 90 4 1 5 95 5 1 5 100
Total 20 100
2
5
7
4
1 1
012345678
0 1 2 3 4 5
n das de baja A
n
t
r
a
b
a
j
a
d
o
r
e
s
A
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
22
N das baja empresa B N trabajadores
Valores Frecuencia Porcentaje Porcentaje acumulado
0 11 36,67 36,67 1 13 43,33 80,00 2 1 3,33 83,33 9 5 16,67 100,00
Total 30 100,00
11
1
5
13
02
468
10
1214
0 1 2 9
n das de baja B
n
t
r
a
b
a
j
a
d
o
r
e
s
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
23
Clculo de la Media y la Varianza.
N das baja A N trabajadores
Valores Frecuencia Porcentaje Porcentaje acumulado
Clculo de Media
Clculo de Varianza
0 2 10 10 0 8 1 5 25 35 5 5 2 7 35 70 14 0 3 4 20 90 12 4 4 1 5 95 4 4 5 1 5 100 5 9
Total 20 100 40 30
N das baja B N trabajadores
Valores Frecuencia Porcentaje Porcentaje acumulado
Clculo de Media
Clculo de Varianza
0 11 36,67 36,67 0 44 1 13 43,33 80,00 13 13 2 1 3,33 83,33 2 0 9 5 16,67 100,00 45 245
Total 30 100 60 302
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
24
DATOS EMPRESA A
Media 2,00 Varianza 1,5 Desviacin tpica 1,22
DATOS EMPRESA B
Media 2,00 Varianza 10,0667 Desviacin tpica 3,17
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
25
La Estadstica tiene aplicaciones importantes en el mbito de la economa y la empresa:
ECONOMA: el anlisis de datos generados por variables como la pro-ductividad econmica, inflacin, tipos de inters, empleo desempleo.... James Hechman y Daniel McFadden compartieron el premio Nobel de Economa en el ao 2000 por desarrollar mtodos de anlisis de datos es-tadsticos, utilizados actualmente para estudiar comportamientos indivi-duales en economa. Se utilizan mtodos estadsticos para construir ndices como el IPC, para medir y predecir la inflacin. Asimismo, la es-tadstica es una herramienta indispensable para la econometra y el anlisis de series temporales (estudio de variaciones estacionales y c-clicas de magnitudes econmicas). El premio Nobel de Economa de 2003 lo ganaron Robert Engle, por desarrollar mtodos de anlisis de series temporales con volatilidad variante en el tiempo (ARCH) Y Clive Granger por sus trabajos en el anlisis de series temporales con tendencias co-munes (cointegracin).
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
26
DIRECCIN DE EMPRESAS: se utilizan mtodos de control de calidad estadsticos para dirigir y perfeccionar constantemente el proceso de produccin y por consiguiente el rendimiento de la compaa. En 1986 W. Edwards Deming y otros abogaron por una filosofa total de la calidad con un perfeccionamiento continuo de la misma.
CONTABILIDAD, AUDITORA: toma de decisiones en cuanto al estado de las cuentas, liquidez de las empresas, inventario... etc., basndose en el anlisis estadstico, donde los datos a analizar son las tasas de va-riacin de las finanzas (cuentas de la empresa). Los anlisis estadsticos pueden demostrar si las tasas de variacin de las finanzas en algunas empresas difieren significativamente de las que son tpicas o usuales en el grupo industrial de empresas determinado. Los directivos de las empresas, los inversionistas y los empleados deben estar interesados en conocer este tipo de resultados ya que las compaas con unos ndices de variacin en sus finanzas atpicos suelen ir a la quiebra.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
27
GESTIN Y RECURSOS HUMANOS: evaluar y comparar la capacidad de colectivos de trabajadores para realizar tareas (reparto de tareas), utilizar resultados de un test de aptitud para complementar la informa-cin subjetiva de los candidatos a un empleo.
MARKETING: los fabricantes de productos de consumo dirigen la inves-tigacin en marketing a recoger y analizar datos relacionados con las tcnicas de venta y distribucin de bienes y servicios. La investigacin en marketing a menudo incluye el mercado potencial y estudios de la cuo-ta de mercado, investigacin acerca del producto, de la promocin y dis-tribucin. Utiliza cuestionarios y encuestas por correo, telfono o en-trevista personal para obtener informacin que ayude a las empresas a decidir si deberan y cmo deberan poner un producto en el mercado.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
28
1.2. LA INVESTIGACIN ESTADSTICA. ANLISIS DESCRIPTIVO, MODELIZACIN E INFERENCIA.
Podemos distinguir tres fases implicadas cuando se aplica el mtodo estads-
tico:
1. MUESTREO: LA RECOPILACIN DE LOS DATOS SIN ELABORAR.
MUESTRA ALEATORIA Y DE
TAMAO ADECUADO.
muestreoTcnicas
POBLACINMUESTRA
muestreoTcnicas
POBLACINMUESTRA
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
29
2. ESTADSTICA DESCRIPTIVA: presentacin en informe.
El objetivo de la Estadstica Descriptiva es describir un conjunto de da-tos:
ORDENAR LOS DATOS
RECOPILARLOS EN TABLAS ESTADSTICAS: DISTRIBUCIONES DE
FRECUENCIAS.
GRFICOS DE LA DISTRIBUCIN DE FRECUENCIAS.
CLCULO DE ESTADSTICOS: RESUMEN DE DATOS.
INTERPRETAR RESULTADOS: PRESENTACIN INFORME.
El organizar los datos de forma tal que se puedan ver las tendencias y normas, se pueda dibujar grficos, calcular estadsticos y redactar infor-mes se llama ESTADSTICA DESCRIPTIVA.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
30
Estadstico: una medida que se pueda calcular a partir de los datos re-
ales generados por una variable y que resuma y d una propiedad de
ese conjunto de datos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
31
3. INFERENCIA ESTADSTICA: exposicin de predicciones y toma de deci-
siones.
El objetivo de la Inferencia Estadstica es hacer afirmaciones sobre la POBLACIN basadas en la informacin disponible en la MUESTRA.
PREDICCIN. PROBABILIDAD.
ESTIMACIN DE PARMETROS. Parmetro: propiedad de la poblacin.
TOMA DE DECISIONES.
Al no haber absoluta certeza de la veracidad de tales afirmaciones sobre la poblacin, se ha de utilizar el trmino PROBABILIDAD como una medi-da de la incertidumbre de esas conclusiones: el propsito de la estadsti-ca es ayudar al que toma la decisin a tener razn ms veces que lo con-trario. Darle una idea sobre el peligro que hay de que no tenga razn cuando toma una decisin particular.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
32
1.3. Datos estadsticos: naturaleza, descripcin numrica y repre-sentacin grfica.
CARCTER: el aspecto, fenmeno, propiedad que se desea estudiar de la
poblacin.
MODALIDAD: diferentes formas de manifestarse el carcter.
VARIABLE ESTADSTICA X: el carcter medido sobre los elementos.
DATOS xi
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
33
1.3.1. Clasificacin de los DATOS (VARIABLES) por su NATURALEZA.
CUALITATIVOS: MODALEDADES no numricas, CATEGORAS
VARIABLES CUALITATIVAS: ORDINALES
NOMINALES o ATRIBUTOS
CUANTITATIVOS: MODALIDADES numricas, VALORES
VARIABLES CUANTITATIVAS: DISCRETAS
CONTINUAS
Ejemplo 1.1. Ejemplo 1.2. Ejemplo 1.3.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
34
1.3.2. DESCRIPCIN NUMRICA de los datos (variables cuantitativas)
VARIABLE X
N DATOS sin elaborar ( )
N21
N1ii
x,,x,xxL
=
k DATOS diferentes ordenados
de menor a mayor ( )k21
k1ii
xxxx
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
35
DISTRIBUCIN DE FRECUENCIAS
Organizacin de la serie de DATOS
SIN AGRUPAR: POCOS DATOS DIFERENTES
(k pequeo comparado con N).
Ejemplo 1.4.
AGRUPADA en intervalos: MUCHOS DATOS DIFERENTES (k grande).
Ejemplo 1.5.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
36
FRECUENCIA: conteo. TIPOS DE FRECUENCIA.
FRECUENCIAS ABSOLUTAS:
in (frecuencia absoluta) frecuencia
iN = =i
1jji nN (frec. absoluta acumulada) frecuencia acumulada (i
= 1, 2,, k)
FRECUENCIAS RELATIVAS:
if Nnf ii = (frecuencia relativa) 100fi porcentaje
iF NNF;fF ii
i
1jji == = 100Fi porcentaje acumulado
(i = 1, 2,, k) (frec. relativa acumulada)
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
37
Distribucin de frecuencias SIN AGRUPAR .
( ) k21k 1iii xxxn,x:XVARIABLE
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
38
Distribucin de frecuencias AGRUPADA EN INTERVALOS.
Cmo agrupar en intervalos muchos datos diferentes:
Observar valor mnimo xm y valor mximo xM.
Recorrido de la variable (amplitud total): mM xxRe =
Nmero de intervalos (k):
grande)muy no (NNk
12lnNlnk Sturges
=+=
Amplitud intervalos (a): k
Rea =
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
39
NOTACIN INTERVALOS
Intervalo isimo: [ [i1i L,L (i = 1, 2,, k).
Marca de clase (m.d.c.): 2
LLxc.d.m i1ii
+== (punto medio del in-tervalo).
Amplitud del intervalo isimo: 1iii LLa = . Ejemplo 1.5.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
40
1.3.3. Representacin grfica (variables cuantitativas). DATOS SIN AGRUPAR: grfico de barras.
Diagrama en escalera (acumulativo).
DATOS AGRUPADOS: HISTOGRAMA.
Polgono acumulativo.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
41
HISTOGRAMA (grfico de REA)
Rectngulos yuxtapuestos.
Un rectngulo para cada intervalo.
rea de rectngulo representa la frecuencia del intervalo.
Altura de rectngulo i - simo:
i
ii
i
ii a
fdo
an
d frecuencia de densidad ==
Si la amplitud de todos lo intervalos es la misma (a constante), la al-
tura de cada rectngulo puede ser la frecuencia del intervalo.
Ejemplo 1.6. Ejemplo 1.7.
-
Introduccin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
42
HISTOGRAMA
Intervalos
d
e
n
s
i
d
a
d
f
r
e
c
u
e
n
c
i
a
ia
inrea
iL1iL
i
ii a
nd =
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
43
Conceptos clave.
Datos de naturaleza continua. Datos de naturaleza discreta. Densidad de frecuencia. Distribucin de frecuencias agrupada. Distribucin de frecuencias sin agrupar. Estadstica Descriptiva. Frecuencia absoluta acumulada. Frecuencia absoluta. Frecuencia relativa (porcentaje). Frecuencia relativa acumulada. Histograma. Inferencia Estadstica. Intervalo. Marca de clase. Polgono acumulativo. Variables cualitativas. Variables cuantitativas.
-
Introduccin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
44
EJEMPLOS. Ejemplo 1.1. Clasifica las siguientes variables en cualitativas o cuantitati-
vas, identificando posibles valores de esas variables y elementos de la po-
blacin o muestra sobre la que observaramos o mediramos la variable:
a) Edad
b) Forma de pago al realizar una compra
c) Estado civil
d) Nmero de habitaciones por casa
e) Salario mensual percibido por los supervisores de ventas de una consul-
tora.
f) Medio de transporte utilizado para ir a clase por los estudiantes del cam-
pus de Tarongers
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
45
g) Grado de riesgo de los fondos de inversin de una entidad financiera (1 =
riesgo menor, 5 = riesgo mayor)
h) Dimetro de las tuercas que produce una mquina. (Las tuercas deberan
tener todas 6 mm de dimetro)
i) Nmero de defectos encontrados en n ordenadores porttiles fabricados
durante un mes.
-
Introduccin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
46
Ejemplo 1.2. Indicar de las variables siguientes cuales generaran datos
discretos y cuales datos continuos:
a) Nmero de acciones vendidas cada da en un mercado de valores.
b) Temperaturas registradas cada media hora en un observatorio.
c) Censos anuales del colegio de profesores.
d) Longitud de 1.000 cerrojos producidos en una fbrica.
e) 30 analistas financieros dan una prediccin de las ganancias por accin
(en euros) de cierta empresa para el ao prximo.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
47
Ejemplo 1.3. Preguntadas 300 personas acerca de su estado civil, 145 con-
testaron estar solteras, 100 casadas, 30 divorciadas y 25 viudas.
a) Identifica la variable estadstica (V.E.) y clasifcala, modalidades del ca-
rcter.
b) Clasifica la V.E. en una tabla estadstica o distribucin de frecuencias: ob-
tener frecuencias absolutas, relativas y acumuladas.
Solucin: a) X: Estado Civil. Variable cualitativa con cuatro modali-
dades: Soltera, Casada, Divorciada, Viuda.
-
Introduccin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
48
Ejemplo 1.4. El departamento de prevencin de riesgos laborales de una gran empresa de la construccin ha recogido informacin sobre el nmero de accidentes laborales diarios con baja laboral que se han producido du-rante los 44 das siguientes a la aplicacin de nuevas normas de seguridad, obteniendo los siguientes resultados:
Obtener:
a) La tabla estadstica o distribucin de frecuencias.
b) Diagramas de barras (con frecuencias absolutas y relativas).
c) Diagrama en escalera o acumulativo.
Nmero de accidentes diarios 44 das) 2 1 0 3 3 4 4 3 7 4 4 1 0 4 2 4 0 2 2 4 3 2 0 3 0 3 5 1 5 0 0 3 0 7 5 4 5 3 9 3 10 3 0 9
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
49
Ejemplo 1.5. El departamento de personal de una empresa aplica un test
de habilidad mental a sus empleados con el objetivo de seleccionar a un
nmero determinado de ellos para la realizacin de ciertas tareas. Las pun-
tuaciones obtenidas han sido las siguientes:
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45
49 46 47 51 64 36 39 51 51 48 49 53 66 38 41 43
71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60
32 30 40 39 42 30 35 40 38 36 46 45 68 50 69 69
a) Forma una distribucin de frecuencias con 7 intervalos.
b) Histograma.
-
Introduccin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
50
Ejemplo 1.6. Dada una distribucin con 128 valores:
a) Determnese, mediante la frmula de Sturges, el nmero de intervalos en
que puede agruparse.
b) Si el recorrido de la distribucin es de 48 unidades, cul ser la amplitud
de cada intervalo?.
Solucin: a) K= 8 ; b) 6
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
51
Ejemplo 1.7. Al representar mediante un histograma la siguiente distribu-
cin de frecuencias:
Intervalos ni
0-10
10-50
100
200
El intervalo de 0 a 10 se representa por un rectngulo de 18 cm. de altura
Cul debe ser la altura del intervalo de 10 a 50?
vas.
-
TEMA 2 ANLISIS DE DATOS UNIDIMENSIONALES
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
53
Ficha del tema 2. Objetivos de aprendizaje.
Bibliografa bsica para complementar el tema.
Programacin de la gua didctica:
2.1. Principales medidas de posicin, dispersin y de forma o perfil.
2.2. Transformaciones lineales y tipificacin de variables.
2.3. Otras medidas de posicin: moda y cuantiles (mediana).
Conceptos clave.
Ejemplos.
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
54
OBJETIVOS DE APRENDIZAJE. Aprender a calcular e interpretar los estadsticos descriptivos ms importan-tes. Conceptos de dispersin absoluta y dispersin relativa. Comparar dispersin y datos tipificados entre dos o ms variables. Informacin que aportan la media y la varianza en cuanto a la distribucin de los datos de una variable alrededor de la media (Regla de Tchebysheff). Estudiar cmo se ven afectados los estadsticos y coeficientes al transformar linealmente los datos de una variable.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
55
BIBLIOGRAFA BSICA (teora y problemas)
ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-
dad, Ed. Thomson, 2005.
Tema 2. (Con ejercicios, cuestiones de autoevaluacin y problemas
resueltos y propuestos).
MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica
Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.
Captulos 3 y 4.
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
56
2.1. Principales medidas de posicin, dispersin y de forma o perfil.
2.1.1. Principales medidas de posicin y dispersin.
POSICIN: LA MEDIA ARITMTICA. x
Variable estadstica con N datos en total ( )N 1iix:X = ==N
1iixN
1x
Distribucin de frecuencias ( )k 1iii n,x:X = ==k
1iii nxN
1x
Tambin: =
= k1i
ii fxx
Se utilizar preferentemente la primera expresin.
En una distribucin agrupada en INTERVALOS: .c.d.mxi
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
57
PROPIEDADES DE LA MEDIA
1. La media es el CENTRO DE GRAVEDAD de la distribucin (c.d.g):
0)xx(N
1ii == (medida de posicin central).
2. Poblacin con N datos, subdividida en p subpoblaciones disjuntas de
tamaos p21 ,N,, NN L con = =p
1jj NN y medias p21 x,,x,x L , la me-
dia total se puede determinar: =
= p1j
jjT NxN1x
Ver ejemplo en: ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2006. Tema 2, pgina 29 (ejemplo 2.4)
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
58
CONSIDERACIONES SOBRE LA MEDIA.
1. La media es un resumen de los N datos de la variable (PROMEDIO).
Datos homogneos (cercanos a la media), media representativa.
Datos heterogneos (alejados de la media, extremos), media no represen-
tativa.
2. La media es un ESTADSTICO de tipo ABSOLUTO que tiene la misma uni-
dad de medida que la variable. Adems su valor estar dentro del recorri-
do de la variable: Mm xax:Re
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
59
DISPERSIN: LA VARIANZA.
En una V.E. con N datos ( )N 1iix:X = , las medidas de DISPERSIN miden la amplitud, diseminacin o VARIABILIDAD de los DATOS, en su conjunto.
Miden la posicin que ocupan los datos respecto a un punto de inters que
tomamos como referencia. La referencia ms apropiada, ptima para la va-
rianza, es la media aritmtica, por ser el centro de gravedad de la distribu-
cin.
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
60
VARIANZA 2s :
media de los cuadrados de las desviaciones de los datos a su media.
Variable estadstica con N datos en total: ( )N 1iix:X = ( )
== N
1i
2i
2 xxN1s
Distribucin de frecuencias: ( )k 1iii n,x:X = ( )
== k
1ii
2i
2 nxxN1s
Tambin: ( )=
= k1i
i2
i2 fxxs
Se utilizar preferentemente la primera expresin.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
61
En una distribucin agrupada en INTERVALOS: .c.d.mxi DESVIACIN TPICA s:
varianzas tpica Desviacin += PROPIEDADES DE LA VARIANZA Y LA D.T.
1. 0s ; 0s2 . Son cero cuando todos los datos son iguales.
2. Se demuestra que: 2N
1i
2i
2 xxN1s =
= o bien
2k
1ii
2i
2 xnxN1s =
=. Esta
expresin resulta til para el clculo de la varianza sobre una distribucin
de frecuencias.
Ejemplo 2.1.
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
62
CONSIDERACIONES SOBRE LA VARIANZA Y LA DESVIACIN TPICA.
1. La varianza 2s es una medida de DISPERSIN ABSOLUTA. Tiene la uni-dad de medida de la variable al cuadrado.
La desviacin tpica s , sin embargo, tiene la misma unidad de medida que la variable y es directamente comparable con la media.
2. La desviacin tpica s , como medida de DISPERSIN aporta informacin estadstica sobre la VARIABILIDAD de los DATOS en relacin a su media.
Nos dar informacin acerca de la homogeneidad o heterogeneidad de los
datos en relacin al valor medio de los mismos.
s pequea en relacin al valor de la media: media representativa, datos homogneos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
63
s grande en relacin al valor de la media: media no representativa, datos
heterogneos.
3. COMPARAR DISPERSIN entre dos o ms variables: las desviaciones tpi-
cas de dos o ms variables son comparables directamente si las variables
tienen la misma unidad de medida y el mismo valor para la media.
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
64
DISPERSIN RELATIVA. EL COEFICIENTE DE VARIACIN
Para comparar la dispersin entre diferentes series de datos (variables) independien-
temente de sus unidades de medida y del valor de sus medias se utilizar una medida
de DISPERSIN RELATIVA.
Dada una variable ( )N 1iix:X = , su media 0x y su desviacin tpica s , se define el coeficiente de variacin de Pearson:
|x|sg0 =
Habr mayor dispersin relativa donde g0 sea mayor.
Ejemplo 2.2. Ejemplo 2.3. Ejemplo 2.4.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
65
2.1.2. Momentos.
Dada una variable estadstica ( )N 1iix:X = , ( )k 1iii n,x:X = con su media x , se definen:
MOMENTOS ORDINARIOS DE ORDEN p
=
= N1i
pip xN
1a o =
= k1i
ip
ip nxN1a con p entero 0p
MOMENTOS ORDINARIOS que se van a utilizar:
=
=
==
===N
1i
2i2
N
1ii1
xN1a2p
xxN1a1p (media)
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
66
MOMENTOS CENTRALES DE ORDEN p
( )=
= N1i
pip xxN
1m o ( )=
= k1i
ip
ip nxxN1m con p entero 0p
MOMENTOS CENTRALES que se van a utilizar:
( )( )( )( )
=
=
=
=
==
==
===
===
N
1i
4i4
N
1i
3i3
2N
1i
2i2
N
1ii1
xxN1m4p
xxN1m3p
sxxN1m2p
0xxN1m1p
(varianza)
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
67
LA VARIANZA EN FUNCIN DE LOS MOMENTOS.
En funcin de la segunda propiedad dada para la varianza y de las definicio-
nes de los momentos ordinarios y centrales se tiene que:
( ) 2122N1i
2i
N
1i
2i2
2 aaxxN1xx
N1ms ====
==
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
68
2.1.3. Medidas de forma o perfil.
ASIMETRA: perfil horizontal de la distribucin.
La media es el c.d.g. de la distribucin (de la variable, de la serie de datos
ordenada) y se desplazar hacia donde haya mayor densidad de datos. Se
estudia la simetraasimetra de la distribucin tomando como referencia el
c.d.g.
Si hay mayor densidad de datos al principio de la distribucin (datos menores), la
media se desplaza hacia la izquierda, dejando una cola de datos a su derecha:
ASIMETRA A LA DERECHA DE LA MEDIA.
Si hay mayor densidad de datos al final de la distribucin (datos mayores), la
media se desplaza hacia la derecha, dejando una cola de datos a su izquierda:
ASIMETRA A LA IZQUIERDA DE LA MEDIA.
Si la distribucin de datos es igual a izquierda y derecha de la media: SIMETRA
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
69
ASIMETRA A LA DERECHA
media
ASIMETRA A LA IZQUIERDA
media
SIMETRA
media
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
70
COEFICIENTE DE ASIMETRA DE FISHER.
A partir del momento central de orden impar ( )=
= N1i
3i3 xxN
1m se define
el coeficiente de asimetra de FISHER:
33
1 smg =
IZQUIERDA LA A ASIMETRA0g0m Si
grfico) (observar 0g0mSIMETRA
DERECHA LA A ASIMETRA0g0m Si
13
13
13
>
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
71
APUNTAMIENTO O CURTOSIS: perfil vertical de la distribucin.
Las medidas de apuntamiento proporcionan informacin estadstica de la
distribucin, relativa a la densidad de datos que hay en las proximidades de
la media (c.d.g.).
Si la densidad de datos alrededor de la media es muy dominante: distri-
bucin MUY APUNTADA, rectngulos del histograma centrales con mucha
altura.
Si la densidad de datos alrededor de la media no es dominante: distribu-
cin POCO APUNTADA, rectngulos del histograma centrales con poca al-
tura.
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
72
COEFICIENTE DE APUNTAMIENTO O CURTOSIS DE FISHER.
A partir del momento central de orden cuatro ( )=
= N1i
4i4 xxN
1m se defi-
ne el coeficiente de apuntamiento de FISHER:
44
2 smg =
Para medir con este coeficiente el grado de apuntamiento de una distribu-
cin se utilizarn dos MODELOS de distribucin de REFERENCIA:
MODELO NORMAL: distribucin campaniforme con un apuntamiento de
3g2 = . MODELO UNIFORME: distribucin horizontal con un apuntamiento de
8,1g2 = .
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
73
Apuntamiento = 3MODELO NORMAL
Apuntamiento = 1,8MODELO UNIFORME
-
Anlisis de datos unidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
74
De esta forma se seguirn los siguientes criterios para medir el apuntamiento de una
distribucin:
ica)(platicrt NORMAL modelo el que apuntada menos3g Sica)(mesocrti NORMAL modelo el que toapuntamien mismo3g Si
ica)(leptocrtNORMAL modeloelqueapuntada ms3g Si
2
2
2
Apuntamiento >3
Apuntamiento1,8
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
75
. extremos) los en datos de densidad (msU"" de forma Si
l).(horizonta UNIFORME modelo que toapuntamien mismo Si
, covariacin positiva: si la variable X crece, entonces la tenden-cia de la variable Y es a crecer tambin.
0sXY < , covariacin negativa: si la variable X crece, entonces la ten-dencia de la variable Y es a decrecer (o viceversa).
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
150
grfico dispersin
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8
x
y
covarianza positiva 2,71
grfico dispersin
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8
x
y
covarianza negativa -2,71
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
151
0sXY = , covariacin nula: no hay una variabilidad conjunta lineal domi-nante (positiva o negativa) entre X e Y.
PROPIEDAD: si las variables X e Y son independientes estadsticamente, la
covarianza es cero. El recproco no es necesariamente cierto.
0sXY =ntesindependie Y e X
grfico dispersin
4; 2
0
1
2
3
4
5
0 1 2 3 4 5 6 7 8
x
y
covarianza cero pero dependientes
grfico dispersin
4; 2
0
1
2
3
4
0 1 2 3 4 5 6 7 8x
y mediasc.d.g.
covarianza cero e independencia
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
152
PROPIEDADES DE LA COVARIANZA.
1. Clculo de la covarianza: se demuestra fcilmente que la covarianza se puede determinar como:
yxyxN1s
N
1iiiXY = =
o en forma de momentos: 01101111XY aaams == 2. Transformacin lineal:
XY21'Y'X22
11 skkscYkYcXkX =
+=+=
siendo reales nmeros 2121 c,c,k,k
Por tanto la covarianza es sensible al cambio de escala y su valor de-
pende de las unidades de medida de las variables X e Y. Es un estadstico de
tipo absoluto.
3. Obviamente YXXY ss = .
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
153
VECTOR DE VALORES MEDIOS
=yx
mr
MATRIZ DE VARIANZAS COVARIANZAS
=
2YXY
XY2X
ssss
S
La matriz de varianzas covarianzas es simtrica y semidefinida posi-tiva ( )0)Sdet( . Medias y varianzas marginales y covarianza en funcin de los momentos:
Ejemplo 4.4. Ejemplo 4.6. 01101111XY
2010202
2Y
2102020
2X
0110
aaamsaamsaams
ayax
======
==
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
154
PROPIEDADES DE COMBINACIN LINEAL DE VARIABLES.
Sea (X, Y) una V.E.B. y sean
=yx
mr y
=
2YXY
XY2X
ssss
S su vector de me-
dias y matriz de var cov respectivamente.
Sea cYkXkZ 21 ++= una COMBINACIN LINEAL de X e Y con k1, k2 y c nmeros reales. La MEDIA y la VARIANZA de Z se pueden determinar como sigue:
XY212Y
22
2X
21
2Z
21
skk2skskscykxkz++=
++=
Solo si la covarianza es cero 2Y
22
2X
21
2Z sksks += .
As, si 0sXY =ntesindependie Y e X y entonces: 2Y222X212Z sksks += . Ejemplo 4.8.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
155
4.4. EL COEFICIENTE DE CORRELACIN LINEAL. MATRIZ DE CORRE-LACIN.
EL COEFICIENTE DE CORRELACIN LINEAL SIMPLE.
Dada (X, Y) una V.E.B. y
=
2YXY
XY2X
ssss
S su matriz de var cov, se define
el coeficiente de correlacin lineal de Pearson como: YX
XYXY ss
sr = El coeficiente r tiene el mismo signo que la covarianza.
r es un estadstico de tipo relativo, es decir, independiente de las unida-des de medida de las variables X e Y.
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
156
Mide la intensidad de la variabilidad conjunta lineal entre X e Y es decir
la correlacin lineal.
PROPIEDADES DEL COEFICIENTE DE CORRELACIN.
1. El coeficiente de correlacin lineal est acotado: 1r1 .
correlacin perfecta positiva
x
y r = 1
correlacin perfecta negativa
x
y
r = -1
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
157
2. Transformacin lineal: XY'Y'X22
11 rrcYkYcXkX =
+=+=
. Donde k1 , k2 y c
son nmeros reales, con k1 y k2 del mismo signo. Es decir, que el coeficiente
es invariante por transformacin lineal (salvo en el signo).
MATRIZ DE CORRELACIN.
Dada (X, Y) una V.E.B. y el coeficiente de correlacin lineal YX
XYXY ss
sr = , se define:
=
=1r
r1rrrr
RXY
XY
YYYX
XYXX
MATRIZ DE CORRELACIN
Es una matriz simtrica y semidefinida positiva 0r1)Rdet( 2XY = Ejemplo 4.9.
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
158
4.5. ASOCIACIN.
Sean dos atributos
(A, B): (ai, bj); nij con k y m
categoras respectivamente, or-
ganizados en una tabla de con-
tingencia (distribucin conjun-
ta). Se estudiar la asociacin
entre A y B utilizando el criterio
de independencia estadstica.
B
A b1 b2 bj bm ni
a1 n11 n12 n1j n1m n1
a2 n21 n22 n2j n2m n2
ai ni1 ni2 nij nim ni
ak nk1 nk2 nkj nkm nk
nj n1 n2 nj nm N
TABLA DE CONTINGENCIA
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
159
A y B independientes si
j,iN
nnn jiij
= . ESTADSTICO
2
A\B b1 b2 bj bm ni
a1 n11 n12 n1j n1m n1
a2 n21 n22 n2j n2m n2
ai ni1 ni2 nij nim ni
ak nk1 nk2 nkj nkm nk
nj n1 n2 nj nm N
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
160
Se denominar:
ijn a la frecuencia real u observada y
N
nnE jiij
= a la frecuencia esperada o terica: frecuencia que se tendra en caso de independencia.
El estadstico 2 compara las frecuencias reales con las tericas:
= =
= k1I
m
1j ij
2ijij2
E)nE(
0 2
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
161
EL COEFICIENTE DE CONTINGENCIA DE PEARSON
Se define a partir del estadstico 2:
2
2
P NC +=
El coeficiente de contingencia de Pearson mide la intensidad de la aso-
ciacin entre dos atributos.
Est acotado: 1C0 P
-
Anlisis de datos bidimensionales.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
162
Se demuestra que en tablas de contingencia cuadradas )kk( su valor mximo es
k1kCMAX
= .
Ejemplo 4.11.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
163
Conceptos clave.
Coeficiente de contingencia de Pearson. Coeficiente de correlacin lineal. Combinacin lineal de variables. Covarianza. Distribucin conjunta. Distribuciones condicionadas. Distribuciones marginales.
Estadstico 2 .
Independencia estadstica. Matriz de correlacin. Matriz de varianzas-covarianzas. Tabla de contingencia. Tabla de correlacin. Transformacin lineal.
-
Anlisis de datos bidimensionales.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
164
EJEMPLOS Ejemplo 4.1. Ordenar la siguiente serie de datos bidimensionales en una distribucin conjunta o distribucin de frecuencias bidimensional (tabla de correlacin):
X 1 1 2 2 3 3 1 2 3 2 Y 1 2 1 2 1 2 1 1 2 1
Solucin:
Y X
1
2
1 2 1 2 3 1 3 1 2
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
165
Ejemplo 4.2. a) Obtener las distribuciones de frecuencias marginales de X e Y a partir de
la distribucin conjunta del ejemplo 4.1. b) Obtener las siguientes distribuciones condicionadas a partir de la conjunta
del ejemplo 4.1.: 2x/Ye1y/X ==
-
Anlisis de datos bidimensionales.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
166
Ejemplo 4.3. Hemos observado la retribucin mensual de los 40 trabajado-res de una empresa segn su antigedad en la misma obteniendo la siguien-te tabla de correlacin o distribucin de frecuencias bidimensional: Y: retribucin mensual (en euros.) X: antigedad en la empresa (en aos)
a) Qu porcentaje de em-pleados tiene una antige-dad entre 2 y 4 aos y una retribucin entre 600 y 780 euros? (conjunta)
b) Cuntos empleados tienen
una antigedad entre 4 y 6 aos? (marginal)
c) Observa la retribucin de los empleados con una antigedad entre 0 y 2 aos y comprala con la re-tribucin de los que tienen una antigedad entre 4 y 6 aos (condiciona-da).
YX
420-600 mdc 510
600-780 690
780-960 870
960-1200 1080
0 2 mdc 1 7 3 1 0
2 4 3 1 9 6 2
4 6 5 0 2 3 6
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
167
Ejemplo 4.4. Determina el vector de medias y la matriz de varianzas co-varianzas de la siguiente distribucin conjunta obtenida en el ejemplo 4.1.
YX 1 2
1 2 1 2 3 1 3 1 2
Solucin:
==24,01,01,06,0
S4,1
2mr
-
Anlisis de datos bidimensionales.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
168
Ejemplo 4.5. Son independientes las variables del Ejemplo 4.3? Calcula la media de las retribuciones de los empleados con menor antigedad y com-prala con la media marginal de las retribuciones de todos los trabajadores. Cmo habran sido las medias anteriores en caso de independencia?
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
169
Ejemplo 4.6. Es posible que la siguiente matriz:
25242416
sea de varian-
zas-covarianzas? Razona la respuesta.
Solucin: No.
-
Anlisis de datos bidimensionales.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
170
Ejemplo 4.7. Dada la siguiente distribucin de frecuencias bidimensional:
Y X 2 4
-5 1 0 0 0 1 5 1 0
a) Estn X e Y incorreladas? b) Son estadsticamente independientes X e Y?
Solucin: 1) s, 2) no
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
171
Ejemplo 4.8. De dos variables X e Y se conocen los siguientes datos:
vector de valores medios
=1510
mr ; matriz de varianzas-covarianzas
=252
216S . Hallar la media y la varianza de la variable: 8Y3X2Z ++= Solucin: 265S73z 2Z ==
-
Anlisis de datos bidimensionales.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
172
Ejemplo 4.9. Calcula el coeficiente de correlacin lineal en el ejemplo 4.4. e interpreta el resultado. Obtener la matriz de correlaciones.
Solucin: 0,265
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
173
Ejemplo 4.10. A partir de la siguiente matriz de datos para las variables X1, X2, X3, obtener:
a) Las distribuciones marginales b) Algunas de las distribuciones
condicionadas c) El vector de medias y la matriz
de varianzas-covarianzas d) La matriz de correlaciones
Solucin: c)
=
3,028,0
mr
=
61,0034,0060,010,034,010,056,0
S d)
=
1058,00117,058,017,01
Observacin X1 X2 X3 1 2 3 4 5 6 7 8 9
10
1 0 0 2 1 0 0 1 1 2
2 2 2 3 3 2 1 3 1 1
-1 -1 -1 0 1 0 -1 -1 0 1
-
Anlisis de datos bidimensionales.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
174
Ejemplo 4.11. Un fabricante de herramientas compra una serie de piezas a tres proveedores diferentes. Cada pieza es analizada para detectar si pre-senta alguno de los tres tipos de defectos ms usuales, antes de ser intro-ducida en la cadena de produccin. Durante un mes se han recogido datos relativos al tipo de defecto encontrado en las piezas compradas a cada uno de los tres proveedores obtenindose la siguiente tabla de contingencia:
Proveedor Tipo de Defecto A B C
I 19 30 20 II 25 45 33 III 12 15 20
Analizar si existe alguna relacin entre el tipo de defecto y el proveedor. Si la asociacin fuese mxima qu aspecto tendra la tabla de contingencia? Solucin: Cp = 0,117 para un mximo de 0,8165
-
TEMA 5 ANLISIS DE REGRESIN
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
176
Ficha del tema 5. Objetivos de aprendizaje.
Bibliografa bsica para complementar el tema.
Programacin de la gua didctica:
5.1. Introduccin.
5.2. Regresin mnimo-cuadrtica: caso lineal.
5.3. Anlisis de la bondad de un ajuste: capacidad explicativa de una ecua-
cin de regresin. Coeficiente de determinacin. Caso lineal.
5.4. Regresin no lineal: potencial y exponencial.
Conceptos clave.
Ejemplos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
177
OBJETIVOS DE APRENDIZAJE.
Estudio exhaustivo de la regresin lineal simple (dos variables X, Y): clculo de los parmetros a, b, a, b de las rectas de regresin Y* = a + bX y
X* = a + bY a partir del principio de mnimos cuadrados.
Expresin de esos parmetros en funcin de los estadsticos de la variable bidimensional (X, Y).
Interpretacin de los coeficientes de regresin b y b.
Obtencin de una medida de la bondad del ajuste efectuado a partir de la relacin existente entre la varianza total y las varianzas residual y de la re-gresin: coeficiente de determinacin R2 (capacidad explicativa de una ecua-cin de regresin).
Relacin entre el coeficiente de determinacin y los coeficientes de regresin b y b.
Introduccin a la regresin no lineal: casos potencial y exponencial.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
178
BIBLIOGRAFA BSICA (teora y problemas)
ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-
dad, Ed. Thomson, 2005.
Tema 4 para tema 5. (Con ejercicios, cuestiones de autoevaluacin y
problemas resueltos y propuestos).
MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica
Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.
Captulo 6.
MARTN PLIEGO, F.J.: Introduccin a la Estadstica Econmica y Empre-
sarial, Ed. Thomson. Madrid 2004 (3 edicin).
Captulo 10 para punto 4 (pgina 273).
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
179
5.1. INTRODUCCIN.
El estudio conjunto de dos variables (X, Y) tiene como objetivo fundamental de-
terminar si estn relacionadas esas variables y, si hay alguna relacin, cuantifi-
car esa relacin. Cmo primer paso se puede observar el grfico de dispersin:
la nube de puntos nos puede ayudar a buscar un modelo de relacin adecuado.
x
y
correlacin lineal
grfico de dispersin
x
y
datos no correlacionados
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
180
relacin no lineal
x
y
relacin potencial relacin exponencial
relacin no lineal
x
y
relacin parablica
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
181
Para CUANTIFICAR la relacin entre X e Y se utilizarn dos teoras funda-
mentales:
Teora de la CORRELACIN: clculo de estadsticos conjuntos y coefi-
cientes que midan la intensidad o el grado de relacin entre X e Y
(como el coeficiente de correlacin lineal definido en el tema 4).
Teora de la REGRESIN: una vez elegido el modelo de relacin que
se desea estudiar y cuantificar entre X e Y (lineal, exponencial), con
la teora de la REGRESIN se obtendr la ecuacin de la funcin, del
tipo elegido, que mejor relacione a las variables X e Y. Este tipo de
ecuaciones se denominan ECUACIONES DE REGRESIN. Estas ecua-
ciones cuantifican la RELACIN ESTADSTICA entre X e Y.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
182
RELACIN ESTADSTICA RELACIN FUNCIONAL.
Antes de estudiar cmo se obtienen las ecuaciones de regresin, conviene
distinguir entre una relacin estadstica y una, ms conocida, relacin fun-
cional entre dos variables:
Una relacin funcional entre X e Y )x(fy = es una corresponden-cia exacta, tal que cada valor de X est asociado con un nico valor
de Y.
Una relacin estadstica entre dos variables X e Y es una corres-
pondencia no necesariamente exacta, tal que cada valor de X x tiene asociado la prediccin de un valor de Y que se identificar como
y . Este valor se obtendr a partir de la ecuacin de regresin
)x(fy =
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
183
Relacin funcional
y = 2x + 7
0
20
40
60
80
100
120
0 5 10 15 20 25 30 35 40 45 50
x
y
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
184
Dada una serie de datos bivariantes
(X, Y) la ecuacin de regresin
)x(fy* = cuantifica la relacin es-tadstica entre X e Y.
En este contexto:
X es la variable independiente
(variable control)
Y es la variable dependiente
(variable respuesta).
Cada valor de X tendr asociado:
estimado) (terico, prediccin de valor
variable la de real valor
i
iiii y
)y,x(YyxX RESIDUO
= iii yye
Relacin estadstica
x
yy* = f(x)
(x,y)
x
y
y*
e=y - y*
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
185
AJUSTE.
Para obtener las ecuaciones de regresin )x(fy* = se utilizan mtodos matemticos de ajuste: hallar la ecuacin de un tipo de funcin que mejor
ajuste a la nube de puntos del grfico de dispersin.
MTODO DE AJUSTE: PRINCIPIO DE MNIMOS CUADRADOS (P.M.C.)
Dada una serie de datos bidimensionales N
1iii )y,x(:)Y,X( = y elegido el ti-po de funcin que queremos ajustar )x(fy* = , la ecuacin que mejor ajusta a la nube de puntos es la que minimiza la suma de los cuadrados de
los residuos.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
186
MNIMA
= =
=N1i
N
1i
2ii
2i )yy(e
A )x(fy = la llamare-mos:
Ecuacin de regresin
mnimo cuadrtica
de Y sobre X.
x
y
y* = f(x)RESDUOSe=y - y*
y
y*
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
187
5.2. REGRESIN MNIMO CUADRTICA: CASO LINEAL.
Dada una serie de datos bivariantes N
1iii )y,x(:)Y,X( = , si el tipo de funcin elegida )x(fy* = para relacionar las variables X e Y es una RECTA, su ecuacin en forma explcita es:
reales nmeros b,abxay += . Aplicando el P.M.C. como mtodo de ajuste: la ecuacin de la recta
bxay += que mejor ajustar a la nube de puntos N1iii )y,x( = del grfico de dispersin ser la que minimice la suma de los cuadrados de los residuos.
( ) == =
+== N1i
MNIMA 2iiN
1i
N
1i
2ii
2i )bxa(y)yy(e
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
188
( ) == =
+== N1i
MNIMA 2iiN
1i
N
1i
2ii
2i )bxa(y)yy(e
Regresin lineal
x
y y* = a + bx
y i
y i *
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
189
OBTENCIN DE LA RECTA DE REGRESIN DE Y SOBRE X.
Sea la funcin: ( )=
+= N1i
2ii )bxa(y)b,a(H a y b parmetros.
Los posibles valores de a y b que minimicen H(a, b) sern los que anulen las derivadas parciales:
SISTEMA DE ECUACIONES NORMALES
( )( )
+=+=
=+=
=+=
===
==
=
=N
1i
2i
N
1ii
N
1iii
N
1ii
N
1ii
N
1iiii
N
1iii
xbxayx
xbaNy
0x)bxa(y2bH
0)bxa(y2aH
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
190
La resolucin del sistema de ecuaciones anterior da los siguientes valores
para los parmetros a y b:
xbyassb
2X
XY == Se demuestra adems que son un mnimo: (Cf.: ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005, 2006 segunda impresin, pginas 156-157). Por tanto la recta de regresin de Y sobre X que mejor ajusta a la nube de puntos
N1iii )y,x( = es:
==+=
xbyassb
bxay 2XXY
Expresin que se utilizar para dar la recta de regresin.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
191
INTERPRETACIN DE LOS PARMETROS a y b: bxay +=
xbya = representa el valor de la ordenada Y en el origen.
COEFICIENTE DE REGRESIN: representa la variacin experimentada por
la variable Y para un incremento unitario de X. Por cada incremen-
to unitario de la variable X, la variable Y cambia su valor b unida-
des (de promedio).
(Tambin es la pendiente de la recta).
Ejemplo 5.1.
(a partir de los datos del problema 4.1.)
2X
XY
ssb =
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
192
OTRAS EXPRESIONES PARA LA RECTA DE REGRESIN de Y sobre X:
Sustituyendo los valores obtenidos de a y b en bxay += queda:
)xx(ssryy
sssr
)xx(ssybxxbybxay
X
YXY
YX
XYXY
2X
XY
+==
+=+=+=
PREDICCIN.
Con la recta de regresin de Y sobre X, bxay += , se pueden obtener va-lores de prediccin de Y, y sustituyendo en la ecuacin el valor x de X.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
193
EJEMPLO DE RECTA DE REGRESIN DE Y SOBRE X. PRCTICA.
Obtngase la recta de regresin mnimo cuadrtica ajustada a los tres da-
tos bivariantes que aparecen en el siguiente grfico:
Regresin de Y sobre X
4; 2
7; 5
1; 2
y* = 1+0,5xR2 = 0,75
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8
X
Y
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
194
REGRESIN DE X SOBRE Y.
Si quisiramos obtener valores de prediccin de X, x a partir de valores de
la variable Y y se necesitara la recta de regresin de X sobre Y:
ybax += . Para obtener esta recta se permutaran los papeles de las variables X e Y.
Ahora Y sera la variable independiente (control) y X la variable dependiente
(respuesta).
En este caso la suma de los cuadrados de los residuos sera:
( ) == =
+== N1i
MNIMA 2iiN
1i
N
1i
2ii
2i )yba(x)xx(e
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
195
Al minimizar la expresin anterior se obtendran los parmetros a y b:
==+=
ybxassb
ybax 2Y
XY
COEFICIENTE DE REGRESIN de X sobre Y: representa la va-
riacin experimentada por la variable X para un incremento unita-
rio de Y.
2Y
XY
ssb =
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
196
OTRAS EXPRESIONES PARA LA RECTA DE REGRESIN de X sobre Y:
Sustituyendo los valores obtenidos de a y b en ybax += queda:
)yy(ssrxx
sssr
)yy(ssxybybxybax
Y
XXY
YX
XYXY
2Y
XY
+==
+=+=+=
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
197
RELACIN ENTRE LA REGRESIN Y LA CORRELACIN LINEALES.
bbr
ssb
ssb
XY
2Y
XY
2X
XY
=
=
=
Teniendo en cuenta que el signo de XYr sera el mismo que el de b y b. PROPIEDADES DE LAS RECTAS.
)xx(ssryy
X
YXY += y )yy(s
srxxY
XXY +=
Se cruzan en el punto )y,x( (si se representan en unos mismos ejes coordenados (X, Y)).
Son perpendiculares si 0rXY = , xxyy == Son iguales si 1rXY = .
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
198
EJEMPLO DE LAS DOS RECTAS DE REGRESIN. PRCTICA.
Determnese la recta de regresin mnimo cuadrtica de X/Y ajustada a los tres datos bivariantes del siguiente grfico. (Es el mismo que el de Y/X de la pag. 180).
Dos rectas de regresin
4; 2
7; 5
1; 2
medias; (4; 3) y* = 1+0,5x
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8
X
Y
x* = -0,5+1,5y
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
199
5.3. ANLISIS DE LA BONDAD DE UN AJUSTE: CASO LINEAL.
Coeficiente de determinacin.
Sea N
1iii )y,x(:)Y,X( = una serie de datos bivariantes.
Supongamos que se ha obtenido una ecuacin de regresin de Y sobre X
)x(fy = . Con esta ecuacin se obtienen valores de prediccin de Y, iy . El anlisis de la bondad de un ajuste consiste en obtener una medida de la
similitud de los valores reales de la variable ( )iy:Y con los estimados de la variable ( ) iy:Y , variable de la regresin. En la comparacin de estos va-
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
200
lores jugar un papel esencial la variable que conforman los residuos
( )= iii yye:E , variable residual.
Se partir de la siguiente relacin: los valores de la variable dependiente
( )iy:Y se pueden descomponer en iii eyy += y la medida de la bon-dad del ajuste se obtendr de la comparacin de la variabilidad de esas tres
variables: ( )iy:Y ( ) iy:Y ( )= iii yye:E .
Para ello se estudiar el aspecto de sus medias y varianzas, que dependern
del tipo de ecuacin de regresin que ajustemos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
201
VARIABLE Y Valores iy Media y Varianza
=
= N1i
2i
2Y )yy(N
1s
VARIABLE REGRESIN Y* Valores )x(fyi = Media y Varianza de la regresin
=
= N1i
2i
2*Y )yy(N
1s
VARIABLE RESIDUAL E = Y-Y* Valores
= iii yye Media e Varianza residual
=
= N1i
2i
2E )ee(N
1s
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
202
CASO LINEAL: BONDAD DEL AJUSTE.
En el caso lineal, la recta de regresin de Y sobre X es:
xbyassbbxay
2X
XY ==+= siendo La media e y la varianza 2Es de la variable residual
= YYE tienen el si-guiente aspecto:
La variable residual abXY)bXa(YYYE =+== , es decir, es combinacin lineal de X e Y, por tanto:
2X
2XY2
YXY2X
XY2X22
X
2XY2
YXY2X
22Y
2E s
sssss2s
)s(ssbs2sbss
0)xby(xbyaxbye
=+=+====
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
203
Es decir:
2X
2XY2
Y2E s
sss
0e
==
Por otra parte, la media y y la varianza 2*Ys de la variable de la regresin
Y toman el siguiente aspecto en la regresin lineal: La variable de la regresin bXaY += , es una transformacin lineal de X por tanto:
2X
2XY2
X22X
2XY2
X22
*Y sss
)s(ssbs
yxbxbyxbay
====+=+=
es decir: 2X
2XY2
*Y sss
yy
==
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
204
Por tanto en la regresin lineal de Y sobre X, las medias y varianzas de las
variables implicadas en el estudio quedan:
total varianza
media
VARIABLE
=
= N1i
2i
2Y )yy(N
1s
yY
regresin la de varianza
regresin la de VARIABLE
2X
2XY2
*Y
N
1i
2i
2*Y
sss
)yy(N1s
yyY
=
==
=
residual varianza
residual VARIABLE
2X
2XY2
Y2E
N
1i
2ii
2E
ssss
)yy(N1s
0eE
=
==
=
Es decir, que se obtiene la siguiente relacin entre las varianzas:
2E
2Y
2Y
2*Y
2Y
2E ssssss +==
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
205
Esta relacin nos permite descomponer la variabilidad total de los valores
reales de ( )iy:Y en la variabilidad de los valores de ( ) iy:Y (obtenidos a partir de X con la recta de regresin ii bxay += ) y la variabilidad de los residuos ( )= iii yye:E .
Obviamente cuanto menor sea la varianza residual 2Es mejor ser el
ajuste.
Si 0s 2E = el ajuste ser ptimo y si 2Y2E ss = (su valor mximo) el ajuste ser psimo.
El peso de estas varianzas en la relacin anterior se medir mejor con un
indicador de tipo relativo.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
206
EL COEFICIENTE DE DETERMINACIN R2.
Expresamos en trminos relativos la relacin entre las tres varianzas:
2Y
2E
2Y
2Y
2Y
2E
2Y
2Y
2Y
2Y2
E2Y
2Y s
sss1
ss
ss
sssss +=+=+=
El primer cociente 2Y
2Y
ss
representa la parte de la variabilidad de
( )iy:Y explicada por la regresin. El segundo conciente 2
Y
2E
ss
, complementario del anterior, representa la
parte de la variabilidad de ( )iy:Y que queda por explicar.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
207
El coeficiente de determinacin se define precisamente a partir de esas rela-
ciones: 2Y
2E
2Y
2Y2
ss1
ssR ==
PROPIEDADES DE COEFICIENTE.
En general, en los tipos de regresiones donde se cumpla la relacin
entre varianzas 2E
2Y
2Y sss += , se define el coeficiente de determinacin
de esta forma: 2Y
2E2
ss1R = .
1R0 2 : se deduce fcilmente de la definicin, teniendo en cuenta que
2Y
2E ss0 y que es cociente de varianzas (siempre positivas).
2R proporciona una medida de la bondad del ajuste.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
208
Interpretacin del coeficiente:
=====
ptimo ajuste
psimo ajustemximo) (residuo 0s1Rss0R
ss1R 2
E2
2Y
2E
2
2Y
2E2
100R2 mide el porcentaje de la variabilidad de la variable depen-diente ( )iy:Y que explica la regresin ( )ii bxay:Y += . Dicho de otra forma: en qu medida la informacin de la variable X (variable
independiente) determina los valores de Y (variable dependiente) a
travs de la ecuacin de regresin )x(fy = . ( ) Y)x(fyX =
En este sentido se interpreta tambin 2R como una medida de la ca-pacidad explicativa de la ecuacin de regresin.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
209
EL COEFICIENTE DE DETERMINACIN EN LA REGRESIN LINEAL.
Teniendo en cuenta que en la regresin lineal:
2X
2XY2
Y2E s
sss = 2X
2XY2
*Y sss = y el coeficiente de correlacin
YX
XYXY ss
sr =
2XY2
Y2X
2XY
2Y
2Y2 r
sss
ssR ===
Es decir, en la regresin lineal el coeficiente de determinacin coincide con
el de correlacin lineal al cuadrado.
Adems las varianzas de la regresin y residual se pueden determinar tam-
bin en funcin de 2
XYr : 2Y
2XY
2E
2Y
2XY
2*Y s)r1(ssrs ==
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
210
Por tanto la BONDAD DEL AJUSTE en la regresin lineal se medir a partir
de 2
XY2 rR = , coeficiente de determinacin:
100r2XY mide el porcentaje de la variabilidad de la variable depen-diente ( )iy:Y que explica la regresin ( )ii bxay:Y += .
100)r1( 2XY representa el porcentaje de la variabilidad de ( )iy:Y que queda por explicar (residuo).
Ejemplo 5.2.
Cotas del coeficiente de correlacin: el coeficiente de correlacin lineal
XYr est acotado entre -1 y 1 ya que:
1r11r01R0 XY2
XY2 .
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
211
5.4. Regresin no lineal: potencial y exponencial.
Dada una serie de datos bivariantes N
1iii )y,x(:)Y,X( = , si el tipo de funcin elegida )x(fy* = para relacionar las variables X e Y es una funcin poten-cial o exponencial, su ecuacin en forma explcita tendr el aspecto:
bxay = potencial Ajuste a y b parmetros.
xbay = lexponencia Ajuste a y b parmetros.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
212
AJUSTE POR UNA FUNCIN POTENCIAL.
bxay = Para determinar los parmetros a y b, se procede como sigue.
La expresin bxay = se reduce a forma lineal tomando logaritmos: xlnbalnyln * += .
Sobre la expresin anterior se opera un ajuste lineal:
llamando ubAv
alnAylnv
ylnvxlnu
+=
====
, es decir, se obtiene la
recta de regresin de V sobre U.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
213
Se obtienen A y b ajustando una recta por mnimos cuadrados a la va-riable )Yln,X(ln)V,U( :
ubvAssb
2U
UV == . Finalmente se determina el parmetro a:
AeaAlnantiaalnA === .
Ejemplo 5.4.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
214
AJUSTE POR UNA FUNCIN EXPONENCIAL.
xbay = Para determinar los parmetros a y b, se procede como sigue.
La expresin xbay = se reduce a forma lineal tomando logaritmos: blnxalnyln * += .
Sobre la expresin anterior se opera un ajuste lineal:
llamando BxAv
blnBalnAylnv
ylnv
+=
====
, es decir, se obtiene la
recta de regresin de V sobre X.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
215
Se obtienen A y B ajustando una recta por mnimos cuadrados a la variable )Yln,X()V,X( :
xBvAssB
2X
XV == . Finalmente se determinan los parmetros a y b:
B
A
ebBlnantibblnBeaAlnantiaalnA
======
.
Ejemplo 5.5.
-
Anlisis de Regresin.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
216
Conceptos clave.
Ajuste Bondad de ajuste coeficiente de determinacin. Coeficiente de regresin. Correlacin Error cuadrtico medio (ECM). Principio mnimos cuadrados. Recta de regresin mnimo-cuadrtica Regresin Regresin no lineal Residuo Varianza de la regresin Varianza residual
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
217
EJEMPLOS
Ejemplo 5.1. Se ha estudiado las calificaciones de 100 alumnos en dos
asignaturas: Estadstica (variable X) y Matemticas Financieras (variable Y),
obtenindose los siguientes datos: 110 2,5 10 0,5X Yx y S S= = = = Adems se sabe que el coeficiente de correlacin entre ambas es 0,85XYr = . Obtener la recta de regresin de Y/X.
-
Anlisis de Regresin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
218
Ejemplo 5.2. Analizar la bondad de los ajustes efectuados en el ejemplo
anterior calculando la varianza residual, la varianza de la regresin y el co-
eficiente de determinacin. (Capacidad explicativa de la recta de regresin).
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
219
Ejemplo 5.3. En la estimacin de los parmetros de un modelo de regresin
lineal se han obtenido los siguientes valores:
9,0r20s15s8y5x 22YXY ===== A partir de los datos anteriores determnese:
1. La varianza de X
2. La recta de regresin X/Y
3. La recta de regresin Y/X.
Solucin: 1) 12,5 2) a=-1, b=0,75 3) a =2, b =1,2
-
Anlisis de Regresin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
220
Ejemplo 5.4. Dada la siguiente distribucin bidimensional:
X 1 2 6 6
Y 4 33 260 840
Realizar un ajuste potencial del tipo bix ay
*i =
Solucin: x 3i4y*i =
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha Texto
221
Ejemplo 5.5. Dada la siguiente distribucin bidimensional
X 1 2 3 4
Y 2 4 8 16
Se pide:
a) Realizar un ajuste exponencial del tipo x* bay =
b) El error cuadrtico medio e interpretar el resultado obtenido.
Solucin: 0ECM)b2y)a x* ==
-
Anlisis de Regresin.
ndice Ficha Texto
Rafael Dez, Vicente Coll y Olga Blasco
222
Ejemplo 5.6. A partir de los siguientes datos de las variables X1, X2 y X3,
obtener:
X1 X2 X3
1 3 1
2 0 2
3 1 -1
4 -1 -1
a) El plano de regresin de X1/X2,X3 y la bondad del ajuste efectuado.
b) La matriz de correlacin.
c) El coeficiente de correlacin parcial entre X1 y X2.
Solucin: a) X1* = 3 - 0,5 X2 0,5 X3 2X
1
R = 1 c) r12.3= -1
-
TEMA 6 TASAS DE VARIACIN Y
NMEROS NDICES
-
Tasas de Variacin y Nmeros ndice.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
224
Ficha del tema 6. Objetivos de aprendizaje.
Bibliografa bsica para complementar el tema.
Programacin de la gua didctica:
6.1. Introduccin.
6.2. Tasas de variacin.
6.3. Nmeros ndices: clasificacin y propiedades.
6.4. ndices de precios y cantidades ms importantes.
6.5. Cambio de base, renovacin y enlace.
6.6. Deflactacin de series estadsticas.
Conceptos clave.
Ejemplos.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
225
OBJETIVOS DE APRENDIZAJE.
Definir el concepto de nmero ndice y tasa de variacin. Estudiar los tipos de nmeros ndices complejos ms relevantes tipo Laspey-
res y Paasche, haciendo especial hincapi en los ndices de precios.
Acercar el perodo de referencia o la base de una serie de ndices al perodo
actual, operando cambios de base.
Enlace de series de ndices utilizando el cambio de base. Deflactacin de magnitudes econmicas expresadas en u.m. corrientes, utili-
zando ndices de precios.
-
Tasas de Variacin y Nmeros ndice.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
226
BIBLIOGRAFA BSICA (teora y problemas)
ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-
dad, Ed. Thomson, 2005.
Tema 5 para tema 6. (Con ejercicios, cuestiones de autoevaluacin y
problemas resueltos y propuestos).
MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica
Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.
Captulo 7.
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
227
6.1. INTRODUCCIN.
Los instrumentos que se van a definir, servirn para medir la evolucin del
valor de una variable en el tiempo o en el espacio.
Normalmente se tratar de variables de tipo socioeconmico. Una variable
de esta naturaleza se denominar magnitud.
Se comparar el valor de una magnitud en dos situaciones (habitualmente
temporales):
Situacin inicial: perodo de referencia o BASE, se denotar por 0
Situacin final: perodo actual que se pretende comparar con el base,
se denotar por t
-
Tasas de Variacin y Nmeros ndice.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
228
TIPOS DE MAGNITUDES:
MAGNITUD SIMPLE: variable unidimensional
T,,...2,1,0t:y,...,y,,...y,y:Y Tt10=
perodos
valores
MAGNITUD COMPLEJA: variable n dimensional
( )
)y...,,y...,,y,y(t
)y...,,y...,,y,y(0Y...,,Y...,,Y,Y
ntitt2t1
0n0i2010
ni21
perodo
perodo:valores
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
229
6.2. TASA DE VARIACIN.
Sea Y magnitud simple y sean los valores t1t0 yy,y e .
Tasa de variacin de 1yy
yyyYTVt)1t(
1t
t
1t
1ttt
t1t ===
Tasa de variacin de 1yy
yyyTVt0
0
t
0
0tt0 ==
TASAS DE VARIACIN EN TANTO POR UNO
(X 100) EN PORCENTAJE
-
Tasas de Variacin y Nmeros ndice.
ndice Ficha
Rafael Dez, Vicente Coll y Olga Blasco
230
6.3. NMEROS NDICES. CLASIFICACIN Y PROPIEDADES.
6.3.1 Definicin y clasificacin.
NMERO NDICE: medida estadstica de tipo relativo (en tanto por uno o
porcentaje) que sirve para comparar el valor de una magnitud (variable) en
dos situaciones, una de las cuales se considera de referencia (base).
Los nmeros ndices se escriben en PORCENTAJE, tomando como referencia
el 100.
)iones(ponderaciPONDERADOS
PONDERARSINCOMPLEJOS
SIMPLES
NDICESNMEROS
-
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.
Rafael Dez, Vicente Coll y Olga Blasco
ndice Ficha
231
6.3.2.