Estadistica Descriptiva - Sergio Moscoso

31
1 ESTADISTICA DESCRIPTIVA Prof: Sergio Moscoso Cerda 1.0 Definiciones Básicas Estadística Es la disciplina que se preocupa de recopilar, organizar y analizar datos cuantitativos o cualitativos para luego emitir una opinión y posteriormente tomar una decisión La estadística se divide en dos partes i) Estadística Descriptiva ii) Estadística Inferencial Estadística Descriptiva La Estadística Descriptiva es la que trabaja con todos los elementos de una muestra y los cálculos realizados sólo son validos para dicha muestra Estadística Inferencial Es la que hace que todas las mediciones hechas a una muestra sean validas para la Población de la que se sacó la muestra Rol de la Estadística en la investigación Científica Una de las características del hombre es que busca constantemente una explicación racional de los fenómenos que lo rodean. Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes y universales. El Método Científico, es el método propio a la ciencia, el que se aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la evaluación de los resultados obtenidos. El Método Científico En el método científico podríamos distinguir en forma esquemática, y con las limitaciones que esto supone, las diversas etapas - Elección y enunciado del problema La elección de un problema con el fin de averiguar sus causas o de encontrarle soluciones, dependerá de los juicios de valor del investigador y de las condiciones sociales, políticas y económicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a través de la descripción de la situación problema o mediante el planteamiento de una pregunta. - Formulación de una Hipótesis La hipótesis es una explicación de la situación problema o una respuesta posible a la pregunta planteada. Se formula en términos afirmativos respecto a relaciones entre variables pertinentes. - Deducción de consecuencias verificables de la hipótesis Siendo la hipótesis una explicación o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lógica consecuencias particulares de la hipótesis - Verificación de la hipótesis

description

Estadistica

Transcript of Estadistica Descriptiva - Sergio Moscoso

Page 1: Estadistica Descriptiva - Sergio Moscoso

1

ESTADISTICA DESCRIPTIVA

Prof: Sergio Moscoso Cerda

1.0 Definiciones Básicas Estadística Es la disciplina que se preocupa de recopilar, organizar y analizar datos cuantitativos o cualitativos para luego emitir una opinión y posteriormente tomar una decisión

La estadística se divide en dos partes

i) Estadística Descriptiva ii) Estadística Inferencial

Estadística Descriptiva La Estadística Descriptiva es la que trabaja con todos los elementos de una muestra y los cálculos realizados sólo son validos para dicha muestra Estadística Inferencial Es la que hace que todas las mediciones hechas a una muestra sean validas para la Población de la que se sacó la muestra Rol de la Estadística en la investigación Científica Una de las características del hombre es que busca constantemente una explicación racional de los fenómenos que lo rodean. Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes y universales. El Método Científico, es el método propio a la ciencia, el que se aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la evaluación de los resultados obtenidos.

El Método Científico

En el método científico podríamos distinguir en forma esquemática, y con las limitaciones que esto supone, las diversas etapas - Elección y enunciado del problema

La elección de un problema con el fin de averiguar sus causas o de encontrarle soluciones, dependerá de los juicios de valor del investigador y de las condiciones sociales, políticas y económicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a través de la descripción de la situación problema o mediante el planteamiento de una pregunta.

- Formulación de una Hipótesis La hipótesis es una explicación de la situación problema o una respuesta posible a la pregunta planteada. Se formula en términos afirmativos respecto a relaciones entre variables pertinentes.

- Deducción de consecuencias verificables de la hipótesis

Siendo la hipótesis una explicación o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lógica consecuencias particulares de la hipótesis

- Verificación de la hipótesis

Page 2: Estadistica Descriptiva - Sergio Moscoso

2

La verificación puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones teóricas basadas en relaciones aceptadas en el estado actual del conocimiento. En el campo de las ciencias sociales la verificación se hace, a través de la recolección de información o de observación de los fenómenos. Esto implica la aplicación de una serie de procedimientos estadísticos

- Interpretación de los resultados Con los datos obtenidos en la etapa anterior se decide si se ha de rechazar o no la hipótesis en estudio. La verdad absoluta, seguirá siendo la meta final y desconocida del método científico. Los logros se reducirán a construir un cuerpo de conocimientos con estructura lógica y soportes racionales que resista la verificación empírica.

El Método Estadístico Es un conjunto de procedimientos aplicados en secuencia lógica a la obtención y análisis de datos. Es el Método Estadístico el que nos proporciona las técnicas necesarias para recolectar y analizar la información requerida. Podríamos distinguir en él una etapa de Planificación y otra de Ejecución I Etapa de Planificación En esta etapa debemos considerar las siguientes fases

- Definición de objetivos Corresponde formalmente a la descripción del problema que da origen a la investigación. Se debe señalar detalladamente lo que se pretende investigar, es decir, el qué, cómo, donde, cuando y por qué

- Definición del Universo o Población Se debe definir el grupo del cual se extraerá la información y a la cuál se referirán los resultados

- Diseño de la muestra La teoría de Muestreo o de Diseño y Análisis de Experimentos pueden garantizarnos que la información que generaremos nos permitirá proyecciones válidas al universo de interés

- Definición de las unidades de observación, escalas de clasificación y unidades de medidas En una misma investigación puede haber varios objetivos parciales que requieran estudiar unidades de observación diferentes

- Preparación del plan de tabulación y análisis

El cuidado en este aspecto nunca podría considerarse excesivo, debería llegarse, tal vez, hasta considerar alternativas de análisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo.

II Etapa de Ejecución En esta etapa podemos reconocer las siguientes fases: - Recolección de la información - Elaboración de la información - Análisis de los resultados

Page 3: Estadistica Descriptiva - Sergio Moscoso

3

Es obvio que todo estudio ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos Población. Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un computador o una casa, o algo más abstracto como un voto o un intervalo de tiempo. A su vez, cada elemento de la población tiene una serie de característica que pueden ser objeto del estudio estadístico. Así por ejemplo si consideramos como elemento a una persona, podríamos distinguir en ella las siguientes características: Sexo, edad, nivel educacional, profesión, peso, color de pelo, religión. Etc. Según su tamaño la población se puede dividir en: a) Población finita: Cuando el número de elementos que forman la población es finito, por ejemplo el número de estudiantes por clase b) Población infinita: Cuando el número de elementos que forman la población es infinito, por ejemplo el número de productos que hay en el mercado

Ahora bien, por lo general en un estudio estadístico no se puede trabajar con todos los elementos de la población por un asunto de costo o de imposibilidad de tener toda la información, sino que se realiza sobre un subconjunto de la población. Este subconjunto se llama muestra o subpoblación, por ejemplo al hacer un estudio sobre los estudiantes de la Universidad se podrá tomar a los estudiantes que cursan tercer año y de este subconjunto sólo a los estudiantes varones. Existen dos grandes formas para seleccionar una muestra:

i) Muestreo Aleatorio o Probabilístico En este tipo de muestreo, todos los elementos de la población tienen la misma chance de figurar en la muestra

ii) Muestreo no Aleatorio o de Juicio En este tipo de muestreo, se usa el conocimiento y la opinión personal para identificar los elementos de la población que van a incluirse en la muestra. En ocasiones, el muestreo no aleatorio sirve de muestra piloto para decidir como seleccionar después una muestra aleatoria. Como nuestro trabajo lo debemos realizar con muestras obtenidas de alguna población, de modo que al realizar un muestreo lo podemos hacer aplicando uno o más de los siguientes métodos de muestreo: a) Muestreo Aleatorio

Los elementos incluidos en esta muestra han sido seleccionados mediante algún procedimiento de sorteo o azar que signa alguna chance no nula a cada elemento de la población, hablamos de Muestreo Aleatorio Simple.

b) Muestreo por Estratos En muchas situaciones, existe un factor que divide naturalmente a la población de interés en sub-poblaciones o Estratos más o menos homogéneos. Este procedimiento de muestreo puede darnos mayor precisión que el muestreo aleatorio simple, pero a un costo mayor. Ejemplo: Hacer un estudio por estratos socioeconómicos

c) Muestreo Sistemático Los elementos se seleccionan de la población con un intervalo uniforme que se mide en el tiempo, en el orden o en el espacio, por ejemplo si se quiere entrevistar a todo décimo estudiante de una escuela. Deberíamos asignar a cada estudiante un número entre 00 y 99

Page 4: Estadistica Descriptiva - Sergio Moscoso

4

y luego se comienza a escoger una muestra; cada décimo número, es decir, 1, 11, 21, 31 y así sucesivamente. Los estudiantes asignados con los números 2, 3, 4 y 5 no tendrán oportunidad alguna de ser seleccionado.

d) Muestreo por Conglomerados En este caso se divide la población en grupos o conglomerados y luego se selecciona una muestra aleatoria de ellos. Este muestreo se usa cuando se advierte considerable variación dentro de cada grupo pero esencialmente semejantes entre sí, por ejemplo sí un equipo de investigación de mercados esta tratando de determinar por muestreo el número promedio de TV. por familia en una ciudad, podría utilizar un mapa de la ciudad para dividir el territorio en manzanas y luego seleccionar cierto número de manzanas (Conglomerados) para realizar la entrevista.

Como hemos visto, los caracteres o datos de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en dos tipos de variables i) Variables Cuantitativas: son las que se describen por medio de números tales como el

peso, la estatura, número de hermanos, etc., las observaciones de este tipo se definen, por lo general, sobre un intervalo o sobre una escala de proporciones. Las mediciones que se definen en una escala de intervalo se pueden distinguir y ordenar en forma numérica y sus diferencias son significativas por ejemplo la medición de la temperatura. pude escogerse entre registrar la temperatura en grados Celsius o en grados Fahrenheit. De esta forma el origen de las escalas es diferente, pero el significado de la diferencia entre 10ºC y 15ºC es el mismo que tiene la diferencia entre 20ºFy 25ºF. Si una medición reúne los requisitos de una escala de intervalo y además tiene punto de origen, entonces la medición se define sobre una escala de proporciones. Por ejemplo, las estaturas, los pesos y otros se encuentran definidos sobre una escala de proporciones ya que tienen verdaderos puntos ceros Además, este tipo de variables se puede dividir en: a) Variables Discretas: Son aquellas que se describen solo por un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo el número de hijos por pareja b) Variables Contínuas: Son aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo el peso, la estatura, etc. En muchos casos el tratamiento estadístico hace que la variable discreta se trabaje como continua y viceversa

ii) Variables Cualitativas o atributos: son aquellas que no se le puede asignar número, por ejemplo sexo, religión, profesión, etc.

Estas variables se pueden clasificar en:

a) Ordinales: Son aquellas que sugieren una ordenación, por ejemplo nivel de agresividad de un estudiante, agrado de una bebida, etc.

b) Nominales: Es la que emplea un nombre o un número para clasificar una característica de interés. Por ejemplo, las personas pueden clasificarse de acuerdo con su sexo. En este caso pueden emplearse los símbolos M y H ó 0 y 1

2.0 0rdenamiento de la información En este punto nos vamos a ocupar de Estadística Unidimensionales, es decir,

Page 5: Estadistica Descriptiva - Sergio Moscoso

5

donde el interés es una sola característica de cada punto muestral. El ordenamiento se hace en tablas de frecuencias también llamadas tablas estadísticas las que podemos clasificar según el número de observaciones y según el recorrido de la variable. Tablas tipo I

Cuando el tamaño de la muestra y el recorrido de la variable es pequeño, por ejemplo si tomamos la edad de los 5 miembros de una familia: 2, 5, 17, 38, 40

Tablas tipo II

Cuando el recorrido de la variable es pequeño y el tamaño de la muestra es grande por lo tanto hay valores de la variable que se repiten.

Ej. 1 La siguiente muestra corresponde a la cantidad de personas que trabajan por familia Personas trabajadoras

2 1 2 2 1 2 4 2 1 1 2 3 2 1 1 1 3 4 2 2 2 2 1 2 1 1 1 3 2 2 3 2 3 1 2 4 2 1 4 1 1 3 4 3 2 2 2 1 3 3

Se puede observar que el recorrido de la variable va de 1 a 4, por lo tanto al hacer un conteo de la variable se tiene la siguiente tabla Tabla 1

Personas que trabajan Nº de familias

1 16

2 20

3 9

4 5

Total 50

Tablas tipo III Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo tanto será necesario agrupar en intervalos de clases. Ej. 2. La siguiente muestra corresponde a los ingresos semanales, en miles de pesos, de 50 trabajadores de la empresa SAM y Cía. Ltda. 93 74 86 107 77 92 77 87 100 77 91 90 73 80 94 105 88 66 107 95 69 80 83 87 89 94 105 78 79 98 86 97 112 97 79 96 92 86 103 82 86 89 87 93 104 77 87 114 87 96 Evidentemente, el recorrido de la variable es grande, por lo tanto necesitamos tabular con intervalos de clases. Para decidir sobre la cantidad de intervalos se debe tener en cuenta las siguientes consideraciones: - Al tomar pocos intervalos “aumenta la perdida de información” - Los intervalos pueden ser Cerrados o Semi-cerrados - Normalmente se suele trabajar con no más 10 o 12 intervalos

Page 6: Estadistica Descriptiva - Sergio Moscoso

6

Tabulemos la muestra anterior en cinco intervalos de clases semi-cerrados, como tenemos que el recorrido real va de 66 a 114 y al modificar el recorrido de 65 a 115. Por lo tanto, la amplitud del recorrido modificado es 50 y, como la tabulación es de 5 intervalos luego la amplitud de cada intervalo de clase es de 10, por lo tanto tenemos la siguiente tabla

Tabla 2

Intervalos de Clase Yi-1 - Yi

Conteo

65 - 75 4

75 - 85 11

85 - 95 20

95 - 105 9

105 - 115 6

Total 50

Tipos de frecuencias Uno de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla en la que a cada valor de la variable se le asocian determinados números que representan el número de veces que ha aparecido. Estos números se denominan frecuencias. Así se tienen las siguientes frecuencias: Frecuencia Absoluta Esta frecuencia la denotaremos por ni y la definiremos como el número de veces que aparece en la muestra dicho valor de la variable. La suma de todas las frecuencias absolutas es igual al tamaño de la muestra, es decir

1

n

i

i

n n

Esta frecuencia en una medida que está influida por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta. Esto hace que no sea una medida útil para comparar por esto es necesario introducir el concepto de frecuencia relativa Frecuencia relativa Esta frecuencia la denotaremos por hi y la definiremos como el cuociente entre la frecuencia absoluta y el tamaño de la muestra

i; el recorrido de esta frecuencia es 0 h 1ii

nh

n

La frecuencia relativa es un tanto por uno, sin embargo se puede escribir en tanto por ciento. La suma de todas las frecuencias relativas deber igual a uno

Page 7: Estadistica Descriptiva - Sergio Moscoso

7

1

1n

i

i

h

Frecuencia Absoluta Acumulada ( Ni) Para poder calcular este tipo de frecuencia hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. La frecuencia Absoluta Acumulada es el número de observaciones que hay desde el valor menor de la variable hasta un valor determinado de ella. Esta frecuencia tiene dos propiedades. a) La primera frecuencia absoluta acumulada es igual a la primera frecuencia

absoluta: 1 1N n

b) La última frecuencia absoluta acumulada es igual al tamaño de la muestra, es decir Nn = n

Frecuencia Relativa Acumulada Es el porcentaje de observaciones que hay desde el valor menor de la variable hasta un valor determinado de ella. Esta frecuencia tiene dos propiedades a) La primera frecuencia relativa acumulada es igual a la primera frecuencia

relativa 1 1H h

b) La última frecuencia relativa acumulada es igual a uno (1), Hn = 1 Ejemplo: Del Ej. 1 se tiene se obtiene la tabla 3

Personas que

trabajan

Nº de familias

Frecuencias

Xi ni hi hi% Ni Hi Hi%

1 16 16/50 32 16 16/50 32

2 20 20/50 40 36 36/50 72

3 9 9/50 18 45 45/50 90

4 5 5/50 10 50 50/50 100

Total 50 1.0 100

Ejemplo: Del Ej.2 se obtiene la tabla 4

Intervalos de clase Yi-1 - Yi

Frecuencias

ni hi Ni Hi Yi

65 - 75 4 4/50 4 4/50 70

75 - 85 11 11/50 15 15/50 80

85 - 95 20 20/50 35 35/50 90

95 - 105 9 9/50 44 44/50 100

105 - 115 6 6/50 50 1 110

Page 8: Estadistica Descriptiva - Sergio Moscoso

8

Total 50 1

3.0 Gráficos Estadísticos Un gráfico estadístico es la representación de datos en el plano con el propósito de obtener una impresión visual del conjunto de datos, que facilite su rápida comprensión. Todo gráfico debe ser sencillo y auto explicativo. El tipo de gráfico para los propósitos anteriores dependerá del tamaño del recorrido de las variables así como del nivel de medición de estas. Tipos de gráficos En estadística existen los siguientes tipos de gráficos - Gráficos de barras: Simples o separadas Cada valor de la variables se representa por una barra cuyo largo corresponde a la frecuencia con que se observa ese valor - Histogramas y polígonos de frecuencias Están constituidos por un conjunto de rectángulos contiguos, levantados en el eje horizontal sobre cada uno de los intervalos de clase. Los polígonos de frecuencias son adecuados para representar la distribución de frecuencias de una variable contínua cuando todos los intervalos de clase tienen la misma amplitud - Gráficos lineales Son gráficos adecuados para analizar la existencia de asociación entre dos variables contínuas, con nivel de medición en escala de intervalos o razón - Gráfico de correlación o diagramas de dispersión Son gráficos adecuados para analizar la existencia de asociación entre dos variables contínuas (x, y), con nivel de medición en escala de intervalos razón - Gráficos Circulares Se utilizan para representar distribuciones de frecuencias para el caso de variables discretas y cualquier nivel de medición, con pocos valores Pictogramas Se utilizan para presentaciones en público o para fines publicitarios Todos estos tipos de gráficos se pueden resumir en el siguiente cuadro

Page 9: Estadistica Descriptiva - Sergio Moscoso

9

LABORATORIO Nº 1

Page 10: Estadistica Descriptiva - Sergio Moscoso

10

Problema 1 Los siguientes datos corresponden a la duración, en años, de los componentes de una vacuna 2.0 3.0 0.3 3.3 1.3 0.5 0.7 6.0 5.8 6.6 0.2 2.3 1.5 4.0 5.8 1.9 4.8 0.7 4.5 0-9 1.5 0.7 2.8 5.3 1.3 6.2 5.7 6.3 1.5 0.4 a) Construye una tabla de distribución de frecuencias usando 5 intervalos de clase b) Dibuja su histograma y su polígono de frecuencias c) ¿ Qué porcentaje de los componentes tienen una vida entre 1.45 y 2.75?. Usa la tabla de

distribución de frecuencias d) ¿ Qué porcentaje de los componentes tienen una vida menor a 5.3 años?. Usa la tabla de

distribución de frecuencias Problema 2 Los siguientes datos representan el periodo de vida, en segundos, de 50 mosquitos que están sujetos a un nuevo insecticida en un experimento controlado de laboratorio 18 20 10 8 25 14 13 19 18 24 12 17 8 9 12 14 7 9 15 22 14 18 17 14 16 31 8 7 15 12 13 8 18 7 10 5 28 17 14 15 10 12 15 19 6 8 13 14 18 21 a) Construye una tabla completa de distribución de frecuencias para este conjunto de datos,

usando 6 intervalos de clase b) Dibuja un gráfico de torta para las frecuencias relativas Usando la tabla de distribución de frecuencias, responde: c) ¿Qué porcentaje de los mosquitos lograron una vida bajo la presencia del insecticida por arriba

de 29,5 segundos? d) Interpreta el valor de:

1) La tercera frecuencia absoluta 2) La segunda frecuencia relativa 3) La cuarta frecuencia absoluta acumulada 4) La tercera frecuencia relativa acumulada

Problema 3 Los contenidos de nicotina, en miligramos, de 40 cigarrillos marca CANCER se registraron de la siguiente manera 1.02 1.93 2.31 1.78 2.28 1.76 1.47 1.94 0.97 1.28 2.14 2.36 1.87 0.67 1.29 2.54 3.11 2.15 1.36 2.14 1.54 1.78 0.78 1.54 1.35 1.47 2.15 1.57 2.16 2.78 1.35 2.17 1.27 1.36 1.47 2.14 0.98 1.37 2.15 1.06 Encuentra para este conjunto de datos: a) Una tabulación de frecuencias en intervalos cerrados de amplitud 0,41 b) Interpreta los valores de n2, h3 y N4

Page 11: Estadistica Descriptiva - Sergio Moscoso

11

c) Grafica la frecuencia absoluta y la absoluta acumulada d) ¿Que porcentaje de los cigarrillos tiene a los más 1,54 miligramos de nicotina? Problema 4 La siguiente distribución muestra corresponde a los puntajes de un examen de estadística: 63 88 79 92 86 87 83 78 41 67 68 76 46 81 92 77 84 76 70 66 77 75 98 81 82 81 87 78 70 60 94 79 52 82 77 81 77 70 74 61

a) Utilizando una amplitud de intervalo de 5, construye una tabla de frecuencias b) Con una amplitud de 3, 10, 20 analiza la conveniencia o inconveniencia del empleo de

estos tamaños de intervalos c) Para el punto (a) construye los gráficos correspondientes d) Tabula esta muestra sin agrupar los datos e) Construye los gráficos para (d)

4.0 MEDIDAS ESTADÍSTICA Las medidas estadística pretenden resumir o describir la información de la muestra para de esta forma tener un mejor conocimiento de la población, cuestión que es uno de objetivos de la estadística para de esta forma poder tomar una decisión. Por ahora nos referiremos solo a variables que sean cuantitativas dado que con las variables cualitativas no se pueden hacer operaciones aritméticas Estas medidas las podemos clasificar en: - Medidas de resumen: Nos sirven para calcular los valores centrales de la variable - Medidas de Dispersión: Nos dan una idea sobre la representatividad de las medidas de resumen. - Medidas de la Simetría : Nos permite ver si la distribución tiene el mismo comportamiento por encima y por debajo de los valores centrales - Medidas de la Forma: Comparan la forma de la distribución con la forma de la Distribución Normal. I Medidas de Resumen Las medidas de resumen son las siguientes: a) La media b) La Mediana c) La Moda 1) La Media : La media o promedio es un valor representativo de la variable y los definiremos por:

Page 12: Estadistica Descriptiva - Sergio Moscoso

12

1

·n

i i

i

y n

Xn

Propiedades de la Media a) Media de una variable más o menos una constante Si hacemos que M [ x ] sea igual a la media y k = constante, entonces se tiene

M x k M X k

Es decir, si a una variable se le suma o resta una constante la nueva media es igual a la media de la variable más o menos la constante b) Media de una variable por una constante M[a ·x] = a· M[x]; a = constante y x = variable Es decir, la media de una variable por una constante es igual a la media de la variable por la constante c) Media de una Constante M[k] = k, donde k es una constante. Es decir, la media de la constante es la constante Observación: Todas estas las propiedades de la media se pueden demostrar usando las propiedades de las sumatorias

La Media en función de las Medias de las Submuestras Por ejemplo si una distribución es separada en dos submuestras la media de toda la distribución se podría calcular usando la siguiente expresión:

1 1 22

1 2

· ·y n y nY

n n

Esta relación es aplicable a “n” submuestras de una distribución Desviaciones de la variable respecto de la media Si designamos a Zi como las diferencias entre un valor de la variable y su correspondiente media, entonces

i iZ Y Y

Page 13: Estadistica Descriptiva - Sergio Moscoso

13

Relación entre las desviaciones De acuerdo a la definición de desviación, se tiene

1

·

0

n

i i

i

y n

Z Yn

Esto es la media de las desviaciones respecto de la media es cero Métodos abreviados de calculo de la media Dado que en algunos casos resulta tedioso el calculo de la media resulta apropiado hacer los cálculos en forma abreviada.

a) Primer método abreviado

Consiste en restar de todos los valores una cantidad constante, trabajar con el residuo y, al final agregar la constante. Par ello, los cálculos se basan en las desviaciones Z’i respecto a un origen de trabajo Ot, y haciendo Yi = Ot + z’i sí a esta igualdad le aplicamos la media tendríamos:

M[y] = M[Ot + z’i], luego aplicando las propiedades de la media se tiene M[y] = M[Ot] + M[z’i], y como Ot es una constante, entonces, se tiene

0 'tY z

Es conveniente usar como Ot, un valor central de la variable o el de mayor frecuencia

Ejemplo: De la tabla 4 se tiene lo siguiente

yi ni Z’i Z’i·ni

70 4 -20 -80

80 11 -10 -110

90 = Ot 20 0 0

100 9 10 90

110 6 20 120

50 20

Por lo tanto la media por el primer método abreviado es:

Page 14: Estadistica Descriptiva - Sergio Moscoso

14

2090 90 0,40 90,4

50y

b) Segundo método abreviado Este método es aconsejable utilizarlo cuando la amplitud de todos los intervalos es igual. Como en el método anterior, se elige un origen de trabajo que coincida con el valor central de la variable, por lo que se define la siguiente variable auxiliar

'i t ii

y o zu

c c

De aquí se deduce que z´i = c·ui y como:

ty z o

Entonces la media calculada por el segundo método abreviado es:

·i i

t

u ny o c

n

Ejemplo: De la tabla 4 se tiene lo siguiente

yi Ni ui ui·ni

70 4 -1 -4

80 = Ot 11 0 0

90 20 1 20

100 9 2 18

110 6 3 18

50 52

Entonces la media calculada por el segundo método abreviado es:

52

80 *10 90,4050

y

2) La Mediana ( Med) La mediana es el valor central de la variable, es decir, si la muestra esta ordenada en forma creciente o decreciente, el valor que divide en dos partes iguales a la muestra Para el calculo de la mediana si los datos corresponden a variables discretas tendremos en cuenta el tamaño de la muestra.

Page 15: Estadistica Descriptiva - Sergio Moscoso

15

a) Si n es impar, hay un termino central el que podrá determinarse de la siguiente manera:

1

2

n

y el término que ocupe ese lugar será la mediana, por ejemplo si tenemos la

siguiente muestra

1, 4, 58, 10, 12, 14, 20 entonces “n” es 7 por lo que

1 7 14

2 2

n

Al ordenar la información se tiene 1, 4, 10, 12, 14, 20, 58 Es decir, la Mediana será el término que ocupe el 4º lugar, o sea 12

b) Si “n” es par, hay dos términos centrales los que podrán determinarse de la siguiente manera:

1

2 2

n ny

La mediana será, entonces, la media de estos dos valores, por ejemplo 2, 3, 7, 21, 34, 45, 50, 86 luego n = 8, de donde

8 8 y 1

2 2

Es decir, los términos 4º y 5º corresponden a los valores 21 y 34 respectivamente, luego la mediana es

21 3427,5

2Med

Calculo de la Mediana si la variable es continua, la tabla deberá ser de intervalos por lo que se calcula de la siguiente manera:

Page 16: Estadistica Descriptiva - Sergio Moscoso

16

12

j

i

i

nN

Med L cn

Donde: Li: Limite inferior del intervalo de la clase de la mediana c: Amplitud del intervalo de la clase de la mediana Nj-1 : Frecuencia absoluta acumulada anterior a la de frecuencia absoluta acumulada de la clase de la mediana ni: Frecuencia absoluta del intervalo de la clase de la mediana

Ejemplo: De la tabla 4 se tiene que

j-1 i i25; C=10; N 15; n 20; L 852

n

Luego la mediana es:

25 1585 10 90

20Med

3) La Moda ( Mod) La moda es el valor de la variable que tiene mayor frecuencia absoluta, es la única medida de resumen que tiene sentido estudiar en una variable cuantitativa Por su definición, la moda no es única, pues puede haber distribuciones que tengan más de una moda. En cuyo caso tendremos una distribución que sea uni modal o polimodal según sea el caso. Por lo que el calculo de la moda en distribuciones discretas o cualitativas no requiere de una explicación mayor, sin embargo, el calculo de la moda para distribuciones cuantitativas contínuas es necesario hacer algunos cálculos. La moda se la define como:

1

1

1 1

11

1 1

) ·

) ·

i ii

i i i i

ii

i i

n ni Mod L c

n n n n

nii Mod L c

n n

Veamos sus cálculos con un ejemplo para lo cual utilizaremos la información de la tabla 4

Page 17: Estadistica Descriptiva - Sergio Moscoso

17

Intervalos de clase Yi-1 - Yi

ni

65 - 75 4

75 - 85 11

85 - 95 20

95 - 105 9

105 - 115 6

Total 50

Como el intervalo que tiene mayor frecuencia absoluta es el tercero, entonces, al reemplazar en las formulas anteriores se tiene lo siguiente:

20 11) 85 10· 87,37

20 11 20 9

9) 85 10· 89,50

9 11

i Mod

ii Mod

Observándose una buena aproximación entre estos valores 4) Medidas de Localización: Cuartíles, Decíles y Percentiles Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un elemento dentro de una determinada población o muestra. Cuartiles Medida de localización que divide a la muestra en cuatro partes iguales, los cuartiles son cuatro a saber: Q1: Valor de la variable que supera al 25% de los datos de la muestra Q2: Valor de la variable que supera al 50% de los datos de la muestra, este valor corresponde al valor de la Mediana. Q3: Valor de la variable que supera al 75% de los datos de la muestra Por lo tanto, los cuartiles primero y tercero se los define como:

i

i

i

i

i

i

n

Nn

CLQ

n

Nn

CLQ

1

13

1

11

4

3

4

Ejemplo: De la tabla 4 se tiene que

Page 18: Estadistica Descriptiva - Sergio Moscoso

18

Intervalos de clase Yi-1 - Yi

ni Ni

65 - 75 4 4

75 - 85 11 15

85 - 95 20 35

95 - 105 9 44

105 - 115 6 50

Total 50

De modo que al reemplazar en los Cuartiles correspondientes tenemos:

a) Dado que 5,124

n lo que nos indica que el primer cuartil se encuentra en el segundo intervalo y

reemplazando en Q1 tenemos lo siguiente

73,8211

45,1210751

Q

Esto significa que el 25% de la muestra tiene ingresos inferiores a 82,73 y que el 75% de la muestra tiene ingresos mayores que 82,73

b) Dado que 5,374

3

n lo que nos indica que el tercer cuartil está en el cuarto intervalo y

reemplazando en Q3 tenemos lo siguiente

78,97

9

355,3710953

Q

Esto significa que el 75% de la muestra tiene ingresos inferiores a 97,78 y que el 25% de la muestra tiene ingresos superiores a 97,78 Deciles Los decíles son nueve y dividen a la población en diez partes iguales. dk = Decil k-ésimo es aquel valor de la variable que deja a su izquierda k·10% de la distribución Los deciles los denotaremos por D y se los define por:

1

1

·

10i

k i

i

k nN

d L Cn

: donde k =1,2,...,9

Percentiles Los Percentiles son 99 y dividen a la muestra en cien partes iguales Pk = Percentil k-ésimo es aquel valor de la variable que deja a su izquierda el k*% de la distribución

Page 19: Estadistica Descriptiva - Sergio Moscoso

19

Los Percentiles los denotaremos por P y se los define por:

i

i

ikn

Nnk

CLp1

1

100

*

Observación: Para calcular cualquier medida de localización se procede de manera semejante a como se procedió en el calculo de la mediana.

LABORATORIO Nº 2

Problema 1 Del laboratorio nº 1 y del problema nº 1 Calcula e interpreta 1) La media utilizando las frecuencias absolutas y las relativas 2) La nueva media si los tiempos aumentan en 0,25 años 3) La nueva media si los tiempos disminuyen en 0,50 años 4) La nueva media si los tiempos aumentan en 15% 5) La nueva media si los tiempos disminuyen en 20% 6) la media si la muestra se dividió en 3 submuestras 7) Comprueba que la media de las desviaciones respecto de la media es cero 8) El valor de la mediana 9) El valor de la moda 10) El valor del primer y tercer cuartil 11) El valor de D6, P85 y Q4 12) El valor del rango Percentil 13) El valor del rango Semi- intercuartil 14) La varianza, Utiliza la definición y el calculo abreviado 15) La desviación típica o estándar 16) Si la distribución es dividida en tres submuestras, ¿ cuál de ellas es más homogénea? 17) Si la submuestra es dividida en dos submuestras, ¿ cuál es el sesgo de ellas? 18) ¿Cuál es el valor de “k” del pregunta 16?

Page 20: Estadistica Descriptiva - Sergio Moscoso

20

II Medidas de Dispersión Las medidas de dispersión miden el grado de variabilidad que tienen los datos de una muestra respecto a una medida de resumen, la que por lo general es la media. Para entender mejor esta medida lo haremos con un ejemplo. Supongamos que las edades promedios de dos equipos de básquetbol son aproximadamente de 20 años, pero al conocer las edades de cada integrante de los equipos nos damos cuenta que la composición de los equipos, respecto a las edades, es distinta Equipo A: 20-19-21-18-22 Equipo B: 24-15-31-12-18 Por lo tanto, las edades de los integrantes del equipo A están mas cerca de la media, es decir, tienen menos dispersión que las edades del equipo B. La idea de dispersión se relaciona con la mayor o menor concentración de los datos entorno a un valor central, generalmente la media. Las medidas de dispersión o variabilidad que estudiaremos son: Los rangos: son los valores que se obtienen mediante una diferencia Desviación Total y desviación Media: son valores que se obtienen mediante una diferencia entre algún valor de una variable y su media Varianza: Talvez sea el estadístico de variabilidad más importante, e indica el grado de variación que tienen los datos respecto de la media

1) El rango Es la diferencia entre el valor mayor y el valor menor de la distribución. Al comenzar a tabular se midió el rango de la muestra. 2) Desviación Total y Media

La desviación total la denotaremos por t y la desviación media la denotaremos por m y se definen de la siguiente manera:

n

xxn

i

i

m

1

||

. Para datos no agrupados

n

i

it xx1

||. Para datos no agrupados

Page 21: Estadistica Descriptiva - Sergio Moscoso

21

n

yyn ii

m

||*

. Para datos agrupados

n

i

iit yyn1

||* . Para datos agrupados

Ejemplo para datos agrupados: Las muestras siguientes corresponde a las notas de Estadística de dos cursos A y B respectivamente

Curso A

Notas Yi ni || yyn ii Yi*ni

0,5 - 1,5 1 4 12 4

1,5 - 2,5 2 8 16 16

2,5 - 3,5 3 7 7 21

3,5 - 4,5 4 8 0 32

4,5 - 5,5 5 7 7 35

5,5 - 6,5 6 8 16 48

6,5 - 7,5 7 4 12 28

4

1

46i

n

n

70 184

De la tabla anterior para este curso se tiene lo siguiente:

52,146

70

70

0,4

m

t

y

Curso B

Notas Yi ni || yyn ii Yi*ni

0,5 - 1,5 1 3 9 3

1,5 - 2,5 2 4 8 8

2,5 - 3,5 3 7 7 21

3,5 - 4,5 4 24 0 96

4,5 - 5,5 5 18 18 90

5,5 - 6,5 6 3 6 18

6,5 - 7,5 7 1 3 7

60 51 243

De la tabla anterior se tiene lo siguiente:

Page 22: Estadistica Descriptiva - Sergio Moscoso

22

85,060

51

51

0,4

m

t

y

Por lo tanto, el curso B tiene menos dispersión que el curso A, es decir, las notas del curso B están más cerca de la media Para el calculo de las desviación total y media de datos no agrupados se procede de manera similar 3) Rango Inter. Cuartil El rango Inter. Cuartil es la diferencia entre el tercer cuartil y el primer cuartil Ejemplo: De la tabla 4 se tiene que

05,1573,8278,9713 QQ

Por lo tanto, aquí se encuentra el 50% de la muestra

4) Rango Semi inter cuartil El rango semi-inter cuartil es la semi diferencia entre el trecer cuartil y el primero

3 1

2

Q QQ

Ejemplo : De la tabla 4 se tiene lo siguiente

525,72

05,15

2

13 QQ

= Q

5) Rango Percentil El rango percentil es la diferencia entre el percentil noventa y el percentil diez

90 10P P

6) La Varianza La varianza es una estadística de variabilidad que aprovecha la información contenida en todas las observaciones de la muestra. Se la define como:

Page 23: Estadistica Descriptiva - Sergio Moscoso

23

22

1

22

1

1; Cuasi-varianza o varianza poblacional

1

1; Varianza muestral

n

i

i

n

i

S Var x x xn

S x xn

Notemos que si los n valores xi, para i = 1,...,n fueran iguales no habría dispersión, entonces

2

0ix x para cada i = 1,...,n y por lo tanto S2 = 0

Ejemplo: Tomemos las edades del equipo A de básquetbol Como la edad promedio del equipo es de 20 años, entonces, se tiene

Luego la cuasi-varianza es2 10

2,55 1

S

. Esto es el promedio de las desviaciones al cuadrado

La varianza es2 10

25

S . Esto es el promedio de las desviaciones al cuadrado

Si los datos están agrupados en intervalos de clases se tiene:

k

i

ii yynn

S1

22 *1

1 ó

22

1

1 n

i i

i

S n y yn

Edad 2xxi

20 0

19 1

21 1

18 4

22 4

x =10

Page 24: Estadistica Descriptiva - Sergio Moscoso

24

Ejemplo: De la tabla 4 se tiene

Yi ni 2

·i iy y n 2·i iy n

70 4 1664.64 19600

80 11 1189,76 70400

90 20 3,20 162000

100 9 829,44 90000

110 6 2304,96 72600

50 5992 414600

Por lo tanto la varianza muestral es 2 5992

119,8450

S .

La varianza, también se pude calcular por el método abreviado, se define como:

2

22 1

·

k

i i

i

y n

S yn

Sí calculamos la varianza de esta manera y tomando la información de la tabla 4 se tiene:

84,11940,90

50

414600 22 S. Varianza muestral

Propiedades de la varianza 1) Varianza de una variable más una constante, si V[x] es la varianza de x V[k+ yi] = V[yi] ; donde k = constante 2) Varianza de una variable por una constante V[k·xi] = k2·V[xi]; donde k = constante Verificar estas propiedades La Desviación Típica o Estándar Dado que al calcular la varianza la unidad de medida original queda elevada al cuadrado. Para muchas aplicaciones eso resulta inconveniente y por eso se suele preferir la estadística llamada Desviación Típica. La que se la define como

Page 25: Estadistica Descriptiva - Sergio Moscoso

25

2SS

Coeficiente de Variación Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad de medida, por lo que nos permitirá decir entre dos muestras, cual es la que tiene mayor dispersión. La denotaremos por C.V y se le define por:

y

SVC .

Ejemplo: De la tabla 4 se tiene lo siguiente:

1223,040,90

29,122. VC . Es decir la distribución tiene una variabilidad de 12,23% respecto de la

media

III Medidas de la Forma Estas medidas nos indican la forma que tiene la distribución 1) Simetría Las medidas de simetría, al igual que la Curtosis, son medidas de la forma de la distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados de las medidas de centralización. La simetría es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable. La simetría se puede medir en función de los valores de la media, la moda y la mediana. Por lo tanto puede ocurrir lo siguiente:

a) Media > Med > Mod, entonces el sesgo el positivo b) Mod > Med > Media, entonces el sesgo el sesgo es negativo Esta situación queda reflejada en los siguientes gráficos

Page 26: Estadistica Descriptiva - Sergio Moscoso

26

Los Sesgos Esta medida nos otorga el grado de asimetría de una distribución. Si los resultados son positivos, entonces los sesgos son positivos. Los sesgos se pueden calcular de la siguiente manera

a) Primer coeficiente de sesgo de Pearson

S

ModySesgo

Ejercicio: calcula el primer coeficiente de sesgo de Pearson, utiliza la tabla nº 4 b) Segundo coeficiente de sesgo de Pearson

S

MedySesgo

*3

Ejercicio: calcula el segundo coeficiente de Pearson, utiliza la tabla nº 4 C) Coeficiente de simetría del tercer momento de Pearson Este coeficiente se basa en la comparación con la media de todos los valores de la variable

Page 27: Estadistica Descriptiva - Sergio Moscoso

27

3

1

3*

S

n

nyy

Sesgo

k

i

ii

Ejercicio: calcula el tercer coeficiente de Pearson, utiliza la tabla nº 4

2) Medida de Apuntamiento: Curtosis La Curtosis es una medida del apuntamiento, la que nos indicará si la distribución es poco apuntada o muy apuntada. Hay tres tipos de curvas acampanadas, las que se muestran en los gráficos siguientes

Este coeficiente lo vamos a denotar por K y se calcula de la siguiente manera

a) La Curtosis por el cuarto momento

4

1

4*

S

n

nyy

K

n

i

ii

Ejercicio: calcula la Curtosis por el cuarto momento, utiliza la tabla nº 4

b) La Curtosis calculada por Cuartiles y Percentiles se define como

Page 28: Estadistica Descriptiva - Sergio Moscoso

28

1090

13

2

PP

QQ

K

Ejercicio: calcula la Curtosis de la tabla nº 4 utilizando cuarteles y percentiles Observación: La distribución Normal tiene una Curtosis de K = 0,263

LABORATORIO Nº 3

Problema 1

En una zona de la comuna de Santiago, La superficie de las viviendas tiene la siguiente distribución Superficie Frecuencia relativa (m2) ( porcentaje ) 50 - 60 20 60 - 70 25 70 - 80 15 80 -100 25 100-120 15

Page 29: Estadistica Descriptiva - Sergio Moscoso

29

Calcula: a) La superficie media por vivienda (Sol. 77,5m2)

b) La varianza de la varianza de la distribución (Sol. 338,75)

Problema 2

Un automovilista participa en una competición en la que obtiene, para los distintos recorridos, las siguientes velocidades medias

Recorrido Distancia Velocidad Media

Km Km/h A - B 400 50 B - C 600 60 C - A 1000 100

Calcula la velocidad media conseguida en la competencia ( Sol. 78 km/hr)

Problema 3

Una empresa agrícola tiene 5 predios dedicados a la producción de trigo. Las producciones y rendimientos obtenidos son los siguientes

Predio Producción Rendimiento ( Qm ) (Qm/Ha) A 2500 10 B 3000 20 C 4000 25 D 6000 15 E 7000 14

Calcula el rendimiento medio por Ha. Para el conjunto de los predios (Sol. 4440,47619) Problema 4

Un grupo de alumnos ha obtenido las siguientes notas en Matemática y Estadística

Matemática Estadística

Notas Nº Estudiantes Nº Estudiantes 1 0 5 2 10 4 3 15 6 4 23 16 5 32 50 6 10 16 7 10 3

a) Determina para que ramo el grupo es más homogéneo. Sol. Estadística b) Determina el puntaje estándar para los dos ramos, sí la nota es 4,5

Sol zm = 0,02143 y ze =0,02308

Problema 5 Después de haber sido evaluados los trabajadores de una empresa se dividieron en cuatro grupos, de los cuales tenemos los siguientes datos

Grupo Nº trabajadores Nota media Varianza

Page 30: Estadistica Descriptiva - Sergio Moscoso

30

A 30 6,0 1,00 B 40 6,5 1,69 C 50 5,0 0,81 D 60 4,0 0,64 a) Calcula la nota media para toda la empresa (Sol. 5,16667) b) Calcula los coeficientes de variación de cada grupo

Sol. CA = 0,17777 CB = 0,20 CC = 0,18 CD = 0,20 c) ¿Qué grupo es más homogéneo? d) Calcula la desviación típica de todas las notas de la empresa (Sol.0,97219)

Problema 7 En una empresa metalúrgica los empleados se clasifican en tres categorías: técnicos, especialista y administrativos. El número de empleados, el salario medio mensual y la varianza de los salarios de cada categoría en el mes de agosto de 2000 son los que aparecen en el siguiente cuadro

Categoría Número Salario medio Varianza de los De mensual salarios Empleados Miles $ millones $ Técnicos 20 200 400 Especialistas 100 120 49 Administrativos 40 100 25 a) Calcula el salario medio para el conjunto de la empresa y la dispersión de los salarios Sol. 125

y 875 b) En la discusión para fijar los salarios de 2001 han sido propuesta tres alternativas.

1) El aumento de todos los salarios en un 5% 2) El aumento de todos los salarios en $ 5500 mensuales 3) El aumento de los salarios según la siguiente escala: 4% a los técnicos, 5% a los

especialistas, y 5,5% a los administrativos a) Calcula los salarios medios que resultan las tres alternativas y la dispersión en cada caso

Sol. Promedio: Tec. = 208; Esp = 126 y Ad = 105,5 Sol. Dispersión: Tec = 20,80; Esp =7,35 y Ad = 5,275

b) ¿Cuál de las tres alternativas tiene mayor efecto para reducir la dispersión inicial de los salarios para la empresa?

Page 31: Estadistica Descriptiva - Sergio Moscoso

31