Unidades i II y III Estad i (11) (5)

52
UNIDADES I, II Y III MODULO DE ESTADISTICA DESCRIPTIVA INGENIERIA INDUSTRIAL Y DE SISTEMAS Mg. Aníbal José Verbel Castellar 15/01/2015

description

Estadistica

Transcript of Unidades i II y III Estad i (11) (5)

Page 1: Unidades i II y III Estad i (11) (5)

UNIDADES I, II Y III

MODULO DE ESTADISTICA DESCRIPTIVA

INGENIERIA INDUSTRIAL Y DE SISTEMAS

Mg. Aníbal José Verbel Castellar

15/01/2015

Page 2: Unidades i II y III Estad i (11) (5)

Introducción

Estadística:

Desde épocas prehistóricas el hombre se ha enfrentado a diversos fenómenos de orden económico, político,

social, cultural, ambiental, biológico, etc. y a medida que el mundo es absorbido por la tecnología y las

comunicaciones, aparecen cantidades de datos que al ser analizados pueden revelar explicaciones de lo que

ha sucedido, sucede o pueda suceder respecto a un fenómeno cualquiera. Es ahí donde entra la estadística a

aportar sus herramientas, reglas y métodos que permitan ordenar, cuantificar y analizar dichos fenómenos.

En general el término estadística tiene tres acepciones gramaticales claramente definidas:

1. La definición más común es un procedimiento de recolección de datos numéricos ordenados y

clasificados bajo un criterio determinado. Esta definición se refiere a datos asociados con producción,

ventas, cotizaciones bursátiles, demografías, características de poblaciones: vivienda, educación, empleo,

costo de vida, pobreza, actividad económica etc.

2. Una segunda acepción, es la ciencia que, utilizando como instrumento las matemáticas y el cálculo de

probabilidades, estudia las leyes de comportamiento de aquellos fenómenos que no están sometidos a las

leyes físicas y con base en ellas predice e infiere resultados. En este caso se la denomina Estadística

Matemática.

3. Finalmente, significa técnica o método científico usado para recolectar, organizar, resumir, presentar,

analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.

Cabe anotar que la estadística se aplica en cualquier área del conocimiento: Computación, ingenierías (todas),

finanzas, medicina, sociología, biología, astronomía, periodismo, sicología, odontología, genética y pruebas

de ADN, contaduría, economía, seguridad social, etc.

Tarea: Investigue una aplicación o ejemplo de la estadística en cada una de las áreas mencionadas.

Terminología usada frecuentemente en estadística:

Población:

En estadística el concepto de población se refiere al conjunto universo o colección completa de los elementos

o resultados de la información buscada. Los elementos, pueden ser de cualquier índole: personas, animales,

objetos, características, etc. Es importante anotar que los elementos también se conocen en estadística como

objetos, observaciones o individuos.

Una población puede ser finita o infinita:

Page 3: Unidades i II y III Estad i (11) (5)

Población finita: Aquella donde el número de elementos que la conforman es relativamente pequeño,

“fácil de contar”. Algunos expertos consideran que una población es finita cuando alcanza un máximo

de 10000 elementos. Ejemplos: El numero de hospitales de una ciudad, el número de escuelas de

secundaria, el número de estaciones de gasolina, el número de alumnos en un colegio, etc.

Población infinita: Aquella donde el número de elementos que la conforman es grande, “no es fácil de

contar”. Ejemplos: El numero de habitantes en una ciudad, la cantidad de cervezas producidas por una

empresa en una semana, el numero de aspirinas producidas por Bayer en un día, el numero de bacterias

en un lago rio o manantial de agua, etc.

El tamaño de la población se representara por la letra mayúscula N

Muestra: Una muestra es un subconjunto o una parte representativa de una población. El tamaño de la

muestra se representara por la letra minúscula n

Datos u observaciones son números o denominaciones que se pueden asignar a un individuo o elemento

de una población

Parámetro: Es cualquier característica medible de una población. Ejemplo, el promedio del peso en

kilogramos de todos los estudiantes de la universidad.

Estadística: Una estadística, es cualquier característica medible de una muestra. Ejemplo el promedio

del peso en kilogramos de una muestra de 100 estudiantes de la USB.

Censo: Es la enumeración completa de una población

ESCALAS DE MEDICIÓN

1. NOMINAL

Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este

tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la

variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico.

Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarles un valor a los hombres

y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos establecer que uno

es mayor que el otro.

Otro ejemplo es de los números asignados a los futbolistas en un partido. El 9 no significa que sea más que el

4, (Un delantero no es más que un defensa y viceversa, simplemente son jugadores diferentes), los números

telefónicos, la raza, la religión (un cristiano no es mayor que un católico), el estado civil (un casado no es

menor que un soltero), son ejemplos de este tipo de escala

Page 4: Unidades i II y III Estad i (11) (5)

2. ORDINAL

Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia

contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de

igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un

ejemplo de variable ordinal es el nivel de educación:

1. Primaria

2. Secundaria

3. Profesional

4. Especialista

5. Magister

6. Doctor

Como puede verse, se puede establecer que una persona con título de Postgrado tiene un nivel de educación

superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la

distancia entre sus categorías, ya que no es cuantificable o medible.

3. INTERVALO

Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala

es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un

orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de

intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son

realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia

entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que

una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.

En los puntajes del icfes la distancia entre un puntaje de 45 y 50 equivale a la distancia entre un puntaje de 90

y uno de 95, lo que no se puede decir es que un puntaje de 80 equivale a afirmar que el alumno sabe el doble

de lo que sabe un alumno con un puntaje de 40.

4. RAZÓN

Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que

cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se

puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica

(Comparación y ordenamiento).

Page 5: Unidades i II y III Estad i (11) (5)

Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario,

son algunos ejemplos de este tipo de escala de medida.

Ej. El salario, si A gana 500.000 y B gana 1000.000, entonces podemos decir perfectamente que B gana el

doble de A.

Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo

de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas

aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no.

5. DICOTOMICA

Es aquella escala que presenta tan solo dos opciones para medir la variable, siendo esta variable de tipo

cualitativo ò cuantitativo dependiendo de la información ò resultado que se busque.

Por ejemplo:

Variable: Hábitos de fumarEscala de medición: Fuma y No fuma

Variable: Condición de calidad de un productoEscala de medición: Conforme y no conforme (bueno y defectuoso)

Es frecuente convertir una característica medible en una variable dicotómica, por ejemplo el peso al nacer de

los neonatos se clasifica así:

BPN (Bajo Peso al Nacer): Cuando el peso es ≤2500 gramos

Peso normal PN: Cuando el peso es > 2500 gramos

En este caso BPN=0 Cuando el peso es ≤2500 gramos

BPN= 1 Cuando el peso es > 2500 gramos

6. CRONOLOGICA

Es un tipo de escala cuantitativa continua, se la utiliza para estudiar algunos fenómenos en función del tiempo, algunos autores la tratan como si fuera una escala de variable independiente, permite conocer un determinado fenómeno a través del tiempo, es decir permite un seguimiento temporalizado (en el pasado, en el presente ò en el futuro). De uso frecuente en series de tiempo.

Ejemplos:

El comportamiento de la demanda durante semanas, meses, trimestres, semestres, años.

Page 6: Unidades i II y III Estad i (11) (5)

Seguimiento del efecto de una droga en un paciente con una enfermedad específica, o de un tratamiento terapéutico, durante semanas, meses o años.

TIPOS DE DATOS:

Existen dos tipos de datos: Categóricos o cualitativos y numéricos o cuantitativos.

Categóricos o cualitativos: Son aquellos datos cuyas características no son medibles, representan

atributos o cualidades, por ejemplo el sexo, la raza, la nacionalidad, el estado civil etc.

Numéricos o cuantitativos: Son aquellos cuyas características son medibles, producen respuestas

numéricas, por ejemplo: la edad, la estatura, la temperatura, el diámetro de un buje, etc.

Los datos numéricos a su vez se clasifican en dos tipos: Discretos y continuos:

Discretos: Aquellos que se producen a partir de un conteo, por ejemplo el número de municipios del

departamento del Atlántico, el número de hijos por familia, el número de autos en un parqueadero, etc.

Puede observarse que este tipo de conteo produce un número entero.

Continuos: Aquellos que se producen a partir de un proceso de medición, donde la característica que se

mide puede tomar cualquier valor en un intervalo, por ejemplo, la estatura de los estudiantes de la

universidad, la presión diastólica de un grupo de personas, el tiempo que usted tarda de su casa a la

universidad, etc. Puede observarse que para cada uno de los ejemplos mencionados, necesariamente los

valores se encuentran en un intervalo dado, por ejemplo la estatura estará por decir algo entre 1 metro y

2.5 metros, al menos que haya un súper enano de 5 cms. y un gigante de tres metros.

Variables latentes: El paisaje, el grado de inteligencia

UNIDAD II

ORGANIZACIÓN, TABULACION Y GRAFICOS DE UN CONJUNTO DE DATOS.

Cuando se tiene un conjunto de datos tomados de un trabajo de campo o de una investigación, es necesario

organizarlos de tal manera que se puedan interpretar y analizar sus tendencias y finalmente generar

conclusiones.

Page 7: Unidades i II y III Estad i (11) (5)

El análisis descriptivo de datos se puede clasificar de la siguiente manera:

Individuales

Distribución de frecuencias

TABLAS Agrupados

Agrupados con dos criterios

Asociación > 2 criterios

Matriz de datos

2.1 Distribución de frecuencia para datos individuales.

Ejemplo de distribución de frecuencias individuales: los siguientes datos corresponden a una muestra de

50 trabajadores y el número de hijos.

2 3 5 4 3 2 3 2 0 2

4 2 1 0 2 2 2 2 4 2

1 2 2 3 3 4 3 2 1 2

1 2 5 2 4 2 4 2 4 4

4  3 2 3 2 5 0 4 3 1

X(N° de hijos) ni Ni fi(%) Fi(%)

0 3 3 6 6

1 5 8 10 16

2 20 28 40 56

3 9 37 18 74

4 10 47 20 94

5 3 50 6 100

Totales 50 100

Page 8: Unidades i II y III Estad i (11) (5)

1 2 3 4 5 60

5

10

15

20

25

35

20

9 10

3

0 1 2 3 4 5

OperariosN° de hijos

Ejercicio: Los siguientes datos corresponden a La cantidad de DSH (Deshechos Solidos Hospitalarios) en

toneladas por año en toneladas por nivel de edificio y salas especializadas.

NIVELES Toneladas/año1º nivel 182º nivel 423º nivel 11,54º nivel 8,55º nivel 76º nivel 9,5Maternidad 1Pediatría 5,5Totales 103

Elabore un gráfico de barras, de tortas etc..

Page 9: Unidades i II y III Estad i (11) (5)

17%

41%11%

8%

7%

9%

1%5%

Toneladas/año1º nivel2º nivel3º nivel4º nivel5º nivel6º nivelMaternidadPediatria

1º nive

l

2º nive

l

3º nive

l

4º nive

l

5º nive

l

6º nive

l

Matern

idad

Pediat

ria

Total

es0

20

40

60

80

100

120

18

42

11.5 8.5 7 9.51 5.5

103

Toneladas/año

Toneladas/año

2.2 Distribución de frecuencia para datos agrupados.

2.2.1 Ejemplo 1 de distribución de frecuencias para datos agrupados cuando la

variable de estudio es discreta.

Con el fin de estudiar la densidad de la población estudiantil infantil en el sector rural del

Departamento de Sucre, se obtuvo una muestra de 150 escuelas. Los resultados del número de

estudiantes por escuela se muestran a continuación:

Page 10: Unidades i II y III Estad i (11) (5)

101 151 181 204 222 233 250 359

102 152 181 205 223 234 253 365

106 153 187 205 224 234 271 368

106 153 189 206 224 234 272 372

107 155 191 206 225 236 280 378

108 156 194 208 226 237 283 383

112 156 195 209 226 240 285 388

114 159 196 210 226 241 285 389

114 160 199 212 227 242 286 395

116 160 200 214 228 242 306 400

116 163 201 217 228 244 310

121 166 201 217 229 245 310

121 170 202 218 229 246 315

125 170 202 218 229 246 315

125 172 202 218 230 246 318

126 173 202 220 231 247 321

130 173 202 220 231 247 325

132 173 203 220 231 248 335

139 174 204 220 232 248 338

150 180 204 220 232 250 343

1. Defina la variable aleatoria2. De qué tipo es3. Elabore una tabla de frecuencias

1. V.A. Nº de estudiantes

2. Tipo: Discreta

3. Tabla de frecuencias:

a) Ordenar los datos

b) Numero de intervalos o clases k:

Una buena guía para el cálculo de k es aplicar la regla de Sturges:

K=1+3.33log n

Otras expresiones como guía para calcular k son las siguientes:

Page 11: Unidades i II y III Estad i (11) (5)

k= ln nln 2

k=√n

La norma ISO 9001 recomienda el usar como guía la siguiente tabla para determinar el número de

intervalos:

N° de datos N° de intervalos

40 a 80 5 a 7

81 a 150 7 a 10

151 a 250 10 a 12

251 o mas 12 a 20

Para este curso usaremos la regla de Sturges: k= 1+3.33log 150= 8.24≈8

Amplitud A: Es el ancho de cada intervalo. Se calcula como el cociente entre el rango R y el número de

intervalos k, donde:

R=Xmaximo-Xminimo, en este caso, Xmax = 400 y Xmin = 101, es decir R=299

Luego A = R/k = 299/8 = 37.375≈37

Seleccionamos 8 intervalos:

LI--LS Xi ni Ni fi (%) Fi(%)

1 101--138 119,5 18 18 12 12

2 139--176 157,5 21 39 14 26

3 177--214 195,5 31 70 20,67 46,67

4 215--252 233,5 51 121 34 80,67

5 253--290 271,5 8 129 5,33 86

6 291--328 309,5 8 137 5,33 91,33

7 329--366 347,5 5 142 3,33 94,67

8 367--404 385,5 8 150 5,33 100

Totales 150 100

Se observa que más del 50% de las escuelas están por encima de los 214 alumnos.

Page 12: Unidades i II y III Estad i (11) (5)

Xi: se conoce como marcas de clase y se obtiene sumando los límites de cada intervalo y dividiendo

entre dos. Este valor refleja el promedio de cada intervalo.

ni : Se conoce como frecuencias absolutas, es el número de observaciones o individuos en cada

intervalo.

Ni: Se conoce como frecuencias absolutas acumuladas.

fi: Se conoce como frecuencia relativa, se obtiene de la relación entre la frecuencia absoluta y el

número total de datos, es decir, es la misma columna de la frecuencia absoluta pero expresada en

porcentaje

Fi: Es la misma frecuencia absoluta acumulada pero expresada en porcentaje, se conoce como

frecuencia relativa acumulada.

Interpretación de la fila N° 4: Interprete cada uno de los valores correspondiente al intervalo 4

Ejercicio en clase:

Con el fin de implementar un plan de manejo de residuos sólidos en el Hospital San Juan de Dios de la ciudad de Villavicencio, se tomó una muestra de la cantidad de bolsas rojas producidas durante 140 días. Los resultados se muestran a continuación:

5 12 21 26 33 38 465 12 21 27 34 38 466 13 22 28 34 39 467 13 22 28 34 39 477 13 23 28 34 39 477 15 23 29 35 40 477 15 23 29 36 41 477 16 23 30 36 41 477 16 23 30 36 41 478 16 24 30 36 41 478 17 24 31 37 41 488 17 24 31 37 42 489 17 24 31 37 42 489 17 25 31 37 42 489 17 25 32 37 44 49

10 18 25 32 37 44 4910 18 26 32 38 44 4911 19 26 32 38 45 4911 19 26 32 38 45 5011 20 26 33 38 46 50

Page 13: Unidades i II y III Estad i (11) (5)

a) Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuenciasb) Interprete los datos de una fila cualquiera.

2.2.2      Ejemplo 2 de distribución de frecuencias para datos agrupados cuando la

variable de estudio es continua.

Los siguientes datos corresponden a una muestra de los pesos en kilogramos de 80 sacos de café bajo

recolección manual, tomadas de un emporio cafetero.

91 88,7 90,5 92,2 89,3 87,8

83,4 88,9 90,6 92,3 89,6 89,9

83,5 89 90,7 92,6 89,7 91,1

88,5 88,6 88,6 92,7 83,9 93,4

90,4 90,4 90,4 92,7 84 83,7

91,8 92,2 92,2 92,7 84,1

96,1 98,8 100,3 93 89,8

91 88,3 88,3 88,5 91,1

90,8 90,1 90,3 90,3 93,3

90,9 91,6 91,6 91,8 83,6

83,8 94,4 95 95,6 84,2

87,9 88,2 88,3 83,3 89,8

89,9 90 90,1 91 91,1

91,2 91,2 91,5 89,2 93,3

93,7 94,2 94,2 89,3 93,2

Elabore una tabla de frecuencias

Page 14: Unidades i II y III Estad i (11) (5)

Ordenar los datos de menor a mayor

83,3 88,7 90,5 92,2

83,4 88,9 90,6 92,3

83,5 89 90,7 92,6

83,6 89,2 90,8 92,7

83,7 89,3 90,9 92,7

83,8 89,3 91 92,7

83,9 89,6 91 93

84 89,7 91 93,2

84,1 89,8 91,1 93,3

84,2 89,8 91,1 93,3

87,8 89,9 91,1 93,4

87,9 89,9 91,2 93,7

88,2 90 91,2 94,2

88,3 90,1 91,5 94,2

88,3 90,1 91,6 94,4

88,3 90,3 91,6 95

88,5 90,3 91,8 95,6

88,5 90,4 91,8 96,1

88,6 90,4 92,2 98,8

88,6 90,4 92,2 100,3

Con la regla de Sturges:

k= 1+3.33log 80= 7.337≈7

Amplitud A:

Se calcula como el cociente entre el rango R y el numero de intervalos k, donde

R=Xmaximo-Xminimo, en este caso, Xmax = 100.3 y Xmin = 83.3, es decir R=17

Luego A=17/7=2.428571429, A=2 o A=3

Para que el cociente R/k=3 es necesario modificar R o k o ambos. Asi si R=18 y k=6 se obtiene: A=18/6=3

Otras opciones son: A=21/7=3, A=20/5=4, etc. pero la más razonable es 18/6 = 3.

Page 15: Unidades i II y III Estad i (11) (5)

Aumentar o disminuir el valor de k en una unidad no afecta el propósito de agrupación, es por ello que al

modificar R y k debe hacerse de una manera razonable.

Determinar el Xmin y el Xmax.

La asignación del valor mínimo para el primer intervalo se hace buscando la comodidad para la interpretación

de la tabla y de los gráficos. Así por ejemplo el valor mínimo es 83.3, el cual como tiene una cifra decimal se

puede aproximar por debajo: a 83. Tenga mucho cuidado en no redondear este primer valor por encima,

comete un error, cual es?

Finalmente estamos ya en disposición de armar la tabla de frecuencias con k=6, R=18, Xmin=83

Intervalos xi ni Ni fi (%) Fi (%)

1 83 – 86 84.5 10 10 12.5 12.5

2 86 – 89 87.5 13 23 16.25 28.75

3 89 – 92 90.5 35 58 43.75 72.5

4 92 – 95 93.5 18 76 22.5 95

5 95 – 98 96.5 2 78 2.5 97.5

6 98 – 101 99.5 2 80 2.5 100

Totales 80 100%

Límite inferior y superior de cada intervalo:

El intervalo pude expresarse de una de las dos formas siguientes:

1. Abierto a la izquierda y cerrado a la derecha ( ] ; LI < X ≤ LS

2. Cerrado a la izquierda y abierto a la derecha [ ) ; LI ≤ X < LS

Para este modulo se usara la primera forma

Tenga en cuenta que cada dato debe quedar exactamente en un intervalo, no en dos al mismo tiempo, por

ejemplo el 89 está solo en el intervalo 2. El 95 estará en el intervalo 4

Interpretación y análisis:

Análisis e interpretación de la fila Nº 4:

Xi = 93.5, significa que “hay 18 sacos con un peso promedio de 93.5 Kg.”.

ni = 18, “ hay 18 sacos cuyos pesos oscilan entre 92 y 95 kilogramos”

Page 16: Unidades i II y III Estad i (11) (5)

Ni = 76, “hay 76 sacos cuyo peso máximo es de 95 kilogramos” o “hay 76 sacos cuyos pesos oscilan entre 83

y 95 kilogramos”

fi = 22.5%, “hay un 22.5% de los sacos cuyo peso están entre 92 y 95 kilogramos”

Fi = 95%, “El 95% (76/80) de los sacos tienen un peso máximo de 95 kilogramos”

Nota: Existen diversos procedimientos que a la larga todos confluyen a lo mismo: Obtener el agrupamiento de

los datos.

GRAFICOS

Los siguientes gráficos son los más usados cuando de datos numéricos se trata:

a) Histograma de frecuencias absolutas: En el eje X se ubican los intervalos y en el eje Y la frecuencia

absoluta ni

b) Polígono de frecuencias absolutas: En el eje X se ubican las marcas de clase y en el eje Y la

frecuencia absoluta ni

c) Histograma de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y

la frecuencia absoluta acumulada Ni

d) Polígono de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y la

frecuencia absoluta acumulada Ni

e) Curva de frecuencias absolutas: Es una línea continua del polígono de frecuencias absolutas

f) Diagrama de tallos y hojas: Este diagrama propuesto por el estadístico John Tukey ofrece una forma

novedosa de presentar toda la información de los n datos, de manera que se puede apreciar el

comportamiento mucho mas real que una tabla de frecuencias. Un Tallo es el primer digito o parte

del numeral, mientras que una hoja está formada por el o los dígitos restantes. Por ejemplo el

numero 456 se puede descomponer de dos formas:

4 | 56

↑ ↑

Tallo Hoja, o también:

4 5 | 6

↑ ↑

Tallo Hoja

Page 17: Unidades i II y III Estad i (11) (5)

Para nuestro ejercicio:

Histograma de frecuencias absolutas

Intervalos

Fre

c. a

bs.

83 86 89 92 95 98 1010

10

20

30

40

Poligono de frecuencias absolutas

Marcas de clase

Fre

c.

abs.

83 86 89 92 95 98 1010

10

20

30

40

Histograma de frec. abs.acumuladas

Intervalos

Fre

c.

abs.a

cum

.

83 86 89 92 95 98 1010

20

40

60

80

Page 18: Unidades i II y III Estad i (11) (5)

Histograma de frec. abs.acumuladas

Intervalos

Fre

c.

abs.a

cum

.

83 86 89 92 95 98 1010

20

40

60

80

Poligono de frec. abs.acum.

Intervalos

Fre

c. a

bs.

acu

m.

83 86 89 92 95 98 1010

20

40

60

80

Curva de frec abs.

Marcas de clase83 86 89 92 95 98 101

0

0,02

0,04

0,06

0,08

0,1

0,12

Page 19: Unidades i II y III Estad i (11) (5)

Diagrama de tallos y hojas:

83 3 4 5 6 7 8 9

84 0 1 2

87 8 9

88 2 3 5 5 6 6 7 9

89 0 2 3 3 6 7 8 8 9 9

90 0 1 1 3 3 4 4 4 5 6 7 8 9

91 0 0 0 1 1 1 2 2 5 6 6 8 8

92 2 2 2 3 6 7 7 7

93 0 2 3 3 4 7

94 2 2 4 7

95 6

96 1

98 8

100 3

Se observa que hay una gran concentración de observaciones entre 88 y 93 kilogramos.

Ejemplo de tabla de asociación con dos criterios:

La siguiente tabla muestra el número de personas expuestas a un determinado riesgo y los años de exposición:

Años de trabajo Expuestos No expuestos

0--3 1 25

4--7 4 15

8--11 15 20

Page 20: Unidades i II y III Estad i (11) (5)

11--15 7 18

15--18 8 26

18--21 10 22

21--24 5 24

Totales 50 150

POBLACION ESTIMADA PARA EL AÑO 2000 1

Grupos de Edad Hombres Mujeres TOTAL

Menores de 1 año 500.428 480.232 980.660

0-4 1.940.686 1.862.363 3.803.049

5-14 4.619.174 4.447.671 9.066.845

15-44 10.226.708 10.457.260 20.683.968

45-59 2.327.119 2.558.979 4.886.098

60 y más 1.300.408 1.600.358 2.900.766

TOTAL 20.914.523 21.406.863 42.321.386

Ejercicio en clase:

Se tomó una muestra aleatoria del diámetro (en m.m) de 200 bujes de bronce en una empresa metalmecánica.

Los resultados fueron:

5,001 5,063 5,101 5,151 5,216 5,265 5,316 5,382 5,443 5,4835,002 5,064 5,104 5,153 5,222 5,266 5,318 5,384 5,444 5,4855,005 5,065 5,105 5,154 5,225 5,270 5,319 5,391 5,448 5,4865,007 5,066 5,106 5,157 5,225 5,270 5,324 5,393 5,449 5,4915,007 5,067 5,106 5,161 5,226 5,277 5,330 5,393 5,450 5,4945,009 5,069 5,109 5,162 5,232 5,277 5,330 5,396 5,459 5,4955,010 5,070 5,111 5,165 5,232 5,282 5,331 5,398 5,460 5,4975,012 5,070 5,117 5,167 5,236 5,282 5,335 5,398 5,461 5,4985,015 5,070 5,121 5,171 5,237 5,283 5,336 5,398 5,461 5,5025,018 5,071 5,121 5,171 5,239 5,286 5,338 5,401 5,464 5,5035,019 5,072 5,124 5,174 5,246 5,287 5,341 5,410 5,464 5,5125,026 5,074 5,125 5,176 5,249 5,288 5,346 5,412 5,465 5,5125,028 5,080 5,127 5,177 5,250 5,290 5,346 5,412 5,466 5,5195,029 5,086 5,130 5,190 5,250 5,295 5,348 5,416 5,468 5,5195,036 5,089 5,131 5,195 5,252 5,299 5,351 5,418 5,471 5,5195,037 5,089 5,133 5,197 5,254 5,306 5,363 5,423 5,474 5,5375,045 5,090 5,143 5,208 5,256 5,306 5,363 5,423 5,475 5,540

1Fuentes de información1 DANE. Proyecciones de población Censo de 1993. Modificadas por Oficina Epidemiología-Minsalud.

Page 21: Unidades i II y III Estad i (11) (5)

5,051 5,092 5,146 5,208 5,259 5,309 5,369 5,425 5,477 5,5455,061 5,095 5,148 5,209 5,262 5,310 5,369 5,425 5,479 5,5465,062 5,100 5,151 5,209 5,265 5,311 5,375 5,440 5,479 5,555

c) Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuencias

d) Interprete los datos de una fila cualquiera.

e) Elabore todos los gráficos

Ejercicio para entregar.

Los siguientes datos corresponden al consumo de agua en litros/min. de una muestra de 129 casas

4,6 7,5 13,8 18,9 10,4 15 4,5

12,3 7,5 6,2 7,2 9,7 9,6 6,2

7,1 6,2 5,4 5,4 5,1 7,8 8,3

7 5,8 4,8 5,5 6,7 7 3,2

4 2,3 7,5 4,3 10,2 6,9 4,9

9,2 3,4 6 9 6,2 4,1 5

6,7 10,4 6,9 12,7 8,4 3,6 6

6,9 9,8 10,8 11,3 7 11,9 8,2

11,5 6,6 7,5 7,4 4,8 3,7 6,3

5,1 3,7 6,6 5 5,6 5,7

3,8 6,4 5 3,5 10,5 6,8

11,2 6 3,3 8,2 14,6 11,3

10,5 8,3 7,6 8,4 10,8 9,3

14,3 6,5 3,9 7,3 15,5 9,6

8 7,6 11,9 10,3 7,5 10,4

8,8 9,3 2,2 11,9 6,4 9,3

6,4 9,2 15 6 3,4 6,9

5,1 7,3 7,2 5,6 5,5 9,8

5,6 5 6,1 9,5 6,6 9,1

9,6 6,3 15,3 9,3 5,9 10,6

a) Defina la variable aleatoria, de que tipo es, Elabore una tabla de frecuencias

b) Elabore todos los gráficos

c) Interprete los datos de la fila 4

Page 22: Unidades i II y III Estad i (11) (5)

d) Cuantas casas consumen un volumen máximo de 14 L / m

e) Cuantas casas consumen un volumen máximo de 6,5 L / m (Interpole)

f) Media, mediana moda mg ma, var, desv, rango

g) Percentiles 10,25,,75,90 interprete

h) Coef de asimetría y de curtosis

2. Si tienes una muestra de 500000 datos para agrupar cuantos intervalos de clase serían necesarios. Pueden

concebirse investigaciones en donde una muestra tenga 500000 o más datos? Dé ejemplos.

3. Se conocía la tabla de distribución de los salarios por semana en dólares de 50 obreros de una empresa,

desafortunadamente solo queda de ella lo siguiente:

LI ≤ Xi ≤ LS Xi ni Ni fi * 100 (%) Fi *100(%)

165 - 5

7

27

8

40

-1005 4

Totales

a) Complete la tabla

b) Una vez llene la tabla, interprete la información dada en la fila 4.

4. Se tomó una muestra sobre el consumo semanal de arroz en libra por familia en 44 hogares y los

resultados fueron.

3 8 13 16 214 8 13 16 214 8 14 17 214 9 14 17 224 9 14 17 224 9 14 18 225 9 14 18 235 10 15 18 235 10 15 19 235 10 16 19 236 10 16 19 246 11 16 20 24

Page 23: Unidades i II y III Estad i (11) (5)

7 11 16 20 247 11 16 20 247 12 16 21 257 12 16 21 257 13 16 21 25

Construya una tabla de frecuencias para estos datos y responda las siguientes preguntas:

a) Cuáles datos representan el 25% menor de la muestra?

b) Cuántas familias consumen 7 libras o menos semanalmente?

c) Qué porcentaje de las familias consumen más de 9 libras por semana?

d) La mitad de la gente consume menos de ____ libras por semana?

e) Qué tipo de distribución (modelo de curva) siguen estos datos?

4. Para comprobar la eficacia de las maquinas de llenado de bolsas de leche las cuales tienen un

contenido nominal de 946 mililitros. Para ello se realiza un muestreo de 80 bolsas elegidas al azar.

Los resultados se muestran en la siguiente tabla:

953 966 948 928 940 941 965 963

945 966 937 937 933 933 962 967

972 937 955 975 965 960 940 969

945 946 927 970 973 968 962 981

985 954 958 959 934 959 963 950

973 935 955 971 937 956 943 970

955 959 947 940 946 963 950 933

950 939 941 936 952 973 938 960

949 948 952 948 935 949 938 934

941 958 931 957 941 942 945 927

a) Construya una tabla de distribución de frecuencias y responda las siguientes preguntas:

Qué porcentaje de bolsas tuvo un exceso de 946 ml?

Construir el histograma y el polígono de frecuencias absolutas.

Construir el polígono de frecuencias acumuladas u ojiva

Page 24: Unidades i II y III Estad i (11) (5)

Que tipo de curva de frecuencias siguen estos datos?

7. Con el fin de conocer la tendencia de consumo de las marcas de aceite para tracto mulas se realizó una

encuesta a 100 conductores y los resultados fueron los siguientes:

MARCA Nº CONDUCTORESBEG 15

HAVOLINE 20RIMULA 60SHELL 3ESSO 4

OTRAS 8

Defina la variable aleatoria.

Por EXCEL elabore diez tipos de grafico.

En los dos ejercicios siguientes (7 y 8) determine:

a) La variable aleatoria y de qué tipo es.

b) Cuál es la población y cuál es la muestra.

c) Construya una tabla de frecuencias e interprete la fila 4

d) Construya todos los gráficos correspondientes

e) Calcule la media , la mediana y la desviación estándar

f) Determine el rango intercuartil y el rango interdecil

g) Calcule e interprete el percentil 35 y el percentil 80

h) Por encima de que valor se encuentra el 70 % de los valores mas altos

i) Por debajo de que valor se encuentra el 70 % de los valores mas pequeños

7. El Departamento de Seguridad Industrial de la compañía X inició un estudio para conocer el índice de

contaminación que producen los gramos de ceniza de carbón bituminoso que se extrae de la mina A.

Se tomaron 60 observaciones y los resultados fueron:

23.1 25.1 21.6 28.7 21.5 9.4

23.4 22.6 22.7 20.1 13.5 21.5

18.9 18.5 24.1 18.4 31.2 21.3

Page 25: Unidades i II y III Estad i (11) (5)

16.1 16.8 26.2 19.6 28.5 17.2.

30.5 14.6 14.6 25.2 16.7 13.5

28.5 23.8 9.4 18.0 27.2 15.1

22.7 16.6 29.6 26.8 23.4 23.2

26.7 11.6 21.8 26.2 8.5 21.2

31.0 11.6 11.3 28.7 27.5 20.6

22.9 31.4 23.0 12.5 22.6 19.6

8. Con el fin de controlar el diámetro medio de los cojinetes que se producen en una empresa

metalmecánica, el departamento de control de calidad tomó 60 muestras extraídas al azar Los diámetros

están en pulgadas y los resultados fueron:

0.738 0.737 0.743 0.740 0.741 0.735

0.728 0.736 0.736 0.735 0.733 0.742

0.745 0.730 0.742 0.740 0.738 0.725

0.743 0.732 0.732 0.730 0.734 0.738

0.735 0.729 0.735 0.727 0.732 0.736

0.732 0.737 0.731 0.746 0.735 0.729

0.731 0.741 0.734 0.737 0.744 0.738

0.736 0.734 0.727 0.735 0.740 0.734

0.733 0.726 0.736 0.732 0.741 0.732

0.739 0.739 0.730 0.735 0.733 0.735

9. En una empresa de producción de pinturas de aceite se presentó un problema: "los clientes se quejaban del

grado de impurezas en los galones de aceite" El departamento de control de calidad decidió tomar 80

muestras (u 80 galones) y la cantidad de impurezas en gramos por galón fueron los siguientes:

29.5 45.538 38.8 39.0 27.5 32.3 42.6 35.5

27.3 32.0 42.6 44.5 26.9 45.6 36.7 38.8

40.5 20.4 28.5 21.5 28.8 36.7 36.6 43.2

22.9 45.8 31.5 32.1 31.8 23.9 29.5 39.6

23.8 30.6 25.5 41.2 35.5 39.6 31.7 26.1

31.6 35.4 31.7 35.2 28.7 30.5 2104 43.1

32.7 45.1 31.6 37.1 34.4 46.0 40.2 31.1

Page 26: Unidades i II y III Estad i (11) (5)

35.1 31.6 21.1 31.3 34.2 25.5 36.6 28.8

39.5 23.0 42.2 34.2 41.6 31.7 30.6 34.6

37.2 45.2 30.7 33.3 44.5 27.2 41.2 30.5

a) La variable aleatoria y de qué tipo es.

b) Cuál es la población y cuál es la muestra.

c) Construya una tabla de frecuencias e interprete la fila 4

d) Construya todos los gráficos correspondientes

e) Utilice el polígono de frecuencias acumuladas y determine (por interpolación) cuantos galones

aproximadamente tienen un contenido por debajo de los 33.5 gramos de impurezas.

f) Calcule la media , la mediana y la desviación estándar

g) Determine el rango intercuartil y el rango interdecil

h) Calcule e interprete el percentil 35 y el percentil 80

i) Por encima de que valor se encuentra el 70 % de los valores mas altos

j) Por debajo de que valor se encuentra el 70 % de los valores mas pequeños

UNIDAD III

MEDICION DE DATOS

1. MEDIDAS DE TENDENCIA CENTRAL

2. MEDIDAS DE DISPERSION

3. MEDIDAS DE FORMA

4. MEDIDAS DE LOCALIZACION

1. MEDIDAS DE TENDENCIA CENTRAL

Propósito de las medidas de tendencia central:

Supóngase que Pedro obtiene 32 puntos en una prueba de lectura. La calificación por sí misma tiene muy

poco significado a menos que usted conozca cuál es el total de puntos que obtiene una persona promedio al

participar en esa prueba, cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas

calificaciones. Es decir que para que una calificación tenga significado hay que contar con elementos de

referencia generalmente relacionados con ciertos criterios estadísticos.

Page 27: Unidades i II y III Estad i (11) (5)

Las medidas de tendencia central, sirven como puntos de referencia para interpretar las calificaciones que se

obtienen en una prueba. Digamos por ejemplo que la calificación promedio en la prueba es de 20 puntos, de

ser así podemos decir que la calificación de Pedro se ubica notablemente sobre el promedio por lo tanto le fue

muy bien. Pero si la calificación promedio fue de 60 puntos, entonces la conclusión sería muy diferente, dado

que se ubicaría muy por debajo del promedio de la clase.

En resumen, el propósito de las medidas de tendencia central son:

Mostrar en qué lugar se ubica la persona promedio o típica del grupo.

Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o

típico.

Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones.

Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.

Enumeración de las medidas de tendencia central.

Las medidas de tendencia central más comunes son:

1.1 La media aritmética:

Comúnmente conocida como media o promedio.

Para diferenciar datos muestrales de datos poblacionales, la media aritmética se representa con un

símbolo para cada uno de ellos: si trabajamos con la población, este indicador será μ; en el caso de que

estemos trabajando con una muestra, el símbolo será X

Media poblacional:

μ= 1N∑i=1

N

X i

Para la muestra:

X=1n∑i=1

n

X i

1.2 La media aritmética ponderada

Page 28: Unidades i II y III Estad i (11) (5)

Cuando los datos tienen un peso o porcentaje diferente de la unidad, entonces a cada dato hay que

asignarle su respectivo peso, el ejemplo más común es el de la nota promedio final de una asignatura:

4.0 en el 25%

1.0 en el 35%

3.5 en el 40%

Calcule el promedio

R/2.75

1.3 La Mediana Me:

Es el dato que está en la posición central de la serie, en este ejemplo:

1.4 La Moda MO:

Es aquel dato que más se repite en la serie.

Otras medidas de tendencia central de menor uso son:

1.5 La Media Geométrica

G= n√X 1 . X2 ………………. Xn

1.6 La media Armónica

Es la inversa de la media aritmética de las xis invertidas:

n

∑ 1X i

Los siguientes datos corresponden al peso en Kg de una muestra de 9 personas

Page 29: Unidades i II y III Estad i (11) (5)

80, 70, 65, 75, 71,75, 68, 69,75

Calcule media, mediana, moda, media geométrica, media armónica.

2. MEDIDAS DE DISPERSIÓN:

Estas medidas son muy útiles en estadística ya que proporcionan una medición de la variabilidad de los

datos alrededor de la media, es decir que tan regados o dispersos están los datos con respecto a la

media, que tan homogéneos o compactos están los datos.

Las medidas más comunes de dispersión son:

2.1 El Rango: R= Xmax - Xmin

2.2 La Varianza

Para la población:

σ 2= 1N∑i=1

N

( X i−μ )2

σ 2=N ∑ X i

2−(∑ X i )2

N 2

Para la muestra:

S2= 1n−1

∑i=1

n

( X i−X )2

S2=n∑ X i

2−(∑ X i)2

n(n−1)

Page 30: Unidades i II y III Estad i (11) (5)

2.3 La Desviación Estándar o Desviación Típica

Es la raíz cuadrada de la varianza:

Para la población: σ

Para la muestra: S

2.4 Coeficiente de variación: Es una medida para diagnosticar la homogeneidad de los datos.

CV = SX

∗100

Empíricamente, se considera que si el CV

Es menor que el 15% el grupo de datos es homogéneo

15% < CV ≤ 30% Homogeneidad moderada

CV > 30% Hay indicios de no homogeneidad

2.5 FRACCIÓN DE MUESTREO

Fracción de muestreo: Es el porcentaje que representa la muestra sobre el total de la población (n/N)

*100.

2.6 COEFICIENTE DE ELEVACIÓN: Es el número de veces que el tamaño de la población contiene

al tamaño de la muestra (N/n).

Cálculo aproximado y rápido de la varianza

Cuando los datos siguen una distribución normal, (es decir los datos giran alrededor del promedio), una

forma de diagnosticar rápidamente el valor de la varianza es:

Rango=6S, de aquí: S=R/6

Page 31: Unidades i II y III Estad i (11) (5)

Ejemplo

Los siguientes datos corresponden al llenado de tres maquinas en la empresa industrial COOLECHERA de

leche saborizada en empaque de bolsas de 250 cc.

Maq. 1 Maq. 2 Maq. 3

253,921 241,582 250,562

252,737 242,684 244,039

247,741 243,876 258,582

243,375 35,456 244,508

246,965 250,114 251,109

243,089 232,618 254,782

252,151 247,59 249,155

244,049 252,354 250,902

244,555 56,456 247,375

260,236 246,303 242,79

255,823 222,456 241,24

252.,224 210,231 246,965

245,397 257,707 256,807

256,565 242.,563 247,886

247,419 249,912 253,94

249,012 109,563 243,46

246,681 258,316 256,192

257,847 258,524 255,222

246,312 245,88 245,628

245,487 150,456 249,258

248,718 252,147 237,561

249,692 254,727 245,52

241,718 246,1 245,928

248,471 253,857 245,952

241,121 236,83 248,476

244,064 235,224 249,289

253,887 95,321 252,086

254,071 240,288 241,348

253,921 241,582 265,27

Page 32: Unidades i II y III Estad i (11) (5)

251,873 242,191 241,489

252,379 20,568 250,341

255,878 256,35 251,287

252,878 112,567 248,397

254,043 252,632 250,978

248,449 259,057 252,761

246,526 250,969 254,266

255,066 350,456 253,71

256,671 256,205 251,392

252,548 252,551 251,179

257,596 321,741 251,981

257,191 252,157 253,879

248,627 249,927 247,703

250,816 65,891 251,694

249,61 251,172 245,111

247,764 250,221 252,652

251,545 246,699 250,188

249,809 289,655 252,397

246,753 250,865 247,172

247,904 15,568 248,428

253,124 249,739 247,519

248,401 130,896 251,055

253,837 248,448 245,242

Calcule la media, rango y la desviación estándar para cada máquina. Que puede usted concluir al comparar los

tres resultados?

3. MEDIDAS DE FORMA DE LA CURVA DE FRECUENCIAS

Cuando la curva de frecuencias absolutas tiene forma de campana, se puede medir que tan achatada es y que

tan puntiaguda es.

Las medidas que proporcionan información al respecto se conocen como medidas de forma, las cuales se

clasifican en medidas de asimetría y medidas de curtosis

Page 33: Unidades i II y III Estad i (11) (5)

3.1 MEDIDAS DE ASIMETRIA:

Estas medidas evalúan la forma HORIZONTAL de la curva de frecuencias.

3.1.1 Coeficiente de asimetría de Pearson: Ap

Ap=3 ( X−M e )

S

Donde Xes la media, M ees la mediana y S es la desviación estándar.

Interpretación:

Si Ap ¿ 0 la curva puede considerarse simétrica

Si Ap < 0 la curva es sesgada o asimétrica a la izquierda

Si Ap > 0 la curva es sesgada o asimétrica a la derecha.

3.1.2 Coeficiente de asimetría de Fisher:

g1=1

S3

∑ ( X i−X )3

n

Interpretación:

Si g1 > 0 la curva es asimétrica o sesgada a la derecha

Si g1 < 0 la curva es asimétrica o sesgada a la izquierda.

Si g1 = 0 la curva es simétrica o normal

Gráficamente se tiene que:

Page 34: Unidades i II y III Estad i (11) (5)

Ap>0: Curva sesgada a la derecha o asimétrica a la derecha

Ap < 0: Curva sesgada a la izquierda o asimétrica a la izquierda

Ap≈0: Curva simétrica

3.2 MEDIDAS DE APUNTAMIENTO:

Estas medidas coeficiente evalúan la forma VERTICAL de la curva de frecuencias, es decir, mide cuan

'puntiaguda' es una distribución respecto de un estándar. Este estándar es una forma acampanada denominada

'normal', y corresponde a una curva de gran importancia en estadística.

Page 35: Unidades i II y III Estad i (11) (5)

3.2.1 Medidas basadas en percentiles.

k=Q3−Q1

2 ( P90−P10)

Interpretación:

Si k < 0,263 la distribución es platicúrtica

Si k ≈ 0,263 la distribución es normal o mesocúrtica

Si k > 0,263 la distribución es leptocúrtica

3.2.2 Coeficiente de curtosis de Fisher:

g2=1

S4

∑n

( X i−X )4

n−3

Interpretación:

Si g2 > 0 entonces la curva es leptocurtica (una curva puntiaguda)

Si g2 < 0 entonces la curva es platicurtica (una curva aplanada)

Si g2 = 0, entonces la curva es mesocurtica, simétrica o normal

Las siguientes figuras muestran gráficamente los tres tipos de curvas de acuerdo a la definición anterior:

Leptocurtica

Page 36: Unidades i II y III Estad i (11) (5)

Platicurtica

Mesocurtica o simétrica.

Calcule para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes de curtosis y asimetría e

interprételos, compare con la forma de la curva obtenida en el grafico curva de frecuencias y obtenga

conclusiones.

Para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes son:

COEFICIENTE DE ASIMETRIA = -0,53036

COEFICIENTE DE CURTOSIS = 1,73416

Interpretación:

1. Dado que Ap <0 entonces la curva de frecuencias es levemente sesgada o asimétrica a la izquierda

Page 37: Unidades i II y III Estad i (11) (5)

2. Dado que K>0 entonces la curva de frecuencias es levemente leptocurtica

4. MEDIDAS DE LOCALIZACION

Para determinar la localización o ubicación de cualquier dato en una serie de valores, es necesario,

inicialmente organizar los datos para aplicarle algunas técnicas y formulas que permitan ubicarlos.

Por ejemplo la serie 2, 4, 8, 10,12 a simple vista el 8 ocupa la mitad de la serie. El 2 ocupa la primera posición

y el 12 la ultima. Si dividimos la serie en 5 partes entonces la 5a ava parte la ocupa el 2. Las dos 5a avas

partes la ocupa el 4, la cuarta ava parte la ocupa el 10.

Cuando se disponen de muchos datos, se aplica ciertos términos y formulas para ubicar esos datos, los cuales

se estudiaran a continuación:

DECIL: Dp

Se habla de decil cuando la serie se divide en 10 partes, así pues p = 1,2,…….10 donde:

D1 = primer decil D2 = segundo decil… etc.

D10 = será el último numero de la serie o decimo decil.

QUARTIL: Qp

Se habla de cuartil cuando la serie se divide en 4 partes, asi pues p = 1, 2,3 y 4 donde

Q1 = primer cuartil

Q2 = segundo cuartil

Q3 = tercer cuartil

Q 4 = cuarto cuartil o ultimo de la serie.

PERCENTIL: Xp

Cuando la serie se divide en 100 partes, se habla de percentiles así pues p = 1, 2,3…..100 donde

X7 = percentil de orden 7 o séptimo percentil

X20 = percentil de orden 20 o vigésimo percentil

X91 = percentil de orden 91

Page 38: Unidades i II y III Estad i (11) (5)

Si se analiza con detenimiento la relación entre percentiles deciles y cuartiles se puede por ejemplo decir que:

X50 = Me = Q2

X25 = Q1

X90 = D9; X70 = D7; X75 = Q3

Cualquier percentil de orden p esta dado por:

X p=LI+ A ( np100

−N a

nx)

donde:

Li: Limite inferior del intervalo que contiene el percentil P

A: Es la amplitud

np: Porcentaje del número total de datos

Na: Frecuencia acumulada anterior a la del intervalo que contiene al percentil p

nx: Frecuencia absoluta del intervalo que contiene a Xp

RANGO INTERCUARTIL: (Q)

Es una medida de dispersión entre el primer y tercer cuartil, o sea:

Q = Q3 – Q1

RANGO INTERDECIL: D

Es también una medida de dispersión entre el primer y noveno decil, o sea:

D = D9 – D1

Estas medidas de desviación son importantes porque tienden a excluir los valores extremos, dando Como

resultado una buena medida de dispersión, es decir estos rangos no son afectados por la presencia de datos

con los valores externos.

Page 39: Unidades i II y III Estad i (11) (5)

Ejercicio:

La siguiente tabla muestra los tiempos de operación de un puesto de trabajo constituido por un operario y una

maquina donde se elabora el corte y doblado de un maletín de cuero, en una muestra de 100 observaciones de

medidas en minutos.

Li¿ X1¿ LS Xi ni Ni fi Fi fi*100% Fi*100%

5.7 - 6.1 5.9 5 5 0.05 0.05 5 5

6.1 - 6.5 6.3 18 23 0.18 0.23 18 23

6.5 - 6.9 6.7 42 65 0.42 0.65 42 65

6.9 - 7.3 7.1 20 85 0.20 0.85 20 85

7.3 - 7.7 7.5 10 95 0.10 0.95 10 95

7.7 - 8.1 7.9 5 100 0.05 1.00 5 100

a) Por encima de que valor se encuentra el 30% de los valores más altos

b) Por debajo de que valor se encuentra el 60% de los valores mas pequeños

c) Determine el valor que ocupa la posición 38, 72 y 92

d) Determine el rango intercuartil, el interdecil e interprete su resultados

a) X38 es el percentil 38 el calculado es el siguiente:

X38 = Li +

A (nP/100−Na )nx

P = 38; n = 100

nP100

=100 x38100

=38

El 38 está contenido en Ni = 65, de aquí se deduce que:

Li = 6.5 (INTERVALO Nº 3)

Page 40: Unidades i II y III Estad i (11) (5)

A = 0.4

Na = 23

nx = 42

X38 = 6.5 +

0 .4(38−23)42

=6 . 64

Luego el 6.64 ocupa aproximadamente la posición Nº 38 en la serie

De igual forma para la posición 72

X72 = Li +

A (nP/100−Na )nx

P = 72; n = 100

nP100

=100∗72100

=72

El 72 está contenido en Ni = 85, luego Li = 6.9 (INTERVALO Nº 4) A = 0.4, Na = 65; nx = 20

X38 = 6.9 +

0 .4(72−65)20

=7 . 04

b) Rango INTERCUARTIL: Q3 – Q1

Q3 = X75 Li +

A (nP/100−Na )nx

P = 75; n = 100

nP100

=100∗75100

=75

Page 41: Unidades i II y III Estad i (11) (5)

Li = 6.9 Na= 65

nx = 20 X75 = Q3 = 6.9 +

0 .4(75−65)20

Q3 = 7.1; y Q1 = 6.21

Luego Q3 – Q1 = 7.1 – 6.21 = 0.89

Es decir la variación entre la primera cuarta parte y la tercera cuarta parte de los datos es de 0.89 minutos.

Ahora se calcula el rango interdecil y el resultado debe ser mayor que 0.89 por qué?

RANGO INTERDECIL = D9 – D1

D9 = X90

P = 90

nP100

=(1009(90 )100

=90

El 90 está en Ni = 95 Li =73 Na = 85 nx = 10

X90 = 7.3 +

0 .4(90−85 )10

=7 .5

D10 = X10

P = 10

nP100

=(100)(10 )100

=10

El 10 está contenido en Ni = 23 Li = 6.1 Na= 5; nx = 18

X10 = 6.1 +

0 .4(10−5)18

=6 . 2

Luego D9 – D10 = 7.5 – 6.2 = 1.3

Page 42: Unidades i II y III Estad i (11) (5)

Establezca que tipo de Asimetría y Curtosis tiene la curva de frecuencias utilizando los índices g1 y g2.

Confronte estos resultados con la grafica Curva de frecuencias. Obtenga conclusiones.