TEORÍA DEL

15
EIA0120 TEORÍA DEL MUESTREO Estadística Inferencial Bloque 1

Transcript of TEORÍA DEL

EIA0120

TEORÍA DEL MUESTREO

Estadística Inferencial

Bloque 1

ESTADÍSTICA INFERENCIAL

2

El presente material recopila una serie de definiciones, explicaciones, ejemplos y ejercicios prácticos de autores especializados que te ayudarán a comprender los temas principales de este bloque.

Las marcas empleadas en la antología son única y exclusivamente de carácter educativo y de investigación, sin fines lucrativos ni comerciales.

3

ESTADÍSTICA INFERENCIAL

1. Teoría del muestreo

La teoría del muestreo basa su validez en el teorema de límite central y en la selección representativa de la muestra, con el fin de que pueda poseer, así como compartir características similares a la población y así predecir o inferir su comportamiento a través de los principales parámetros estadísticos: la media o promedio, la varianza o por intervalos de confianza.

1.1. Conceptos de muestra

Revisemos los conceptos de población y muestra que Rincón (2017) define como:

Una población es un conjunto de eventos, personas u objetos que por lo general son de tamaño difícil de manejar para hacer un análisis ágil y oportuno de sus características, así, por ejemplo, podemos tener po-blaciones como las personas que viven en Alemania, la cantidad de autos producidos por una automotriz al mes, el número de alumnos que estudian en tu universidad, entre otros.

Una muestra es una parte de la población que comparte características similares a la totalidad de donde fue extraída y permite por ello, obtener conclusiones sobre su comportamiento y principales parámetros estadísticos.

En este sentido, es de vital importancia no mezclar muestras de diferentes poblaciones para no obtener conclusiones erróneas. Recuerda que cada grupo presenta características comunes, así como homogéneas, por lo que, sería un error mezclar a las personas de México con las de Alemania o la producción de dos automotrices diferentes y suponer que se comportan igual.

Como ejemplo gráfico se muestra la siguiente figura:

Figura 1. Diagrama de Venn de población y muestra

Fuente: Rincón (2017).

Teoría del muestreo

ESTADÍSTICA INFERENCIAL

4

En ella se puede observar que la muestra es un subconjunto de la población, por ello tiene características homogéneas y comunes a la totalidad de donde fue extraída.

1.2. Características de la muestra

Las principales características de una muestra son:

� Aleatoriedad: la muestra debe ser tomada al azar para que se garantice que se extraigan elementos de toda la población sin definir una característica específica.

� Representatividad: se debe considerar un número suficientemente grande de elementos para que pueda tenerse la confianza de que la muestra presenta características comunes y similares de la población, y con ello, evitar sesgar o manipular la información obtenida.

Para calcular el tamaño de la muestra se utiliza la siguiente fórmula:

Figura 2. Fórmula: cálculo óptimo del tamaño de muestra

Fuente: Ramos (2009).

Realicemos un ejemplo: supongamos que necesitas saber si los iPhone producidos ayer por Apple® en su planta de Taiwán no presentan fallas en su pantalla. Si supieras que se producen alrededor de 10,000 iPhone diarios, ¿cómo harías para cerciorarte de que ningún teléfono falla en su pantalla?

Sin conocer el potencial de la estadística seguramente propondrías revisar todos los teléfonos antes de mandarlos a las tiendas, pero si consideras que tardarías alrededor de cinco minutos en la prueba por cada uno, tardarías 50,000 minutos, es decir, 833 horas o lo que es lo mismo 34.7 días, esto quiere decir que el tiempo invertido sería de un mes completo.

En este caso, lo mejor sería, tomar una parte de estos 10,000 teléfonos para poder revisarlos rápido y liberar el embarque completo para que se venda en las tiendas. Ahora bien, debes preguntarte:

5

ESTADÍSTICA INFERENCIAL

� ¿Cuántos teléfonos tomarás como muestra? � ¿Cómo debes seleccionarlos?

Hasta aquí, se da por entendido que la población son todos los elementos, las personas, los teléfonos, animales, etc. Los cuales representan el evento general a evaluar, y que la muestra es una parte de esa totalidad que se debe extraer para entender su naturaleza y comportamiento. Ahora bien, para que la muestra sea representativa, debe tener un número significativo, es decir, definir cuántos elementos tendrá y cómo se seleccionarán.

Continuando con el ejemplo anterior, si seleccionamos cinco iPhone fabricados de 6:00 a 7:00 de la ma-ñana, no tendremos la seguridad de que la muestra sea representativa de los teléfonos producidos, y si de estos cinco ninguno funciona, sería erróneo decir que los 10,000 teléfonos no operan correctamente. Entonces, tendríamos que probar más iPhone y seleccionarlos en cada una de las horas de turno en los que fueron elaborados; sólo así tendríamos la certeza de que podemos liberar el lote de 10,000, mediante el cumplimiento del estándar de fallas de los celulares.

A partir de la fórmula de la figura 2 y con los datos siguientes tenemos que:

� z siempre será el 95% por regla estadística. � p es el porcentaje de teléfonos que esperamos sin errores, se le otorgará el porcentaje del 1%. � q es el complemento de p, es decir (100-p), así que será de 0.99. � d es el error máximo admisible (1%).

Con estos datos tenemos que:

Figura 3. Cálculo del tamaño de muestra

Lo anterior arroja un tamaño de muestra de 88.57 teléfonos, es decir, 89, mismo dato que al multiplicarlo por cinco minutos nos da un total de 445 min, equivalentes a siete horas. Ahora, revisemos lo referente a los teléfonos: lo ideal es dividir la muestra entre las horas de trabajo, por ejemplo, si se trabajan ocho horas, entonces la operación sería 89/8, lo que ofrece como resultado 11 iPhone por hora. Una vez resuelto el problema, podemos contestar las preguntas:

� ¿Cuántos teléfonos tomaré como muestra? R= 89.

ESTADÍSTICA INFERENCIAL

6

� ¿Cómo debo seleccionarlos? R= 11 por cada hora de producción, de acuerdo con su registro de fabricación.

Precisión. El error de muestreo es la consideración de la incertidumbre al elegir los elementos que con-formarán la muestra. Normalmente se define un rango de entre el 1 y el 3 % para garantizar la confiabilidad y representatividad de los componentes.

1.3. Tipos de muestreo

Una vez que se han analizado las características de una muestra, es momento de revisar los tiempos de muestreo que existen, de acuerdo con la siguiente figura:

Figura 4. Tipos de muestreo

Fuente: Elaborado a partir de Malhotra (2017).

A continuación, se describirán cada uno de estos tipos.

7

ESTADÍSTICA INFERENCIAL

1.3.1. Muestreo aleatorio

El muestreo aleatorio simple es el más común, pero es necesario definir los criterios de selección para lograr la representatividad de la muestra:

Cuadro 1. Muestreo aleatorio simple

Técnica Ventaja Desventaja Ejemplos

Muestreo aleatorio simple m.a.s.

Es fácil de entender; da resultados extrapolables.

Es difícil construir el marco de muestreo; costoso; menor precisión; la representatividad no es segura.

Elegir 80 alumnos al azar de un listado de 150 que estudian fisicomatemáticas en una universidad seleccionando sus nombres de una tómbola hasta reunir la muestra requerida.

Fuente: Elaborado a partir de Malhotra (2017) y Ocaña (2018).

1.3.2. Muestreo estratificado

El muestreo estratificado busca mejorar la precisión del tamaño y la representatividad de la muestra por medio de la definición de subclasificaciones y sobre este criterio elegir los elementos.

Cuadro 2. Muestreo estratificado

Técnica Ventaja Desventaja Ejemplos

Muestreo estratégico.

Incluye todas las sub poblaciones importantes; precisión.

Es difícil elegir las variables de estratificación relevantes; no es factible estratificar con muchas variables; es costoso.

Tomar una muestra de 350 alumnos que estudian Ingeniería Industrial y que están en primer, tercer y séptimo semestre hasta reunir la muestra requerida.

Fuente: Elaborado a partir de Malhotra (2017) y Ocaña (2018).

ESTADÍSTICA INFERENCIAL

8

1.3.3. Muestreo sistemático

El muestreo sistemático pretende escoger las muestras al azar, pero por un criterio de orden en la selección, por lo cual asigna lugares para elegir los elementos de la lista, y con ello, lograr la representatividad de la muestra.

Cuadro 3. Muestreo sistemático

Técnica Ventaja Desventaja Ejemplos

Muestreo sistemático.

Puede incrementar la representatividad; es más fácil de poner en práctica que la aleatoria simple; no se requiere marco de muestreo.

Puede disminuir la representatividad.

Tomar una muestra de 20 alumnos, de 600 que estudian Medicina en una Universidad, pero tomar al azar de un listado y elegir aleatoriamente, por ejemplo: el 1°, el 7°, el 90° y así hasta reunir el tamaño de muestra requerida.

Fuente: Elaborado a partir de Malhotra (2017) y Ocaña (2018).

1.3.4. Muestreo de conglomerados

El muestreo de conglomerados es muy utilizado al tener proporciones grandes que abarcan varias zonas o regiones geográficas, por lo que es necesario considerar su selección, y con ello, lograr la representatividad de la muestra.

Cuadro 4. Muestreo de conglomerados

Técnica Ventaja Desventaja Ejemplos

Muestro por conglomerados.

Es económico y fácil de poner en práctica.

Poco preciso es difícil calcular e interpretar los resultados.

Tomar una muestra de 8000 alumnos que estudian Ingeniería en CDMX. Monterrey y Guadalajara en escuelas públicas y privadas hasta reunir la muestra requerida.

Fuente: Elaborado a partir de Malhotra (2017) y Ocaña (2018).

9

ESTADÍSTICA INFERENCIAL

1.3.5. Muestreos no probabilísticos

Este tipo de muestreo busca definir de inicio las características de la muestra a seleccionar de acuerdo con el criterio subjetivo del investigador, ya que no se considera escoger al azar, sino reunir el tamaño de la muestra una vez que se han establecido las pautas comunes a los elementos, por ejemplo, la nacionalidad, el grado escolar, el color, entre otros.

Cuadro 5. Muestreos no probabilísticos

Técnica Ventaja Desventaja Ejemplos

Muestreo incidental o por conveniencia.

Menor costo, menor consumo de tiempo; mayor conveniencia.

Sesgo de selección, muestra no representativa; no se recomienda para la investigación descriptiva o casual.

Seleccionar sólo los alumnos que no nacieron en CDMX en una universidad hasta reunir el tamaño de muestra requerido.

Muestreo por juicio o intencional.

Menor costo; conveniencia, no consume tiempo.

No permite generalizar; es subjetivo.

Seleccionar alumnos con promedio de 9 o más hasta reunir el tamaño de muestra requerido.

Muestreo por cuotas o accidental.

Pueden controlarse ciertas características de la muestra.

Sesgo de selección; la representatividad no es segura.

Seleccionar de 5 a 10 alumnos que son de Veracruz hasta reunir el tamaño de muestra requerido.

Muestreo de bola de nieve.

Pueden estimar caracteríticas poco comunes.

Consume mucho tiempo.

Elegir alumnos de la universidad que les guste el Heavy metal y recomienden a otros con los mismo gustos y así sucesivamente hasta lograr el tamaño de muestra requerido.

Fuente: Elaborado a partir de Malhotra (2017) y Ocaña (2018).

ESTADÍSTICA INFERENCIAL

10

2. Distribuciones muestrales

Las distribuciones de muestreo estudian los comportamientos y los parámetros de una muestra. Esen-cialmente se tienen distribuciones muestrales para medias, varianzas y proporciones. La validez de la muestra, así como de las distribuciones muestrales, lo ofrece el teorema de límite central, mismo que también será analizado en este bloque.

2.1. Conceptos fundamentales

Se iniciará este tema con algunos conceptos clave:

� La distribución de muestra es un modelo que permite ver la relación de los eventos obtenidos de una muestra en relación con su frecuencia de ocurrencia.

� El parámetro estadístico es la medición estimada a partir de los datos de una muestra o población, por esta razón se poseen parámetros poblacionales o muestrales. Normalmente los parámetros poblacionales se expresan con letras griegas: σ para la desviación estándar y μ para la media o promedio.

De acuerdo con el siguiente cuadro, es posible revisar una comparación entre los parámetros de muestras y poblaciones:

Cuadro 6. Términos estadísticos muestrales y poblacionales

Muestral Poblacional

Frecuencia Probabilidad

Histograma Distribución de probabilidades

Media muestral ( ) Media poblacional (μ)

Varianza muestral ( ) Varianza poblacional ( )

Proporción muestral ( ) Proporción poblacional (p)

Covarianza muestral ( ) Covarianza (COV(X,Y) o )

Coeficiente de correlación ( ) Coeficiente de correlación ( )

Fuente: Cornejo (2018).

11

ESTADÍSTICA INFERENCIAL

No obstante, para este tema se estudiarán solamente la media, el error estándar o varianza y la proporción.

2.2. Distribución muestral de la media, propiedades, error estándar de la media

Existen dos tipos de medidas estadísticas:

1. Las medidas de tendencia central están, por lo general, en el centro de las distribuciones de probabilidad, de allí su nombre. Ejemplos de éstas son la media o promedio, la moda o el dato que más se repite y la mediana o la medición de la cifra que está justo en la mitad de los hechos al ordenarlos de menor a mayor.

2. Las medidas de dispersión son aquellas que indican qué tan alejados de la media o dispersos están los datos. Algunos ejemplos son la varianza, la desviación estándar y el rango.

Cuando se analizan muestras, estos parámetros muestrales (por ejemplo, la media o desviación estándar) se convierten en estimadores de los parámetros (de la media y la desviación estándar poblacional), de allí que se desprendan las siguientes fórmulas para su cálculo:

Figura 5. Fórmulas de cálculo de los estimadores muestrales para medias y error estándar

Fuente: Cornejo (2018).

Donde es el promedio muestral, el error estándar muestral o desviación estándar muestral y n es el tamaño de la muestra.

Hagamos un ejercicio, considera que se ha extraído de una población de 100 niños, una muestra de los pesos en kilogramos de 10 de ellos, los cuales cursan el primer grado de primaria: 25, 30, 28, 35, 23, 24, 24, 29, 22 y 21. ¿Cuál será el promedio muestral y el error estándar muestral de los pesos de los 10 niños?

Valoremos la media muestral. Los datos son n = 10. De acuerdo con la fórmula:

= (25 + 30 + 28 + 35 + 23 + 24 + 24 + 29 + 22 + 21) / 10. Esto es igual a: 261/10 = 26.1 kilogramos.

El promedio lo podemos estimar utilizando Excel y el siguiente comando: = promedio (rango de valores).

Ahora bien, para el cálculo de la desviación estándar la fórmula es la siguiente:

ESTADÍSTICA INFERENCIAL

12

Figura 6. Fórmula para el cálculo de la desviación estándar

Fuente: Ayuda Excel 365 (2019).

σ es igual a (((25-26.1)² + (30 - 26.1)² + (28 - 26.1)² + (35- 26.1)² + (23 - 26.1)² + (24 - 26.1)² + (24 - 26.1)² + (29 - 26.1)² + (22 - 26.1)² + (21 - 26.1)²) / (10 - 1)), que es lo mismo que (18.7666 / 9) ̂ 0.5 = 4.33205.

La desviación estándar se calculará mediante Excel con el comando: = desvest(rango de valores).

Una vez estimada la desviación estándar procederemos a computar el error estándar: 4.33205 / (10) ̂ 0.5 = 1.3699 kilogramos. Ahora bien, ya que se ha calculado la media y el error estándar de la muestra, es posible inferir que estos parámetros a nivel de población pueden ser muy similares.

2.3. Teorema del límite central

La validez de la teoría del muestreo la aporta el teorema de límite central, ya que reúne en su definición los temas de la representatividad de una muestra, a través de tener un tamaño de porción significativo y suficiente. Ahora bien, a continuación, se analizará el teorema del límite central a partir de la visión de Soporte Minitab (2019):

El teorema del límite central es un teorema fundamental de probabilidad y estadística. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de las medias sigue aproximadamente una distribución normal. El tamaño que debe tener la muestra depende de la forma de la distribución original.

� Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una aproxima-ción adecuada.

� Si la distribución de la población es considerablemente asimétrica, es necesario un tamaño de muestra más grande. Gentibusam ium ernatibus modio

Por ejemplo, la distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor que 50 (Ídem).

La normalidad es una condición de la distribución de los datos que permite saber si están distribuyéndose de manera uniforme alrededor de la media. Con ello, se tiene un histograma simétrico en torno a la media. Ahora bien, de no tener esta uniformidad será preciso tomar más elementos o cifras de manera aleatoria y representativa para lograr la normalidad o distribución uniforme de la información que nos dé la simetría que se espera. De allí la importancia de poseer un tamaño de muestra suficientemente grande para conseguir un comportamiento normal de los datos alrededor de la media, principal medida de tendencia central en la estadística.

13

ESTADÍSTICA INFERENCIAL

Para entender mejor la asimetría, es menester revisar la siguiente figura donde se pueden ubicar las tres medidas de tendencia central: la moda (Mo), la mediana (Md) y la media o promedio (X).

Figura 7. Relación entre las medidas de tendencia central

Fuente: Mousalli-Kayat (2016).

2.4. Distribución muestral de la proporción

El segundo caso donde los parámetros poblacionales se pueden obtener a partir de estimadores de muestra, lo constituye la proporción que guarda una relación directa con el porcentaje de aceptación definido como p y el de rechazo referido como q de una población. Dicho aspecto permite el establecimiento de las proporciones de piezas, personas, partes o elementos que son aceptados o rechazados. Para medir el porcentaje de éxito o aceptación (o p) se puede restar a 1 q (o el porcentaje de fracaso o rechazo). Este tipo de estimador es muy común en el experimento de lanzar una moneda y esperar a que caiga águila, lo cual sería el éxito, o sol que simularía el fracaso. Veamos las fórmulas para calcular la media de proporciones y su desviación:

Figura 8. Fórmulas de cálculo de los estimadores muestrales para proporciones

Fuente: Cornejo (2018) y León (2015).

Realicemos el siguiente ejercicio: considera que en una población de 324 alumnos de una universidad se ha tomado una muestra de 30 estudiantes, de los cuales 19 no han reprobado ninguna materia, ¿cuál será la proporción de pupilos que no han desacreditado asignaturas y la desviación estándar de tal porcentaje?

ESTADÍSTICA INFERENCIAL

14

De acuerdo con la información, el tamaño de la muestra (n) es 30 alumnos; la proporción o el promedio de estudiantes sin materias reprobadas es de 19/30, es decir, 0.633 o el 63.3% de pupilos de la muestra no han desacreditado asignaturas y 1-p es igual a 0.366 o el 36.6 % de alumnos que sí lo han realizado. Calculemos ahora la desviación estándar que será igual a ((0.633*0.366) / 30) ̂ 0.5, es decir, 0.0878.

15

REFERENCIAS

Ayuda Excel 365. (2019). Desvesta. Fórmula para el cálculo de la desviación estándar. Recuperado de

Cornejo, M. (2018). Distribuciones muestrales. Recuperado de

León, J. [Facultad de estudios a Distancia UMNG]. (2015, septiembre 29). Distribución muestral de pro-porción [Archivo de video]. Recuperado de

Malhotra, N. (2017). Muestreo probabilístico vs no probabilístico. Recuperado de

Mousalli-Kayat, G. [ULAx Equis]. (2016, febrero 24). Medidas de forma [Archivo de video]. Recuperado de

Ocaña, P. (2018). Introducción al Muestreo Estadístico. Recuperado de

Ramos, A. (2009). Cálculo tamaño óptimo de la muestra. Recuperado de

Rincón, L. (2017, noviembre 24). Población y muestra [Archivo de video]. Recuperado de

Soporte Minitab. (2019). Explicación. Análisis de medidas. Recuperado de