127381262-ESTADISTICA-APLICADA

119
Ec. Quispe G. Jimmy Javier 1 UNIVERSIDAD ESTATAL PENINSULA DE SANTA ELENA FACULTAD DE CIENCIAS ADMINISTRATIVAS Escuela de Ingeniería Comercial INGENIERIA EN MARKETING ESTADISTICA APLICADA Segundo Año Autor: Ec. Quispe Gonzabay Jimmy Javier e-mail: [email protected] Año Académico: 2010-2011

Transcript of 127381262-ESTADISTICA-APLICADA

Page 1: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

1  

UNIVERSIDAD ESTATAL PENINSULA DE SANTA ELENA

FACULTAD DE CIENCIAS ADMINISTRATIVAS Escuela de Ingeniería Comercial

INGENIERIA EN MARKETING

ESTADISTICA APLICADA

Segundo Año

Autor: Ec. Quispe Gonzabay Jimmy Javier

e-mail: [email protected]

Año Académico: 2010-2011

Page 2: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

2  

INTRODUCCIÒN La estadística tiene sus orígenes en 1662 cuando John Graunt publicó el artículo “Natural and Political Observations Made upon Bills of Mortality”. Las observaciones del autor eran el resultado de un estudio y análisis de la publicación religiosa semanal llamada Bill of Mortality, la cual incluía nacimientos, bautizos y muertes junto con sus causas. Graunt se dio cuenta de que Bill of Mortality representaba apenas una fracción de los nacimientos y muertes en Londres. Sin embargo, utilizó los datos para llegar a conclusiones relativas al impacto de las enfermedades, como la peste, en la población. Su lógica constituye un ejemplo de inferencia estadística. Su análisis e interpretación de los datos marcan el inicio de la estadística. Actualmente, hay una amplia gama de aplicaciones de la estadística en la administración, marketing, economía, enfermería, deportes, etc… Un ejemplo práctico serían las cuatro compañías estadounidenses con mayores ingresos: ExxonMobil, General Motors, Ford y Chevron (año 2005 en www.industryweek.com) No se puede gestionar lo que no se mide. Las mediciones son la clave. Si usted no puede medirlo, no puede controlarlo. Si no puede controlarlo, no puede gestionarlo. Si no puede gestionarlo, no puede mejorarlo. La falta sistemática o ausencia estructural de estadísticas en las organizaciones impide una administración científica de las mismas. Dirigir sólo en base a datos financieros del pasado, realizar predicciones basadas más en la intuición o en simples extrapolaciones, y tomar decisiones desconociendo las probabilidades de éxito u ocurrencia, son sólo algunos de los problemas o inconvenientes más comunes hallados en las empresas. Carecer de datos estadísticos en cuanto a lo que acontece tanto interna como externamente, impide decidir sobre bases racionales, y adoptar las medidas preventivas y correctivas con el suficiente tiempo para evitar daños, en muchos casos irreparables, para la organización. En otras épocas disponer de los datos y luego analizarlos resultaba una labor costosa y agotadora, pues ella se basaba en la labor manual de los directivos. Pero hoy se cuenta con computadoras y software que facilitan el cálculo, por lo cual las empresas que utilicen dicho potencial obtendrán una fuerte diferencia competitiva en relación a sus adversarios, pero más aún podrán mejorar continuamente la performance en los diversos ratios y mediciones que hacen a los procesos y actividades de la empresa. Las empresas que no hagan uso de estas nuevas potencialidades y afronten debidamente éstas nuevas exigencias, no sólo perderán capacidad competitiva, sino que quedarán desplazados ante los continuos cambios del entorno, poniendo en serio riesgo su propia continuidad. En otras épocas con lentos procesos de cambios, los cuales resultaban casi imperceptibles en el tiempo, se podía administrar una empresa con pocos datos estadísticos. Hoy, en un mundo de profundos y veloces cambios en todo ámbito ya no es posible actuar con indiferencia. Hoy un empresario necesita predecir a tiempo los niveles de demanda de sus productos, necesita reconocer a tiempo los cambios de tendencia, debe no sólo saber en qué se gasto, sino como se gasto en el tiempo y en que conceptos. Para negociar, para tomar decisiones, para corregir problemas de calidad, para aumentar la productividad, para fijar precios, para mejorar el mantenimiento y disponibilidad de las máquinas e instalaciones, para mejorar la concesión y cobranza de los créditos se requiere sí o sí contar con datos estadísticos. Toda decisión, todo análisis, todo presupuesto, está prácticamente en el aire si no se cuenta con datos estadísticos suficientes y fiables. No sólo a nivel empresa, sino también a nivel país, los que más han avanzado han sido aquellos que hicieron de las estadísticas una herramienta fundamental. W. Edwards Deming, un pionero en métodos estadísticos para el control de calidad, señaló que en Japón se pone mucho énfasis en las estadísticas para directores de empresa. En parte fue la aplicación de las técnicas estadísticas enseñadas por Deming lo que hizo que Japón pasara de ser un fabricante de imitaciones baratas a líder internacional en productos de primera calidad. Sin estadísticas una empresa carece de capacidad para reconocer que actividades o productos le generan utilidades, y cuales sólo pérdidas.

Page 3: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

3  

No contar con datos e interpretarlos correctamente es para los administradores como caminar en la oscuridad. Contar con los datos les ilumina, les permite ver lo que está aconteciendo y en consecuencia tomar las medidas más apropiadas. Un empresario conocedor de estadísticas podría contestar para su empresa: ¿Qué clientes les generan los mayores beneficios? ¿Qué zonas o regiones son las que generan mayores ventasen unidades monetarias y volúmenes? (en total y por producto) ¿Cuáles son las reparaciones que más se han producido en el último trimestre? ¿En qué día de trabajo de cada mes logra llegar al punto de equilibrio? ¿Qué tipo de reparaciones han generado mayores egresos? Si posee un restaurante ¿Cuáles son los platos más pedidos durante el año y por temporada? ¿Cuáles son los vinos más pedidos y cuáles los más vendidos? SI dirige una librería ¿Cuáles son los temas más vendidos? ¿Cuál es la rentabilidad que le aporta cada tema? ¿Cómo contribuye cada tema a lograr el punto de equilibrio? Si dirige un hotel, ¿Cuál es el tiempo promedio de estadía? ¿La cantidad de clientes por zona o región?¿La facturación por profesión, zona, motivo de su visita ( turismo, negocios, salud, profesionales, capacitación, otros)? Las estadísticas nos ayudan sobre manera a tomar las decisiones más correctas en búsqueda del beneficio empresarial y de sus clientes. Nos ayuda por ejemplo a:

• Adoptar a tiempo las medidas correctivas; • Confeccionar un presupuesto viable y efectivo; • Administrar eficazmente su flujo de fondos; • Evitar los excesos de stock y la obsolescencia de inventarios; • Conocer cuando está mejorando la productividad; • Negociar un incremento de precios; • Predicción de ventas por canales de comercialización. • Estudios e investigación de mercado. • Tiempos promedios, máximos y mínimos de reparaciones por tipo de averías. • Coeficientes de correlación.

La Gestión Moderna Basada en Estadísticas (GMBE) seguro que ayudará a profesionales administradores de empresas En conclusión: Hoy en día se hace indispensable tener conocimientos básicos de estadística para la toma de decisiones óptimas en nuestras empresas, que nos permita tener la capacidad de generar ideas nuevas que al aplicarse den los resultados que se pretende en el negocio. La presente guía ha sido diseñada de una manera sencilla que permita al alumno que guste o no de las matemáticas entender las estadísticas. Por otro lado los ejercicios y problemas están tomados en su mayoría de la realidad diaria donde nos desenvolvemos. Se recomienda que antes de iniciar este curso el alumno debe tener conocimientos básicos de Excel y tener la predisposición de hacer de las estadísticas su pasión. Suerte!

Page 4: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

4  

OBJETIVOS GENERALES Describir las características principales de los datos agrupados y no agrupados basándose en la información recopilada e histórica para que mediante la aplicación de Excel y spss se analice probabilidades de fenómenos de estudio con variables discretas y continuas. Analizar información mediante un modelo de regresión lineal y pruebas de hipótesis aplicando Excel y spss para la toma de decisión más óptima previa al lanzamiento de productos o servicios al mercado. COMPETENCIAS Competencias Generales de la carrera

• Analizar y sintetizar • Aplicar los conocimientos a la práctica • Trabajar de forma cooperativa en equipo • Capacidad de liderazgo

METODOLOGÍA La presente guía está diseñada de manera que contribuya al desarrollo de competencias en los alumnos, mediante métodos adecuados el docente favorece el aprendizaje en los estudiantes, las modalidades organizativas dentro y fuera del aula ayudan para que el alumno construya el conocimiento a través del desarrollo de ejercicios y problemas prácticos, además el estudio de casos en algunas unidades asiste para que los valores entre compañeros se fortalezcan. Se recomienda que cada alumno vaya desarrollando la clase paso a paso con ejerciciso y problemas y al final de cada capítulo se autoevalúe con la responsabilidad que caracteriza a un alumno universitario. Las modalidades y métodos que se proponen son los siguientes: Modalidades Organizativas:

• Seminarios - Talleres • Clases prácticas (Laboratorio) • Trabajo en grupo • Tutorías • Trabajo autónomo

Trabajo Autónomo:

• Preparación de actividades académicas dirigidas • Consultas bibliográficas • Investigaciones • Proyectos • Tareas a corto y largo plazo

Métodos de aprendizaje

• Resolución de ejercicios y problemas • Aprendizaje basado en problemas • Estudio de Casos • Aprendizaje Cooperativo • Aprendizaje orientado a proyectos

Page 5: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

5  

EVALUACIÓN El año académico tendrá cuatro períodos, cada uno será evaluado en las siguientes estrategias evaluativas:

ESTRATEGIA EVALUATIVA 1: Deberes % Instrumento de evaluación Criterios 10%

1 Pruebas de ejecución de tareas reales a corto plazo

Presentación de trabajo 2 2 Desarrollo 6 3 Resultados 2

ESTRATEGIA EVALUATIVA 2: Proyecto de Investigación % Instrumento de evaluación Criterios 20%

1 Trabajo de campo

Encuesta 5 2 Contenido de trabajo y trabajo en equipo 10 3 Presentación de trabajo 5

ESTRATEGIA EVALUATIVA 3: Pruebas % Instrumento de evaluación Criterios 10%

1 Pruebas escritas / Situación problémica

Razonamiento 3 2 Deducción – conocimientos 3 3 Interpretación de resultados 4

ESTRATEGIA EVALUATIVA 4: Talleres grupales % Instrumento de evaluación Criterios 10%

1 Talleres en equipo

Comprensión 2 2 Desarrollo de tema 4 3 Interpretación de resultados 4

PRUEBA FINAL % Instrumento de evaluación Criterios 50%

1 Prueba al final de cada período

Valores de honestidad, limpieza y responsabilidad 5 2 Desarrollo correcto de temas 20 3 Interpretación de resultados correctos 25 BIBLIOGRAFÍA • Estadística aplicada a los negocios y economía: Lind-Marchall;2008. • Estadística para administración y economía; Anderson; 2005 • Muestreo Estadístico, Cesar Pérez López; Pearson, Prentice Hall, 2005 • Estadística para administración, Berenson – Levine, Prentice Hall, 2001 • Probabilidad y Estadística para Ingeniería y Ciencias, Mendenhall – Sincich, Prentice Hall, 1997 Internet: • http://www.vitutor.com/estadistica.html • www.spssfree.com/indice.html • http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm • www.youtube.com (videos estadísticos en Excel y spss) • http://www.monografias.com/trabajos34/estadistica-negocios/estadistica-negocios.shtml • http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_9.htm Biblioteca Virtual UPSE • http://site.ebrary.com/lib/upsesp/search.action?p00=probabilidad De esta dirección seleccionar los siguientes textos: • Matemática-Probabilidades, Colegio24hs • Problemario de Probabilidad, Escalona Iván • Manual: Teoría de Probabilidades, Ramírez Sánchez, Waldo • Estadística, Matus, R. Hernández y Martha García E.

Page 6: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

6  

INDICE UNIDADES Páginas

Unidad I: Introducción a Estadística, Frecuencias y Gráficas. 1.1 Conceptos básicos de Estadística. 1.2 Tipos de estadística y su aplicación en el marketing. 1.3 Recopilación de datos: Encuestas (directas y por internet) y niveles de medición 1.4 Tabla de frecuencias para conjunto de datos cualitativos.- Definición y gráficos 1.5 Distribución de frecuencias para conjunto de datos cuantitativos.- Definición y gráficos 1.6 Representación gráfica de datos en Excel y SPSS.

Unidad II: Estadígrafos y análisis de Datos 2.1. Medidas de localización: Media aritmética, ponderada y geométrica, mediana y moda. 2.2. Medidas de dispersión: Rango, desviación media, varianza y desviación estándar. 2.3. Media, mediana, moda y desviación estándar para datos agrupados. 2.4. Descripción de datos

2.4.1. Diagrama de puntos 2.4.2. Cuartiles, deciles y percentiles 2.4.3. Diagramas de caja

2.5. Asimetría y Curtosis 2.6. Ética e informe de resultados. 2.7. Aplicación en Excel y SPSS. Unidad III: Introducción a la Probabilidad 3.1. Definición y enfoques 3.2. Experimento, Resultado, Evento y Espacio Muestral 3.3. Reglas de Conteo 3.4. Reglas de adicción 3.5. Reglas de la multiplicación 3.6. Tablas de Contingencia y Diagramas de árbol 3.7. Probabilidad Condicional 3.8. Regla de Bayes 3.9. Aplicación en Excel Unidad IV: VARIABLES ALEATORIAS DISCRETAS 4.1. Definición y su distribución de probabilidad 4.2. Media, Varianza y Desviación Estándar de una v.a.d. 4.3. Distribución de Probabilidad Binomial 4.4. Distribución de Probabilidad de Poisson 4.5. Distribución de Probabilidad Hipergeométrica 4.6. Aplicación en Excel y SPSS. Unidad V: VARIABLES ALEATORIAS CONTINUAS 5.1. Definición y su Distribución de Probabilidad 5.2. Distribución de Probabilidad Uniforme 5.3. Distribución de Probabilidad Exponencial, aplicación en Excel y spss 5.4. Distribución de Probabilidad Normal y aplicación en Excel y spss 5.5. Aproximación de la Binomial a la Normal y aplicación en Excel y spss

8 8 9

10 12 15

19 20 22 25

29 30 30

31 31 33 34 35 36 37 39 42

43 44 44 47 48 50

51 51 52 53 59

Page 7: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

7  

Unidad VI: MUESTREO Y ESTIMACIÓN 6.1 Muestreo

6.1.1. Definición y clasificación 6.1.2. Métodos de Muestreo

6.1.2.1. Muestreo Aleatorio Simple 6.1.2.2. Muestreo Sistemático 6.1.2.3. Muestreo Estratificado Simple 6.1.2.4. Muestreo por Conglomerados

6.1.3. Error de Muestreo 6.1.4. Distribución Muestral de la Media 6.1.5. Teorema del Límite Central 6.1.6. Aplicación de la distribución muestral de las medias

6.2. Estimación 6.2.1. Estimadores puntuales e intervalos de confianza de una media

6.2.1.1. Desviación estándar de la población conocida 6.2.1.2. Desviación estándar poblacional desconocida

6.2.2. Intervalo de confianza de una proporción 6.2.3. Intervalo de confianza de una varianza 6.2.4. Factor de corrección de una población finita 6.2.5. Elección del tamaño adecuado de una muestra

Unidad VII: PRUEBA DE HIPÓTESIS 7.1. Definición, elementos y Tipos de error 7.2. Pasos para probar una hipótesis 7.3. Prueba de significancia de una y dos colas; y Valor p 7.4. Prueba de la media con desviación poblacional conocida y desconocida 7.5. Prueba de hipótesis de la proporción 7.6. Error tipo II 7.7. Prueba de Hipótesis para dos muestras: Muestras independientes 7.8. Prueba de proporciones de dos muestras 7.9. Prueba de medias con desviaciones poblacionales desconocidas 7.10. Prueba ANOVA 7.11. Prueba de bondad de ajuste: frecuencias esperadas iguales y desiguales 7.12. Aplicación en Excel y SPSS Unidad VIII: REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE 8.1. Regresión Lineal Simple

8.1.1. Supuestos y elementos 8.1.2. Método de Mínimos Cuadrados 8.1.3. Interpretación de la pendiente de la recta 8.1.4. Error estándar de estimación 8.1.5. Coeficiente de correlación y de determinación 8.1.6. Intervalos de Confianza y de Predicción 8.1.7. Aplicación en Excel y SPSS

8.2. Regresión Lineal Múltiple en spss 8.2.1. Ecuación de regresión múltiple

8.2.1.1. Error estándar de estimación y Coeficiente de determinación múltiple 8.2.2. Evaluación de supuestos 8.2.3. Regresión por pasos

TRABAJO AUTÓNOMO TABLAS

62 63

67 67 67 67 68 68

69 70 71 71

72 72 73 74 77 78 82 83 84 85 86 87

90 90 90 92 93 94 95 95 95 96 96 96

99

117

Page 8: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

8  

UNIDAD I: INTRODUCCIÓN A LA ESTADÍSTICA, FRECUENCIAS Y GRÁFICAS

Objetivos: Caracterizar conjunto de variables cualitativas y cuantitativas mediante distribución de frecuencias para su representación gráfica en programas estadísticos.

Competencias específicas:

• Capacidad de identificar variables cualitativas y cuantitativas. • Tabular datos informativos en spss. • Representación honesta de los datos en gráficas.

1.1 Conceptos básicos de Estadística. Estadística.- Ciencia que recoge, organiza, presenta, analiza e interpreta datos con el fin de propiciar la toma de decisiones más eficaz. Tipos de Variables:

a) Variable cualitativa.- La característica de la variable que se estudia es de naturaleza no numérica, se agrupa en categorías. Ejemplos: el género, la filiación religiosa, color de ojos, etc.

b) Variable cuantitativa.- La variable que se estudia aparece en forma numérica. Se divide en: Discretas y Continuas. Variables Discretas.- Adoptan sólo ciertos valores y existen vacíos entre ellos. Ejemplos: Número de camas en una casa, número de autos que pasan por un semáforo tal, número de alumnos del curso que reciben estadística aplicada, etc. Variables continuas.- Toman cualquier valor dentro de un intervalo específico. Ejemplo: Presión del aire en la llanta de un auto, peso de una caja de tomates, duración de un viaje Salinas-Guayaquil, etc. Por lo general las variables continuas son el resultado de mediciones.

Población.- Conjunto de individuos u objetos de interés o medidas obtenidas a partir de todos los individuos u objetos de interés, se representa con la letra N. Muestra.- Porción o parte de la población de interés, se representa con la letra n. 1.2 Tipos de estadística y su aplicación en el marketing. Tipos de Estadística: Estadística Descriptiva.- Método para organizar, resumir y presentar datos de manera informativa. Estadística Inferencial.- Métodos empleados para determinar, predecir o inferir una propiedad de una población con base en la información de una muestra. La estadística en el marketing es fundamental pues por medio de esta ciencia se recopila información sobre clientes, empresas, productos o servicios, etc., de manera que se puede aplicar estrategias de marketing apropiadas para el mejoramiento del negocio. Ejemplo: La empresa de publicidad con sede en Atlanta, Brandon and Associates, solicitó a una muestra de 1 960 consumidores que probaran un platillo de pollo recién elaborado por Boston Market. De las 1 960 personas de la muestra, 1 176 dijeron que comprarían el La empresa implementó esta nueva línea de negocio en base a la información recopilada en la encuesta porque el platillo fue un éxito en la muestra.

Page 9: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

9  

1.3 Recopilación de datos: Encuesta y niveles de medición Niveles de medición Los datos se clasifican por niveles de medición. El nivel de medición de los datos rige los cálculos que se llevan a cabo con el fin de resumir y presentar los datos, además determina las pruebas estadísticas que se deben realizar. Se clasifican desde la medición más baja hasta la más alta que es el nivel de razón. Datos de nivel nominal.- Las observaciones acerca de una variable cualitativa sólo se clasifican y cuentan. No existe una forma particular para ordenar las etiquetas. Ejemplo: Suponga que hace un conteo de las personas que asisten a un bar de la localidad e informa cuántos son hombres y cuántas son mujeres. Podría primero presentar a los hombres o a las mujeres, la medición consiste en contar.

Asisten al Bar Número Porcentaje Hombres 45 60.81 Mujeres 29 39.19 Total 74 100.00

Las categorías de datos se encuentran representadas por etiquetas o nombres. Aún cuando las etiquetas se codifiquen con números, las categorías de datos no tienen ningún orden lógico Datos de nivel ordinal.- Los datos se ordenan de acuerdo a características de la variable. Sus propiedades son: Las clasificaciones de los datos se encuentran representadas por conjuntos de etiquetas o nombres (alto, medio, bajo), las cuales tienen valores relativos. En consecuencia, los valores relativos de los datos se pueden clasificar u ordenar. Ejemplo: Los estudiantes de segundo año evaluaron al docente de matemáticas contestando la siguiente pregunta: ¿Cómo califica las clases del profesor de matemáticas? Los resultados se muestran a continuación:

Calificación Frecuencia Excelente 5 Muy bueno 29 Bueno 14 Regular 6 Deficiente 1 Total 55

La calificación muestra el uso de la escala de medición ordinal, una calificación es más alta o mejor que la siguiente. La calificación excelente es mejor que la calificación muy bueno pero no se sabe en qué grado es mejor calificación, es decir no es posible distinguir la magnitud de las diferencias entre los grupos. Datos de nivel de intervalo Incluye las características del nivel ordinal, pero además, la diferencia entre valores constituye una magnitud constante y no necesariamente la razón entre categorías distintas. Sus propiedades son: Las clasificaciones de datos se ordenan de acuerdo con el grado que posea la característica en cuestión. Diferencias iguales en la característica representan diferencias iguales en las mediciones. Ejemplo: La temperatura, las tallas de ropa Datos de nivel de razón Todos los datos cuantitativos son registrados en el nivel de razón de la medición. Posee todas las características del nivel de intervalo, aunque, además el punto 0 tiene sentido y la razón entre entre dos números es significativa. Sus propiedades son: Las clasificaciones de datos se ordenan de acuerdo con la cantidad de características que poseen.

Page 10: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

10  

Diferencias iguales en la característica representan diferencias iguales en los números asignados a las clasificaciones. El punto cero representa la ausencia de características y la razón entre dos números es significativa. Ejemplo: Los salarios, peso, altura, ventas, etc. La siguiente muestra los salarios anuales de 5 profesionales dedicados al área administrativa:

Profesional Salario ($) Castro Alex 3 000 Revello Gabriela 3 600 Roldán Tamara 4 200 Santos Andrés 4 800 Zambrano Inés 6 000

1.4 Tabla de frecuencias para conjunto de datos o variables cualitativas.- Definición y gráficos Frecuencia.- Número de ocurrencia de una observación en particular (f). Tabla de frecuencias.- Agrupación de datos cualitativos en clases mutuamente excluyentes que muestra el número de observaciones en cada clase. Frecuencia relativa de clase.- Fracción del número total de observaciones en cada clase, es decir, es la división entre la totalidad de elementos de una clase y el número total de observaciones (f.r.). Frecuencia relativa porcentual.- Resulta de multiplicar la frecuencia relativa por 100%. Ejemplo: La siguiente tabla contiene información sobre las preferencias de lugares de visitas de un grupo de personas en sus vacaciones. Tabla no. Tabla de frecuencias sobre visita a lugares turísticos. Representación gráfica de datos cualitativos Los instrumentos más comunes para representar una variable cualitativa en forma gráfica son la gráfica de barra (horizontal o vertical) y el gráfico de pastel. Gráfica de barras.- En un sistema de ejes X y Y, se encuentra en un eje la variable de interés y en el otro eje la cantidad, número o fracción de cada uno de los posibles resultados. Una característica distintiva de este tipo de gráfico es que existe una distancia o espacio entre barras, además el ancho de cada rectángulo es uniforme y la altura corresponde a la frecuencia de clase (alturas proporcionales a las frecuencias de clase). Respecto al ejemplo sobre lugares de preferencia se presenta un gráfico de barras horizontales de frecuencia.

LUGARES Personas que visitan (f) f. r. SALINAS 50 0.43 QUITO 25 0.22 PLAYAS 15 0.13 OLON 25 0.22 Total 115 1.00

Page 11: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

11  

Interpretación.- De acuerdo a la gráfica de barras, de las 115 personas encuestadas, 43% prefieren visitar Salinas, 22% personas prefieren visitar Quito al igual que Olón. Gráfica de Pastel.- Gráfica circular que muestra la parte o porcentaje que representa cada clase del total de números de frecuencias. Para construir una gráfica de pastel las frecuencias de cada clase se transforman a frecuencia porcentual (en porcentajes) y se inicia colocando el porcentaje de la primera categoría en el circulo, iniciando “a las 12 en punto” y el resto de categorías se van sumando de manera acumulada, luego se avanza conforme las manecillas del reloj hasta completar el 100%, Ejemplo: SkiLodges.com realiza una prueba de mercado de su nuevo sitio web y le interesa saber con qué facilidad se navega en su diseño de página web. Selecciona al azar 200 usuarios frecuentes de internet y les pide que lleven a cabo una tarea de investigación en la página web, solicitándoles que califiquen la relativa facilidad para navegar como mala, buena, excelente o sobresaliente. Los resultados aparecen en la siguiente tabla:

Facilidad de navegar f. f. p. (%) Sobresaliente 102 51% Excelente 58 29% Buena 30 15% Mala 10 5% Total 200 100%

0 10 20 30 40 50 60

SALINAS 

QUITO

PLAYAS

OLON

Lugares de preferencia(variable de interés)

Sobresaliente51%

Excelente 29%

Buena15%

Mala5%

Page 12: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

12  

Interpretación.- De las 200 personas encuestadas, el 51% calificó de sobresaliente navegar en la página web de la compañía SkyLodge.com, un 29% calificó de excelente y sólo un 5% calificó como mala navegar en la web, también se puede concluir que el 80% ha calificado como excelente y sobresaliente navegar en la web de la compañía. 1.5 Distribución de frecuencias para conjunto de datos cuantitativos.- Definición y gráficos Para representar variables cuantitativas aprenderemos sobre los histogramas y polígonos de frecuencia. Primero analizaremos cómo agrupar datos. Distribución de frecuencia.- Agrupación de datos en clases mutuamente excluyentes, que muestra el número de observaciones que hay en cada clase. ¿Cómo crear una distribución de frecuencias? Cuando tenemos datos desorganizados se llaman datos no agrupados o datos en bruto, se los agrupa de la siguiente manera: 1.- Defina el número de clases mediante la relación 2k, se escoge el valor mínimo de k que da como resultado un valor mayor al número de observaciones. 2.- Determine el intervalo o ancho de clase que debe ser el mismo para todas las clases y deben cubrir todos los datos. Se emplea la fórmula: Donde: i es el intervalo de clase. H es el máximo valor observador (valor mayor) L el mínimo valor observado k el número de clases 3.- Establezca los límites de cada clase de manera que al tabular los datos no repetimos datos, para el presente curso se trabajará con la modalidad por ejemplo: 1500 a 1600; 1600 a 1700, etc. Esto indica que la primera clase abarca datos desde 1500 hasta 1599, la segunda clase datos desde 1600 hasta 1699 y así sucesivamente. No olvidar que la última clase debe contener la observación mayor caso contrario hay que volver a establecer el ancho del intervalo redondeando a un número un poco mayor. 4.- Tabule las observaciones para cada clase. 5.- Cuente el número de elementos que se repiten en cada clase (frecuencia de clase), debe ser el mismo de las observaciones no agrupadas. Ejemplo:

Los datos originales que se presentan a continuación son los cargos por electricidad y gas durante un mes, para una muestra aleatoria de 50 departamentos de 3 recámaras en Manhattan. Elabore una distribución de frecuencia.

1. 26= 64, valor superior mínimo a las observaciones. Es decir trabajaremos con 6 clases.

96 171 202 178 147 102 153 127 82 197 157 185 90 116 172 111 148 130 165 213 141 149 206 172 123 128 144 109 167 168 95 163 150 154 130 143 187 139 149 166 108 119 183 151 114 135 191 129 158 137

Page 13: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

13  

2. 21.83, es decir que el ancho del intervalo será de 22 (redondeado)

3. Los límites de clases serían:

No. Intervalos 1 82 a 104 2 104 a 126 3 126 a 148 4 148 a 170 5 170 a 192 6 192 a 214

Nos damos cuenta que todos los datos se encuentran dentro de los límites de clases establecidos, sino fuera así entonces se debe ampliar un poco más el valor i.

4.- Tabule

No. Intervalos Tabulación f f. r 1 82 a 104 ///// 5 0,10 2 104 a 126 /////// 7 0,14 3 126 a 148 //////////// 12 0,24 4 148 a 170 ////////////// 14 0,28 5 170 a 192 //////// 8 0,16 6 192 a 214 //// 4 0,08

Total 50 1,00 Representación gráfica de una distribución de frecuencias Histogramas.- Gráfica en la que las clases se señalan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase se representan por medio de las alturas de las barras, éstas se dibujan de manera adyacente. Ejemplo: Con los datos del ejercicio anterior presente la información mediante un histograma de frecuencia.

Page 14: 127381262-ESTADISTICA-APLICADA

 

 

 

InterpDe ac14 de se puede ele PolígoEs simintersEjemp

pretación.- cuerdo al histo

ellas tienen cede concluir qectricidad y ga

ono de frecuenmilar a un hecciones de loplo con los mi

1

1

1

1Frecuencia

ograma, de lacargos entre 1que sólo 4 recáas.

ncias.- histograma, coos puntos medismos datos d

No. 1 2 3 4 5 6

0

2

4

6

8

10

12

14

16

93

Histogram

02468

10121416

71

frecuenci

a

as 50 recámar48 y 170 dólaámaras cancel

onsiste en segdios de clase yel ejercicio an

Interva82 a 10104 a 1126 a 1148 a 1170 a 1192 a 2

Total

115

Ca

ma de frecue

93 1

Cargos 

14 

ras encuestadaares, 12 de elllan $192 o má

gmentos de ry las frecuencinterior.

alos Punto04 26 48 70 92 14 l

137

argos por elec

encia de carg

115 137

por electricid

as en Manhattlos tienen cargás y 5 cancela

recta que conias de clase.

o medio de cla93

115 137 159 181 203

159

ctricidad y gas

gos por elect

159 181

dad y gas en d

Ec

tan por cargogos entre 126 an valores men

nectan los pu

ase f 5 7

12 14 8 4

50

181

s ($)

tricidad y ga

203 2

dólares

c. Quispe G. Jimm

s de electricidy 148 dólares

nores a $104 p

untos formado

203

as

225

my Javier 

dad y gas; s, también por cargos

os por las

Page 15: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

15  

1.6 Representación gráfica en spss y Excel

 

 

 

Page 16: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

16  

Primero se ingresan los datos en la ventana vista de variables con todas sus características correspondientes como si son cualitativas o cuantitativas, según esto se deberá llenar el cuadro valores o no, además de esto dependerá el nivel de medición.

Para graficar se sigue lo siguiente:

 

 

Para variables cuantitativas: 

 

 

 

 

Page 17: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

17  

Histograma para variables cuantitativas

 

Para variables cualitativas: 

 

 

 

 

Page 18: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

18  

Gráfica para variable cualitativa

 

 

 

Page 19: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

19  

UNIDAD 2: ESTADÍGRAFOS Y ANÁLISIS DE DATOS

Objetivos: Describir los diferentes tipos de estadígrafos de localización y dispersión a través de datos agrupados y no agrupados para el análisis de la información.

Competencias específicas:

• Describir estadígrafos • Cálculo de estadígrafos a mano y computadora • Análisis ético de datos

2.1. Medidas de localización: Media aritmética, ponderada y geométrica, mediana y moda. Cuando recolectamos información de variables cuantitativas, a las medidas de localización o ubicación se las llama a menudo como promedios. Analizaremos las siguientes medidas:

Media Poblacional.- Cuando los datos no han sido agrupados se puede calcular la media aritmética poblacional sumando todos los valores en la población divididos para el número de valores de la población. Cualquier característica medible de una población recibe el nombre de parámetro, la media de una población es un parámetro.

Media de una muestra.- Cuando los datos no han sido agrupados, la media aritmética de una muestra se obtiene sumando los valores de la muestra divididos para el número de valores de la media. Cualquier característica medible a partir de una muestra recibe el nombre de estadístico, la media de una muestra es un estadístico.

Media ponderada.- Para datos no agrupados la media ponderada es un caso especial de la media aritmética. Para obtener la media ponderada se multiplica cada observación por el número de veces que se repite, dividido para la suma de las ponderaciones.

∑ .∑

Media geométrica.- Resulta útil para determinar el cambio promedio de porcentajes, razones, índices o tasas de crecimiento, la media geométrica siempre es menor o igual (nunca mayor que) que la media aritmética. Todos los datos deben ser positivos.

Mediana.- Punto medio de un conjunto de datos (no agrupados) una vez que se han ordenado de menor a mayor o viceversa. Es más confiable que el valor de la media en casos cuando existen valores extremos en los datos. Si el número de datos es impar, la mediana es el valor que ocupa la posición central. Si el número de datos es par, la mediana es igual a la media de los dos datos centrales.

;

Este valor significa la ubicación de la mediana en el conjunto de datos que ha sido previamente ordenado.

Page 20: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

20  

Si son pares los datos hay que sumar los datos centrales y dividir para dos para obtener el valor de la mediana. Moda.- Valor de la observación que aparece con mayor frecuencia. Si existen dos valores que se repiten con la misma frecuencia decimos que el conjunto de datos es bimodal. Ejemplo: Con los siguientes dos conjuntos de datos, ambos con tamaño de muestra n=7.

Lote 1: 10 2 3 2 4 2 5

Lote 2: 20 12 13 12 14 12 15

Calcule:

a.- Media, mediana y moda para ambos conjuntos.

MEDIA

10 2 3 2 4 2 57

287 4

20 12 13 12 14 12 157

987 14

MEDIANA

LOTE 1: 2 2 2 3 4 5 10 LOTE 2: 12 12 12 13 14 15 20

↑ ↑

MEDIANA= 3 MEDIANA= 13

LOTE 1: 2 2 2 3 4 5 10 LOTE 2: 12 12 12 13 14 15 20

↑ ↑

MODA=2 MODA=12

b.- Compare los resultados entre ambos conjuntos.

Los datos son similares tomando en cuenta que existe una diferencia de diez entre ambos conjuntos. De ahí que se parezcan las respuestas, en cada resultado de los estadígrafos la diferencia es 10. 2.2. Medidas de dispersión: Rango, desviación media, varianza y desviación estándar. Estudiamos dispersión para conocer cuan dispersos se encuentran los datos alrededor de la media aritmética. Una medida grande de dispersión indica que la media no es confiable y una medida de dispersión pequeña indica que los datos se acumulan con proximidad a la media aritmética. Rango.- Representa la diferencia entre los valores máximo y mínimo de un conjunto de datos. Se aplica en controles de procesos estadísticos por su facilidad de cálculo.

Page 21: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

21  

Rango = Valor máximo – Valor mínimo Desviación media.- Es la media aritmética de los valores absolutos de las desviaciones con respecto a la media aritmética. Es la media de las desviaciones de la media. En el caso de una muestra, la MD es.

∑| |

Donde: X= es el valor de cada observación X= es la media aritmética de los valores n= el número de observaciones de la muestra Varianza.- Media aritmética de las desviaciones de la media elevadas al cuadrado. Nunca es un valor negativo y es cero si todas las observaciones son las mismas. La varianza nos muestra como varían los datos al cuadrado respecto a la media. Esto no es fácil de interpretar por lo que se debe calcular su raíz cuadrada para su análisis. Desviación estándar.- Es la raíz cuadrada de la varianza. Muestra cuanto se desvían los datos respecto a su media. Fórmulas: Varianza Poblacional: ∑ Varianza Muestral: ∑ Desviación Poblacional: √ Desviación Muestral: √ Ejemplo:

Examinando los registros de cuentas mensuales de una compañía que vende libros por correo, un empresario toma una muestra de 20 de esas cuentas no pagadas. Los adeudados a la compañía eran: (en dólares)

4 18 11 7 7 10 5 33 9 12 3 11 10 6 26 37 15 18 10 21

Calcule el rango, varianza y desviación estándar de la muestra e interprete los resultados.

Media = 13.65

Rango: R= 37 – 3 = 34

Varianza: σ2= . . . . .

σ2= 88.03

s = √ s = √88.03 s = 9.38

Page 22: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

22  

Podemos darnos cuenta que el promedio de las deudas a la compañía es de $13.65 y la desviación estándar muestral de $9.88 nos indica que las deudas se desvían en ± 9.38 dólares. Interpretación y uso de la desviación estándar: Teorema de Chebyshev: En cualquier conjunto de observaciones (muestra o población), la proporción de valores que se encuentran a k desviaciones estándares de la media es de por lo menos 1- 1/k2, siendo k cualquier constante mayor que 1. Regla empírica: En cualquier distribución de frecuencias simétrica con forma de campana, se cumple lo siguiente: El 68% de las observaciones se encuentran entre: 1 El 95% de las observaciones se encuentran entre. 2 El 99.7% de observaciones se encuentran en: 3 Cabe recalcar que los valores de la regla empírica son como su nombre indica “empíricos”, más adelante conoceremos valores más exactos. Para el ejemplo anterior podríamos decir: • El 68% de las cuentas adeudadas a la compañía se encuentran entre $4.26 y $23.03, es decir que la

cuenta adeudada más baja es de $4.26 y la cuenta más alta es $23.03: Esto se calculó de la siguiente manera:

1 13.65 1 9.38

13.65.9.38; 13.65 9.38 4.26; 23.03 ó

• El 95%de la información de las deudas a la compañía se encuentran entre los valores de -$5.11 y

$32.41, pero como nos damos cuenta el límite inferior ($-$5.11) es imposible, por lo que el intervalo real que contiene al 95% de cuentas adeudadas se encuentra entre $0.00 y $32.41.

• El 99.7% de la información contiene a las cuentas entre $0.00 y $ 37.00 (revisar cálculos) En Excel se utilizan las siguientes funciones estadísticas: Media aritmética: función promedio Mediana: función Mediana Moda: función moda Desviación estándar de la muestra: función DESVEST Varianza de la muestra: VAR Calcular parámetros (valores poblacionales) no es sencillo porque no se posee información a la mano o no es fácil su acceso por lo que siempre podemos encontrar información para obtener estadísticos. 2.3. Media, mediana, moda y desviación estándar para datos agrupados. Cuando los datos se han agrupado en intervalo de clases, los estadígrafos siguientes se obtienen de la siguiente manera, la aplicación de Excel y dominar conceptos facilita su cálculo:

Media. ∑ .

Page 23: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

23  

Descripción de las abreviaturas de la Media

Xm= Punto medio, Valor medio de la clase.

fi= Frecuencia de la clase

n= Total de datos de la muestra.

Mediana

Descripción de las abreviaturas de la Mediana

Xi-1=Limite real inferior

Posicion de la mediana

Fi= Frecuencia acumulada donde se encuentra la mediana.

Fi-1= Frecuencia acumulada absoluta menor a Fi

Ci= Ancho del intervalo.

Moda verdadera aproximada

Descripción de las abreviaturas de la Moda

Xi-1=Limite real inferior del intervalo donde se encuentra la moda.

Fi-Fi+1=Diferencia entre la frecuencia del intervalo modal y la frecuencia inmediato superior.

Fi-Fi-1= Diferencia entre la frecuencia del intervalo modal y la frecuencia inmediato inferior.

Ci= Ancho del intervalo.

Ejemplo:

Calcule la media, mediana y moda para los siguientes datos agrupados:

Días Frecuencia fi Xm Xm*fi Fi 0-1 2 0.495 0.990 2 1-2 4 1.495 5.980 6 2-3 6 2.495 14.970 12 3-4 7 3.495 24.465 19 4-5 5 4.495 22.475 24 5-6 3 5.495 16.485 27 6-7 1 6.495 6.495 28

TOTAL 28 91.86

Page 24: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

24  

Media.-

X= ∑ . X = . = 3.28 Días

Mediana.-

Para encontrar la mediana nos ubicamos en la columna de Frecuencia Acumulada y analizamos en que clase se encuentra n/2, esa clase será nuestro Fi.

Me = 3 + *1

Me= 3 + 1 = 3.28 DIAS

Moda.-

Para calcular la moda nos ubicamos en la columna de la frecuencia y observamos la clase con mayor frecuencia (moda) esta clase será nuestro fi.

Mo = 3 +

1

Me = 3 + 1 = 3.33 DIAS

En la siguiente distribución de frecuencia que muestra la altura en pulgadas de 20 atletas, calcular la media y la moda para los datos agrupados.

Altura Frecuencia fi Xm Xm-fi Fi 60 - 62 5 61 305 5 63 - 65 1 64 64 6 66 - 68 6 67 402 12 69 - 71 5 70 350 17 72 - 74 3 73 219 20 TOTAL 20 1340

Media

X= ∑ . X = = 67 pulgadas

Moda

Mo = 66 +

66+ 2 = 68 pulgadas

Page 25: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

25  

 

Desviación estándar de la muestra

∑ .1

2.4. Descripción de datos Los diagramas siguientes proporcionan una idea adicional del lugar en el que los valores se concentran, así como de la forma general de los datos. Diagrama de puntos.- Agrupa los datos lo menos posible y evita la pérdida de identidad de cada observación. Cada observación se representa con un punto. Si existen observaciones idénticas o cercanas los puntos se apilan permitiendo ver donde se encuentran datos similares. Los diagramas de puntos son más útiles para conjunto de datos pequeños mientras que los histogramas para conjunto de datos grandes. Diagrama de tallo y hojas.- Técnica estadística que divide a cada observación en dos partes: un tallo y varias hojas si es el caso. El tallo se coloca en orden de manera vertical mientras que las hojas se van apilando de acuerdo al tallo. Ejemplo: Las siguientes calificaciones fueron obtenidas por 25 estudiantes en la asignatura de estadística. Clasifique los datos mediante un diagrama de puntos; diagrama de tallo y hojas y diagrama de caja.

51 60 71 82 90 77 89 77 75 73 76 84 82 83 68 76 92 77 75 71 54 62 57 62 63

Diagrama de puntos: (Gráfica de spss)

50.00 60.00 70.00 80.00 90.00

calificaciones de 25 estudiantes de estadistica

0

1

2

3

Rec

uent

o

Page 26: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

26  

En spss los datos con frecuencia no los presenta un punto sobre otro punto sino que se sobreentiende que el eje y (recuento) nos indica aquello. Diagrama de tallo y hojas a mano y en spss

Tallo Hojas

tallo 5 6 7 8 9

1 4 7 0 2 2 3 8 1 3 5 5 6 6 7 7 7 2 2 3 4 8 9 0 2

calificaciones de 25 estudiantes de estadística Stem-and-Leaf Plot Frequency Stem & Leaf 2.00 5 . 14 1.00 5 . 7 4.00 6 . 0223 1.00 6 . 8 3.00 7 . 113 7.00 7 . 5566777 4.00 8 . 2234 1.00 8 . 9 2.00 9 . 02 Stem width: 10.00 Each leaf: 1 case(s) Nos podemos dar cuenta que en spss hay tres columnas, la primera muestra la frecuencia de los datos (hojas), la segunda columna nos muestra el tallo (stem) en este caso existe dos 5, dos 6, dos 7 y dos 8, cada uno el software lo ha asumido como el primer 5 corresponde a las hojas desde 0 hasta 5, el segundo 5 a las hojas desde 6 hasta 9, etc. En la tercera columna podemos darnos cuenta que están las hojas (datos analizados) Cuartiles, deciles y percentiles.- Son medidas de dispersión, métodos que determinan la ubicación de los valores que dividen un conjunto de observaciones en partes iguales, se estudiarán los cuartiles (dividen al conjunto de datos en 4 partes iguales), deciles (dividen al conjunto de datos en 10 partes iguales) y los percentiles (dividen al conjunto de datos en 100 partes iguales). Cuartiles:

: 25% 75% .

: 50% 50% , .

: 75% 25% .

Fórmulas

1

4

12

Page 27: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

27  

3 14

Ejemplo:

Con los datos del ejemplo anterior encuentre los caurtiles Q1, Q2 y Q3.

Localización de un percentil:

LP n 1P

100 Donde: n= es el número de observaciones P= representa al percentil que se busca Para hallar el cuartil uno es lo mismo que hallemos el precentil 25, la fórmula quedaría:

L 25 1 = 6.50 ubicación de los datos que previamente han sido ordenados Nos podemos dar cuenta que esta fórmula nos ayuda para calcular cuartiles y deciles también. En spss apreciamos que el cuartil Q1, es el Percentil 25 dando como resultado 62.50, esto significa que el 25% de alumnos obtuvo como calificación máxima 62.50 puntos ( en otras palabras el 25% de alumnos obtuvo 62,50 puntos o menos), podemos concluir también que el 75% de estudiantes obtuvo 62,50 puntos o más (obtuvieron 62,50 puntos como mínimo)

Estadísticos

calificaciones de 25 estudiantes de estadistica N Válidos 25

Perdidos 0Mínimo 51.00Máximo 92.00Percentiles 25 62.5000

50 75.000075 82.0000

No olvidemos que los precentiles 25, 50 y 75 son los cuartiles primero, segundo y tercero. Diagramas de caja.- Es la representación gráfica, basada en cuartiles, que ayuda a exhibir un conjunto de datos: Para construir un diagrama de caja se necesita conocer 5 estadísticos: Valor mínimo, Q1, la mediana, Q3, y el valor máximo. A la distancia entre el tercer y primer cuartil se denomina rango intercuartíl.

Page 28: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

28  

Los datos tienen un sesgo positivo (la distancia entre el cuartil 1 y el mínimo es mayor a la distancia entre el cuartil 3 y el máximo. Además la mediana está más cercana al cuartil 3, por otro lado el 50% de calificaciones de los alumnos (desde el cuartil 1 al 3) están entre 62,50 puntos y 82 puntos. Para calcular los datos atípicos se utilizan dos fórmulas:

. . 1.5

. . 1.5 La primera fórmula sirve para verificar o calcular si un dato que es menor al conjunto de datos recopilados se lo podría considerar atípico, es decir un dato extremo. La segunda fórmula nos ayuda a saber si un dato que está por encima del conjunto de datos es o no un dato extremo. Hay que tener cuidado con los signos de mayor o menor que. Ejemplo: Si las edades de un grupo de jóvenes es el siguiente conjunto: 14 15 15 16 17 16 15 18 19 18 19 15 16 15 18 19 17 20 12 12 13 Q1= 15 Años Q2= 16 Años Q3= 18 Años

Page 29: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

29  

¿A partir de qué edad se consideraría dato extremo? Como el dato es extremo superior, entonces se utiliza la segunda fórmula:

. . 1.5

. . 18 1.5 18 15

. . 18 4.5

. . 22.5 ñ Este valor significa que una edad de 23 años se consideraría atípica o extrema. 2.5. Asimetría y Curtosis Asimetría.- Nos indica si los datos se distribuyen de manera normal o con algún sesgo (izquierda o derecha) que significa que los datos se concentran por debajo o por encima de la media.

Asimetría (sesgo positivo) gráfica simétrica Asimetría (sesgo negativo)

Curtosis.-Él coeficiente de curtosis analiza el grado de concentración que poseen los datos alrededor de la zona central.

Curva leptocúrtica.‐ Los datos están muy concentrados alrededor de la media. 

Curva platicúrtica.‐ Indica que los datos están muy dispersos, es decir no están muy concentrados alrededor de la media.  

Page 30: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

30  

2.6. Ética e informe de resultados.- Conforme se avanza en el estudio de la estadística es muy importante no perder la objetividad en nuestras conclusiones ni tampoco principios éticos de manera la comunicación de los resultados sean expuestos de manera honesta, clara y verdadera. Dar un mal informe podría ocasionar una toma de decisión no eficaz que podría terminar en el cierre de una empresa o hasta la propia imagen del investigador verse mancillada. 2.1 Aplicación en Excel y spss Del ejercicio anterior en Excel:

Curva mesocúrtica.‐ O curva normal. Están los datos distribuidos de manera normal. 

Page 31: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

31  

UNIDAD 3: INTRODUCCIÓN A PROBABILIDAD

Objetivo: Determinar el espacio muestral de sucesos mediante reglas y tablas de contingencia para el cálculo de posibilidades de ocurrencia de un fenómeno de estudio. Competencias específicas:

• Identificar reglas de probabilidad • Cálculo de probabilidades a mano y a computadora • Toma de decisión a partir de posibilidades de sucesos en fenómenos

3.1 Definición y enfoques 3.2 Experimento, Resultado, Evento y Espacio Muestral

Probabilidad.- Valor entre cero y uno, inclusive, que describe la posibilidad de ocurrencia de un evento. Experimento.- Proceso que induce a que ocurra una y sólo una de varias posibles observaciones. Tiene dos o más posibles resultados y no se sabe cual ocurrirá. Resultado.- Un resultado particular de un experimento. Evento.- Conjunto de uno o más resultados de un experimento. Se denotan con letras mayúsculas. Eventos simples.- Cuando se desea o se va a observar una sola característica o propiedad de un experimento. Eventos compuestos.- Cuando en un experimento se observa dos o más propiedades. Espacio Muestral.- Elementos que conforma un evento. Se denota con S. Ejemplo: Experimento: Lanzamiento de un dado Resultado: Son varios, por ejemplo: Se observa un 1, un 2, un 3, un 4, un 5, un 6. Eventos Simples: Evento A: Se observa un número par, Evento B: Se observa un número mayor que 4, Eventos Compuestos: Evento C: Se observa un 2 o un número mayor. Evento D: Se observa un número par y mayor que 4. Espacio Muestral: El espacio Muestral del evento D sería: S= {4,6} Enfoques.- Hay dos enfoques: Subjetivo y Objetivo. Probabilidad Subjetiva.- Posibilidad de un evento en particular que asigna un individuo a partir de cualquier información que encuentre disponible. Ejemplos: Calcular la posibilidad de que Barcelona será campeón este año. (La información que posee es que está ganando sus partidos actualmente) Calcular la probabilidad de que contraiga matrimonio antes de los 30. Probabilidad Objetiva.- Se divide en dos: Probabilidad Clásica y Probabilidad Empírica.

Page 32: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

32  

Probabilidad Clásica.- Parte del supuesto de que los resultados de un experimento son igualmente posibles. Viene dada por la fórmula:

Donde:

P(A): Probabilidad de un evento X: Número de resultados favorables N: Número total de posibles resultados Nota: La probabilidad de un evento(A) siempre está entre 0y 1. Es decir: 0 ≤ p(A) ≤ 1 Ejemplo: Considere el experimento de lanzar un dado. ¿Cuál es la probabilidad del evento cae un número par de puntos? A: Se observa un número par.

P (A): Probabilidad de obtener un número par al lanzar un dado.

X: Hay 3 números pares (esto es favorable para lo que deseo observar)

36 0.5

Evento Mutuamente Excluyente.- Cuando un evento se presenta significa que ninguno de los demás eventos puede ocurrir al mismo tiempo. Ejemplo: Si vive en Salinas no puede vivir en La Libertad, si al lanzar una moneda se obtiene cara no puede salir sello, una persona encuestada es hombre o mujer pero no ambos. Evento Colectivamente Exhaustivo.- Por lo menos uno de los eventos debe ocurrir cuando se lleva a cabo un experimento. Ejemplo: Al lanzar un dado se observará resultados par o impar, hay eventos colectivamente exhaustivos porque al lanzar el dado saldrá un número par o impar, otro resultado no es posible. (es decir no caerá el dado en un vértice. Probabilidad Empírica.- Se llama también frecuencia relativa, se basa en el número de veces que ocurre el evento como proporción del número de intentos conocidos.

Y: Número de veces que el evento ocurre. N: Número total de observaciones. Ejemplo: En un curso de estadística hay 32 estudiantes: 14 Mujeres y 18 Hombres. ¿Cuál es la probabilidad de que sea mujer? ¿Sea hombre? Evento A: Sea Mujer P(A): Probabilidad de que sea Mujer X: Número de mujeres en el curso.

Page 33: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

33  

N: Número total de observaciones: Se contó 32 alumnos de un curso. Mujeres: Hombres:

0,4375 0.44 0.5625 0.56 3.3 Reglas de Conteo

También se conocen como principios de conteo, son reglas que mediante fórmulas facilitan contar, se analizarán tres: Fórmula de la multiplicación, de las permutaciones y de las combinaciones.

• Fórmula de la multiplicación.- Si hay m formas de hacer una cosa y n formas de hacer otra cosa, hay entonces m x n formas de hacer ambas cosas.

Número total de hacer de disposiciones = (m)(n) La fórmula se puede generalizar para más de dos eventos. Ejemplo: Si fueran tres eventos m, n y o. Número total de disposiciones = (m)(n)(o) Ejemplo: Un distribuidor de automóviles quiere anunciar que por $20 000 usted puede adquirir tres modelos de autos: un sedán dos puertas, un modelo de cuatro puertas o un auto deportivo, cada modelo está disponible en dos colores: blanco o negro. ¿Cuántas modelos diferentes puede ofrecer el distribuidor? Número total de hacer de disposiciones = (m)(n) m: número de modelos de autos = 3 n: número de colores de autos = 2 Número total de hacer de disposiciones a ofrecer = (3)(2) = 6 modelos diferentes a ofrecer.

• Permutación.- Cualquier distribución de r objetos seleccionados de un solo grupo de n posibles objetos.

La fórmula de la multiplicación se aplica para determinar el número de posibles disposiciones de dos o más grupos. En cambio la fórmula de las permutaciones se aplica para determinar el número posible de disposiciones cuando sólo hay un grupo de objetos. En las permutaciones no importa el orden de los objetos. Fórmula de las permutaciones: !

!

n: representa el total de objetos r: representa el total de objetos seleccionados Si se va a colocar en una repisa un grupo de seis libros de texto, pero solo hay lugar para cuatro de ellos. ¿En cuántas formas se puede colocar en él están estos libros? n= numero de objetos o elementos distintos r = objetos seleccionados

• Fórmulas de las combinaciones.- Si el orden de los objetos seleccionados no es importante, cualquier selección se conoce como combinación. La fórmula para contar el número de r combinaciones de objetos de un conjunto de n objetos es:

!

! !

Page 34: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

34  

En las combinaciones por lo general el número posible de disposiciones es menor a las permutaciones Ejemplo: Un estudiante tiene 7 libros que le gustaría colocar en un portafolio, pero solo caben cuatro. Sin tener en cuenta como los ordeno ¿de cuantas formas hay de colocar cuatro libros en el portafolio? 7C4 = !

! !35

3.4 Reglas de adición

a) Los eventos son mutuamente excluyentes.- Es decir que cuando un evento ocurre, ninguno de los

demás eventos puede ocurrir al mismo tiempo. Esta regla de la adición conocida como regla especial de la adición indica la probabilidad de que ocurra uno u otro evento pero no ambos. P (A o B) = P (A) + P (B)

b) Los eventos no son mutuamente excluyentes.- Los resultados de un experimento pueden suceder al mismo tiempo. Es decir, esta regla de la adición conocida como regla general de la adición indica la probabilidad de que suceda el evento A o el evento B o ambos. P (A o B) = P (A) + P (B) – P (A y B)

La letra “o” indica unión U, es decir suma de eventos tomando en cuenta si son o no mutuamente excluyentes. A la probabilidad de un evento simple se conoce como probabilidad marginal o simple de ese evento, y a la probabilidad de eventos compuestos (es decir, la probabilidad de dos o más eventos) se conoce como probabilidad conjunta. Al complemento de un evento simple se denota por: AC y a la probabilidad de un evento complemento se denota por: P (AC) Esto nos lleva a la regla del complemento que viene dada por la fórmula:

1 Diagrama de Venn Ejemplo: La siguiente tabla nos indica el número de alumnos por paralelos de una carrera de segundo año que reciben estadísticas aplicadas.

Paralelos Evento No alumnos Probabilidad de que ocurra el evento

1 A 40 0.26 2 B 30 0.20 3 C 45 0.30 4 D 35 0.23 Total 150 1.00

Como se observa en esta tabla existen 4 eventos simples con sus respectivas probabilidades. Si se quiere obtener la probabilidad de seleccionar un alumno del paralelo B, sería: Evento B: Alumnos del paralelo 2 P (A): Probabilidad de seleccionar un alumno del paralelo 2. (Probabilidad simple)

AAC

Page 35: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

35  

30

150 0.2 ¿Cuál sería la probabilidad de seleccionar un alumno del paralelo 2 o 4?

0.20 0.23 0.43 A esta probabilidad se denomina probabilidad conjunta, los eventos son mutuamente excluyentes pues un alumno no puede ser del paralelo 2 y del 4 al mismo tiempo. Nota.- Cuando se trate de ejercicios de cartas (barajas) se consideran 52 cartas, de las cuales 26 son negras y 26 rojas. 3.5 Reglas de la multiplicación

En esta parte se estimará la probabilidad de ocurrencia de dos eventos de manera simultánea. Hay dos reglas:

a) Regla especial de la multiplicación.- Requiere que dos eventos, A y B, sean independientes, y lo son si el hecho de que uno ocurra no altera la probabilidad de que el otro suceda, es decir que el muestreo es con reposición.

Independencia.- Si un evento ocurre, no tiene ningún efecto sobre la probabilidad de que otro evento acontezca.

Fórmula: P (A y B) = P(A) P (B)

En el caso de tres eventos, la fórmula es: P (A y B y C) = P(A) P (B) P(C) Regla general de la multiplicación.- Si dos eventos no son independientes, se dice que son dependientes. En esta regla se aplica un muestreo sin reposición. Por ejemplo: si hay tres naranjas en la refrigeradora y se toma una, en la refrigeradora quedan dos y la probabilidad de ser seleccionada una segunda naranja ya varió (a 0.50). Fórmula: P (A y B) = P (A/B) P (B) Con las reglas de adición se analizaron las probabilidades simples y conjuntas, en cambio con las reglas de la multiplicación se analizará la probabilidad condicional. Probabilidad condicional.- Probabilidad de que un evento en particular ocurra, dado que otro evento ha acontecido. De la regla multiplicativa se obtiene la probabilidad condicional como:

/

Ejemplos: En un recipiente hay dos tubos defectuosos y cinco buenos. Se seleccionan al azar, dos tubos del depósito, sin reposición. a) ¿Cuál es la probabilidad de que ambos tubos sean defectuosos? 2 tubos defectuosos + 5 tubos buenos 7 Evento Ad: 1° tubo defectuoso Evento Bd: 2° tubo defectuoso P (Ad y Bd)= P(Ad) P(Bd/Ad) = =

Page 36: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

36  

El 2/7 significa que hay dos tubos defectuosos de un total de 7, el término 1/6 significa que seleccionaremos otro tubo defectuoso pero de 6, dado que ya salió un defectuoso. b) ¿Cuál es la probabilidad de que el primer tubo seleccionado sea defectuoso y que el segundo sea bueno? Evento Ad: tubo defectuoso Evento Bb: tubo bueno P (Ad y Bb) = P (Ad) P (Bb/Ad) = = 0,24 El 2/7 significa que hay dos tubos defectuosos de un total de 7, el término 5/6 significa que seleccionaremos otro tubo pero esta vez un tubo bueno de los 5, pero que ahora son 6 en total dado que ya salió un tubo del recipiente. c) Suponga que ahora el muestreo es con reposición, ¿Cuál es la probabilidad de que el primer tubo seleccionado sea defectuoso y que el segundo sea bueno? Evento Ad: tubo defectuoso Evento Bb: tubo bueno P (Ad y Bb) = P (Ad) P (Bb/Ad) = = 0,21 El 2/7 significa que hay dos tubos defectuosos de un total de 7, el término 5/7 significa que seleccionaremos otro tubo pero esta vez es un tubo bueno de los 5, sin embargo el haber seleccionado un primer tubo NO afecta la probabilidad de seleccionar un segundo debido a que se ha realizado un muestreo con reposición. La formula puede ser también: P (Ad y Bb) = P (Ad) P (Bb) = = 0,21 Esta fórmula que se aplica para eventos donde el muestreo es con reposición: 3.6 Tablas de Contingencia y Diagramas de árbol

Tabla de contingencia.- Tabla utilizada para clasificar observaciones (datos) de una muestra, de acuerdo con dos o más características identificables, se la conoce también como tablas cruzadas o de doble entrada. En esta tabla se puede obtener la probabilidad simple o marginal (que está en los márgenes o subtotales de la misma) y la probabilidad conjunta que se encuentra dentro de la tabla misma. Para elaborar tablas de contingencia en Excel y en spss, podemos revisar en las siguientes direcciones: http://www.youtube.com/watch?v=awBkfxyk1fM (Excel) http://www.youtube.com/watch?v=VFnPhbM_6T4 (spss) Diagramas de árbol.- Es una gráfica útil para organizar cálculos que implican varias etapas. Cada segmento del árbol constituye una etapa del problema. Las ramas del árbol se ponderan por medio de probabilidades. En las primera ramas se encuentra las probabilidades simples, y en las sub ramas de cada rama se encuentran las probabilidades condicionales, al final (diríamos el fruto) se encuentran las probabilidades conjuntas. Ejemplo resumen: En una amplia área metropolitana se selecciono una muestra de 500 entrevistados para determinar diversas informaciones relacionadas con el comportamiento del consumidor. Entre las preguntas realizadas se encontraba: “¿Disfruta ir de compras?” De 240 hombres; 136 contestaron que sí. De 260 mujeres; 224 contestaron que sí. a.- Elabore una tabla cruzada y un diagrama de Venn para evaluar las probabilidades

Page 37: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

37  

Eventos Si disfruta ir de compras

No disfruta ir de compras Total

Hombres Mujeres

136 224

104 36

240 260

TOTAL 360 140 500

Con los valores subrayados son los que se obtienen las probabilidades conjuntas, se divide cada valor para el total de la tabla. Cada subtotal de filas y columnas son valores con los que se obtienen probabilidades simples o marginales dividido cada valor para el total de la tabla. Esta tabla presenta 4 eventos simples: 2 están en las filas y 2 eventos más están en las columnas, además presenta 4 eventos compuestos que resultan de las intersecciones de las filas con las columnas.

3.7 Probabilidad Condicional

Como ya se mencionó la probabilidad condicional de un evento viene dado por:

/

P(A/B) significa Probabilidad del evento A dado el evento B. Esto quiere decir: * Que primero debió haber sucedido el evento B para que ocurra el evento A. * Si sucede B ocurre A. * Si sucede B entonces ocurre A. * Sucede A dado que ocurrió B Ejemplo resumen: Tomando el ejemplo anterior sobre hombres/mujeres y si disfrutan o no ir de compras, desarrolle: a.- Escriba los eventos simples y dos eventos compuestos

Page 38: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

38  

Eventos simples: A: Si disfruta ir de compras Ac: No disfruta ir de compras B: Mujer Bc: Hombre Eventos compuestos: A y B: Mujer que disfruta ir de compras. A y BC: Hombre que disfruta ir de compras. Probabilidad simple: b.- ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria: Sea Hombre?, ¿disfrute ir de compras? P(Bc) = 240/500 = 0.48 P(A) = 360/500 = 0.72 c.- ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria: Sea Mujer?, ¿no disfrute ir de compras? P(B) = 260/500 = 0.52 P(Ac) = 140/500 = 0.28

Probabilidad conjunta: d.- ¿Qué probabilidad hay de que un entrevistado seleccionado al azar: ¿Sea mujer y disfrute ir de compras? ¿Sea hombre y no disfrute ir de compras? P(B∩A) = 224/500= 0,448 P( ) = 104/500 = 0.21 e.- ¿Qué probabilidad hay de que un entrevistado seleccionado al azar: ¿Sea hombre y disfrute ir de compras? P ( ) = 136/500 = 0.27 Probabilidad condicional: f.- Supóngase que el entrevistado seleccionado sea mujer ¿Entonces cuál es la probabilidad de que no disfrute ir de compras? Primero debe ser mujer el seleccionado y luego que no disfrute ir de compras:

P ( / ) = = = 0.14

g.- Supóngase que el entrevistado disfrute ir de compras ¿Entonces cuál es la probabilidad de que sea hombre?

P ( / ) = = = 0.38

Diagrama de árbol donde se aprecian las tres probabilidades, simple o marginal, condicional y conjunta.

Page 39: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

39  

Regla de Adición: h.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria sea mujer o disfrute ir de compras? P (BUA)= P(B) + P(A) –P(B∩A)

− = = 0.79 i.- ¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria sea hombre o no disfrute ir de compras? P ( ) = P ( + P ( ) − P ( )

− = = 0.55 j.- ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria sea hombre o mujer? P ( ) = P ( + P (B) − P ( )

240500

260500 0

500500 1

3.8 Regla de Bayes

El Teorema o Regla de Bayes nos brinda un método para contestar algunas preguntas muy importantes. En su esencia, esta regla nos indica cuál información es necesaria tener y el método para invertir la condición cuando calculamos una probabilidad condicional: si A y B son eventos y conocemos: P(A | B), P(B), P(A | Bc) Entonces podemos calcular P(B | A). La necesidad de calcular este último valor a partir de la información disponible es imprescindible para entender las consecuencias de algunas de nuestras decisiones. Teorema.- Sea {A1,A2,...,An} un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso cualquiera del que se conocen las probabilidades condicionales P(B | Ai). Entonces, la probabilidad P(Ai | B) viene dada por la expresión:

Page 40: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

40  

/ // / ... /

donde: P(Ai) son las probabilidades a priori (probabilidades basadas en el nivel de información actual) P(B | Ai) es la probabilidad de B en la hipótesis Ai. P(Ai | B) son las probabilidades a posteriori (probabilidades revisadas a partir de información adicional) Ejemplos: 1.- Considera una fábrica de botellas que cuenta con dos máquinas para producir sus botellas. En esa fábrica se producen 10,000 botellas al día. La máquina A produce 6,500 botellas diarias de las cuales el 2% son defectuosas. La máquina B produce 3,500 botellas cada día de las cuales el 1% son defectuosas. El inspector de calidad de la compañía selecciona una botella al azar y encuentra que está defectuosa. ¿Cuál es la probabilidad de que la botella haya sido producida por la máquina A? Para visualizar mejor los datos, los organizamos en un diagrama de árbol. Denotamos por A el evento de que la botella seleccionada haya sido producida por la máquina A y por B el evento de que haya sido producida por la máquina B. El evento de que la botella seleccionada sea defectuosa se denota por D, su complemento Dc representa una botella que no es defectuosa.

La probabilidad de que una botella cualquiera haya sido producida por la máquina A es .65, pues de las 10,000 producidas, 6,500 son producidas por A. Nos interesa calcular P(A | D), la cual no se puede obtener de forma directa de los datos o del árbol que los representa. Para esto recurrimos directamente a la definición de probabilidad condicional: P( A | D) = P(A y D) / P(D). Las cantidades P(AÇD) y P(A) se pueden obtener del árbol. Para que una botella seleccionada al azar sea una defectuosa producida por la máquina A, debemos seleccionar primero la máquina A y de las botellas producidas allí seleccionar una defectuosa. Tenemos que P(A y D) = P(A) P( D | A), lo que equivale a hacer la travesía en el árbol desde su raíz o comienzo hasta la hoja donde obtenemos el resultado A y D. Así P(A y D) = .65 x 0.02. Para encontrar P(D) debemos darnos cuenta que una botella defectuosa puede ser producida de la máquina A o de la B. Si examinamos las hojas del árbol, vemos que hay dos lugares donde obtenemos una botella defectuosa, A y D o B y D. Esto equivale a hacer una travesía por uno de caminos en el árbol. Estos caminos

Page 41: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

41  

son mutuamente excluyentes, pues si caminamos por uno no podemos estar caminando por el otro. Según se muestra en la figura de al lado, el evento D = (A y D) o (B y D) y su probabilidad es entonces calculada: P(D) = P(A y D) + P(B y D). Complete el Diagrama de Venn para este problema:

El primero de estos términos P(A y D) ya había sido calculado. El segundo se obtiene de forma similar. Obtenemos entonces que P( B y D) = P(B) P(D | B). Uniendo estos resultados tenemos que: P(D) = P(A) P( D | A) + P(B) P(D | B). Finalmente podemos calcular la probabilidad deseada: P (A/D)= /

/ /

P(A/D)= . .

. . . ..

. .0.788

Esto quiere decir que una vez sabemos que una botella seleccionada al azar está defectuosa, la probabilidad de que haya sido producida por la máquina A es 0.788. Dicho de otra manera, de todas las botellas defectuosas producidas, aproximadamente el 79% son producidas por la máquina A. Pregunta: ¿Cómo se puede explicar que la máquina A produzca el 79% de las botellas defectuosas? Este hecho se debe a dos factores. El primero es que la máquina A produce casi el doble de botellas que la máquina B. Aún si la tasa de botellas defectuosas fuera la misma para ambas máquinas, por el mero hecho de producir un mayor número de botellas, la máquina A produciría casi el doble de defectuosas de la máquina B. El segundo factor es que la tasa de producción de defectuosas de la máquina A es el doble de la correspondiente de la máquina B. En este caso, aún si ambas máquinas produjeran la misma cantidad de botellas, las producidas por la máquina A contendrían el doble de botellas defectuosas que las que vienen de la máquina B. 2.- El gerente de Ventas de una fábrica de juguetes está planeando introducir al mercado un nuevo juguete. En el pasado el 40% de los juguetes creados por la compañía han tenido éxito y el 60% no ha sido exitoso. Antes de que se llegue a comercializar realmente el juguete se lleva a cabo una investigación de mercado y se prepara un informe, favorable o desfavorable. En el pasado el 80% de los juguetes exitosos recibieron informes favorables. Al gerente de mercadotecnia le agradaría conocer la probabilidad de que el nuevo juguete tendrá éxito si recibe un informe favorable. Eventos: E: Exitoso F: Favorable Ec: No Exitoso Fc: Desfavorable P(E) = 0.40 P(F/E) = 0.80 P(E/F) = ? P(Ec) = 0.60 P(F/Ec) = 0.30 P (E/F)= /

/ / ´

P(E/F)= . .

. . . ..

. ...

0.64

Page 42: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

42  

3.- Una estación de televisión querría medir la habilidad de su meteorólogo. La información recopilada señala lo siguiente: La probabilidad de que se predijera un día de sol en días soleados es 0.80 La probabilidad de que se predijera día de sol en días no soleados es 0.40 La probabilidad de un día de sol es 0.60 Encuentre la probabilidad de que: a.- Sea un día soleado, sabiendo que se ha pronosticado un día de sol Eventos: S: Días Soleados R: Pronóstico de un día de sol Sc : Días no soleados Rc: Pronóstico de un día no soleado P(S)=0,60 P(R/S)=0,80 P(R/Sc)=0,40 P(S/R)= P R/S P S

P R/S P S P R/S´ P S

P(S/R)= , .

, , , ,,,

0,75 b.- Predecirá un día soleado P(R)=0,64 3.9 Aplicación en Excel

Revisar las direcciones en youtube sobre como armar tablas de contingencia y diagramas de árbol. En la siguiente hoja de cálculo se muestra dos de las tres reglas de conteo analizadas en clases:

Page 43: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

43  

UNIDAD 4: VARIABLES ALEATORIAS DISCRETAS

Objetivos: identificar variables aleatorias discretas mediante sus distribuciones de probabilidad para el análisis del comportamiento poblacional Competencias específicas:

• Identificar distribuciones de probabilidad • Aplicar distribuciones en computadora • Capacidad de analizar poblaciones y su distribución

En los capítulos anteriores se mencionaba el término distribución de frecuencias relativas para describir un pasado de ocurrencia, ahora en cambio distribución de probabilidad describe la probabilidad de que un evento ocurra en el futuro. Supongamos que el jefe de control de calidad selecciona 4 artículos cualesquiera de 240 en total para determinar si están o no defectuosos, en la unidad anterior vimos que el jefe podría seleccionar los 4 artículos de varias maneras, en este caso 4 de 120, pero por otro lado el jefe de control de calidad querrá saber de esos cuatro, cuántos están defectuosos y cuántos están buenos, por lo que existen artículos que pueden tener 0 defecto, 1 defecto, 2 defectos, 3 defectos o 4 defectos, si nos damos cuenta el hecho de que el artículo pueda tomar varios valores numéricos lo convierten en una variable aleatoria que para nosotros será x. En este caso, los valores que puede tomar x son: 0,1, 2, 3 y 4. 4.1 Definición y su distribución de probabilidad Variable Aleatoria.- Cantidad que resulta de un experimento que, por azar (aleatorio), puede adoptar diferentes valores. Variable Aleatoria Discreta.- Variable aleatoria que adopta sólo valores claramente separados. Distribución de probabilidad.- Listado de todos los resultados de un experimento y la probabilidad asociada con cada resultado. Es decir, cada resultado tiene una probabilidad de ocurrencia. Ejemplo.- Usted lanza dos monedas y desea observar al menos una cara en los lanzamientos. ¿Cuál es la distribución de probabilidad del número de caras? Los resultados posibles son los siguientes: C: Cara Cr: Cruz

Resultado posible

Primer lanzamiento

Segundo lanzamiento

Número de caras

1 C C 2 2 C Cr 1 3 Cr C 1 4 Cr Cr 0

La distribución de probabilidad para el número de caras es:

Número de caras: X

Probabilidad del resultado: P(x)

2 ¼ 1 ½ 0 ¼ Total 1

4.2 Media, Varianza y Desviación Estándar de una v.a.d.

Page 44: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

44  

Media de una v.a.d..- Es el valor promedio de larga duración de la variable aleatoria. Se conoce como valor esperado o esperanza matemática.

. Varianza de una v.a.d.- Describe el grado de dispersión en una distribución, es decir la variación.

La siguiente distribución corresponde a las ventas de automóviles de una empresa durante los días sábados. Calcule la media y la desviación estándar de la distribución de probabilidad discreta. Media Empresa A:

Número de autos vendidos: X

P(X) X. P(x)

0 0.50 0.00 1 0.20 0.20 2 0.15 0.30 3 0.10 0.30 4 0.05 0.20 Total 1.00

Varianza Empresa A

X P(xi) (Xi-μ) (Xi-μ)2 * P(Xi) 0 0,50 (0-1) 1 * 0,50= 0,50 1 0,20 (1-1) 0 * 0,20= 0,00 2 0,15 (2-1) 1 * 0,15= 0.15 3 0,10 (3-1) 4 * 0,10= 0,40 4 0,05 (4-1) 9 * 0,05= 0,45 Total 1.50

La media fue 1 auto vendido en promedio los sábados con una desviación de 1.23 autos vendidos. (La desviación estándar se obtiene al extraer la raíz cuadrada de la varianza) 4.3 Distribución de Probabilidad Binomial En la distribución binomial se presentan sólo dos posibles resultados: éxito resultados: éxito y fracaso, los eventos son mutuamente excluyentes. La distribución binomial inicia con n pruebas idénticas de distribución de bernoulli que tiene un éxito (π) y un fracaso (1- π), es decir: Distribución de Bernoulli.- P (éxito) + P(fracaso) = 1 Fórmula: P (x) = π x. (1- π) 1-x

Donde: X: Variable aleatoria discreta

Page 45: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

45  

π: Probabilidad de éxito 1- π: Probabilidad de fracaso. Sin embargo la distribución de bernoulli nos ayuda para un solo experimento, por lo que la distribución binomial es más general y aplicativa. Nota: Lo que se desea observar en el experimento (el resultado) se convierte en él éxito. Distribución Binomial Características de un experimento de probabilidad binomial.-

2- Es el resultado de (n) pruebas de bernoulli idénticas. 3- El resultado de cada prueba de clasifica en una de dos categorías mutuamente excluyentes: éxito o

fracaso. 4- La variable aleatoria permite contar el número de éxitos en una cantidad fija de pruebas. 5- Las probabilidad de éxito y fracaso permanecen constantes o iguales en todo el experimento

(prueba). 6- Las pruebas son independientes, es decir el resultado de una prueba no influye en el resultado de

otra prueba. Fórmula: P (x) = nCx. . 1 x: variable aleatoria discreta Binomial π: Probabilidad de éxito 1-π: Probabilidad de fracaso nCx: Combinación n de x. (Revisar Reglas de conteo) Media de una distribución binomial.-

μ = nπ Varianza de una distribución binomial.-

σ2 = nπ (1 - π) Para fortalecer los conocimientos en Excel se recomienda ingresar a la Biblioteca virtual (página 5) y seleccionar le texto: Manual: Teoría de Probabilidades, Ramírez Sánchez, páginas 24 a 30. Ejemplo: En la base a experiencias anterior, la impresora principal del centro de cómputo de cierta universidad funciona adecuadamente el 90% del tiempo si se hace una muestra aleatoria de 10 inspecciones. a.- ¿Cuál es la probabilidad de que la impresora principal funcione en forma apropiada: 1.- Exactamente nueve veces? (es decir 9 veces ni más ni menos) n = 10 π = 0.90 P (x = 9) = ? x= Número de veces que funcione de forma apropiada la impresora principal. P 9 10 9 0.90 0.10

9 10 0.387420489 0.10 9 0.7361es la probabilidad de que la impresora 9 veces funcione correctamente.

2.- Por lo menos nueve veces? (es decir mínimo 9 veces)

9 ? 9 9 10 9 10 9 0.90 0.10 10 10 0.90 0.10 9 0.387420489 0.3467844 9 0.7361es la probabilidad de que la impresora funcione correctamente 9 veces o más.

Page 46: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

46  

3.- Cuando más nueve veces? (es decir máximo 9 veces)

9 ? 9 9 8 7 6 5 4 3

2 1 0

9 10 9 0.90 0.10 10 8 0.90 0.10 10 7 0.90 0.10 10 6 0.90 0.1010 5 0.90 0.10 10 4 0.90 0.1010 3 0.90 0.10 10 2 0.90 0.10 10 1 0.90 0.10 10 0 0.90 0.10

9 0.387420489 0.193710244 0.057395626 0.011160261 0.0014880348

0.000137781 0.0000000001 9 0.6513

Una manera sencilla de calcular este tipo probabilidades y probabilidades y evitar un cálculo a mano muy extenso es usando la regla del complemento (capítulo anterior), es decir, en lugar de calcular la probabilidad de éxitos menores o iguales a 9, calculamos los éxitos de su complemento (en este caso es 10)

9 1 9 = 1 – P(x = 10) = 1 – 0.3487844 = 0.651215 es la probabilidad de que la impresora funciones correctamente 9 veces o menos. Se recomienda revisar desigualdades, específicamente sobre el conjunto solución de una desigualdad lineal. Repaso de signos y desigualdades:

Expresión

Equivalencia en intervalo y

palabras

Conjunto solución de la desigualdad números

reales positivos más el cero

Otros significados

Complemento

X > 3

(3, ∞)

No incluye al 3

4, 5, 6, 7…

Valores mayores a 3, más de 3

X ≤ 3

0, 1, 2, 3

X ≥ 3

[3, ∞)

Si incluye al 3 o

Desde el 3

3, 4, 5, 6, 7…

Valores mayores o iguales a 3, 3 o más, mínimo 3, por lo menos 3, al menos 3, cuando menos 3

X < 3 0, 1, 2

X < 3

(∞, 3)

No incluye al 3

0, 1, 2

Valores menores a 3, menos de 3

X ≥ 3

3, 4, 5, 6, 7…

X ≤ 3

(∞, 3]

Si incluye al 3 o

Hasta el 3

0, 1, 2, 3

Valores menores o iguales a 3, 3 o menos, máximo 3, máximo 3, cuando más 3, a lo mucho 3

X > 3

4, 5, 6, 7…

4.- mas de nueves veces?

9 ? 9 10 9 0.3487es la probabilidad de que más de 9 impresoras funciones correctamente.

5.- menos de nueve veces?

9 ? 9 8 … 2 1 0

Page 47: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

47  

9 10 8 0.90 0.10 10 7 0.90 0.10 10 6 0.90 0.10 10 5 0.90 0.1010 4 0.90 0.10 10 3 0.90 0.10 10 2 0.90 0.1010 1 0.90 0.10 10 0 0.90 0.10

9 0.193710244 0.057395628 0.011160261 0.0014880348 0.000137781

0.000008748 0.0000003645 0.0000000009 0.000000001 9 0.2639 es la probabilidad de que menos de 9 impresoras funciones correctamente.

Se puede obtener la respuesta mediante la regla del complemento. b.- ¿Cuántas veces se puede esperar que funcione en forma apropiada la impresora principal? Se aplica valor esperado. µ . µ=10(0.90) µ= 9 veces se esperaría que funcione correctamente la impresora. 4.4 Distribución de Probabilidad de Poisson Describe el número de veces que se presenta un evento durante un intervalo específico. El intervalo puede ser de tiempo, distancia, área o volumen. La distribución se basa en dos supuestos. El primero consiste en que la probabilidad es proporcional a la longitud del intervalo y el segundo consiste en que los intervalos son independientes. Es decir, cuánto más grande sea el intervalo, mayor será la probabilidad, y el número de veces que se presenta un evento en un intervalo no influye en los demás intervalos. La distribución de probabilidad de Poisson es el promedio esperado de de éxitos Características de un experimento de probabilidad de Poisson:

1- La variable aleatoria es el número de veces que ocurre un evento durante un intervalo definido. 2- La probabilidad de que ocurra el evento es proporcional al tamaño del intervalo. 3- El numero de eventos que ocurren son independiente entre si.

Él numero de medio o esperado de eventos en cada unidad se denota por λ (lambda). Fórmula: P(x) = . λ

!

λ= Número esperado de Éxitos. Constante equivalente a 2,71828 base del sistema de logaritmos naperianos

x= Número de éxitos por unidad. P(x) = Probabilidad para un valor específico de x. ! = factorial Repaso de factorial: n!= n x (n – 1) x (n – 2)…(n – (n – 1)) Ejemplos:

8!=8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 =40.320 0! = 1 1! = 1

Ejemplos de distribución de Poisson: 1- El número de palabras mal escritas por página del reglamento de una empresa. 2- El número de llamadas por hora que recibe una empresa de Publicidad. 3- El número de autos vendidos por día en Automotores Continental.

Cada ejemplo tiene palabra clave: … por…. Ejemplo: 1.- El número promedio de estudiantes de estudiantes que no asistan a clases de estadística es de 8 alumnos por una hora clase. λ= 8 (en una hora clase)

Page 48: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

48  

x= Estudiantes que no asisten a clases a) ¿Cuál es la probabilidad de que en una hora clase cualquiera no asistan 10? p (x=10) = .

!= 0.099

b) ¿Cuál es el promedio de alumnos que no asisten a una hora clase? λ= 8 estudiantes no asisten a una hora clase c) ¿Cuál es el promedio de alumnos que no asisten a dos horas clase? λ= 16 estudiantes no asisten a dos horas clase 2.- Una empresa de publicidad observa que el número de clientes que desean promocionar su negocio es una variable aleatoria de Poisson. Si el número promedio de clientes que desean publicidad durante un mes es de 8

λ= 8 durante un mes

x= clientes que desean publicidad

a) ¿Cuál es la probabilidad de que en un mes se acerquen 10 clientes?

p (x=10) = .

! = 0.09926

b) ¿Cuál es la probabilidad de que en una semana por lo menos se acerquen 3 clientes?

λ= 2 por semana

p (x≥3) = 1 – p (x<3)

1 − p (x=2) + p (x=1) + p (x=0)

1 − .

!+ .

!+ .

!= 0.2706 + 0.2706 + 0.1353

1 − 0.6765 = 0.3235

c) ¿Cuál es la probabilidad de que en una semana se acerquen a lo mucho 2 clientes?

p (x ≤ 2) = p (x=2)+ p (x=1)+ p (x=0)

.

!+ .

!+ .

!= 0.2706 + 0.2706 + 0.1353

La probabilidad de que en una semana se acerquen a lo mucho 2 clientes es 0.6765.

4.5 Distribución de Probabilidad Hipergeométrica En esta distribución se extrae una muestra n de una población N, PERO en esa selección de la muestra existen x éxitos de r éxitos de la población. Es decir, ¿Cuál es la probabilidad de que en la selección de la muestra existan éxitos dado que en la población hay éxitos? Recordemos que la variable aleatoria hipergeométrica “X” es él Éxito en n (muestra). Observe y analice el gráfico: Características:

1- Los resultados de cada prueba de un experimento se clasifican en dos categorías exclusivas: éxito o fracaso.

2- Las pruebas no son independientes. 3- Las muestras se realizan con la población finita sin reemplazos y n/N 0.05. Por lotanto, la

probabilidad de éxito cambia en cada prueba.

Page 49: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

49  

Formula: P (X) = Donde: N: Número de la Población n: Número de la muestra r: Número de éxitos en la población x: Número de éxitos en la muestra C: Combinación Media:

.

Varianza:

. . .. 1

Ejemplo: De un inventario de 48 celulares NOKIA (con radio) que se embarcan a distribuidores locales, 12 tienen radios defectuosos. a) ¿Cuál es la probabilidad de que ciertos distribuidores reciban ocho celulares y: 1.- Todos tengan radios defectuosos? La variable “x” es igual a celulares que tengan radios defectuosos y como el propósito de mi investigación es encontrar la probabilidad de celulares nokia con radios defectuosos; la variables “x” se convierte en mi éxito. N = 48 n = 8 r = 12 x = 8 P (x = 8)= ₁₂ ₈ · ₄₈₋₁₂ ₈₋₈

₄₈ ₈₁₂ ₈ · ₃₆ ₀

₄₈ ₈ . 0.000001311 es la probabilidad de que en una

muestra de 8 celulares del total (48) se seleccionan 8 celulares con radios defectuosos.

Población “N” con “r” éxitos  

Muestra “n” con “x” éxitos 

Page 50: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

50  

Si nos damos cuenta la suma de las dos combinaciones del numerador debe ser igual a la combinación del denominador. (48C8) 2.- Ningún celular tenga radio defectuoso? P (x = 0)=₁₂ ₀ · ₄₈₋₁₂ ₈₋₀

₄₈ ₈ . ₃₆ ₈ . 0.0801919 probabilidad de que al seleccionar una

muestra de 8 celulares, ninguno salga con radio defectuoso. 3.- Por lo menos un celular tenga el radio defectuoso? Usamos la regla del complemento: P (x ≥ 1) = 1 - P (x < 1) = 1 - P (x = 0) = 1 - 0.08019 = 0.9198 es la probabilidad de que al menos o por lo menos un celular salga con la radio defectuosa, al decir por lo menos uno significa que pueden salir 1,2,3… hasta 8 con la radio defectuosa. b) ¿Cuántos celulares con radios defectuosos se esperaría recibir? μ = · . 2 celulares con radios defectuosas se esperaría sean seleccionados si se repite este experimento varias veces. 4.6 Aplicación en Excel y SPSS. La siguiente hoja de cálculo muestra los tres primeros literales del último ejercicio, las demás distribuciones siguen similares pasos.

Page 51: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

51  

UNIDAD 5: VARIABLES ALEATORIAS CONTINUAS

Objetivo: identificar variables aleatorias continuas mediante sus distribuciones de probabilidad para el análisis del comportamiento poblacional. Competencias específicas:

• Identificar distribuciones de probabilidad • Aplicar distribuciones en computadora • Capacidad de análisis de poblaciones y su comportamiento

5.1 Definición y su Distribución de Probabilidad Variable aleatoria continua.- Variable aleatoria que adopta una infinidad de valores dentro de un intervalo. Si la variable aleatoria es continua entonces se realiza una distribución de probabilidad (unidad anterior) donde se liste los posibles resultados con sus respectivas probabilidades. La diferencia entre una distribución de probabilidad y una variable aleatoria se halla en que la variable aleatoria representa el resultado particular de un experimento; en cambio, la distribución de probabilidad representa todos los posibles resultados, así como la correspondiente probabilidad. 5.2 Distribución de Probabilidad Uniforme Esta distribución tiene la forma rectangular, se la describe completamente con los valores mínimo y máximo de la distribución para calcular la media y la desviación estándar. Los valores mínimo y máximo ayudan a calcular cualquier probabilidad de sucesos que se encuentren dentro de este intervalo pues fuera del mismo la probabilidad siempre será cero. a La distribución de probabilidad uniforme viene dada por la fórmula:

1 ; 0

Media de una distribución Uniforme.- Se localiza en la mitad del intervalo (a, b).

2

Page 52: 127381262-ESTADISTICA-APLICADA

 

 

 

Desvi

Ejemp El vol500 li

Es deesté eEl val

Es dec 5.3 DEn es0 cuya

El val

iación estánda

plo:

lumen de precitros por metro

ecir, que el vontre 401 y 402lor medio espe

cir, la precipit

Distribución dtadística la dia función de d

lor esperado y

ar.-

cipitaciones eo cuadrado. C

olumen de pre2 litros, otro 1erado es:

tación media e

de Probabilidistribución expdensidad es:

y la varianza d

stimado para Calcular la fun

ecipitaciones e1%, etc.

estimada en S

dad Exponencponencial es u

de una variable

52 

el próximo añción de distrib

esté entre 400

Sevilla para el

cial una distribució

e aleatoria X c

ño en la ciudabución y la pre

0 y 401 litros

próximo año

ón de probabi

con distribuci

Ec

ad de Sevilla vecipitación m

tiene un 1%

es de 450 litro

ilidad continu

ón exponencia

c. Quispe G. Jimm

va a oscilar enmedia esperada

de probabilid

os.

ua con un pará

al son:

my Javier 

ntre 400 y a:

dades; que

ámetro λ >

Page 53: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

53  

5.4 Distribución de Probabilidad Normal Distribución de probabilidad normal.- Es una distribución continua en forma de campana con una media qie divide la distribución en dos partes iguales. Además la curva normal se extiende indefinidamente en cualquier dirección y nunca toca el eje x (es decir, solo se aproxima al eje x. La distribución queda definida por su media y desviación estándar.

1√2

Características:

1- Tiene forma de campana. 2- Es simétrica. 3- La distribución es asintótica (asíntota en y=0) y el eje X va desde - ∞, +∞. 4- La localización de una distribución normal se determina a través de la media μ. La dispersión o

propagación de la distribución se determina por medio de la desviación estándar, σ. 5- La media, mediana y moda son iguales. 6- Hay 3 desviaciones a la derecha y 3 desviaciones a la izquierda aproximadamente.

Curva normal con misma media y varianzas diferentes

Curva normal con misma σ2 y diferentes μ.

Page 54: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

54  

Para facilitar el cálculo de las probabilidades con la distribución normal se aplica la siguiente fómrula que está estandarizada:

1

2

Distribución de probabilidad normal estándar.- Cualquier distribución normal puede convertirse en una distribución normal estándar al restar la media de cada observación y dividir esta diferencia entre la desviación estándar como se aprecia en la f+ormula anterior. Los resultados reciben el nombre de valores z o valores tipificados que se obtiene a partir del uso de la tabla de distribución normal (está al final de la guía) o aplicando Excel y/o spss. La curva normal estandarizada quedaría así:

En el gráfico se puede comparar los valores z que ya están estandarizados y los valores de µ=16 horas y de σ=2 horas de estudio que un alumno a la semana destina para los deberes. Valor z.- Distancia con signo (+ o -) entre un valor seleccionado, designado x, y la media, μ, dividida entre la desviación estándar, σ. El área sombreada es la probabilidad de un valor cualquiera. Fórmula del valor normal estándar:

Parte de la tabla de la distribución normal estándar

X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57230,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

La tabla que se utilizará es de frecuencia acumulada, se lee de la siguiente manera: La columna de la izquierda indica el valor cuya probabilidad acumulada queremos conocer. La primera fila nos indica el segundo decimal del valor que estamos consultando.

Page 55: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

55  

Ejemplo: queremos conocer la probabilidad acumulada en el valor 0,45.Entonces buscamos en la columna de la izquierda el valor 0,4 y en la primera fila el valor 0,05. La casilla en la que se interseccionan es su probabilidad acumulada (0,6736, es decir 67.36%), en Excel se aplica el mismo análisis. Atención: la tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de la curva por la izquierda hasta dicho valor. No nos da la probabilidad concreta en ese punto. En una distribución continua en el que la variable puede tomar infinitos valores, la probabilidad en un punto concreto es prácticamente despreciable (es decir es cero). En Excel en cambio se trabaja con la función estadística distr.norm.estand (valor de z) que nos da exactamente el valor acumulado como se explicó en la tabla. Ejemplos de cálculo de probabilidades con distribución normal estándar, diferentes casos: Supongamos que X es una variable aleatoria que se distribuye según una distribución N con media µ = 70 y varianza σ² = 36. Calcular:

a) P (x ≤ 80)

80 706

Calcular la probabilidad anterior es lo mismo que decir: P (z ≤ 1.67) = 0.95254 (área sombreada)

b) P (x > 80)

80 706

Calcular la probabilidad anterior es lo mismo que decir: P (z > 1.67) = 0.04745 (que se obtuvo restando 1 – 0.95254)

c) P (x ≤ 60) 60 70

6

Page 56: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

56  

Calcular la probabilidad anterior es lo mismo que decir: P (z ≤ -1.67) = 0.04745 (probabilidad igual al anterior literal)

d) P (x > 60) 60 70

6

Calcular la probabilidad anterior es lo mismo que decir: P (z > -1.67) = 0.04745, cuya probabilidad igual al literal a).

e) P (50 < x ≤ 80) 50 70

6 3.33

80 70

6 1.67

Calcular la probabilidad anterior es lo mismo que decir: P (-3.33 < z ≤ 1.67) = 0.95210. Para este tipo de ejercicios siempre se obtiene el valor deseado restando la probabilidad del número positivo menos la probabilidad del número negativo. En este caso: 0.95254 – 0.000432 = 0.952106

f) (50 < x ≤ 60)

50 706 3.33

60 70

6 1.67

Page 57: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

57  

Calcular la probabilidad anterior es lo mismo que decir: P (-3.33 < z ≤ -1.67) = 0.04702. Para este tipo de ejercicios siempre se obtiene el valor deseado restando la probabilidad del número negativo más cercano al cero (es decir el mayor) menos la probabilidad del número negativo más pequeño (es decir más alejado del cero). En este caso: 0.047459 – 0.0004342 = 0.04702

g) P (80 < x ≤ 90)

80 706 1.67

90 70

6 3.33

Calcular la probabilidad anterior es lo mismo que decir: P (1.67 < z ≤ 3.33) = 0.04702 (probabilidad igual al anterior literal). Para este tipo de ejercicios siempre se obtiene el valor deseado restando la probabilidad del número positivo mayor menos la probabilidad del número positivo menor. En este caso: 0.99956 – 0.95254 = 0.047025 Problemas: 1.- El salario medio de los empleados de una empresa se distribuye según una distribución normal, con media 5 mil dólares y desviación típica de mil dólares. Calcular el porcentaje de empleados con un sueldo inferior a 7 mil dólares. Lo primero que haremos es transformar esa distribución en una normal tipificada, para ello se crea una nueva variable (z) que será igual a la anterior (X) menos su media y dividida por la desviación típica:

En el ejemplo, la nueva variable sería:

51

Esta nueva variable se distribuye como una normal tipificada. La variable z que corresponde a una variable X de valor 7 es:

Page 58: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

58  

7 51 2

Ya podemos consultar en la tabla la probabilidad acumulada para el valor 2 (equivalente a la probabilidad de sueldos inferiores a 7 mil dólares). Esta probabilidad es 0,97725 Por lo tanto, el porcentaje de empleados con salarios inferiores a 7 mil dólares es del 97,725%. 2.- La vida media de los habitantes de un país es de 68 años, con una varianza de 25. Se hace un estudio en una pequeña ciudad de 10.000 habitantes: a) ¿Cuántas personas superarán previsiblemente los 75 años? Es decir nos piden cuantas personas vivirán (previsiblemente) más de 75 años, para eso calculamos el valor de la normal tipificada equivalente a 75 años.

75 685 1.4

Por lo tanto P (X > 75) = (z > 1,4) = 1 - P (z < 1,4) = 1 - 0,9192 = 0,0808 Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años. b) Personas que vivirán (previsiblemente) menos de 60 años Calculamos el valor de la normal tipificada equivalente a 60 años

60 685 1.6

Por lo tanto P (X < 60) = (z < -1,6) = 0,0548 Es decir, el 5,48% de la población (548 habitantes) no llegarán probablemente a esta edad. 3.- La renta media de los habitantes de un país es de 4 mil dólares/año, con una varianza de 1,5. Se supone que se distribuye según una distribución normal. Calcular: a) Porcentaje de la población con una renta inferior a 3 mil dólares. Lo primero que tenemos que hacer es calcular la normal tipificada:

3 41,22 0,816

P (X < 3) = P (z < -0,816) Ahora tenemos que ver cuál es la probabilidad acumulada hasta ese valor. Por lo tanto: P (z < -0,816) = 0,2072 Luego, el 20,72% de la población tiene una renta inferior a 3 mil dólares.

Page 59: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

59  

b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos. En este tipo de problemas primero vemos en la tabla el valor de la variable tipificada (z) cuya probabilidad acumulada es el 0,9 (90%), lo que quiere decir que por encima se sitúa el 10% superior. Ese valor corresponde a z = 1,282 (aprox.). Ahora calculamos la variable normal X equivalente a ese valor de la normal tipificada:

1,2824

1,22

Despejando X, su valor es 5,57. Por lo tanto, aquellas personas con ingresos superiores a 5,57 mil dólares constituyen el 10% de la población con renta más elevada. c) Ingresos mínimo y máximo que engloba al 60% de la población con renta media. Volvemos a buscar en la tabla el valor de la variable normalizada z cuya probabilidad acumulada es el 0,8 (80%). Como sabemos que hasta la media la probabilidad acumulada es del 50%, quiere decir que entre la media y este valor de z hay un 30% de probabilidad. Dentro de la tabla se busca el valor 0.30. Por otra parte, al ser la distribución normal simétrica, entre -z y la media hay otro 30% de probabilidad. En definitiva, el segmento (-z, z) engloba al 60% de población con renta media. El valor de Y que acumula el 80% de la probabilidad es 0,842 (aprox.), por lo que el segmento viene definido por (-0,842, +0,842). Ahora calculamos los valores de la variable X correspondientes a estos valores de Y.

0,8424

1,22 0,8424

1,22

Los valores de X son 2,97 y 5,03. Por lo tanto, las personas con ingresos superiores a 2,97 mil dólares e inferiores a 5,03 mil dólares constituyen el 60% de la población con un nivel medio de renta. 5.4.- Aproximación de la Binomial a la Normal y aplicación en Excel y spss Antes de entrar al tema brevemente veamos lo que dice el Teorema Central del Límite: Si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. La distribución normal constituye una buena aproximación a la normal si nπ y n(1-π) son ambos por lo menos 5. Sin embargo antes de aplicar esta aproximación es importante reconocer si la distribución es binomial (revisar unidad anterior) Como la distribución binomial es discreta y la distribución normal es continua es necesario aplicar un factor de corrección de continuidad o de yates que consiste en restar o sumar 0,5 según los siguientes 5 casos: 1.- Para la probabilidad específica de un valor cualquiera, se utiliza el área por debajo (x-0.5) y por encima (x+0.5) 2.- Para la probabilidad de que por lo menos ocurra x, se utiliza el área por encima de (x-0.5) 3.- Para la probabilidad de ocurra más que x, se utiliza el área por encima de (x+0.5) 4.- Para la probabilidad de que ocurra x o menos, se utiliza el área debajo de (x+0.5) 5.- Para la probabilidad de que ocurra menos que x, se utiliza el área debajo de (x-0.5) Otra manera de entenderlo y con ejemplos sencillos es la siguiente:

Page 60: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

60  

    D. BINOMIAL D. NORMAL 1) 0.5 0.5

EJEMPLO

3 2.5 3.5

2) 0.5

EJEMPLO

3 2.5

3) 0.5

EJEMPLO

3 es lo mismo que decir P 4 P 3.5

4) 0.5

EJEMPLO

3 3.5

5) 0.5

EJEMPLO

3 es lo mismo que decir P 4 P 3.5

La distribución binomial B(n,p) se puede aproximar mediante una distribución normal de la siguiente manera: N (nπ, 1 ), entonces la distribución normal estándar luego de aplicar el factor de corrección de continuidad tendría la siguiente fórmula:

1

 Ejemplo:   Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto que respondiese al azar ¿Cuál sería la probabilidad de que acertase? a) 50 preguntas o menos. b) Más de 50 y menos de 100. c) Más de 120 preguntas. Solución. El número de preguntas acertadas seguirá una distribución Binomial con n = 200 y π= 0,5. Ahora bien, como el número de pruebas es elevado esta distribución se puede aproximar por una Normal de media 200·0,5 = 100 y de varianza 200·0,5·0,5 = 50 o lo que es lo mismo con desviación típica 7,07, luego:

a) P(x ≤ 50) ≈ P(x ≤ 50,5) =

Page 61: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

61  

50,5 1007,07 7

Al buscar en la tabla o aplicando en Excel nos damos cuenta que la probabilidad de que una persona acierte 50 preguntas o menos es 0.

b) P(50 < x < 100) ≈ P(50.5 < x < 99.5) =

50,5 1007,07

99,5 1007,07

7 0.07 0.47209 0 0.47209

La probabilidad de que un alumno conteste entre 50 y 100 preguntas correctas es de 0.47209.

c) P(x > 120) ≈ P(x > 120.5) = P(z >2.9)

120,5 1007,07 2.9

La probabilidad de que una persona conteste acertadamente más de 120 preguntas es de 1- 0.99813 = 0.00186, es decir casi imposible.

Para calcular probabilidades en Excel se trabaja de la siguiente manera, la presente hoja de cálculo presenta los resultados para los ejercicios de la página 55:

Page 62: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

62  

UNIDAD 6: MUESTREO Y ESTIMACIÓN

 Objetivo: Estimar parámetros mediante aplicación de métodos de muestreo para determinación de intervalos de confianza para la media muestral. Competencias específicas: 

• Capacidad de muestrear una población • Determinación de intervalos de confianza a mano y a computadora • Análisis de intervalos 

 6.1 Muestreo

6.1.1 Definición y clasificación La inferencia estadística es el proceso de hacer uso de los resultados muéstrales para obtener conclusiones sobre las características de una población. Un importante objetivo del análisis de datos es el uso de estadísticas como la media y la proporción de la muestra, a fin de estimar los valores reales correspondientes en la población. El proceso de generalizar estos resultados muestrales a la población se conoce inferencia estadística La muestra se obtiene por observación o experimentación. La necesidad de obtener un subconjunto reducido de la población es obvia si tenemos en cuenta los costes económicos de la experimentación o el hecho de que muchos de los métodos de medida son destructivos. Toda inferencia inductiva exacta es imposible ya que disponemos de información parcial, sin embargo es posible realizar inferencias inseguras y medir el grado de inseguridad si el experimento se ha realizado de acuerdo con determinados principios. Propósito de la inferencia Estadística Es el de conseguir técnicas para hacer inferencias inductivas y medir el grado de incertidumbre de tales inferencias. La medida de la incertidumbre se realiza en términos de probabilidad. La inferencia estadística realiza un estudio sobre una o varias muestras extraídas de una población o universo y las conclusiones a las que se arriban son aplicables a todos los elementos de dicha población. Estas conclusiones se aplican a todos los elementos de la población pero ello no quiere decir que todos (absolutamente todos) tienen que cumplir con las características determinadas. Para ello se utiliza la teoría de probabilidades, en el trabajo estadístico de un estudio las pruebas se diseñan de modo que se puede determinar con qué grado de probabilidad se encontrarán las características determinadas en la muestra, entre los elementos que componen la población. Los estadígrafos muestrales son los valores de la característica estudiada en la muestra y que se pueden considerar coinciden con los de la población con una determinada probabilidad de error.

Page 63: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

63  

Existe un concepto mucho más refinado para el trabajo con poblaciones y es lo que se conoce como población objetivo. Desde el punto de vista de la metodología de la investigación la población objetivo podemos considerarla como aquella población que está limitada por los objetivos de la investigación que queremos realizar. Muestreo.- Herramienta para inferir algo sobre una población, el comportamiento de los datos de la población, para esto debemos recordar que la muestra debe ser representativa, y para que esto suceda veremos cuatro métodos de muestreo que nos ayudarán a realizar un muestreo confiable, para esto: 1.- Analizaremos las características de cada método y en qué circunstancias se deberían aplicar. 2.- Construiremos una distribución de la media de la muestra para entender como las medias tienden a acumularse en torno a la media de la población. 3.- Demostraremos que para cualquier población, la forma de esta distribución de muestreo tiende a seguir la distribución de probabilidad normal.

6.1.2 Métodos de Muestreo 6.1.2.1 Muestreo Aleatorio Simple

Muestreo aleatorio simple: Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple. En la práctica no nos interesa el individuo elemento de la población seleccionado en general, sino solo una característica que mediremos u observaremos en él y cuyo valor será el valor de una variable aleatoria que en cada individuo o elemento de la población puede tomar un valor que será un elemento de cierto conjunto de valores. De modo que una muestra simple aleatoria x1, x2, … xn se puede interpretar como un conjunto de valores de n variables aleatorias independientes, cada una de las cuales tiene la misma distribución que es llamada distribución poblacional. Existen dos formas de extraer una muestra de una población: con reposición y sin reposición. Muestreo con reemplazo.- Es aquel en que un elemento puede ser seleccionado más de una vez en la muestra para ello se extrae un elemento de la población se observa y se devuelve a la población, por lo que de esta forma se pueden hacer infinitas extracciones de la población aun siendo esta finita. Muestreo sin reemplazo.- No se devuelve los elementos extraídos a la población hasta que no se hallan extraídos todos los elementos de la población que conforman la muestra. Cuando se hace una muestra probabilística debemos tener en cuenta principalmente dos aspectos: El método de selección. El tamaño de la muestra 1.- Método de selección.- Un procedimiento de extraer una muestra aleatoria de una población finita es el de enumerar todos los elementos que conforman la población, escribir esos números en papelitos y colocarlos en una funda o ánfora, mezclarlos bien y sacar uno a uno tantos como lo indique el tamaño de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números coincidan con los extraídos de la funda. Otro procedimiento para obtener una muestra de una población ya sea el muestreo con reemplazo o sin reemplazo es mediante la utilización de la tabla de números aleatorios pero solamente para poblaciones finitas, la utilización de estas tablas puede realizarse de diferentes modos. Existen diferentes tablas de números aleatorios (incluso en Excel mediante la función aleatorio o random se puede aplicar) en el presente trabajo se utilizará como referencia la tabla de M. G. Kendall y B. Babington

Page 64: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

64  

Smith que se encuentra en el texto de tablas estadísticas, la misma está constituida por 4 bloques de 1000 números aleatorios dispuestos en 25 filas y 40 columnas. Veamos cómo se procede para la utilización de la tabla. Consideremos que se desea extraer de una población de tamaño N una muestra de tamaño n se selecciona el bloque, la fila y la columna de la tabla que se va a comenzar, a partir de esta selección (que la hace el investigador) se toman tantas columnas como dígitos tiene N. Comenzando por el primer número de las columnas seleccionadas se irán incluyendo en la muestra aquellos individuos que en la lista de la población ( ya sea de forma horizontal o vertical) ocupa la posición de los n números de las columnas seleccionadas que resultan menores que N, en los caso que al seleccionar un número en la tabla de números aleatorios sea mayor que N se divide este por N y el resto de la división que será un número entre 0 y N-1 será la posición del individuo a seleccionar tomando el convenio de que el resto 0 corresponde a la posición N. Para la aplicación de este procedimiento requiere que se fije previamente el mayor múltiplo de N que se considerará, para así garantizar que todos los restos desde 0 a N -1 tengan la misma probabilidad de ser seleccionados, por ejemplo si N = 150 y tomando 3 columnas se consideraran sólo aquellos números menores o iguales que 900, los números mayores que 900 no serán analizados en la selección de la muestra. Ejemplo: Dada la siguiente población formada por la edad del hijo mayor de 200 núcleos familiares de una cierta región. Seleccione una muestra aleatoria de tamaño 10 (use la tabla de números aleatorios, escoja la tercera fila, tercera columna del segundo bloque de a 1000) numere la población horizontalmente. La siguiente tabla es una fracción de la tabla completa:

48 49 50 51 50 46 47 56 47 38

53 50 47 46 48 47 48 46 46 50

42 51 51 49 47 51 48 47 42 49

46 48 50 47 48 47 51 56 45 49

45 54 61 46 48 46 46 47 50 34

46 46 51 39 53 55 52 49 47 46

33 40 52 46 44 52 44 54 41 33

48 49 52 42 42 49 47 47 38 48

44 43 44 40 44 45 49 44 43 42

49 49 48 41 51 51 52 42 40 47

37 48 45 46 50 45 47 53 43 47

44 40 46 46 45 48 47 42 47 46

52 53 47 49 46 47 49 42 43 42

43 38 52 50 44 52 44 53 43 45

41 57 47 48 52 53 40 49 40 50

45 42 44 53 57 46 62 47 50 47

45 51 43 45 39 39 41 44 35 41

Page 65: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

65  

54 48 51 53 54 42 48 51 37 38

42 37 52 50 45 55 51 46 38 43

53 43 42 39 46 52 53 39 51 40

Para extraer la muestra lo primero que hacemos es disponer tres columnas en las cuales la primera se ubicarán los números aleatorios, es decir los números extraídos de la tabla de números aleatorios; en la segunda columna pondremos los números aleatorios rectificados que serán aquellos números aleatorios menores que N =200 y los restos de las divisiones de los números aleatorios mayores que N =200 y menores que el mayor múltiplo de N es decir 800 y en la tercera columna se encontrarán los valores de la muestra. En la tabla de números aleatorios la tercera fila, tercera columna del segundo bloque de a 1000 le corresponde al número 3 pero como tenemos que coger el número aleatorio de tres dígitos el primer número aleatorio sería el 017, los demás serian, 984, 955, 130, 850, 374, 665, 910, 288, 753, 765, 691, 496, 001, hemos escogido 14 números de la tabla de números aleatorios debido a que hay 4 que son mayores que 800. Veamos a continuación como extraemos la muestra de la población: Para el primer número aleatorio 017 se busca en la población el valor que ocupa la posición 017 leída la población horizontalmente que sería la edad de 48 años, el número aleatorio 984 no se contempla dentro del análisis ya que es mayor que 800, al igual que el número 955, el número 130, le corresponde la edad de 52 años, al número 850 no se contempla dentro del análisis, el 374 como es mayor que 200 se divide por 200 y se obtiene reto 174 y este es el número aleatorio rectificado correspondiéndole la edad de 53 años, al número 665 se divide por 200 y se obtiene resto 65 que es el número aleatorio rectificado correspondiéndole la edad de 44 años en la población, a continuación presentaremos la tabla de las tres columnas a la cual nos referimos anteriormente como una vía fácil y práctica para obtener la muestra deseada. Número aleatorio Número aleatorio rectificado

muestra 017 017 48 984 -- 955 -- 130 130 42

850 -- 374 174 53 665 065 53 910 -- 288 088 44 753 153 44 765 165 39 691 091 49 496 096 51 001 001 48

Nota: obsérvese que en la muestra existen edades que se repiten esto puede pasar si el muestreo es con reemplazo si el muestreo es sin reemplazo debemos seguir buscando de la misma manera en la tabla de números aleatorios seguido del número 001, hasta lograr tener la muestra con 10 valores de la población no repetidos. Este muestreo se puede realizar utilizando Excel siguiendo los pasos siguientes: 1.- Se instala la opción de análisis de datos para ello se va a herramienta luego a complemento y se activa en la ventana complemento la opción herramienta para análisis. 2.- Se abre una hoja Excel y se introducen los datos de la población en columna. 3.- Se va a herramienta y se elige análisis de datos y en esta ventana se selecciona la opción muestra.

Page 66: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

66  

4.- En la ventana muestra se introduce el rango de entrada que sería seleccionar todos los valores de la población, si al suministrar en la hoja Excel los datos de la población al inicio se le designan a estos alguna variable o comentario debe activarse la opción rótulo de lo contrario no debe ser activada, se activa la casilla de muestreo aleatorio y se introduce el tamaño de muestra deseado. 5.- Se selecciona el rango de salida que consiste en seleccionar una celda en la hoja Excel que no esté afectada por ninguna información ni hacia abajo ni a la derecha de la misma. 6.- Se selecciona aceptar en esta ventana y saldrá el resultado deseado que sería las muestras elegidas por el programa en la población. 2.- El tamaño de la muestra: Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades de análisis que se necesitan para conformar una muestra n? Más adelante se analizará la fórmula para la determinación del tamaño de muestra.

6.1.2.2 Muestreo Sistemático Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno. Esto quiere decir que si tenemos un determinado número de personas que es la población y queremos escoger de esa población un número más pequeño el cual es la muestra, dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden del intervalo.

6.1.2.3 Muestreo Estratificado Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado: Asignación proporcional.- El tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población. Asignación óptima.- La muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población. Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por mi y s1

2, respectivamente.

Page 67: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

67  

6.1.2.4 Muestreo por Conglomerados se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral. Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico. Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

6.1.3 Error de Muestreo Es la diferencia entre el estadístico de una muestra y el parámetro de la población correspondiente.

6.1.4 Distribución Muestral de la Media Es la distribución de probabilidad de todas las posibles medias de las muestras de un determinado tamaño muestra de la población. Además es importante saber que las medias varían de muestra en muestra. Desarrollemos el siguiente ejercicio de fácil entendimiento tomado del libro de Lind Marchall, Estadística aplicada a los negocios y a la Economía, página 271. (Revisar previamente combinaciones)

6.1.5 Teorema del Límite Central Si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de la media se aproxima a una distribución normal. Esta aproximación mejora con muestras más grandes. El error estándar de la media o desviación estándar de la distribución muestral de medias es:

6.1.6 Aplicación de la distribución muestral de las medias

La mayoría de decisiones tomadas en los negocios se basan en muestreos. Ejemplo:

• Una compañía desea cerciorarse de que su detergente para lavandería contiene realmente 100 onzas líquidas como indica la etiqueta. Los registros de los procesos de llenado indican que la cantidad media por recipiente es de 100 onzas líquidas y que la desviación estándar es de 2 onzas líquidas. A las 10 de la mañana el técnico de control de calidad realiza la verificación de 40 recipientes y encuentra que la cantidad media por recipiente es de 99.8 onzas líquidas, ¿Debe interrumpir el proceso de llenado o el error de muestreo es razonable?

Para calcular el valor z cuando se desconoce la desviación poblacional se aplica:

Page 68: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

68  

6.2 Estimación 6.2.1 Estimadores puntuales e intervalos de confianza de una media

Un estimador puntual es un estadístico calculado a partir de información de la muestra para estimar el parámetro poblacional. Intervalo de confianza es un conjunto de valores formados a partir de una muestra de datos de forma que exista la posibilidad de que el parámetro poblacional ocurra dentro de dicho conjunto con una probabilidad específica. La probabilidad específica recibe el nombre de nivel de confianza.

6.2.1.1 Desviación estándar de la población conocida A partir del valor z y del error estándar de la media podemos calcular un intervalo de confianza para la media poblacional con una σ conocida:

Para este intervalo el valor z define el nivel de confianza que se desee obtener, ese nivel de confianza debe dividirse para 2 debido a que el intervalo tiene 2 límites, uno inferior y otro superior. Ejemplo: El gerente de control de calidad de una fábrica de focos necesita estimar la vida promedio de un gran embarque. Se sabe que la desviación estándar del proceso es de 100 horas. Una muestra aleatoria de 50 focos mostró una vida promedio de 350 horas. Estime un intervalo de confianza del 95% de vida promedio real de los focos en este embarque σ = 100 horas

= 350 horas n = 50 focos

± / √

350 ± .

350 ± 1.96

.

350 ± 1.96 (14.144) (322.27; 377.72) La vida promedio real de los focos se encuentra entre 322.67 y 377.72 horas

6.2.1.2 Desviación estándar poblacional desconocida Cuando desconocemos la desviación poblacional entonces aplicamos el siguiente distribución conocida como distribución t student:

Esto nos permite calcular el siguiente intervalo de confianza para la media con desviación estándar poblacional desconocida:

Para trabajar con el valor t se debe conocer el nivel de confianza deseado en el intervalo de confianza, ese valor dividirlo para 2 según el caso (depende de la tabla t) y buscar en la tabla de distribución t. Ejemplo: Los siguientes datos son el número de kilómetros al año que es manejado el automóvil por una muestra de 25 propietarios de automóviles:

Page 69: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

69  

26597 23873 23719 23471 22977 20700 22974 25048 26798 27147 29174 23815 16818 24352 20340 19405 29588 25620 19455 25566 32501 18091 22581 30104 29236 Construya un intervalo de confianza del 99% para estimar el número promedio de kilómetros al año que es manejado un automóvil

= 24398 s = 3972,98 n = 25

± / √

24398 ± 2.7969 .

24398 ± 2.7969 . 24398 ± 2.7969 (794.6) (22175.58; 26620.42) Entre 22175.58 y 26620.42 km al año es manejado un vehículo.

6.2.2 Intervalo de confianza de una proporción Proporción es una fracción, razón o porcentaje que indica la parte de la muestra de la población que posee un rasgo de interés particular. La proporción muestral viene dada por:

Recordemos que π es el porcentaje de éxito en la distribución binomial y “p” es similar al concepto de π. El intervalo de confianza para la proporción de una población es:

1

Ejemplo: Supongamos que en el paralelo 35 de 42 alumnos aprueban el examen de estadística. Estime un intervalo de confianza para la proporción de la población del 5%. p = = p = 0.83

0.83±1.96 . . =

0.83± 1.96 √0.003359 0.83± 0.113595 (0.71; 0.94) es el intervalo de confianza para la proporción, es decir que entre el 71% y 94% aprobaron el examen, con un nivel de confianza del 95%.

Page 70: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

70  

6.2.3 Intervalo de confianza de una varianza El intervalo de confianza para la varianza poblacional viene dado por:

1

;1

X2α/2 X2

1‐α/2

Donde 2 se lee chi cuadrado o ji cuadrado y se trabaja con n-1 grado de libertad. Para hallar el valor se aplica tabla chi cuadrada o en Excel con función estadística distr.chi. Gráfico chi cuadrado de una y dos colas

Ejemplo: Los siguientes datos representan las edades que tenían al momento de morir por enfermedad una muestra de 20 personas de un pueblo: 80 90 85 82 75 58 70 84 87 61 73 84 85 70 78 95 77 52 81 87 Hallar un intervalo de confianza del 95% para la varianza poblacional de la edad de muerte:

20 1 122.57

.;

20 1 122.57

.

20 1 122.57

32.8523 ;20 1 122.57

8.9065

70.6253; 260.507

Si quisiéramos encontrar un intervalo de confianza para la desviación se le extrae la raíz cuadrada a cada valor.

Page 71: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

71  

6.2.4 Factor de corrección de una población finita

Cuando el número de elementos de una población es conocida se dice que la población es finita y se debe aplicar la siguiente fórmula para ajustar los errores muestrales.

1

Si se desea encontrar un intervalo de confianza para la media con desviación desconocida y población finita, entonces tendríamos:

√ 1

6.2.5 Elección del tamaño adecuado de una muestra En la práctica una de las fórmulas que se aplica para determinar el tamaño de muestra para determinar el comportamiento poblacional es la siguiente:

1

1 1

Donde: z : es el valor que obtiene de la tabla o en Excel a partir del nivel de confianza N: población conocida o finita π: probabilidad de éxito (si no se conoce este valor se trabaja con 0.5) e: error máximo permitido

Page 72: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

72  

UNIDAD 7: PRUEBA DE HIPÓTESIS

Objetivo: Analizar parámetros mediante pruebas de hipótesis para su validación en la inferencia estadística.           Competencias específicas: 

• Capacidad de plantear hipótesis • Validar una hipótesis de un parámetro a mano y a computadora • Plantear hipótesis en su profesión 

  7.1 Definición, elementos y Tipos de error

Se entiende por hipótesis afirmación relativa a un parámetro de la población sujeta a verificación, puede definirse como una proposición cuya verdad o validez no se cuestiona en un primer momento, pero que permite iniciar una cadena de razonamientos que luego puede ser adecuadamente verificada. Así, un ‘razonamiento por hipótesis’ es aquel que comienza ‘suponiendo’ la validez de una afirmación, sin que ésta se encuentre fundamentada o sea universalmente aceptada. Prueba de hipótesis.- Procedimiento basado en evidencia de la muestra y la teoría de la probabilidad para determinar si la hipótesis es una afirmación razonable. Elementos de una prueba de hipótesis.

a) Hipótesis Nula: Ho (Queremos comprobar) b) Hipótesis Alternativa: Ha (Aceptaremos si rechazamos Ho) c) Zc valor crítico que determina validez o rechazo de hipótesis nula

Tipos de errores.

Decisión Ho es cierta Ho es falsa

Mantener Ho Decisión acertada Probabilidad (1 – α)

Error de tipo II Aceptar Ho cuando es falsa

Probabilidad (β)

Rechazar Ho Error de tipo I Rechazar Ho

cuando es verdadera Probabilidad (α)

Decisión acertada Probabilidad (1-β)

Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones

Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la probabilidad de cometer el error de tipo II, esto es:

7.2 Pasos para probar una hipótesis:

1. Se establece la hipótesis nula (Ho). 2. Seleccione un nivel de significancia 3. Se establece el estadístico de prueba. 4. Se formula la regla de decisión 5. Se toma una decisión

Page 73: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

73  

7.3 Prueba de significancia de una y dos colas; y Valor p Pruebas de una cola (a la izquierda):

:

:

Pruebas de una cola (a la derecha):

:

:

De manera más específica (sin olvidar el orden los gráficos anteriores) la prueba de significancia de una cola consiste en calcular un estadístico de prueba (z o t) y que éste valor sea mayor (en este caso) al valor crítico hallado en la tabla o en algún software, de manera que la hipótesis nula no se rechace. La región pintada es la región de rechazo y la otra región es la de aceptación. El nivel de confianza depende del investigador, el más común es el 95%, el nivel de significancia en cambio es el complemento (5%) y se denota por la letra α en pruebas de una cola. Si el estadístico de prueba cae en la región de rechazo implica que se rechaza la hipótesis nula y se acepta la alternativa. Pruebas de dos colas:

:

:

La prueba de significancia de dos colas es similar al de una cola con la única diferencia que en cada cola está repartida el nivel de significancia (α), es decir α/2 se coloca en cada cola y lo que esté dentro de éstas áreas son las regiones de rechazo y lo interior es la región de aceptación. Recuerde: para que se rechace una hipótesis nula el estadístico de prueba z debe ser mayor o estar dentro de la zona de rechazo, caso contrario no se rechaza Ho.

Page 74: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

74  

Valor p.- Es la probabilidad de observar un valor muestral tan extremo o más que el valor observado, si la hipótesis nula es verdadera. Se lo encuentra a partir del estadístico de prueba y no a partir del nivel de confianza, es decir el valor del estadístico de prueba lo busco en la tabla o en software. El siguiente gráfico muestra el valor p para una prueba de una cola, cuando la prueba es de dos colas entonces se suman ambos valores p (probabilidad sombreada)

Interpretación de la importancia de la evidencia en contra de Ho si el valor p es menor que:

a) 0.10, hay cierta evidencia de que Ho no es verdadera. b) 0.05, hay evidencia fuerte de que Ho no es verdadera. c) 0.01, hay evidencia muy fuerte de que Ho no es verdadera. d) 0.001, hay evidencia extremadamente fuerte de que Ho no es verdadera.

Se debe tener en cuenta además que si el valor p es menor que el nivel de significancia (α) entonces se rechaza Ho, si es mayor que el nivel de significancia no se rechaza Ho.

Las pruebas de hipótesis planteadas en la presente guía tienen la siguiente forma: 7.4 Prueba de la media con desviación poblacional conocida y desconocida

• Prueba de hipótesis para μ cuando se conoce la desviación poblacional (muestra grande)

♦ Prueba de una cola Ho: μ ≤ μo Ho: μ ≥ μo Ha:μ > μo Ha: μ < μo

♦ Prueba de dos colas Ho: μ = μ Ha: μ ≠ μo

Page 75: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

75  

♦ Estadístico de prueba μ

/√

Ejemplo: En los folletos de propaganda, una empresa asegura que las bombillas que fabrican tiene una duración media de 1600 horas. A fin de contrastar este dato, se tomo una muestra aleatoria de 100 bombillas, obteniéndose una Duración media de 1570 horas, con una desviación típica de 120 horas. ¿Puede aceptarse la información de los folletos con un nivel de confianza del 95%?

Datos

n = 100 y = 1600 δ = 120 Ho: µ = 1600 α = 95% Ha: µ ≠ 1600         

μ√⁄

1570 1600120 √100⁄

2.5

Se rechaza la hipótesis nula, el estadígrafo de prueba se encuentra en la región de rechazo, es decir, que la duración media de las bombillas es diferente a 1600 con un nivel de confianza del 95%.

• Pruebas de hipótesis de la media poblacional con desviación desconocida (Distribución t Student)

♦ Prueba de una cola

Page 76: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

76  

Ho: μ ≤ μo Ho: μ ≥ μo Ha:μ > μo Ha: μ < μo

♦ Prueba de dos colas Ho: μ = μ Ha: μ ≠ μo

♦ Estadístico de prueba

γ μ/√

Ejemplo:

Se obtiene una muestra de 16 estudiantes con una x = 68 y una desviación de 9 en un examen de estadística. Hay evidencia suficiente que apoye que la media poblacional de las calificaciones de estadística es mayor de 70 con α = 02

Datos

n = 16 y = 70 s= 9 Ho: µ ≥70 α = 98% Ha: µ < 70        

μ√⁄

68 709 √16⁄

2.67

Page 77: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

77  

Se rechaza la hipótesis nula, el estadístico de prueba se encuentra en la región de rechazo. es decir, la media poblacional de calificaciones de estadística es menor a 70 con un nivel de confianza del 98%. 

7.5 Prueba de hipótesis de la proporción

Prueba de una cola Ho: π ≥ po Ho: π ≤ po Ha: π < po Ha: π > po

Estadístico de prueba

• Prueba de dos colas

Ho: π = p0 Ha: π ≠ p0

Page 78: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

78  

Ejemplo: En una muestra de 1000 nacimientos el numero de varones ha sido 542 ¿Puede considerarse con un nivel de significación del 10% que en general nacen más niños que niñas?

: π 0.5 : π 0.5

n 1000 x 542

0.5 ̂ 0.542

0.542 0.5

0.5 0.51000

0.0420.25100

0.042√0.00024

0.0420.016 2.63

  Se rechaza la hipótesis nula, debido a que cae en la región de rechazo, es decir se puede concluir que en general nacen más niños que niñas en esa localidad con un nivel de confianza del 90%. 7.6 Error tipo II Recordemos que la probabilidad de que se rechace la hipótesis nula cuando es verdadera es α, y se llama error tipo I, También hay la probabilidad (β) de aceptar la hipótesis nula cuando en realidad es falsa (error tipo II). Con el fin de calcular la probabilidad de que esto ocurra es útil considerar la probabilidad como el área bajo la distribución muestral, con base en la media verdadera de la población superpuesta a la distribución muestral supuesta en la hipótesis nula, y en la región de no rechazo.

Page 79: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

79  

La probabilidad del error Tipo II se calcula asumiendo que la hipótesis nula es falsa, ya que ésta se define como la probabilidad de no rechazar una hipótesis nula falsa. El procedimiento para calcular el error Tipo II, para un valor específico de μ supuesto en H0 es el siguiente: 1. Establecer la región de no rechazo para H0 , utilizando la media supuesta en H0 y los datos del problema.

2. Usar la tabla z o Excel (spss) para determinar los puntos críticos correspondientes a α (Zc),

3. Determinar los valores o valor de correspondientes a los valores críticos, utilizando la igualdad

√μ

.

4. Dibujar la distribución de la media verdadera (correspondiente a Ha verdadera o H0 falsa). (Véase figura

inferior)

5. Determinar los valores críticos correspondientes a los valores de , calculados en el paso 3. igualdad

μ√⁄

. 6. 6. Usar la tabla z o Excel (spss) para determinar el valor de β.

Ejemplo: Suponga que el sueldo de los profesionales administrativos por hora es de $5. Suponga que realiza una muestra a 36 personas de algunas entidades públicas y concluye que la media de las horas laboradas es de $5.22 con una desviación estándar de $.06. A un nivel de significancia de 0.01 puede concluirse que las horas laborables de los profesionales administrativos es superior a $5?

X

βz X

Page 80: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

80  

: μ 5; : μ 5

μ√⁄

5.22 50.6 √36⁄

2.2

Conclusión: No se rechaza la hipótesis nula, es decir que no hay pruebas suficientes que indiquen que las horas de trabajo de los profesionales administrativos son superiores a $5 con un nivel de confianza del 99%. Si nos damos cuenta no rechazamos la hipótesis nula, lo que nos llevaría a cometer “tal vez” un error tipo II (Aceptar la hipótesis nula cuando en realidad es falsa) Ejemplo: ¿Cuál es la probabilidad del error Tipo II si la hora/trabajo verdadero es de $5.10? 1. Distribución de H0 Verdadera y región crítica. 2. z de tabla z o Excel (spss) correspondiente a un nivel de significancia de 0.01. 3. Cálculo de:

√μ

2.3260.6

√365 5.2326

Se calcula con la media poblacional original (µ=5) y el valor resultante se reemplaza en la fórmula del numeral 4.

4. Distribución de H0 Falsa y ubicación de β.

5. Cálculo de zβ

μ√⁄

5.2326 5.100 . 60 √36⁄

1.326

Page 81: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

81  

6. El valor de β (de tabla z, Excel o spss) es 0.9082, que es la probabilidad de cometer error tipo II.

 Ejemplo: ¿Cuál es la probabilidad del error Tipo II si la hora/trabajo es de $5.50?

1. Distribución de H0 Verdadera y región crítica.

2. z de tabla, Excel o spss correspondiente a . Cuyo valor crítico Zc es 2.326

3. Cálculo de

√μ

2.3260.6

√365 5.2326

4. Distribución de H0 Falsa y ubicación de β.

5. Cálculo de

μ√⁄

5.2326 5.50.60 √36⁄

2.674

6. El valor de β (de tabla, Excel o spss) es 0.0035, esta es la probabilidad de cometer un error tipo II.

01.0=α

Page 82: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

82  

En los siguientes tres ítems (7.7, 7.8 y 7.9) se pretende probar que cuando se obtienen muestras aleatorias de dos poblaciones distintas, sus medias o proporciones de la población son o no iguales. Veremos solo tres casos:

7.7 Prueba de Hipótesis para dos muestras: Muestras independientes y desviaciones conocidas. Supuestos: • Las dos muestras no deben estar relacionadas, es decir, deben ser independientes. • Debe conocerse la desviación estándar para las dos poblaciones.

Prueba de hipótesis:

♦ Prueba de una cola Ho: μ1 ≤ μ2 Ho: μ1 ≥ μ2 Ha:μ1 > μ2 Ha: μ1 < μ2

♦ Prueba de dos colas Ho: μ1 = μ2

Ha: μ1 ≠ μ2 Los gráficos siguen la misma dirección anteriormente explicado. Estadístico de prueba de dos medias de muestras independientes y desviaciones conocidas:

Ejemplo: Se realizó un estudio para comparar las ventas de una industria durante dos años: 2005 y 2006. Con un nivel de significancia de .01 ¿Podemos concluir que las ventas del año 2006 son mayores a las del 2005?

Page 83: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

83  

Característica 2005 2006 Media de la muestra (en miles) 25.6 30.4 Desviación Estándar de la muestra (en miles) 2.9 3.6 Tamaño de la muestra (empresas) 40 45

Paso 1:

Ho: μ2 ≤ μ1

Ha:μ2 > μ1 Paso 2: Rechace H0 si z > 2.33 Paso 3:

30.4 25.6

3.645

2.940

6.8

Paso 4: Como z = 6.80 > 2.33, H0 se rechaza, es decir que las ventas en esa industria reportan mayor venta en el año 2006 con un nivel de confianza del 99%.

7.8 Prueba de proporciones de dos muestras

Prueba de hipótesis:

♦ Prueba de una cola Ho: π1 ≤ π2 Ho: π1 ≥ π2 Ha:π1 > π2 Ha: π1 < π2

♦ Prueba de dos colas Ho: π1 = π2

Ha: π1 ≠ π2 Estadístico de prueba de dos medias de muestras independientes y desviaciones conocidas:

1 1

Proporción conjunta:

Ejemplo: Una muestra de 250 trabajadores casados indicó que 22 faltaron más de 5 días el año pasado, mientras que una muestra de 300 trabajadores solteros indicó que 35 faltaron más de 5 días. Utilice .05 de nivel de significancia. ¿Es más probable que los trabajadores solteros falten más que los trabajadores casados? Si población #1 = trabajadores solteros.

♦ Prueba de una cola Ho: π1 ≤ π2 Ha:π1 > π2

Page 84: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

84  

35 22300 250 0.1036

0.1167 0.088

0.1036 1 0.1036300

0.1036 1 0.1036250

1.099

El z crítico es 1.645, por lo que H0 no se rechaza, es decir no hay pruebas suficientes de que la proporción de los trabajadores solteros falten más de 5 días que la proporción de trabajadores casados que también faltan más de 5 días al trabajo. El valor p es: P{ z > 1.1} = 0.1357, como es mayor que el nivel de significancia entonces no rechazamos Ho. 7.9 Prueba de medias con desviaciones poblacionales desconocidas La prueba de hipótesis es:

♦ Prueba de dos colas

: :

Estadístico de prueba:

En esta prueba de hipótesis se trabaja con la distribución F, se busca en la tabla F o Excel 8spss), en Excel mediante la función: distr.f.inv (probabilidad α/2; grados de libertad 1; grados de libertad 2) Como la prueba es de dos colas, entonces hay que dividir el nivel de significancia para dos y con ese valor se analiza.

Colin, agente de bolsa del Critical Securities, reportó que la tasa media de retorno en una muestra de 10 acciones de software fue 12.6% con una desviación estándar de 3.9%. La tasa media de retorno en una muestra de 8 acciones de compañías de servicios fue 10.9% con desviación estándar de 3.5%. Para 0.05 de nivel de significancia, ¿Puede Colin concluir que hay diferencia en las variaciones de acciones de software y de compañías de servicio?

: :

Page 85: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

85  

0.0390.035

0.0015210.001225 1.2416

No se rechaza Ho, debido a que el estadístico de prueba no cae en la región de rechazo, es decir no hay pruebas suficientes que indiquen que existen diferencias entre las desviaciones de las dos acciones con un nivel de confianza del 95%. 7.10 Prueba ANOVA   La distribución F también se usa para probar la igualdad de más de dos medias poblacionales con una técnica llamada análisis de variancia (ANOVA). Se requiere las siguientes condiciones:

• La población que se muestrea tiene una distribución normal. • Las poblaciones tienen desviaciones estándar iguales • Las muestras se seleccionan al azar y son independientes

Pasos: 1.- Formule las hipótesis nula y alternativa: Hipótesis nula: las medias de las poblaciones son iguales. Ho: μ1 = μ2 = μ3 = μ4 Hipótesis alterna: al menos una de las medias es diferente. Ha: No todas las medias son iguales Si no se rechaza la hipótesis nula se concluye que no hay diferencia en las medias para las diferentes poblaciones. Si rechaza Ho se concluye que hay una diferencia en al menos un par de medias poblacionales, pero en este punto no se sabe cual par o cuantos pares difieren. 2.- Seleccione el nivel de significancia. 3.- Determine el estadístico de prueba. Estadístico de prueba: F = (variancia entre muestras) / (variancia dentro de muestras). 4.- Formule la regla de decisión. Para esto es necesario tener el valor crítico de F, se lo obtiene teniendo en cuenta: Grados de libertad en el numerador = k – 1

Page 86: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

86  

Grados de libertad en el denominador = n - k 5.- Seleccione la muestra, realice los cálculos y tome una decisión. Se recomienda resumir todos los cálculos en una tabla ANOVA para facilitar el cálculo.

Fuente de variación Suma de cuadrados

Grados de libertad

Media Cuadrática F

Tratamientos SST k – 1 SST/(k-1) = MST MST/MSE Error SSE n – k SSE/(n-k) = MSE Total SSTotal n - 1

De la tabla anterior definamos: Variación total: Suma de las diferencias elevadas al cuadrado entre cada observación y la media global.

X: Cada observación de la muestra

: Media global o total Variación aleatoria: Suma de las diferencias elevadas al cuadrado entre cada observación y su media de tratamiento.

: Media muestral para el tratamiento c. Variación de tratamiento: Suma de las diferencias elevadas al cuadrado entre la media de cada tratamiento y la media total o global.

Regla de decisión: , la hipótesis nula se rechaza si F (calculada) para un nivel de significancia es mayor que F (en tablas) con grados de libertad en el numerador y en el denominador. 7.11 Prueba de bondad de ajuste: frecuencias esperadas iguales. La prueba de Bondad de Ajuste es una de las pruebas estadísticas de uso más común. Se analizará el caso de frecuencias esperadas iguales. 1.- Formule la hipótesis nula y alternativa. La hipótesis nula es que no hay diferencia entre el conjunto de frecuencias observadas y el conjunto de frecuencias esperadas. La hipótesis alternativa es que hay diferencia entre los conjuntos observado y esperado de frecuencias. Si rechaza Ho y acepta Ha, significa que las frecuencias observadas no se distribuyen de igual forma entre todas las categorías. 2.- Seleccione el nivel de significancia. 3.- Seleccione el estadístico de prueba.

Page 87: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

87  

El estadístico de prueba sigue la distribución ji cuadrada, 2.

Con k – 1 grados de libertad, donde: k es el número de categorías. fo es una frecuencia observada en una categoría particular. fe es una frecuencia esperada en una categoría particular. 4.- Formule la regla de decisión 5.- Calcule el valor de ji cuadrado y tome una decisión Ejemplo: La señora Patiño es la gerente de marketing de un fabricante de tarjetas deportivas. Ella planea iniciar la venta de una serie de fotografías y estadísticas de juegos de jugadores de fútbol que participaron en el último mundial. Uno de los problemas es la selección de jugadores. En una exhibición de tarjetas de fútbol en el Paseo Shopping el pasado fin de semana, instaló un puesto y ofreció tarjetas de los siguientes seis jugadores: Lionel Mesi, Diego Forlán, Iker Casillas, Rafael Márquez, Cristiano Ronaldo y Kaká. Al final del día vendió 120 tarjetas. ¿La señora Patiño puede concluir que las ventas no son iguales por cada jugador? El número de tarjetas vendidas es la siguiente:

Jugador Tarjetas vendidas Lionel Messi 13 Diego Forlán 33 Iker Casillas 14 Rafael Márquez 7 Cristiano Ronaldo 36 Kaká 17 Total 120

Desarrollo:

:

:

7.12 Aplicación en escel y spss

Page 88: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

88  

En la tabla chi cuadrada podemos darnos cuenta que con 5 grados de libertad el valor chi cuadrado crítico es 11.070, por lo tanto con un nivel de significación del 0.05, se rechaza la Hipótesis nula y aceptar la hipótesis alternativa. Es decir, las diferencias entre las frecuencias observadas y esperadas no se debe a la casualidad sino que las diferencias son bastante grandes. Por lo que se concluye que es improbable que las ventas de tarjetas sean las mismas entre los seis jugadores.

En la hoja de cálculo podemos darnos cuenta que se halló el valor p que al ser menor que el valor alfa se concluye que se rechaza la hipótesis nula. La distribución chi cuadrada puede cambiar de figura dependiendo del número de grados de libertas, además nunca toma valores negativos. Observemos el siguiente gráfico (v son los diferentes grados de libertad):

Page 89: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

89  

.

Page 90: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

90  

Unidad VIII: REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE

Objetivo: Analizar datos históricos o recopilados mediante un modelo de regresión lineal o múltiple para la predicción del comportamiento poblacional. Competencias específicas:

• Predecir comportamiento de variables • Aplicar modelos de regresión simple en Excel y regresión múltiple en spss • Análisis crítico de situación empresarial actual y futura

8.1. Regresión Lineal Simple

8.1.1. Supuestos y elementos El objetivo es analizar el grado de la relación existente entre variables utilizando modelos matemáticos y representaciones gráficas. Así pues, para representar la relación entre dos o más variables desarrollaremos una ecuación que permitirá estimar una variable en función de la otra. Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto?, ¿cómo representamos que la bajada de temperaturas implica un aumento del consumo de la calefacción?,... A continuación, estudiaremos dicho grado de relación entre dos variables en lo que llamaremos análisis de correlación. Para representar esta relación utilizaremos una representación gráfica llamada diagrama de dispersión y, finalmente, estudiaremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión. Supuestos: 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria 3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y están sobre la recta. 6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes

El modelo de regresión lineal simple es:

Elementos: y : variable dependiente

x : variable independiente

: es el componente determinístico (la ecuación de una recta)

: componente de error aleatorio β0 : ordenada al origen de la línea, es decir el punto en el que la línea intercepta el eje y.

: Pendiente de la línea, es decir, magnitud del incremento (o decremento) del componente determinístico de y por cada unidad de incremento en x.

8.1.2. Método de Mínimos Cuadrados Para poder estimar los parámetros β0 y β1 se aplicará el método de mínimos cuadrados. Como se va a estimar los parámetros mencionados, entonces la ecuación de regresión lineal queda de la siguiente manera:

Las fórmulas para encontrar los valores a y b son:

Page 91: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

91  

∑ ∑ ∑ ∑ ∑

El presente tema se desarrollará con el siguiente ejemplo: El Analista de una fábrica estadounidense de automóviles querría desarrollar un modelo estadístico para predecir el tiempo de entrega (los días entre la compra del automóvil y la entrega real del mismo) de automóviles nuevos de fabricación especial. El cree que hay relación lineal entre las opciones del automóvil ordenado y su tiempo de entrega. Se selecciona una muestra aleatoria de 16 automóviles; los resultados se presentan a continuación:

Automóvil Número de opciones

ordenadas X Tiempo de entrega Y (en

días) 1 3 25 2 4 32 3 4 26 4 7 38 5 7 34 6 8 41 7 9 39 8 11 46 9 12 44

10 12 51 11 14 53 12 16 58 13 17 61 14 20 64 15 23 66 16 25 70

Total 192 748

a) Prepare un diagrama de dispersión.-

El diagrama de dispersión contribuye para conocer la tendencia de la relación entre la variable independiente y dependiente.

25

35

45

55

65

75

5 10 15 20 25

Page 92: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

92  

b) Suponiendo una relación lineal, use el método de mínimos cuadrados para calcular los coeficientes de regresión

= = 46.8

= = 12

∑ ∑ ∑ ∑ ∑

16 10391 192 748

16 2988 – 192

166256 143616

47808 36864

2264010994

2.0687

46.8 2.07 12

21.92

. .

8.1.3. Interpretación de la pendiente de la recta b1 y predicción

c) Interprete el significado de la pendiente b

Por cada auto adicional que se pida, la empresa se demora 2.07 días para entregarlo

d) Si se ordenó un automóvil que tenía 16 opciones ¿Se puede predecir cuantos días se necesitarán para su entrega?

21.96 2.07 16

55.08

Page 93: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

93  

8.1.4. Error estándar de estimación.-

e) Calcule el error estándar del estimador

∑ ∑ ∑ .

38026 – 21.9254 748 2.0687 10391

16 2

38026 16400.86 21495.86

14

129.95

14

3.04

Este valor es la variabilidad alrededor de la línea de regresión ajustada.

8.1.5. Coeficiente de correlación y de determinación.-

f) Calcule el coeficiente de determinación

SSR = ∑ ∑ ∑

21.9254 (748) + 2.0687 (10391) −

16400,19 + 21495,86 −

16400,19 + 21495,86 – 34969 = 2927,76

SSE = ∑ − ∑ ∑

38026 − 21.9254 (748) − 2.0687 (10391)

38026 – 16400,19 − 21495,86 = 129,95

SST = SSR + SSE

,, ,

= 0,9575

Page 94: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

94  

El coeficiente de determinación, el 95.75% se puede explicar por la variabilidad por el número de opciones o autos pedidos.

g) Calcule el coeficiente de correlación

r = √ √0.9575 = 0.9785 = 97,85%

El coeficiente de correlación es igual a 97,85% lo que indica que existe una fuerte relación entre las variables Número de opciones ordenadas (autos) y el tiempo de entrega.

8.1.6. Prueba de hipótesis

h) Al nivel de significancia de 0.05 ¿Hay relación lineal entre las opciones y el tiempo de entrega?

: 0

: 0

t =

∑ ∑

2,54

2988 19216

2,54√2988 2304

,√

= ,

0.09711

t = , ,

21,31

Se rechaza la hipótesis nula debido a que el estadístico de prueba cae en la región de rechazo, es decir, que hay alguna relación entre las variables días de entrega y #de pedidos de autos con un nivel de confianza del 95%

Page 95: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

95  

8.1.7. Aplicación en Excel y SPSS

8.2. Regresión Lineal Múltiple en spss

8.2.1. Ecuación de regresión múltiple

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener a, b1 y b2 en una ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:

Page 96: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

96  

Para poder resolver se puede utilizar programas informáticos como SPSS, Minitab y/o Excel.

8.2.1.1. Error estándar de estimación múltiple

El error estándar de la regresión múltiple Sxy.

Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas pequeño.

Para medirla se utiliza la formula:

Y: Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión n : Número de datos m : Número de variables independientes

8.2.1.2. Coeficiente de determinación múltiple

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por x1, x2 y x3, simultáneamente.

8.2.2. Evaluación de supuestos

8.2.2.1. Linealidad Existe una relación lineal, es decir, existe una relación directa entre la variable dependiente y el conjunto de variables independientes.

8.2.2.2. Homoscedasticidad La variación en los residuos es la misma tanto para valores grandes como pequeños de . En otras palabras,

no está relacionada, ya sea que sea grande o pequeña.

8.2.2.3. Normalidad Los residuos siguen la distribución de probabilidad normal, recordemos que el residuo es la diferencia entre

. Estos residuos deberán seguir de manera aproximada una distribución normal. Además, la media de los residuos deberá ser 0.

8.2.2.4. Multicolinealidad Las variables independientes no deberán estar correlacionadas, es decir, conviene seleccionar un conjunto de variables independientes que no estén correlacionadas entre sí.

8.2.2.5. Independencia Los residuos son independientes, esto significa que las observaciones sucesivas de las variables dependientes no están correlacionadas. Esta suposición con frecuencia se viola cuando se comprende el tiempo con las observaciones meustreadas.

8.2.3. Regresión por pasos Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Multiple: En la Facultad de Ingeniería de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al

Page 97: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

97  

azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programación como se muestran en el siguiente cuadro.  

Alumno PHP Algoritmos Base de Datos Programación

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programación.

Se presentara la siguiente ecuación a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresión o utilizando Regresión de Análisis de datos, en la Hoja de cálculo de Excel podemos calcular también los coeficientes de regresión:

Page 98: 127381262-ESTADISTICA-APLICADA

    Ec. Quispe G. Jimmy Javier 

 

98  

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del plano de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP que se viene desarrollando es de 0.861

El coeficiente de determinación múltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples, utilizando la si siguiente formula:

IV.- CONCLUSIONES

El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programación.

Page 99: 127381262-ESTADISTICA-APLICADA

 

99  

Trabajo Autónomo Cada ejercicio o problema debe ser resuelto en computadora (Excel o spss según el caso) y a calculadora de manera que se desarrolle competencias y agilidad en el desarrollo y análisis de temas estadísticos.

Unidad 1: Introducción a Estadísticas, Frecuencias y Gráficas

1. ¿Cuál es el nivel de medición de cada una de las siguientes variables? a) Coeficientes intelectuales de los alumnos. b) La distancia que viajan los estudiantes para viajar a clases. c) Las calificaciones de los estudiantes en el primer examen de estadística. d) Una clasificación de alumnos por fechas de nacimiento. e) Una clasificación de estudiantes que cursan primero, segundo, tercero o último grado. f) Número de alumnos que los alumnos estudian a la semana.

2. En los siguientes casos determine si el grupo representa una muestra o una población. a) Los participantes en el estudio de un nuevo fármaco contra el colesterol. b) Los conductores que recibieron una multa por exceso de velocidad en la ciudad de Salinas en la última temporada. c) Beneficiarios del programa de asistencia social en Cook Country (Chicago), Illinois. d) Las 30 acciones que forman parte del promedio industrial Dow Jones.

3. En un estudio de mercado, se pidió a 100 consumidores que seleccionaran el mejor reproductor musical digital entre iPod, iRiver y Magic Star MP3. Con la finalidad de resumir las respuestas de los consumidores en una tabla de frecuencias, ¿Cuántas clases tendría la tabla de frecuencias?

4. Se preguntó a un total de 1.000 residentes de Minnesota qué estación del año preferían. Los resultados fueron que: A 100 les gustaba más el invierno; a 300, la primavera; a 400, el verano y a 200 el otoño. Si se resumieran los datos en una tabla de frecuencias, ¿Cuántas clases serían necesarias? ¿Cuáles serían las frecuencias relativas de cada clase? Presente los datos mediante una gráfica de frecuencias de barras.

5. Se preguntó a 2.000 viajeros de negocios frecuentes de Midwestern qué ciudad de la región central de Estados Unidos preferían: Indianápolis, San Luis, Chicago o Milwaukee. A 100 les gustaba Indianápolis; a 450 San Luis; a 1.300 Chicago y el resto prefería Milwakee. Elabore una tabla de frecuencias y una tabla de frecuencias relativas para resumir esta información. Presente la información con una gráfica de pastel.

6. MARK S.A. produce y comercializa fundas de reposición para teléfonos celulares en una variedad de colores. A la compañía le gustaría circunscribir sus planes de producción a 5 diferentes colores. La compañía montó un quiosco en el Paseo Shopping por varias horas y preguntó a personas elegidas de forma aleatoria, que color de fundas era su favorito. Los resultados fueron los siguientes:

Blanco Brillante 130 Negro Metálico 104 Lima Magnético 325 Naranja Tangerina 455 Rojo Fusión 286

a) ¿Qué nombre recibe la tabla? b) Elabore una gráfica de barras para la tabla y una gráfica de pastel. c) Si Mark S.A. tiene planes de producir un millón de fundas para teléfono celular, ¿Cuántas de cada color

debería producir?

7. La siguiente tabla muestra información de una empresa de publicidad que posee 78 clientes en la Provincia de Santa Elena. Presente los datos mediante una gráfica de barras de frecuencia relativa y de pastel.

Salinas 12 La Libertad 45 Santa Elena 21

Page 100: 127381262-ESTADISTICA-APLICADA

 

100  

8. La siguiente distribución de frecuencias muestra el número de millas de viajero frecuente, expresado en miles

de millas, de empleados Servi Plus durante el primer trimestre de 2007.

Millas de viajero frecuente (miles)

Número de empleados

0 a 3 5 3 a 6 12 6 a 9 23 9 a 12 8 12 a 15 2 Total 50

a) ¿Cuántos empleados se estudiaron? b) ¿Cuál es el punto medio de la primera clase? c) Si un empleado recorre 3.000 millas frecuentemente, ¿Dónde se agrupa la observación? Explique. d) Construya un histograma e interprete e) Dibuje un polígono de frecuencias, ¿Cuáles son las coordenadas de la marca correspondiente a la

primera clase? f) Construya un polígono de frecuencias e interprete. g) Interprete las millas de viajero frecuente acumuladas mediante un polígono de frecuencias

acumulativas.

9. A continuación se muestra el número de minutos que le lleva a un grupo de estudiantes de la UPSE viajar en automóvil de su casa al trabajo. 28 25 48 37 41 19 32 26 16 23 23 29 36

31 26 21 32 25 31 43 35 42 38 33 28 a) ¿Cuántas clases recomienda? ¿Qué intervalo de clase sugiere? ¿Cuál sería el límite inferior para la

primera clase? b) Organice los datos en una distribución de frecuencias. c) Presente los datos en un polígono de frecuencias e interprete.

10. Los siguientes datos proporcionan las cantidades semanales que gasta en abarrotes una muestra de casas.

$271 $373 $159 $76 $227 $337 $50 $319 $250 $474 $278 $162 $434 $41 $335 279 116 205 100 279 151 266 240 199 279 297 295 232 123 320 192 429 181 294 321 570 309 342 246 177 235 170 188 303 325 a) ¿Cuántas clases recomendaría? ¿Qué intervalo de clase sugeriría? b) ¿Cuál sería el valor del límite inferior para la primera clase? c) Organice los datos en una distribución de frecuencias d) Presente los datos mediante un histograma y polígono de frecuencias acumulativas. Interprete.

11. Usted tiene los registros de ventas mensuales de la boletería del último año en una sala de cine. Para

representar este conjunto de datos gráficamente, ¿construiría usted un gráfico de barras o un histograma? ¿Por qué es esa alternativa mejor que la otra? Utilizando los siguientes datos, construya el gráfico que usted seleccionó e indique 3 interpretaciones en porcentajes.

12. Usted juega en un equipo local de fútbol, y durante los últimos tres años, ha registrado los goles marcados

por cada uno de los 12 jugadores del equipo. ¿Es más apropiado crear un gráfico de barras o un histograma para representar la situación? Utilizando los siguientes datos, diseñe el gráfico apropiado e indique 3 interpretaciones en porcentajes.

Mes Enero

Febrero

Marzo

Abril

Mayo

Junio

Julio

Agosto

Septiembre

Octubre

Noviembre

Diciembre

Vtas.boletos

25 30 15 20 30 35 40 20 25 15 20 30

Page 101: 127381262-ESTADISTICA-APLICADA

 

101  

13. En una epidemia de escarlatina, se ha recogido el número de muertos en 40 ciudades de un país, obteniéndose la siguiente tabla:

No. de muertos 0 1 2 3 4 5 6 7 Ciudades 7 11 10 7 1 2 1 1

a) Representar gráficamente estos datos mediante cualquier gráfica. b) Obtener la distribución acumulada y representarla gráficamente.

14. Las siguientes calificaciones corresponden al tercer período del año 2009-2010 de la carrera de Ingeniería en

Marketing en la asignatura de Estadística Aplicada.

a) En base a los datos, ¿Debería construir una tabla de frecuencias o una distribución de frecuencias? b) Agrupe los datos (en bruto) en clases con sus respectivas frecuencias. c) Encuentre las frecuencias relativas acumulativas. d) Presente los datos mediante una gráfica de barras de frecuencia relativa o un histograma de frecuencia

relativa. (Analice que tipos de datos han sido recopilados)

15. La tabla siguiente muestra la composición por edad, sexo y trabajo de un grupo de personas con tuberculosis pulmonar en la provincia de Vizcaya (España) en el año 1979:

a) Representar gráficamente la distribución de frecuencias de aquellas personas trabajadoras que padecen tuberculosis.

b) Graficar la distribución de frecuencias de los varones no trabajadores que padecen tuberculosis. c) Graficar la distribución de frecuencias del número total de mujeres que padecen tuberculosis. d) ¿Cuál es la edad en la que se observa con mayor frecuencia que no trabajan los varones? ¿Y las

mujeres? Determinar así mismo la edad más frecuente (sin distinción de sexos ni ocupación). e) ¿Por debajo de qué edad está el 50% de los varones? ¿Por encima de qué edad se encuentra el 80% de

las mujeres?

Jugador 1 2 3 4 5 6 7 8 9 10 11 12 Goles anotados 12 3 24 6 19 12 10 17 4 22 16 8

47 73 68 76 60 35 10 41 46 90 65 61 77 100

90 19 72 64 83 56 73

66 78 79 79 94 84 88 94 72 100

78 86 73 9 61 36 89 84 68 49

Edad Trabajadores No trabajadores Totales Varón Mujer Total Varón Mujer Total Varón Mujer Total 14-19 2 1 3 25 40 65 27 41 68 19-24 10 4 14 20 36 56 30 40 70 24-29 32 10 42 15 50 65 47 60 107 29-34 47 12 59 13 34 47 60 46 106 34-39 38 8 46 10 25 35 48 33 81 39-44 22 4 26 7 18 25 29 22 51

Page 102: 127381262-ESTADISTICA-APLICADA

 

102  

Unidad 2: Estadígrafos y análisis de datos

1. Con los siguientes dos conjuntos de datos, ambos con tamaño de muestra n=7. Calcule estadígrafos de localización y de dispersión. Analice resultados

2. Un entrenador de pista debe decidir a cuál de dos corredoras debe elegir para la próxima carrera de 100

metros planos. El entrenador basará su decisión en los resultados de 5 carreras entre las dos atletas realizadas en un período de una hora con descanso de 15 minutos. Se registraron los siguientes datos en las 5 carreras (en segundos):

Con base en los datos, ¿A cuál de las dos corredoras debe elegir el entrenador? ¿Por qué? b) ¿Debería ser diferente la selección si el entrenador supiera que Kelly se cayó al principio de la cuarta carrera? ¿Por qué? Además, comente las diferencias entre los conceptos media y mediana como medidas de tendencia central y su relación con los literales a) y b).

3. El precio de un departamento sencillo en un día entre semana en diversos hoteles en Salinas fue:

a) ¿Cuál es el precio mediano de un departamento de hotel en Salinas? ¿Cuál es el precio medio? b) ¿Cuál es la variabilidad de los precios de departamento en Salinas? c) ¿Qué provecho podría obtener el Gerente Marketing de un reconocido hotel de la localidad con esta

información?

4. Los últimos 10 días de junio, el tren “Costa Especial” llegó tarde a su destino en los siguientes números de minutos (un número negativo significa que el tren llegó con anticipación en ese número de minutos):

Si el ferrocarril lo contratara a Ud. Para conocer si el tren ofrece un buen servicio, ¿Qué medidas de medición utilizaría? ¿Cuál es la varianza?

5. Una compañía de exportación de pecado desea conocer el promedio de ventas y costos durante sus últimos 10 años; de manera que el Departamento de Mercadeo establezca las estrategias para la crisis financiera del país. Los valores están en miles de dólares.

a) ¿Qué puede concluir sobre las ventas y costos de la compañía de acuerdo a su variabilidad? b) ¿Qué estrategias recomendaría?¿Sus recomendaciones estarían soportadas sobre sus ventas o sus

costos?

Lote 1: 10 2 3 2 4 2 5 Lote 2: 20 12 13 12 14 12 15

Carrera Atletas 1 2 3 4 5 Kelly 12.1 12.0 12.0 16.8 12.1 Tamara 12.3 12.4 12.4 12.5 12.4

14,50 21,00 11,00 13,50 9,00 12,50 12,00 10,50 12,40 11,80 12,20 13,00

-3 6 4 10 -4 124 2 -1 4 1

Año 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Vtas.($) 200 150 160 170 200 220 250 250 300 320 Ctos.($) 140 130 135 140 145 150 170 190 180 185

Page 103: 127381262-ESTADISTICA-APLICADA

 

103  

6. Para estimar el suministro de agua que la comunidad de Falling Rock requerirá en la siguiente década, el alcalde pidió al administrador de a ciudad que determinara cuánta agua utiliza una muestra de familias en esos momentos. La muestra compuesta por 15 familias utilizó los siguientes galones (en miles) el año anterior:

11.2 21.5 16.4 19.7 14.6 16.9 32.2 18.2 13.1 23.8 18.3 15.5 18.8 22.7 14.0

a) ¿Cuál es la cantidad promedio de agua utilizada por familia? ¿Cuál la mediana? ¿ Cuál el rango medio? b) Supóngase el alcalde espero que dentro de 10 años haya en la ciudad 45.000 familias. ¿Cuántos galones

de agua se requerirán al año si la tasa de consumo por familia permanece igual?

7. Los gastos en publicidad constituyen un elemento significativo del costo de los artículos vendidos. Enseguida aparece una distribución de frecuencias que muestra los gastos en publicidad de 60 compañías fabricantes ubicadas en el suroeste de USA. Calcule la media, mediana, moda y la desviación estándar de los gastos de publicidad. Determine la asimetría y curtosis de los datos. Interprete.

8. Una empresa mayorista distribuidora de aparatos eléctricos desea estudiar sus cuentas por cobrar para dos meses sucesivos. Se seleccionan dos muestras independientes de 50 cuentas para cada uno de los meses. Los resultados son los que se resumen en la siguiente distribución de frecuencias:

Monto f de marzo f de abril 0 a menos de 2 6 10 2 a menos de 4 13 14 4 a menos de 6 17 13 6 a menos de 8 10 10 8 a menos de 10 4 0 10 a menos de 12 0 3 Totales 50 50

a) Calcule la media, mediana, moda y desviación estándar para cada conjunto de datos. Interprete. b) Ubique los estadígrafos respectivos en cada histograma de frecuencia. c) Presente en un solo gráfico los dos conjuntos de datos. (Sugerencia: Utilice Polígono de

frecuencias). Interprete. d) Determine la asimetría y curtosis de los datos.

9. Una empresa distribuidora de combustible para calefacción doméstica desea comparar el tiempo requerido

para cobrar las facturas del combustible en dos ciudades. Se eligió una muestra aleatoria de 50 pagarés de Quito y 100 de Guayaquil, y se registró el número de días entre la fecha de entrega y la fecha de pago, y son los que se muestran a continuación:

Gastos en publicidad (millones $)

Número de compañías

25 a 35 5 35 a 45 10 45 a 55 21 55 a 65 16 65 a 75 8 Totales 60

Número de días f en Quito f en Gquil. 0-4 4 6 5-9 14 21 10-14 16 24 15-19 10 30 20-24 5 7 25-29 1 6 29-34 0 6 Totales 50 50

Page 104: 127381262-ESTADISTICA-APLICADA

 

104  

a) Calcule la media, mediana, moda y desviación estándar para cada conjunto de datos. Interprete. b) Ubique los estadígrafos respectivos en cada histograma de frecuencia c) Determine la asimetría y curtosis de los datos.

10. La siguiente distribución de frecuencias muestra los resultados de un censo realizado a una localidad y donde se observa las edades de las personas con su frecuencia.

a) Calcule la media; mediana, moda y desviación estándar. Determine si existe sesgo en los datos. b) Grafique los datos en un histograma y localice los estadígrafos.

11. La siguiente tabla muestra el número de autos vendidos en los últimos 24 meses en una concesionaria.

23 27 30 27 32 31 12 32 35 33 26 28 28 39 32 29 35 36 33 25 15 37 40 30

a) Dibuje un diagrama de puntos. Presente los datos en un diagrama de tallo y hojas. b) Dibuje un diagrama de caja

12. La siguiente tabla muestra las visitas que 40 personas hacen a familias de una provincia. En la lista de abajo,

en orden de menor a mayor, aparece la cantidad de visitas de la semana pasada. 38 40 41 45 48 48 50 50 51 51 52 52 52 53 54 55 55 55 56 56 57 59 59 59 62 62 62 63 64 65 66 66 67 67 69 69 71 77 78 79

a) Realice un diagrama de tallos y hojas b) Determine la cantidad mediana de llamadas. Determine el primer y noveno decil, el 33°percentil. c) Dibuje un diagrama de caja

13. El siguiente diagrama de tallo y hojas muestra el número de unidades producidas por día en una fábrica.

a) ¿Cuántos días se registraron? ¿Cuántas observaciones hay en la primera clase? b) ¿Cuál es el valor mínimo y el valor máximo? c) Elabore una lista de los valores reales de la cuarta fila. d) ¿Cuántos valores son menores que 70? ¿Cuántos valores son mayores a 80 o más? ¿Cuántos valores

se encuentran entre 60 y 89, inclusive? e) ¿Cuál es la mediana? ¿Cuál es el primer y tercer cuartil? Dibuje un diagrama de puntos y de caja.

Días f 0 4 6 5 9 30 10 14 22 15 19 18 20 24 14 25 29 10 30 34 6

3 8 4 5 6 6 0 1 3 3 5 5 9 7 0 2 3 6 7 7 8 8 5 9 9 0 0 1 5 6 10 3 6

Page 105: 127381262-ESTADISTICA-APLICADA

 

105  

Unidad 3: Introducción a Probabilidad

1. ¿Qué es probabilidad? Cite tres ejemplos para cada uno de los siguientes enfoques de la teoría de probabilidad:

Enfoque clásico a priori Enfoque clásico de frecuencia relativa Enfoque subjetivo

2. Si se lanza una moneda una vez, tres veces, diez veces, ¿Cuántos resultados diferentes son posibles?

3. Si se lanza un dado una vez, dos veces, cuatro veces, ¿Cuántos resultados diferentes son posibles?

4. Si se va a colocar en una repisa un grupo de seis libros de texto, pero solo hay lugar para cuatro de ellos ¿En

cuántas formas se pueden colocar en el estante estos libros?

5. Si se va a colocar en una repisa un grupo de seis libros de texto, ¿Cuál es el número de formas en que se pueden colocar los seis libros?

6. Un jardinero dispone de siete surcos en su hortaliza para sembrar tomates, berenjenas, pimientos, pepinos, fríjoles, lechugas y calabazas. A cada verdura se le asignará un solo surco. ¿De cuántas formas puede colocar estas verduras en su jardín?

7. Los cinco individuos que componen la dirección de una pequeña empresa manufacturera serán sentados juntos en un banquete. Determinar el número de diferentes posiciones posibles de los asientos para los cinco individuos.

8. En relación al ejemplo anterior, supongamos que sólo a tres de los cinco directivos se les pedirá representar a la compañía en el banquete. ¿Cuántas diferentes posiciones serán posibles en la mesa considerando que pueden ser elegidos tres cualesquiera de los cinco individuos?

9. Una “trifecta” en el hipódromo local consiste en seleccionar el orden correcto de llegada de los tres primeros caballos en la novena carrera, Si en la novena carrera de hoy compiten 12 caballos ¿Cuántos resultados para la “trifecta” hay?

10. La gerente marketing de una tienda de ropa para damas desea determinar la relación entre el tipo de clientes y la forma de pago. Ha recopilado la siguiente información:

a) Dé un ejemplo de evento simple b) Dé un ejemplo de un evento compuesto c) ¿Cuál es el complemento del pago de contado? d) ¿Por qué es un evento compuesto el “cliente habitual que paga de contado”? e) Dibuje el diagrama de Venn

11. Para curar una enfermedad se ha aplicado un nuevo tratamiento a una serie de individuos, obteniéndose los

resultados reflejados en la tabla.

Pago Clientes Pago a crédito Pago de contado Habituales 70 50 No habituales 40 40

Curados C No Curados NC Tratamiento Nuevo TN 60 21 Tratamiento Antiguo TA 43 36

Page 106: 127381262-ESTADISTICA-APLICADA

 

106  

a) “Se ha curado” ¿Qué tipo de evento es? ¿Por qué? b) “La persona se ha curado con el tratamiento Nuevo? ¿Qué tipo de evento es? ¿Por qué? c) Dibuje el diagrama de Venn

12. De 39 alumnos de una clase, 16 alumnos escogieron como idioma el francés y 27 el inglés. Nueve alumnos

eligieron ambos idiomas y el resto no escogió ninguno de ellos.

a) Escriba los eventos simples y dos eventos compuestos b) Con la información dada construya un diagrama de Venn c) Presente los datos en una tabla de contingencia

13. La asociación de estadística de una universidad estatal grande desearía determinar si hay una relación entre el

interés de un estudiante en la estadística y su habilidad para las matemáticas. Se selecciona una muestra aleatoria de 200 estudiantes y se les pregunta si su habilidad para las matemáticas e interés en las estadísticas es bajo, promedio o alto. Los resultados fueron los siguientes:

a) Cite tres ejemplos de eventos simples b) Cite tres ejemplos de eventos compuestos

14. En una amplia área metropolitana se seleccionó una muestra de 500 entrevistados para determinar diversas

informaciones relacionadas con el comportamiento del consumidor. Entre las preguntas realizadas se encontraba: “¿Disfruta ir de compras”? De 240 hombres; 136 contestaron que si. De 260 mujeres; 224 contestaron que si.

a) Elabore una cruzada y un diagrama de Venn para evaluar las probabilidades. b) Escriba un ejemplo de evento simple y de evento compuesto c) ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria: Sea hombre?,

¿Disfrute ir de compras? d) ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria: Sea mujer? ¿No

disfrute ir de compras? e) ¿Qué probabilidad hay de que un entrevistado seleccionado al azar: Sea mujer y disfrute ir de

compras? ¿Sea hombre y no disfrute ir de compras? f) ¿Qué probabilidad hay de que un entrevistado seleccionado al azar Sea hombre y disfrute ir de

compras? g) Supóngase que el entrevistado seleccionado sea mujer: ¿Cuál es entonces la probabilidad de que no

disfrute ir de compras? h) Supóngase que el entrevistado disfruta ir de compras ¿Cuál es entonces la probabilidad de que sea

un hombre? i) ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria sea mujer o disfrute

ir de compras? j) ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria sea hombre o no

disfrute ir de compras? k) ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria sea hombre o mujer?

15. De 250 empleados de una compañía tabacalera, un total de 130 personas fuman. Hay 150 hombres trabajando en esa compañía; 85 de ellos fuman.

Habilidad para las matemáticas Interés en la estadística Bajo Promedio Alto Bajo 60 15 15 Promedio 15 45 10 Alto 5 10 25

Page 107: 127381262-ESTADISTICA-APLICADA

 

107  

a) Elabore una cruzada y un diagrama de Venn para evaluar las probabilidades. b) Escriba un ejemplo de evento simple y de evento compuesto c) ¿Cuál es la probabilidad de que el empleado seleccionado en forma aleatoria: Sea hombre?, ¿Fume? d) ¿Cuál es la probabilidad de que el empleado seleccionado en forma aleatoria: Sea mujer? ¿No fume? e) ¿Qué probabilidad hay de que un empleado seleccionado al azar: Sea mujer y fume? ¿Sea hombre y

no fume? f) ¿Qué probabilidad hay de que un empleado seleccionado al azar: Sea mujer y no fume? g) Supóngase que se conoce a una empleada de la compañía: ¿Cuál es entonces la probabilidad de que

no fume? h) Supóngase que se conoce a un empleado de una compañía: ¿Cuál es entonces la probabilidad de que

fume? i) ¿Cuál es la probabilidad de que un empleado seleccionado en forma aleatoria sea hombre o fume? j) ¿Cuál es la probabilidad de que un empleado seleccionado en forma aleatoria sea mujer o no fume? k) ¿Cuál es la probabilidad de que el entrevistado seleccionado en forma aleatoria fume o no?

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Matemáticas Probabilidades y resuelva:

16. Ejercicios: 1, 2 (página 20) 17. Ejercicios: 1, 3 y 6 (página 36) 18. Ejercicios: 1 (página 40) y 2 (página (41)

Regla Multiplicativa.-

19. En una papelería hay en exhibición 20 marcadores. Seis de ellos son rojos y 14 azules. Se tienen que seleccionar, al azar, dos marcadores del grupo de 20. ¿Cuál es la probabilidad de qué ambos marcadores escogidos sean rojos? (supóngase que se realiza primero un muestreo sin reposición y luego un muestreo con reposición)

20. En un recipiente hay dos tubos defectuosos y cinco buenos. Se seleccionan, al azar, dos tubos del depósito, sin reposición.

a) ¿Cuál es la probabilidad de que ambos tubos sean defectuosos? b) ¿Cuál es la probabilidad de que el primer tubo seleccionado sea defectuoso y que el segundo sea bueno?

21. Una caja con nueve guantes de béisbol contiene dos para jugadores zurdos y siete para derechos.

a) Se seleccionan al azar dos guantes de la caja, sin reposición y luego con reposición, ¿Cuál es la probabilidad de que: a.1 ambos guantes seleccionados sean para jugadores derechos? a.2 se escogiera un guante para jugador derecho y uno para zurdo? b) Si se seleccionan 3 guantes, ¿Cuál es la probabilidad de que los 3 sean para jugadores zurdos?

22. Un ánfora que contiene veinte nombres, cinco nombres de hombres y quince de mujeres.

a) Si se seleccionan dos nombres del ánfora, sin reposición, ¿Cuál es la probabilidad de qué: a.1 Los nombres seleccionados sean de mujeres? a.2 El primer nombre sea de un hombre y el segundo de una mujer? a.3 El primer nombre seleccionado sea el de una mujer y el segundo de un hombre?

b) Compare las respuestas de a.1 y a.2. ¿Existe alguna diferencia? ¿Por qué?

Árboles de decisión.-

23. Represente mediante un árbol de decisión la siguiente tabla de contingencia para variables del color de la cara de naipes. Defina como Evento A (Es As) y como evento B (Es negro)

Page 108: 127381262-ESTADISTICA-APLICADA

 

108  

24. Represente mediante un árbol de decisión la siguiente tabla cruzada para cocina moderna y baño moderno de una encuesta realizada a 233 familias. Defina como evento A (Existencia de cocina moderna) y como evento B (Existencia de baño moderno)

25. Una encuesta política realizada entre 1.500 votantes registrados del estado de Nueva York produjo la siguiente calificación, de acuerdo a la afiliación partidaria sindical. Represente la información mediante un árbol de decisión con sus respectivas probabilidades.

Sindicalizados Afiliación partidaria Si No Desempleados Demócrata 371 19 208 Independiente 263 88 93 Republicano 89 222 147

Rojo Negro As 2 2 No es as 24 24

Existencia de baño moderno Carencia de baño moderno Existencia de cocina moderna 72 8 Carencia de cocina moderna 7 146

Page 109: 127381262-ESTADISTICA-APLICADA

 

109  

Unidad 4: Variables aleatorias discretas

1. Con las siguientes distribuciones de probabilidad:

Distribución C Distribución D x P(x) X P(x) 0 0.20 0 0.10 1 0.20 1 0.20 2 0.20 2 0.40 3 0.20 3 0.20 4 0.20 4 0.10

a) Calcule la media para cada distribución. b) Calcule la desviación estándar para cada distribución. c) Compare los resultados.

2. Con los registros de la compañía de los últimos 500 días hábiles, el gerente de Silverman Motors, una

distribuidora suburbana de automóviles, ha resumido en la siguiente tabla los automóviles vendidos cada día:

Número de

automóviles vendidos por día

0 1 2 3 4 5 6 7 8 9 10 11 Total

Frecuencia de ocurrencia

40 100 142 66 36 30 26 20 16 14 8 2 500

a) Elabore la distribución de probabilidad para la variable aleatoria discreta X, el número de automóviles

vendidos por día. b) Calcule la media o cantidad esperada de venta de automóviles por día. c) Calcule la desviación estándar. d) ¿Cuál es la probabilidad de que vendan en determinado día: 1) Menos de cuatro automóviles 2) Cuando más cuatro automóviles 3) Por lo menos cuatro automóviles 4) Más de cuatro automóviles

3. Se lanza dos veces una moneda balanceada y se observa el número y de caras. Calcule la distribución de

probabilidad para y. Grafique un histograma de frecuencia relativa teórica para y.

4. El director de sistemas de una fábrica pequeña de computadoras personales cree que la distribución de probabilidad discreta que se muestra en la siguiente figura caracteriza a “y”, el número de PC nuevas que la empresa arrendará el siguiente año.

a.- Muestre la distribución de probabilidad en forma tabular.

Page 110: 127381262-ESTADISTICA-APLICADA

 

110  

b.- ¿Qué probabilidad hay de que se arrendarán exactamente 9 PC? ¿De que se arrendarán menos de 12 PC?

5. Sea X una variable aleatoria discreta cuya función de probabilidad es:

X 0 1 2 3 4 5 P(X) 0.1 0.2 0.1 0.4 0.1 0.1

a) Calcular y representar gráficamente la función de distribución. b) Calcular las siguientes probabilidades: 1) p (X < 4.5) 2) p (X ≥ 3) 3) p (3 ≤ X < 4.5)

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

6. Ejercicios: 1, 2, 4 y 5 (página 11)

7. Ejercicios: 9, 10 y 12 (página 12)

8. Ejercicios: 17 (página 13) y 24 (página (14)

9. En los siguientes literales encuentre la probabilidad respectiva:

a) Si n= 4 y p=0.12, entonces P(x=0)= ? b) Si n=10 y p=0.40, entonces P(x=9)= ? c) Si n=15 y p=0.50, entonces P(x=8)= ? d) Si n= 9 y p=0.90, entonces P(x=9)= ?

10. La probabilidad de que un paciente no se recupere de una operación en particular es 0.1.

a) ¿Cuál es la probabilidad de que exactamente dos de los siguientes ocho pacientes que sufran esta operación

no se recuperen? b) ¿Cuál es la probabilidad de que sólo un paciente de los ocho no se recupere?

11. En base a experiencias pasadas, el 7% de todos los comprobantes de gastos de almuerzos están equivocados. Si se selecciona una muestra aleatoria de cinco comprobantes ¿Cuál es la probabilidad de que:

a) exactamente uno esté equivocado? b) por lo menos dos estén equivocados? c) no más de dos estén equivocados?

12. Se sabe que el 30% de las piezas defectuosas en un proceso de manufactura pueden quedar bien mediante un

trabajo de reprocesado.

a) ¿Cuál es la probabilidad de que en un lote de seis piezas defectuosas se puedan reprocesar satisfactoriamente por lo menos tres de ellas?

b) ¿Cuál es la probabilidad de que ninguna de ellas se pueda reprocesar? c) ¿Cuál es la probabilidad de que todas se puedan reprocesar?

13. En base a experiencia anterior, la impresora principal del centro de cómputo de cierta universidad funciona

adecuadamente el 90% del tiempo. Si se hace una muestra aleatoria de 10 inspecciones.

a) ¿Cuál es la probabilidad de que la impresora principal funcione en forma apropiada: 1.- Exactamente nueve veces? 2.- por lo menos nueve veces? 3.- cuando más nueve veces? 4.- más de nueve veces? 5.- menos de nueve veces?

b) ¿Cuántas veces se puede esperar que funcione en forma apropiada la impresora principal?

Page 111: 127381262-ESTADISTICA-APLICADA

 

111  

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

14. Ejercicios: 1, 2, 3, 4 y 6 (página 15)

15. Ejercicios: 15 y 16 (página 12)

16. Ejercicios: 17 (página 13) y 24 (página (14)

17. Determine lo siguiente:

a) Si N=10, r=5; n=4, entonces ¿P(y=3) es? b) Si N= 6, r=3; n=4, entonces ¿P(y=1) es? c) Si N= 5, r=3; n=3, entonces ¿P(y≥1) es?

18. Determine la distribución de probabilidad, la media y varianza de las siguientes variables aleatorias hipergeométrica:

a) Si N=12, r=5; n=3 b) Si N=8, r=3; n=2

19. El decano de la Facultad de Ciencias Administrativas desea crear un comité ejecutivo de cinco personas

seleccionadas entre los 40 miembros de la facultad. La selección debe ser aleatoria y en la facultad hay ocho miembros de la carrera de Ingeniería en Marketing. a) ¿Cuál es la probabilidad de que en el comité haya

1) ninguno de marketing? 2) al menos uno de marketing? 3) no mas de uno de marketing?

b) ¿Cuántos miembros de la carrera de marketing se podría esperar que participen?

20. Con base en datos suministrados por el Departamento de Salud y Recursos Humanos de Estados Unidos, se estima que uno de cada cinco trasplantes de riñón falla en menos de un año. Suponga que exactamente 3 de los siguientes 15 trasplantes de riñón fallarán en menos de un año. Considere una muestra aleatoria de tres de estos 15 pacientes.

a) Calcule la probabilidad de que los tres trasplantes muestreados fallen en menos de un año. b) Calcule la probabilidad de que por lo menos uno de los tres trasplantes muestreados fallen en menos de un

año.

21. De un inventario de 48 automóviles que se embarcan a distribuidores locales, 12 tienen instalados radios defectuosos.

a) ¿Cuál es la probabilidad de que cierto distribuidor reciba ocho automóviles y: 1) todos tengan radios defectuosos? 2) ninguno tenga radio defectuoso? 3) por lo menos uno tenga el radio defectuoso?

b) ¿Cuántos automóviles con radios defectuosos se esperaría recibir?

22. La Dirección de la carrera de Ingeniería en Marketing desea estimar el porcentaje de estudiantes que fuman

cigarrillos durante el receso de clases en el horario nocturno. En la carrera existen 450 alumnos, se sabe por estudios anteriores que el 30% fuma y se decide realizar una encuesta piloto a 100 estudiantes. Si Ud. es designado como parte del equipo estadístico, determine:

a) La probabilidad de que diez alumnos fumen en el receso nocturno. b) La probabilidad de que treinta alumnos fumen. c) ¿Cuál es el promedio de estudiantes que se esperan fumen?

Page 112: 127381262-ESTADISTICA-APLICADA

 

112  

Unidad 5: Variables Aleatorias Continuas

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

1. Ejercicios: 1, 2 y 3 (página 33)

2. Ejercicios: 6 (página 34) y 12 (página (35)

3. Supongamos que X es una variable aleatoria que se distribuye según una distribución N con media µ = 70 y

varianza σ² = 36. Calcular: a) P (x ≤ 80); P (x ≤ 89); P (x < 75) b) P (x > 80); P (x > 89); P (x ≥ 75) c) P (x ≤ 60); P (x ≤ 65); P (x ≤ 50) d) P (x > 60); P (x > 65); P (x > 50) e) P (75 < x ≤ 80); P (80 < x ≤ 90); P (70 < x ≤ 80) f) P (60 < x ≤ 70); P (55 < x ≤ 65); P (45 < x ≤ 50) g) P (50 < x ≤ 90); P (60 < x ≤ 80); P (60 < x ≤ 85)

4. Supongamos que Z es una variable aleatoria que se distribuye según una distribución N(0, 1). Calcular: a) P (z ≤ 1.47); P (z ≤ 1.9); P (z < 2.9) b) P (z > 1.47); P (z > 2.8); P (z ≥ 0.5) c) P (z ≤ −1.47); P (z ≤ −1.95); P (z ≤ −0.7) d) P (z > - 1.47); P (z > - 3.0); P (z > - 1.02) e) P (0.45 < z ≤ 1.47); P (1.45 < z ≤ 2.47); P (1.5 < z ≤ 1.6) f) P (−1.47 < z ≤ − 0.45); P (−1.7 < z ≤ − 0.1); P (−2.47 < z ≤ − 1.45) g) P (-1.47 < z ≤ 0.45); P (-1.71 < z ≤ 1.5); P (-2.33 < z ≤ 2.33)

5. Halle el valor de z para cada probabilidad, ejemplo: P (z > zo) = 0.05, entonces zo = ? a) p = 0.75; p = 0.63; p = 0.99; p = 0.80 b) p= 0.25; p = 0.49; p = 0.10; p = 0.05 c) P (z > zo) = 0.05; P (z > zo) = 0.40; P (z > zo) = 0.90 d) P (z < zo) = 0.80; P (z < zo)= 0.20; P (z < zo) = 0.10 Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

6. Ejercicios: 1, 2 y 3 (página 36)

Page 113: 127381262-ESTADISTICA-APLICADA

 

113  

7. Ejercicios: 8 y 11 (página 37)

8. Ejercicios: 17 (página 38) y 18 (página (39)

9. Se supone que los resultados de un examen siguen una distribución normal con media 78 y varianza 36. Se pide:

a) ¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una calificación superior a 72?

b) Si se sabe que la calificación de un estudiante es mayor que 72 ¿cuál es la prioridad de que su calificación sea, de hecho, superior a 84?

10. Las precipitaciones anuales en una región alcanzan, de media, los 2000 mm, con una desviación típica de 300mm. Calcula, suponiendo que siguen una distribución normal, la probabilidad de que en un año determinado la lluvia:

a) No supere los 1200 mm b) Supere los 1500 mm. c) Esté entre 1700 y 2300 mm.

11. Un profesor de matemáticas ha observado que las notas obtenidas por sus alumnos en los exámenes de

Estadística siguen una distribución N (6; 2,5). Se han presentado al último examen 32 alumnos, ¿cuántos sacaron al menos un 7?

12. Una empresa lleva a cabo una prueba para seleccionar nuevos empleados. Por la experiencia de pruebas anteriores, se sabe que las puntuaciones siguen una distribución normal de media 80 y desviación típica 25. ¿Qué porcentaje de candidatos obtendrá entre 75 y 100 puntos?

13. El tiempo necesario para dar servicio a un automóvil en la estación de servicios Miller está distribuido normalmente con media μ = 4.5 minutos y desviación estándar σ = 1.1 minutos. a) ¿Cuál es la probabilidad de que un automóvil seleccionado aleatoriamente requiera más de 6 minutos de servicio o menos de 5? b) ¿Cuál es el tiempo de servicio de modo que sólo el 5% de todos los automóviles requieran más tiempo?

14. La distribución de la demanda (en número de unidades por unidad de tiempo) de un producto a menudo puede aproximarse con una distribución de probabilidad normal. Por ejemplo, una compañía de comunicación por cable ha determinado que el número de interruptores terminales de botón solicitados diariamente tiene una distribución normal con una media de 200 y una desviación de 50.

a) ¿En qué porcentaje de los días de demanda será de menos de 90 interruptores?

b) ¿En qué porcentaje de los días de demanda estará entre 225 y 275 interruptores?

c) Con base en consideraciones de costes, la compañía ha determinado que su mejor estrategia consiste en producir una cantidad de interruptores suficiente paras atender plenamente la demanda en 94% de todos los días. ¿Cuántos interruptores terminales deberá producir la compañía cada día?

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

15. Ejercicios: 1, 3 y 4 (página 44)

16. Ejercicios: 11 (página 45) y 15 (página (46)

17. Ejercicios: 3 y 6 (página 41)

18. Ejercicios: 13 (página 42) y 14 (página 43)

Page 114: 127381262-ESTADISTICA-APLICADA

 

114  

Unidad 6: Muestreo y Estimación

1. Suponga que un centro de cómputo regional desea evaluar el desempeño de su sistema de memoria en disco.

Una medida del desempeño es el tiempo medio entre fallas de su unidad de disco. A fin de estimar este valor, el centro registró el tiempo entre fallas para una muestra aleatoria de 45 fallas de la unidad de disco. Se obtuvo:

y=1.762 horas y δ=215 horas Estime el verdadero tiempo medio entre fallas con un intervalo de confianza de 90%.

2. Queremos estimar la diferencia entre los salarios iníciales medios de graduados recientes en Ingeniería en Sistemas e Ingeniería en Desarrollo Comunitario de la UPSE. Se cuenta con la siguiente información: * Una muestra aleatoria de 59 salarios iníciales de graduados en Ingeniería en Sistemas de la UPSE arrojó una media de muestra de $3.267 y una desviación estándar de 5443. * Una muestra aleatoria de 30 salarios iníciales de graduados en Ingeniería en Desarrollo Comunitario de la UPSE arrojó una media de muestra de $2.746 y una desviación estándar de $428.

3. El departamento de informática de la UPSE realiza un informe cada año de las computadoras que tienen algún defecto de manera que se pueda proyectar la compra de nuevos equipos para el año lectivo venidero. En el año 2007 se realizó una muestra a 12 computadoras de las cuales dio como resultado una media de 7 máquinas defectuosas con una desviación de 1.02. En el año 2008 se muestreó a 25 máquinas con una media de 15 equipos con defectos y una desviación de 2.05. Establezca un intervalo de confianza de 95% para la diferencia entre las medias de computadoras con defectos en la UPSE. Intérprete e intervalo. Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

4. Ejercicios: 1 y 2 (página 57)

5. Ejercicios: 3 y 4 (página 58)

6. Ejercicios: 3, 7, 8, 9 y 10 (página 59)

7. Ejercicios: 11, 12 y 13 (página 60)

8. Ejercicios: 18 y 19 (página 62)

9. Resolver ejercicios propuestos en el texto guía de Lind Marchall: páginas: 309, 312 y 314.

Page 115: 127381262-ESTADISTICA-APLICADA

 

115  

Unidad 7: Pruebas de Hipótesis

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

1. Ejercicios: 1, 2, 3 y 4 (página 85)

2. Ejercicios: 5 y 6 (página 86)

3. Ejercicios: 7 y 9 (página 87)

4. Ejercicios: 10, 12 y 13 (páginas 88 y 89)

5. Analice las siguientes pruebas estadísticas sobre proporciones: a) : 0.6 : 0.6 0.65, 100, 0.01 b) : 0.29 : 0.29 0.26, 90, 0.01 c) : 0.36 : 0.36 0.34, 630, 0.05 d) : 0.2 : 0.2 0.245, 400, ? 0.01 e) : 0.55 : 0.55, 175, 300, ? 0.05 f) : 0.2 : ? 0.2, 235, 1000, ? 0.02

6. Un manufacturero de juguetes Tailandés reclama que solo un 10% de los osos de juguete hechos para hablar están defectuosos. Cuatrocientos de estos juguetes se sometieron a prueba de forma aleatoria y se encontró que 50 estaban defectuosos. Pruebe el reclamo del manufacturero con un nivel de significación del 5%.

7. Una agencia de empleos afirma que el 80% de todas las solicitudes hechas por mujeres con niños prefieren trabajos a tiempo parcial. En una muestra aleatoria de 200 solicitantes mujeres con niños, se encontró que 110 prefirieron trabajos a tiempo parcial. Pruebe la hipótesis de la agencia con un nivel de significancia de 5%.

8. Nacionalmente, un 16% de los hogares tiene una computadora personal. En una muestra aleatoria de 80 hogares en Baltimore, solo 13 poseían una computadora personal. Con un nivel de significancia de 5%, pruebe si el porciento de hogares en Baltimore que tienen computadoras personales es menor que el porcentaje nacional.

9. Se requiere determinar si la proporción de personas que toman un medicamento para el dolor de cabeza y que obtienen alivio es del 90%, como afirma la publicidad. Se tiene una muestra aleatoria de 100 individuos de los cuales, 88 obtuvieron alivio al tomar el medicamento. Pruebe con un nivel de confianza del 95%.

Page 116: 127381262-ESTADISTICA-APLICADA

 

116  

Unidad 8: Regresión Lineal Simple y Múltiple

Ingresar a la Biblioteca Virtual de la UPSE y mediante la dirección que aparece en la página 5, seleccione el texto Probabilidad Problemario y resuelva:

1. Ejercicios: 1 y 2 (página 109)

2. Ejercicios: 3 y 4 (página 110)

3. Ejercicios: 5, 6 y 7 (página 111)

4. Ejercicios: 12, 13, 14 y 15 (Páginas 114)

5. Ejercicios: 16, 17, 18, 19 y 20 (página 116)

6. Resolver problemas propuestos por el docente del texto guía, páginas: 548 a 560

Page 117: 127381262-ESTADISTICA-APLICADA

 

117  

Distribución z (Probabilidad acumulada)

X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,53590,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57230,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,72240,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,78520,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83891,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86211,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88301,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90151,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91771,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93191,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94411,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95451,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96331,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97061,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97672,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,981692,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,985742,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,988992,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,991582,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,993612,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,995202,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,996432,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,997362,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,998072,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,998613,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99897 0,99900

Page 118: 127381262-ESTADISTICA-APLICADA

 

118  

Distribución t Student

Puntosdeporcentajedeladistribuciónt

� r

0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0005

1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,656 636,578

2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,600

3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924

4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610

5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869

6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959

7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,408

8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041

9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587

11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318 13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140 15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073

16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015 17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965 18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922 19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883 20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850

21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,768 24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,725

26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,689 28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674 29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,660 30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646

40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551 60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,460 120 �

0,6770,674

0,8450,842

1,0411,036

1,2891,282

1,6581,645

1,9801,960

2,3582,326

2,6172,576

3,3733,290

Page 119: 127381262-ESTADISTICA-APLICADA

 

119  

Distribución chi cuadrada

Probabilidad de un valor superior - Alfa (α) Grados libertad 0,1 0,05 0,025 0,01 0,005

1 2,71 3,84 5,02 6,63 7,882 4,61 5,99 7,38 9,21 10,603 6,25 7,81 9,35 11,34 12,844 7,78 9,49 11,14 13,28 14,865 9,24 11,07 12,83 15,09 16,756 10,64 12,59 14,45 16,81 18,557 12,02 14,07 16,01 18,48 20,288 13,36 15,51 17,53 20,09 21,959 14,68 16,92 19,02 21,67 23,5910 15,99 18,31 20,48 23,21 25,1911 17,28 19,68 21,92 24,73 26,7612 18,55 21,03 23,34 26,22 28,3013 19,81 22,36 24,74 27,69 29,8214 21,06 23,68 26,12 29,14 31,3215 22,31 25,00 27,49 30,58 32,8016 23,54 26,30 28,85 32,00 34,2717 24,77 27,59 30,19 33,41 35,7218 25,99 28,87 31,53 34,81 37,1619 27,20 30,14 32,85 36,19 38,5820 28,41 31,41 34,17 37,57 40,0021 29,62 32,67 35,48 38,93 41,4022 30,81 33,92 36,78 40,29 42,8023 32,01 35,17 38,08 41,64 44,1824 33,20 36,42 39,36 42,98 45,5625 34,38 37,65 40,65 44,31 46,9326 35,56 38,89 41,92 45,64 48,2927 36,74 40,11 43,19 46,96 49,6528 37,92 41,34 44,46 48,28 50,9929 39,09 42,56 45,72 49,59 52,3430 40,26 43,77 46,98 50,89 53,6740 51,81 55,76 59,34 63,69 66,7750 63,17 67,50 71,42 76,15 79,4960 74,40 79,08 83,30 88,38 91,9570 85,53 90,53 95,02 100,43 104,2180 96,58 101,88 106,63 112,33 116,3290 107,57 113,15 118,14 124,12 128,30

100 118,50 124,34 129,56 135,81 140,17