Compendio de Probabilidad

50
1.-ESTADÍSTICA DESCRIPTIVA (D1) 1.1.-CONCEPTO, CLASIFICACIÓN Y CAMPO DE APLICACIÓN DE LA ESTADÍSTICA. Si bien no hay una definición de estadística exacta, se puede decir que la "estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos". Esta definición cubre gran parte de la actividad del científico. Es importante observar que el objeto del que realiza el análisis estadístico son los datos y las observaciones científicas por sí mismos, mas que el material químico que interviene en el estudio. Por lo tanto no es posible trazar límites rígidos entre la química, la estadística y la matemática. La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la "inferencia estadística". La estadística descriptiva implica la abstracción de varias propiedades de conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó numéricos. Entre estas propiedades, están la frecuencia con que se dan varios valores en la observación, la noción de un valor típico o usual, la cantidad de variabilidad en un conjunto de datos observados y la medida de relaciones entre 2 ó mas variables. El campo de la estadística descriptiva no tiene que ver con las implicaciones o conclusiones que se puedan deducir de conjuntos de datos. La estadística descriptiva sirve como método para organizar datos y poner de manifiesto sus características esenciales con el propósito de llegar a conclusiones. La inferencia estadística se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta. Por ejemplo, Mendel al estudiar la manera como

Transcript of Compendio de Probabilidad

Page 1: Compendio de Probabilidad

1.-ESTADÍSTICA DESCRIPTIVA

(D1) 1.1.-CONCEPTO, CLASIFICACIÓN Y CAMPO DE APLICACIÓN DE LA ESTADÍSTICA.

Si bien no hay una definición de estadística exacta, se puede decir  que   la "estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos".

Esta definición cubre gran parte de la actividad del científico. Es importante observar que el objeto del que realiza el análisis estadístico son los datos y las observaciones científicas por sí mismos, mas que el material químico que interviene en el estudio.Por lo tanto no es posible trazar límites rígidos entre la química, la estadística y la matemática.

La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la "inferencia estadística".

La estadística descriptiva implica la abstracción de varias propiedades de conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó numéricos. Entre estas propiedades, están la frecuencia con que se dan varios valores en la observación, la noción de un valor típico o usual, la cantidad de variabilidad en un conjunto de datos observados y la medida de relaciones entre 2 ó mas variables.El campo de la estadística descriptiva no tiene que ver con las implicaciones o conclusiones que se puedan deducir de conjuntos de datos. La estadística descriptiva sirve como método para organizar datos y poner de manifiesto sus características esenciales con el propósito de llegar a conclusiones.

La inferencia estadística se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta. Por ejemplo, Mendel al estudiar la manera como diferían entre sí las plantas de guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo que hacer sus conclusiones necesariamente basándose en un grupo de plantas relativamente poco numeroso comparado con toda la población de plantas de guisantes de un tipo particular.

(D2) ESTADISTICA:

Es la rama de la matematicas que se ocupa de reunir,organizar y analizar datos

numericos,y que ayuda a resolver problemas como el diseño de experimentos y toma

de decisiones.

La estadistica se clasifica en 2 ramas:

Page 2: Compendio de Probabilidad

1)Estadistica descriptiva

2) Estadistica imperencial

1.-Estadistica descriptiva

La estadistica descriptiva se refiere ala parte del estudio que incluye la

obtencion,organización,presentación y descripcion de la informacion numerica.

2.-Estadistica imperencial La estadistica imperencial es una tecnica mediante la cual se

obtiene generalizaciones o se toman decisiones en base a una información parcial o

incompleta obtenida mediante tecnicas descriptivas.

Campo de aplicacion:

en la actualidad se aplica en las ciencias sociales, en las ciencias naturales.

(fisicas,metereologicas) en la industria (Produccion y control de calidad) en la

administracion industrial (Recursos humanos, materiales, tiempos y movimientos etc.)

en la economia, en las finanzas (inversiones,bolsas de valores) en la agricultura

(periodo de siembra, calendario de lluvia)en el comercio, en la educación,en la

medecina, etc.

(D1) 1.2.- POBLACIÓN Y MUESTRA ALEATORIA.

Población:El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes.

Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones.

Una población es un conjunto de elementos que presentan una característica común.

El tamaño que tiene una población es un factor de suma importancia en el proceso de investigación estadística, y este tamaño vienen dado por el número de elementos que constituyen la población, según el número de elementos la población puede ser finita o infinita. Cuando el número de elementos que integra la población es muy grande, se puede considerar a esta como una población infinita, por ejemplo; el conjunto de todos los números positivos. Una población finita es aquella que está formada por un limitado número de elementos.

Page 3: Compendio de Probabilidad

Cuando la población es muy grande, es obvio que la observación de todos los elementos se dificulte en cuanto al trabajo, tiempo y costos necesario para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadística. Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado población o universo, se examina una pequeña parte del grupo llamada muestra.

Muestra: "Se llama muestra a una parte de la población a estudiar que sirve para

representarla". "Una muestra es una colección de algunos elementos de la población, pero no

de todos "Una muestra debe ser definida en base de la población determinada, y las

conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia

El estudio de muestras es más sencillo que el estudio de la población completa; cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad.

Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población.

Los expertos en estadística recogen datos de una muestra. Utilizan esta información para hacer referencias sobre la población que está representada por la muestra. En consecuencia muestra y población son conceptos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo.

Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la misma probabilidad.

(D2) POBLACIÓN Y MUESTRA

   Una población está determinada por sus características definitorias. Por lo tanto, el conjunto de elementos que posea esta característica se denomina población o universo. Población es la totalidad del fenómeno a estudiar, donde las unidades de población poseen una característica común, la que se estudia y da origen a los datos de la investigación.

Page 4: Compendio de Probabilidad

    Entonces, una población es el conjunto de todas las cosas que concuerdan con una serie determinada de especificaciones. Un censo, por ejemplo, es el recuento de todos los elementos de una población.

    Cuando seleccionamos algunos elementos con la intención de averiguar algo sobre una población determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, esperamos que lo que averiguamos en la muestra sea cierto para la población en su conjunto. La exactitud de la información recolectada depende en gran manera de la forma en que fue seleccionada la muestra.

    Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra representativa de la misma.

    La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen la población de la que fue extraída, lo cual nos indica que es representativa. Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra.

Leyes del método de muestreo.

   El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las cuales son:

Ley de los grandes números: si en una prueba, la probabilidad de un acontecimiento o suceso es P, y si éste se repite una gran cantidad de veces, la relación entre las veces que se produce el suceso y la cantidad total de pruebas (es decir, la frecuencia F del suceso) tiende a acercarse cada vez más a la probabilidad P.

Cálculo de probabilidades: La probabilidad de un hecho o suceso es la relación entre el número de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los casos son igualmente posibles. El método de establecer la probabilidad es lo que se denomina cálculo de probabilidad.

    De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base más directamente al método de muestreo:

Ley de la regularidad estadística: un conjunto de n unidades tomadas al azar de un conjunto N, es casi seguro que tenga las características del grupo más grande.

Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al hecho de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es probable que una parte igual del mismo grupo, varíe en dirección opuesta.

Page 5: Compendio de Probabilidad

Ley de la permanencia de los números pequeños: si una muestra suficientemente grande es representativa de la población, una segunda muestra de igual magnitud deberá ser semejante a la primera; y, si en la primera muestra se encuentran pocos individuos con características raras, es de esperar encontrar igual proporción en la segunda muestra.

Tipos de muestras.

Muestreo aleatorio simple: la forma más común de obtener una muestra es la selección al azar. es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitución una tabla de números aleatorios.

Muestreo estratificado: una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio.

Muestreo por cuotas: se divide a la población en estratos o categorías, y se asigna una cuota para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de muestreo. La muestra debe ser proporcional a la población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la selección de las categorías.

Muestreo intencionado: también recibe el nombre de sesgado. El investigador selecciona los elementos que a su juicio son representativos, lo que exige un conocimiento previo de la población que se investiga.

Muestreo mixto: se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las unidades de la muestra en forma aleatoria y después aplicar el muestreo por cuotas.

Muestreo tipo: la muestra tipo (master simple) es una aplicación combinada y especial de los tipos de muestra existentes. Consiste en seleccionar una muestra "para ser usada" al disponer de tiempo, la muestra se establece empleando procedimientos sofisticados; y una vez establecida, constituirá el módulo general del cual se extraerá la muestra definitiva conforme a la necesidad específica de cada investigación

Page 6: Compendio de Probabilidad

(Ejercicios) ESPASIO MUESTRAL

Una experiencia aleatoria consiste en preguntar a tres personas distintas, elegidas al azar, si son partidarias o no de consumir un determinado producto. a) Escribe el espacio muestral asociado a dicho experimento, utilizando la letra "s" para las respuestas afirmativas y "n" para las negativas. b) ¿Qué elementos del espacio muestral anterior constituyen el suceso " al menos dos de las personas son partidarias de consumir el producto"? c) Describe el suceso contrario de "más de una persona es partidaria de consumir el producto"

2.- Lanzar un dado y una moneda a la vez

= {A1, A2, A3, A4, A5, A6, SI, S2, S3, S4, S5, S6}

Page 7: Compendio de Probabilidad

Para el caso de que el experimento sean arreglos de un solo conjunto entonces el “n” del espacio muestral es igual a la combinación.

4.- En una caja hay 3 canicas rojas y 8 canicas verdes se pide obtener los espacios muestrales de los siguientes experimentos:

a) Extraer una canica roja

= {Rl, R2, R3 }

b) Extraer 2 canicas rojas

= {RIR2, RIR3, R2R3}

c) Extraer una canica

= {R1,R2,R3,V1,V2,V3,V4,V5,V6,V7,V8}

(D1) 1.3 OBTENCIÓN DE DATOS ESTADÍSTICOS.

Recolección de Datos

Los datos se necesitan para:

Proporcionar la introducción imprescindible para un estudio de investigación. Medir el desempeño en un servicio o proceso de producción en curso. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma

de decisiones. Satisfacer nuestra curiosidad.

Los datos pueden concebirse como información numérica necesaria para ayudarnos a tomar una decisión con más bases en una situación particular. Existen muchos métodos mediante los cuales podemos obtener los datos necesarios. Primero, podemos buscar datos ya publicados por fuentes gubernamentales, industriales o individuales. Segundo, podemos diseñar un experimento. En tercer lugar, podemos conducir un estudio. Cuarto, podemos hacer observaciones del comportamiento, actitudes u opiniones de los individuos en los que estamos interesados.

Page 8: Compendio de Probabilidad

Utilización de fuentes de datos publicadas. Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los datos y la organización o individuos que compilan éstos en tablas y diagramas. El recolector de datos es la fuente primaria; el compilador de los datos es la fuente secundaria.

Obtención de datos mediante investigación de encuesta.Existen básicamente dos tipos de variables aleatorias que producen dos tipos de datos: categóricas y numéricas. Las variables aleatorias categóricas producen respuestas categóricas, mientras que las variables numéricas producen respuestas numéricas. Las variables numéricas pueden considerarse como discretas o continuas. Los datos discretos son respuestas numéricas que surgen de un proceso de conteo, mientras que los datos continuos son respuestas numéricas que surgen de un proceso de medición.La necesidad de definiciones operacionales. Una definición operacional proporciona un significado a un concepto o variable que puede comunicarse a otros individuos. Es algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos.

(D2) OBTENCIÓN DE DATOS

Recolección de la Información 

    La manera más formal de proceder a la búsqueda de información es seguir los lineamientos del método científico. La estadística resulta de gran utilidad en el manejo de información. El proceso consiste en:

         Recoger la información.

         Tabularla.

         Presentarla.

         Analizarla.

    El aspecto medular del manejo de información es la recolección, ya que el procesamiento de datos depende de la confiabilidad que aquélla pueda tener.

Métodos de recolección de datos

         Encuestas: La información se recoge por muestras, por lo que no se aplica ala población total.

         Censos: La información se recoge en forma general a toda la población.

         Registros: La información es continua. Se recoge a medida que se va produciendo.

Page 9: Compendio de Probabilidad

Técnicas de recolección

         Entrevistas.

         Aplicación de cuestionarios.

         Observación.

Métodos para el recuento

         Listas. Cuando son pocas las unidades y no se manejen más de dos escalas.

         Palotes. Consiste en poner, en una hoja de trabajo, un "palote" por cada unidad que se cuenta. No se utiliza para gran número de observaciones.

         Tarjetas simples. La información por individuos se registra en una tarjeta. El número de unidades es corto. La clasificación por variables se hace rápidamente, ordenando las tarjetas en tantos grupos como categorías resulten. Se recomienda utilizar para menos de 500 casos y menos de 12 variables.

         Mecanizada. El cómputo e impresión de resultados pueden obtenerse por computadora

(D1) 1.4 DATOS NO AGRUPADOS.

Tendencia central: la tendencia central se refiere al punto medio de una distribución. Las medidas de tendencia central se conocen como medidas de posición.

Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al grado en que las observaciones se distribuyen.

1.4.1 Medidas de Tendencia central La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios.

Las medidas de tendencia central comúnmente empleadas son :

Media aritmética Mediana

Page 10: Compendio de Probabilidad

Moda Media geométrica Media armónica Los cuantiaos

1.4.2 Medidas de dispersión.

Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentración de los datos en un cierto sector del recorrido de la variable. Se trata de coeficiente para variables cuantitativas.

(D2) DATOS NO AGRUPADOS

Datos no agrupados es el conjunto de observaciones que se presentan en su forma

original tal y como fueron recolectados, para obtener informaciion directamente de ellos.

Ejemplos:

5,7,2,15,2,6,12,5,5,20,10. numero de personas que ayudaron a una causa

 (EJERCICIOS) DATOS NO AGRUPADOS

Ejemplo para el cálculo de la media.

 

Sean los siguientes valores las calificaciones la asignatura de matemáticas  de

estudiantes de primer año:

10 8 6 7.5 7 7.5 8 9.5 10 10

8 6 9 10 7.5 6 9.5 10 6.5 8

6 6 9 10 7 8 9.5 5 8 7.5

 

Page 11: Compendio de Probabilidad

Sumando los valores de las  30 calificaciones y dividiéndolas entre los 30 datos

obtendremos:

 

830

240

n

xx i

 

por lo que la media de calificaciones obtenida por el grupo considerado es igual a

8.

 

Podemos comprobar el teorema con las calificaciones presentadas, a

continuación se presenta la tabla de diferencias ixx

 

8-

10=-

2

8-

8=0

8-

6=2

8-

7.5=0.5

8-7=1 8-

7.5=0.5

8-8=0 8-

9.5=-

1.5

8-10=-

2

8-10=-

2

8-

8=0

8-

6=2

8-

9=-1

8-10=-

2

8-

7.5=0.5

8-6=2 8-

9.5=-

1.5

8-

10=-2

8-

6.5=1.5

8-8=0

8-

6=2

8-

6=2

8-

9=-1

8-10=-

2

8-7=1 8-8=0 8-

9.5=-

1.5

8-5=3 8-8=0 8-

7.5=0.5

 

Observamos que efectivamente se puede ver de manera inmediata que 

0 ixx como fue demostrado en el teorema.

Page 12: Compendio de Probabilidad

 

Un teorema a considerar es el siguiente, el cual nos indica como cambia la media

cuando a cada variable la trasladamos una constante, es decir, para cada medición ix  

le sumamos una cantidad, cxy ii .

 

Teorema. La media de x  al ser traslada o remplazada por una cantidad constante para

cada una de las medidas se modifica de la forma cxy

 

Demostración. Sea una muestra de n mediciones  nxxxx ,,,, 321   a las que se

les remplaza sumándoles una cantidad c, es decir,

cxycxycxycxy nn ,,,, 332211 , por lo que al obtener la media 

para cxi  tenemos

 

cxn

ncx

n

c

n

x

n

cxy

i

ii

lo que demuestra el teorema.

Page 13: Compendio de Probabilidad

(D1) 1.5 DATOS AGRUPADOS.

1.5.1 Tabla de distribución de frecuencias

Distribución de Frecuencias, comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar. Una distribución de frecuencias constituye una tabla en el ámbito de investigación.

La distribución de frecuencias puede ser simple o agrupada. La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o variable (valores numéricos) en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia. Por ejemplo, si se construye una distribución de frecuencias sobre los resultados finales que arrojó la evaluación de un curso de planeación estratégica para estudiantes de administración correspondientes al semestre agosto-diciembre de 1998, se tienen los siguientes datos brutos: 86, 80, 84, 84, 74, 88, 87, 84, 74, 77, 77, 82, 68, 78, 67, 74, 66, 86, 65, 88,69 se procede a organizarlos en forma ascendente o descendente y se tiene en orden descendente:

88, 88, 87, 86, 86, 84, 84, 84, 82, 80, 78, 77, 77, 74, 74, 74, 69, 698, 67, 66, 65 posteriormente se registran en una tabla de distribución de frecuencias simple.

La distribución de frecuencias agrupadas es una tabla que contiene las columnas siguientes: intervalo de clase, puntos medios, tabulación frecuencias y frecuencias agrupadas. Los pasos para diseñarla son:

1.- Se localizan el computo mas alto y el mas bajo de la serie de datos.

2.-Se encuentra la diferencia entre esos dos cómputos.

3.- La diferencia obtenida se divide entre números nones tratando de encontrar un cociente cercano a 15 pero no mayor. Lo anterior indica cuantas clases va a tener la distribución de frecuencias agrupadas y cuál va a ser la magnitud del intervalo de clase.

4.- Se determina el primer intervalo de clase y posteriormente se van disminuyendo los límites del intervalo de clase de acuerdo al valor de la magnitud establecida previamente.

Page 14: Compendio de Probabilidad

1.5.2 Medidas de Tendencia Central

La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios.Las medidas de tendencia central comúnmente empleadas son :

Media aritmética.- La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone.

Mediana.- Es la observación equidistante de los extremos Moda.- Valor de la variable que presenta una mayor frecuencia. Media geométrica .- Se eleva cada valor al número de veces que se ha repetido.

Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).

Media armónica.- Se utiliza para el promedio de rendimientos y velocidades. La Media Armónica de una serie de números es el reciproco de la media aritmética del recíproco de esos números.

1.5.2 Medidas de dispersión.

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.

Medidas de dispersión absolutas Varianza ( s2 ): es el promedio del cuadrado de las distancias entre cada

observación y la media aritmética del conjunto de observaciones. Desviación Típica (S): La varianza viene dada por las mismas unidades que la

variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza

Recorrido o rango muestral (Re). Es la diferencia entre el valor de las observaciones mayor y el menor.

Coeficiente de variación de Pearson: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética

1.5.4 Cuantiles

Page 15: Compendio de Probabilidad

Los cuantiles completan el cuadro de los parámetros de una distribución. En cierto modo pueden ser considerados como medidas de centralización (de hecho la mediana es uno de ellos) y también como medidas de dispersión (algunas pueden construirse a partir de ellos) pero en realidad son medidas de posición. Se define el cuantil p como aquel valor de la variable (que puede estar o no en la muestra) que supera al p% de los datos de la muestra; resultan útiles sólo cuando la muestra es numerosa y permiten saber en que “posición” se encuentra un valor dado con respecto al conjunto de una muestra o población. Se definen entre los más importantes:

Los cuartiles, que definen las cuartas partes de la muestra mediante tres “cortes”: el primer cuartil deja por debajo al 25% de la distribución, el segundo coincide con la mediana y el tercero deja por debajo al 75% de la distribución. No tienen mucho sentido en muestras pequeñas, pero en nuestro ejemplo valdrían respectivamente 0, 1 y 3.5 (que están situados en las posiciones “tercera y media”, séptima y “décima y media” de los datos ordenados).

Los deciles, que dan nueve cortes para definir de diez en diez por ciento los valores de la distribución; así, el primer decil deja por debajo una décima parte de la distribución, el segundo dos décimas partes, etc., hasta nueve deciles.

Los percentiles, que son como los deciles pero de uno en uno por ciento, y por tanto son noventa y nueve; por ejemplo, el percentil 37 deja por debajo al 37% de la distribución, y está claro que no tienen sentido en muestras tan pequeñas como la de nuestro ejemplo, ya que trece elementos no se pueden “partir” en cien partes.

Todos los cuantiles son definibles sobre variables cuantitativas o sobre cualitativas ordinales, porque requieren siempre que los datos estén ordenados.

Los cuantiles más próximos al percentil 50, como la propia mediana o los cercanos a ella, pueden considerarse como parámetros de centralización y sin embargo los más lejanos al centro ayudan a medir la dispersión; por ejemplo, si restamos el tercer cuartil menos el primero obtenemos el rango intercuartílico, que es una medida de dispersión. Con el rango intercuartílico estamos midiendo la extensión que nos cubre la mitad central de nuestros datos; recuérdese que el RANGO era la extensión cubierta por toda la muestra ordenada (se define como máximo menos mínimo), mientras que el RANGO INTERCUARTILICO es la extensión cubierta por la mitad central de los datos ordenados, excluyendo la cuarta parte inicial (los que son inferiores al primer cuartil) y la cuarta parte final (los que son superiores al tercer cuartil).

 

Page 16: Compendio de Probabilidad

(EJERCICIOS) DATOS AGRUPADOS

Para datos agrupados la expresión de la media cambia ligeramente, como se muestra a

continuación

Ejemplo:

 

Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1. La media para

dichos datos es aproximadamente igual a  2.4666, es decir,

 

4666.215

121432325442211

n

xx i

 

Sin embargo, el mismo resultado podemos obtener si tomamos la frecuencia con

que aparecen los datos, en este caso:

 

 

 

Dato

ixFrecuencia

ifProducto de frecuencias y datos

ii xf

1 4 4

2 5 10

Page 17: Compendio de Probabilidad

3 2 6

4 3 12

5 1 5

 

 

La obtención de la media finalmente se convierte en

 

4666.2

15

15342352411

ii fxnx

 

para la obtención de la media cuando las frecuencias están sujetas a la elección de

clase bajo los métodos mostrados, se realiza de igual manera, la única diferencia existe

en determinar  el valor ix  como el punto medio de cada clase, veamos el siguiente

ejemplo.

 

Supongamos que una clínica de salud, obtiene una tabla de edades de las

personas que son atendidas en un fin de semana, para los que presentan la

siguiente tabla. ¿Cuál será el promedio de edades de los enfermos que

acudieron a recibir atención médica?

 

 

Tabla de frecuencias reportadas por la clínica

Page 18: Compendio de Probabilidad

Clases

(Datos en años)

Punto

medio de

cada clase

ix

Frecuencias de cada

clase

if

2010 x 15 8

3020 x 25 20

4030 x 35 14

5040 x 45 8

6050 x 55 2

7060 x 65 2

8070 x 75 1

  55 enfermos

atendidos

 

 

Por lo que el promedio de personas a las que se les dio servicio es de:

 

añosx 45.32

53

17526525584514352025815

Determine tamaño de intervalo

Max min # intervalos

234 12 20

130 40 15

90 9 10

493 290 18

145 56 15

195 40 20

Solución

Page 19: Compendio de Probabilidad

Tabla

Max min #intervalos Alcanze A/N t

234 12 20 223 11.15 11

130 40 15 91 6.06 6

90 9 10 82 8.20 8

493 290 18 204 11.33 11

145 56 15 90 6.00 6

195 40 20 156 7.80 8

Observe las frecuencias. Tabla

X f fr fa fra

56-60 4 .0208 4 .0208

61-65 6 .0312 10 .0520

66-70 9 .0468 19 .0988

71-75 11 .0572 30 .1560

76-80 15 .0781 45 .2341

81-85 19 .0989 64 .3333

86-90 21 .1093 85 .4423

91-95 22 .1145 107 .5568

96-100 21 .1093 128 .6661

101-105 19 .0989 147 .7650

106-110 15 .0781 162 .8431

111-115 11 .0572 173 .9003

116-120 9 .0468 182 .9471

121-125 6 .0312 188 .9783

126-130 4 .0208 192 .9991

Total 192 .9991    

   

Hacer f, fa, fr, fra. Datos (Use N = 5)   54, 63, 91, 87, 26, 13, 29, 50, 42, 31, 81, 67, 47, 49, 41, 31, 70, 42, 31, 18, 60, 75, 86, 90, 68, 22, 27, 69, 51, 44, 34, 72, 57, 59, 13, 63, 95, 73, 56, 25, 43, 93, 67, 41, 42, 93, 57, 71, 11, 40.   Solución Paso I: Ordenar los datos; hay 50 datos

Page 20: Compendio de Probabilidad

  11, 13, 13, 18, 22, 25, 26, 27, 29, 31, 31, 31, 34, 40, 41, 41, 42, 42, 42, 43, 44, 47, 49, 50, 51, 54, 56, 57, 57, 59, 60, 63, 63, 67, 67, 68, 69, 70, 71, 72, 73, 75, 81, 86, 87, 90, 91, 93, 93, 95.   Es evidente que el Máximo es igual al 95 y el Mínimo es igual a 11. Por lo tanto el alcance es: A = Max - min + 1 = 95 - 11 + 1 = 85. El problema indica que hay que usar cinco intervalos, i.e., N = 5. Por lo tanto, el tamaño t de los intervalos será t = A/N = 85/5 = 17.   Paso II: Determinar el primer intervalo: Se toma el mínimo y se le suma t - 1: 11 + 16 = 27. Por lo tanto, el primer intervalo será de 11 a 27. Con esta información escribimos los intervalos restantes.   Paso III: Construir los intervalos de la distribución de frecuencias y determinar las frecuencias. Tabla del Problema 14.

Intervalo f fa fr fra

11-27 8 8 .16 .16

28-44 13 21 .26 .42

45-61 10 31 .20 .62

62-78 11 42 .22 .84

79-95 8 50 .16 1.00

Suma 50    

1.00    

Hacer f, fa, fr, fra, alcance. Datos (Use N = 10) 130, 117, 98, 90, 78, 70, 56, 129, 116, 98, 87, 78, 69, 56, 129, 114, 98, 86, 78, 69, 56, 125, 114, 98, 85, 76, 69, 54, 125, 110, 98, 85, 76, 67, 54, 125, 109, 96, 84, 76, 67, 53, 125, 109, 96, 83, 72, 64, 53, 120, 109, 93, 83, 72, 64, 52, 120, 107, 92, 83, 72, 62, 52, 118, 100, 91, 83, 71, 62, 50,   Solución Note que los números están en orden; hay 70 datos. Primero se determina el alcance: A = 130 - 50 + 1 = 81.  

Page 21: Compendio de Probabilidad

Segundo se determina el tamaño del intervalo: t = 81/10 = 8.1; por lo tanto se usa t = 8.   Tercero, el primer intervalo es de 50 a 57.   Tabla

Intervalo f fa fr fra

50-57 10 10 .1428 .1428

58-65 4 14 .0571 .1999

66-73 10 24 .1428 .3427

74-81 6 30 .0857 .4284

82-89 9 39 .1285 .5569

90-97 6 45 .0857 .6426

98-105 6 51 .0857 .7283

106-113 5 56 .0714 .7997

114-121 7 63 .1000 .8997

122-129 6 69 .0857 .9854

130-137 1 70 .0142 .9996

Suma 70    

.9996    

(D1) 1.6 GRAFICOS

 Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.

Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones:

Page 22: Compendio de Probabilidad

1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias.

2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales.

3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor.

Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información.

Tipos de gráficos

Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.

Page 23: Compendio de Probabilidad

En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcándose de manera continua las fronteras entre cada uno de los éstos. De esta manera, el histograma está compuesto rectángulos, cuyo número coincide con la cantidad de intervalos considerados, el ancho de la base de cada uno de esos rectángulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la frecuencia de cada intervalo.

Es importante observar que resulta difícil utilizar este tipo de representación cuando existen intervalos abiertos o cuando los intervalos no son iguales entre sí.

Otra observación es la amplitud de los intervalos, que se puede establecer utilizando la regla de Sturges, pues al cambiarla la presentación visual de un histograma puede variar. Un applet que muestra cómo el número de clases y su ancho pueden hacer variar fue desarrollado por Webster West de la Universidad del Sur de Carolina.

El programa Excel no permite crear de manera automática histogramas, pues proporciona el ancho de las columnas de tal manera que quedan separadas. Sin embargo, existe la manera de hacerlas.

Un tipo de gráfico muy parecido al histograma es la gráfica de columnas. Para este tipo de gráfica, elaboradas con rectángulos también, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a diferencia del histograma, no es necesario tener una escala horizontal continua, por lo que los rectángulos (o barras) no tienen que aparecer juntas entre sí.

Page 24: Compendio de Probabilidad

Otra observación pertinente es que se pueden representar en la misma gráfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una gráfica con varias series, correspondiendo cada una de ellas a cada observación de la muestra (o población), y teniéndose una gráfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero distinta de las demás.

El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales) están coloreadas con diferente color para mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los demás. Es interesante observar que la escala horizontal no es continua (es nominal).

Existe la posibilidad, y si los recursos lo permiten, de representar gráficos compuestos de una manera "tridimensional", es decir, con gráficos que posean no sólo dos ejes, sino tres; y en los que los rectángulos son sustituídos por prismas de base rectangular (ocasionalmente el software en el mercado permite utilizar prismas cuya base son polígonos regulares de más de cuatro lados, pirámides o cilindros). Un ejemplo es el siguiente:

Page 25: Compendio de Probabilidad

donde se representa el porcentaje del PIB gastado en docencia e investigación por cinco países en el lapso de 1988 a 1999 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12). Es importante considerar que este tipo de gráficos puede complicarse mucho, haciendo que la información sea menos legible.

También es posible realizar gráficas de barras horizontales, los cuales se parecen mucho a las gráficas de columnas, con la salvedad importante de que la función de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases.

Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una población dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se presenta es la población de un país ficticio llamado "Timbuctulandia":

Page 26: Compendio de Probabilidad

A este tipo de gráficos en particular se le llama pirámide de edades por su forma. Incluso, cuando se compara la población masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en particular).

Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe cierta continuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la evolución del peso o estatura de una persona a través del tiempo, el desempeño académico de un estudiante a lo largo de su instrucción escolar, las variaciones presentadas en la medición realizada en algún experimento cada segundo o minuto) se pueden utilizar las gráficas de líneas, que consisten en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, uniéndose consecutivamente con líneas:

Page 27: Compendio de Probabilidad

Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las gráficas de columnas (y de otras más) es posible presentar varias series de observaciones (en este caso cada serie de observaciones son los pesos de un individuo).

Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de 1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

Page 28: Compendio de Probabilidad

El Excel no crea automáticamente polígonos de frecuencias, sino que produce gráficas de líneas. Sin embargo, es posible arreglárselas para hacerlas.

Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que.

Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por ésto la aplicación de la técnica es parcial):

1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.

2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.

Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:

Page 29: Compendio de Probabilidad

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).

Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribución porcentual:

En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una

Page 30: Compendio de Probabilidad

llamada gráfica de áreas, la cual consiste en rellenas el área que se encuentre debajo de las líneas que resultan de una gráfica de líneas.

El ejemplo que se presenta es la comparación del total de las especies de las familias del orden Carnivora y las que están amenazadas, en México, (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):58):

Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular.

Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992 se puede usar algo así como sigue (Fuente: ANUIES,1995):

Page 31: Compendio de Probabilidad

De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar esa "rebanada" de la gráfica y separarla de las demás:

Hay que tomar algunas precauciones al utilizar este tipo de gráficos. Por un lado, comparar dos gráficos circulares (por ejemplo, si se quisieran comparar las proporciones de matrículas en licenciatura por áreas de conocimiento en licenciatura para dos años distintos) resulta muy difícil y, por tanto, no es muy aconsejable.

Por otro lado, en ocasiones existen categorías con pocas frecuencias (por ejemplo, dos o tres con frecuencias relativas menores al 1% cada una), haciendo que la gráfica resulte "pesada" y las etiquetas se encimen. Una posible solución es juntarlas en una sola categoría (por ejemplo, la típica "otras" o "varias"), pero entonces habría que

Page 32: Compendio de Probabilidad

ponderar si se hace una gráfica extra con dichas observaciones únicamente, haciendo la anotación pertinente, o simplemente se ignoran por no resultar significativas.

Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos para ilustrar los datos o los resultados de alguna investigación. Regularmente se utilizan dibujos para representar dicha información, y el tamaño o el número de estos dibujos dentro de una gráfica queda determinado por la frecuencia correspondiente. A este tipo de gráfica se le llama pictograma y éstos son dos ejemplos:

El de la izquierda representa la población de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene más 17 veces más masa que la Tierra).

Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de gráficas, las posteriores sí. Otros programas contemporáneos (como el Corel Draw o el Harvard Graphics) sí son capaces.

Cuando se pretende ilustrar la dispersión de las observaciones realizadas, y así trabajar algunas cosas como correlaciones se puede utilizar una gráfica de dispersión. Por ejemplo, el ejemplo de la izquierda es la dispersión que se presenta al comparar el número de tesis doctorales en ciencias exactas contra el número de total de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

Page 33: Compendio de Probabilidad

La gráfica de la derecha es resultado de comparar el diámetro (en miles de kilómetros) de los planetas interiores del nuestro sistema solar contra sus densidades (en gramos por centímetro cúbico). Es interesante observar que los puntos parecen "seguir" una línea imaginaria que se asemeja a una recta, con excepción de un caso atípico: Mercurio.

Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones siguen algún patrón lineal (una línea de tendencia) o si existen valores atípicos. Para el caso del Excel, el programa es capaz de graficar las líneas de tendencias que siguen un conjunto de datos.

Un tipo de gráfico similar a las gráficas de dispersión son las gráficas de burbujas, en las cuales se presenta la dispersión de las observaciones de la misma forma que aquéllas, pero se le añade la posibilidad de visualizar otra variable representada en el tamaño del punto, pues éstos se convierten en círculos (burbujas) con radios proporcionales a las magnitudes que representan.

Page 34: Compendio de Probabilidad

Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus órbitas, y el tamaño de las burbujas indica la masa de cada planeta.

Además existen otros tipos de gráficos, cada uno con características particulares que les proporcionan cierta intencionalidad para su uso, como son las gráficas de radar y las gráficas polares.

1. Métodos gráficos:

Primero definiré lo que es un gráfico o diagrama en estadística

Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para representar, bien datos estadísticos a escala o según una cierta proporción, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificación. Entre las funciones que cumplen los diagramas se pueden señalar las siguientes:

Hacen más visibles los datos, sistemas y procesos Ponen de manifiesto sus variaciones y su evolución histórica o espacial. Pueden evidenciar las relaciones entre los diversos elementos de un sistema o

de un proceso y representar la correlación entre dos o más variables. Sistematizan y sintetizan los datos, sistemas y procesos. Aclaran y complementan las tablas y las exposiciones teóricas o cuantitativas. El estudio de su disposición y de las relaciones que muestran pueden sugerir

hipótesis nuevas.

Algunos de los diagramas más importantes son el diagrama en árbol, diagrama de áreas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques,

Page 35: Compendio de Probabilidad

diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y hoja diagrama, histogramas y gráficos de caja y bigote o boxplots.

2.1 Gráficos univariados: Para trabajar los gráficos univariables debemos primero saber lo que es el análisis estadístico univariable y después de esto trabajaremos los métodos pedidos

El análisis estadístico que opera con datos referentes a una sola variable o distribución de frecuencias y pretende determinar sus propiedades estadísticas. El a.e.u. proporciona al analista medidas representativas de la distribución o promedios, índices de dispersión de los datos de la distribución, procedimientos para normalizar los datos, medidas de desigualdad de unos datos en relación con otros y por ultimo medidas de la asimetría de la distribución.

Gráficos de puntos: Es una variación del diagrama lineal simple el cual esta formado por líneas rectas o curvas, que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias, este construye colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita información sobre la frecuencia.

Cuando la muestra se agrupa por intervalos se trabaja con la marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo

EJ: Duración de tubos de neón

X(horas) Xm F

300-400 350 2

400-500 450 6

500-600 550 10

600-700 650 8

700-800 750 4

30

Page 36: Compendio de Probabilidad

Gráficos de tallo y hoja: es una forma rápida de obtener una representación visual ilustrativa del conjunto de datos, para construir un diagrama de tallo y hoja primero se debe seleccionar uno ó más dígitos iniciales para los valores de tallo, el dígito o dígitos finales se convierten en hojas, luego se hace una lista de valores de tallo en una columna vertical. Prosiguiendo a registrar la hoja por cada observación junto al valor correspondiente de tallo, finalmente se indica las unidades de tallos y hojas en algún lugar del diagrama, este se usa para listas grandes y es un método resumido de mostrar los datos, posee la desventaja que no proporciona sino los datos, y no aparece por ningún lado información sobre frecuencias y demás datos importantes.

Ej: realice un diagrama de tallo y hoja para los siguientes datos de distancias en yardas de una cancha de golf

6435 6464 6433 6470 6526 6527 6506 6583 6605 6694 6614 6790 6770 6700 6798 6770 6745 6713 6890 6870 6873 6850 6900 6927 6936 6904 7051 7005 7011 7040 7050 7022 7131 7169 7168 7105 7113 7165 7280 7209

Diagramas de barras: nombre que recibe el diagrama utilizado para representar gráficamente distribuciones discretas de frecuencias no agrupadas. Se llama así porque las frecuencias de cada categoría de la distribución se hacen figurar por trazos o columnas de longitud proporcional, separados unos de otros. Existen tres principales clases de gráficos de barras:

Barra simple: se emplean para graficar hechos únicos Barras múltiples: es muy recomendable para comprar una serie estadística con

otra, para ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al lado de la otra

Barras compuestas: en este método de graficacion las barras de la segunda serie se colocan encima de las barras de la primera serie en forma respectiva.

Page 37: Compendio de Probabilidad

El diagrama de barras proporciona información comparativa principalmente y este es su uso principal, este diagrama también muestra la información referente a las frecuencias

Ej:

CIUDAD TEMPERATURA

A 12

B 18

C 24

TIENDA Enero Febrero Marzo abril mayo Junio

A 800 600 700 900 1100 1000

B 700 500 600 1000 900 1200

Page 38: Compendio de Probabilidad

Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los intervalos y el centro de cada intervalo es la marca de clase, que representamos en el eje de las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo. Esta proporcionalidad se aplica por medio de la siguiente formula

Altura del rectángulo = frecuencia relativa/longitud de base

El histograma se usa para representar variables cuantitativas continuas que han sido agrupadas en intervalos de clase, la desventaja que presenta que no funciona

para variables discretas, de lo contrario es una forma útil y practica de mostrar los datos estadísticos.

EJ:

X Xm F

Page 39: Compendio de Probabilidad

118-126 122 2

126-134 130 3

134-142 138 8

142-150 146 12

150-158 154 7

158-166 162 5

166-174 170 2

174-182 178 1

40

Diagramas de caja o boxplots: los pasos para construirlo son los siguientes: dibujar y marcar un eje de medida horizontal construir un rectángulo cuyo borde izquierdo esta arriba del cuarto inferior y cuyo

borde derecho esta arriba del cuarto superior dibujar un segmento de recta vertical dentro de la caja arriba de la mediana prolongar rectas desde cada extremo de la caja hasta las observaciones más

lejanas que estén todavía a menos de 1.5fs de los bordes correspondientes dibujar un circulo abierto para identificar cada observación que caiga entre 1.5fs

y 3fs del borde al cual esta más cercano estas se llaman puntos inusuales suaves dibujar un circulo de línea llena para identificar cada observación que caiga a

mas de 3fs del borde más cercano, estas se llaman puntos inusuales extremos

donde fs= cuarto superior – cuarto inferior

este diagrama se usa cuando se necesita la mayor información acerca de la distribución de los datos, la ventaja que posee con respecto a los demás diagramas es que este gráfico posee características como centro y dispersión de los datos, y la principal desventaja que posee es que no presenta ninguna información acerca de las frecuencias que presentan los datos

Page 40: Compendio de Probabilidad

EJ: Para los siguientes datos realice un diagrama de caja: 2.68 3.06 4.31 4.71 5.71 5.99 6.06 7.04 7.17 7.46 7.50 8.27 8.42 8.73 8.84 9.14 9.19 9.21 9.39 11.28 15.19 21.06

Gráficos de sectores: es un gráfico que se basa en una proporcionalidad entre la frecuencia y el ángulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo central de 360°. Para construir se aplica la siguiente formula:

X = frecuencia relativa * 360°/ frecuencia relativa

Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona principalmente información acerca de las frecuencias de los datos de una manera entendible y sencilla.

EJ: Representar mediante un gráfico de sectores la frecuencia con que aparece cada una de las cinco vocales en el presente párrafo:

Vocal a e i o u

Frecuencia 13 20 4 6 3 46

2.2 gráficos bivariados: Para trabajar los diagramas de dispersión, primero debemos saber que es el análisis estadístico bivariable y las ventajas que este tiene

El análisis estadístico bivariable es aquel análisis que opera con datos referentes a dos variables y pretende descubrir y estudiar sus propiedades estadísticas. El análisis estadístico bivariable se orienta fundamentalmente a la normalización de los valores o frecuencias ce los datos brutos, determina la existencia, dirección y grado de la

Page 41: Compendio de Probabilidad

variación conjunta entre las dos variables, lo que se realiza mediante él calculo de los coeficientes de correlación pertinentes, calcula la covarianza o producto de las desviaciones de las dos variables en relación a sus medias respectivas y por ultimo establece la naturaleza y forma de la asociación entre las dos variables en el caso de las variables de intervalo.

Diagrama de dispersión: es un diagrama que representa gráficamente, en un espacio de ordenadas, los puntos de dicho espacio que corresponden a los valores correlativos de una distribución bivariante conjunta, estos diagramas deben usarse cuando tenemos un análisis estadístico bivariable, ósea una tabla de datos de doble entrada, la ventaja que tienen es que se puede graficar de una forma sencilla una distribución bivariante conjunta y la desventaja principal es que no funciona si sucede que una dupla se repita

EJ:

X Y

A 2 3

B 4 1

C 5 4

D 3 6

E 2 8

Page 42: Compendio de Probabilidad