temesd02.pdf

download temesd02.pdf

of 26

Transcript of temesd02.pdf

  • 7/27/2019 temesd02.pdf

    1/26

    Estadstica DescriptivaDiplomatura de EstadsticaFacultad de Matematicas y Estadstica

    Universidad de Sevilla

    Tema 2Resumenes numericos y graficosVersion 2005-2006-

    Jose A. Mayor Gallego

    Departamento de Estadstica e Investigacion Operativa

    Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    2/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 1

    1. Introduccion

    Usualmente, la investigacion de un colectivo, ya se trate de una poblacion completao de una muestra o parte extrada de la misma, proporciona como resultado inmediatoun conjunto mas o menos extenso, de datos numericos o de otro tipo, que pretendemosestudiar con la finalidad de abarcar la naturaleza de dicho colectivo, en relacion a lascaractersticas que nos interesan.

    De esta forma, nos enfrentamos a una masa de informacion, usualmente exten-sa, grande, lo que obliga a realizar sobre la misma diversas transformaciones, detipo reductivo, que permitan captar estructuras y patrones latentes, que de otraforma permanecen ocultos a nuestra percepcion. Dichas transformaciones producencomo resultados final una serie de objetos, de interpretacion mas inmediata, y que

    clasificaremos de la siguiente forma,

    Resumenes numericos.

    Resumenes graficos.

    2. Resumenes numericos

    El primer paso en el estudio estadstico descriptivo de un conjunto de datos sera la

    construccion de tablas u otros tipos de esquemas que permitan resumiry ordenarla estructura de dichos datos, facilitando as la posterior extraccion de conclusiones.

    2.1. Tablas de frecuencias

    Se dispone de una variable estadstica,X, constituida pornvalores,X1, X2, . . . , X n,procedentes de la observacion de un determinado caracter sobre n individuos. Estavariable puede ser tanto cualitativa como cuantitativa, y supondremos que presentakmodalidades que denotamosx1, x2, . . . , xk. Notese que los valores originales de cada

    elemento se denota por Xi

    , y las modalidades por xi

    .El numero de individuos que presentan la modalidad xi de denomina frecuen-

    cia absoluta de dicha modalidad, y se denota ni. Obviamente

    ini = n. Dichasfrecuencias se disponen en forma de tabla, con la siguiente estructura,

    Modalidades Frecuencias absolutasx1 n1x2 n2...

    ...xk nk

    Usualmente, si las modalidades estan medidas en alguna escala de tipo ordinal

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    3/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 2

    o superior, dichas modalidades se disponen ordenadas. En caso contrario, es decir,cuando la escala es nominal, se disponen arbitrariamente.

    Tambien podemos asociar a cada modalidad su frecuencia relativa, fi =ni/n,suporcentaje,pi = 100 fi, sufrecuencia absoluta acumulada,Ni= n1+ n2+ +ni, y su frecuencia relativa acumulada,Fi= Ni/n. Veamos un ejemplo conuna variable cuantitativa discreta.

    EJEMPLO 1 Supongamos que se han estudiado 150 familias con hijos observando paracada una el numero de los mismos, habiendose obtenido los siguientes datos,

    0 0 0 1 1 6 5 1 0 0 50 0 0 0 0 1 1 1 1 1 15 4 4 4 3 3 4 4 0 0 03 0 1 2 2 2 2 2 2 2 32 2 2 2 2 3 2 3 3 2 12 2 2 2 2 3 3 2 3 2 30 0 0 0 1 1 1 2 1 1 10 0 2 2 2 2 3 2 1 1 22 2 2 2 2 3 2 2 2 2 21 1 1 1 2 2 2 2 2 2 13 3 3 3 3 3 3 3 3 3 32 2 2 2 2 2 2 2 2 2 21 1 1 1 1 1 1 1 1 1 1

    2 2 2 2 2 2 2

    que, una vez clasificados, originan la siguiente tabla,

    xi ni fi Ni Fi0 20 20/150 20 20/1501 35 35/150 55 55/1502 62 62/150 117 117/1503 24 24/150 141 141/1504 5 5/150 146 146/1505 3 3/150 149 149/150

    6 1 1/150 150 1150 1

    Cuando la variable es de tipo cuantitativo continuo y/o presenta una gran cantidadvalores distintos, dichos valores se agrupan en intervalos, usualmente de la forma (a, b],que son entonces considerados como las modalidades. Notaremos (ei1, ei] al intervaloque representa la modalidadi-esima. En este caso, se asocia a cada modalidad un valorrepresentativo de la misma, denominado marca de clase, que se denota xi, y queusualmente es el punto medio del intervalo, es decir,

    xi =ei1+ei

    2

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    4/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 3

    Veamos a continuacion un ejemplo de ello.

    EJEMPLO 2 Vamos a considerar los siguientes valores, procedentes de una prueba deevaluacion realizada sobre 175 estudiantes, y cuyo rango teorico de valores es el intervalo

    [0, 100],76 66 77 50 81 69 75 73 84 62 6571 93 54 70 55 86 63 84 76 80 8878 69 77 75 52 60 68 71 84 70 8978 87 98 80 76 55 65 77 64 82 7075 73 82 72 84 75 85 78 83 74 8168 76 77 61 66 85 58 92 96 51 8778 77 90 75 62 81 63 72 68 76 72

    86 80 92 79 84 70 50 70 71 77 6975 91 80 87 83 64 85 61 77 65 6774 90 78 82 73 88 85 89 65 75 7684 55 81 75 77 69 83 70 86 69 9679 98 51 97 63 90 54 74 71 89 7682 71 83 77 84 78 90 53 98 75 6964 70 81 77 67 83 79 85 76 72 5776 65 71 74 94 75 66 95 80 91 8056 83 82 60 74 81 79 80 61 79

    Como puede verse, estos datos presentan una gran cantidad de valores distintos. Por

    ello, debido a su elevada diversidad, la tabla de frecuencias se realizara agrupando losdatos en intervalos, obteniendose por ejemplo,

    (ei1, ei] xi ni Ni fi Fi(465, 555] 51 11 11 11/175 11/175(555, 645] 60 16 27 16/175 27/175(645, 735] 69 39 66 39/175 66/175(735, 825] 78 63 129 63/175 129/175(825, 915] 87 35 164 35/175 164/175

    (915, 1005] 96 11 175 11/175 175/175

    175 1

    2.1.1. Construccion de intervalos. Regla del logaritmo

    Realmente, no existe ninguna regla fija para decidir el numero de intervalos y suamplitud. Hay varias ideadas por distintos autores. A continuacion vamos exponeruna de ellas con objeto de fijar las ideas sobre esta cuestion. La denominaremosRegladel Logaritmo.

    La idea general de esta regla es que los intervalos tengan la mismaamplitud, y que dichas amplitudes sean, o bien potencias de 10, es decir,

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    5/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 4

    10 o 100 o 0,1 o 0,01 etc., o bien mitades de potencias de 10, es decir, 5o 50 o 0,5 o 0,05, etc., o bien quintos de potencias de 10, es decir, 2 o 20

    o 200 o 0,2 o 0,02, etc.

    En primer lugar decidiremos el numero maximo de intervalos, L, mediante laformula,

    L= [10 log10

    n]

    donde [] indica en este caso redondeo al entero mas proximo. Recuerdese que log10

    nes el exponente al que hay que elevar 10 para obtener n. Por ejemplo, 102 = 100 por loque log

    10100 = 2. De la misma forma, log

    1010.000 = 4, etc. Cuandon no es potencia

    de 10, se buscara su logaritmo empleando una calculadora.

    Seguidamente, denotando por XMAX y XMIN son los valores maximo y mnimo

    de X respectivamente, calcularemos la cantidad,

    A=XMAXXMIN

    L

    Finalmente buscaremos, o bien la potencia de diez, o bien la mitad de potenciade diez, o bien la quinta parte de potencia de 10, mas proxima a A por exceso, esdecir, por arriba. Dicha cantidad sera la amplitud comun de los intervalos. Veamosuna aplicacion de esta regla, empleando un nuevo conjunto de datos.

    EJEMPLO 3 Vamos a considerar los siguientes valores, procedentes de la prueba de

    evaluacion mencionada en el Ejemplo 2, pero realizada sobre otro grupo de 120estudiantes.El rango teorico de valores es el intervalo [0, 100],

    41 46 54 60 54 61 50 50 53 5551 58 61 48 51 60 43 53 62 5556 62 45 49 55 59 56 53 59 5358 55 50 48 61 62 57 58 58 5361 50 62 49 53 60 54 34 49 5860 53 56 53 59 52 61 53 56 6039 54 50 60 57 52 55 59 53 5554 59 54 60 57 50 45 57 60 55

    55 59 55 54 49 58 52 53 60 5451 56 58 53 54 49 61 50 60 5358 55 51 56 62 54 58 50 53 5561 60 54 51 53 54 55 48 58 62

    Apliquemos la regla del logaritmo para construir intervalos. Tenemos n = 120, siendopues L= [10 log

    10120] = 21. Se tiene XMIN= 34 yXMAX= 62, por consiguiente,

    A=62 34

    21 = 13333..

    La potencia de 10, mitad de potencia de 10 o quinta parte de potencia de 10 mas proxi-ma por exceso a 1333.. es 2, luego esa sera la amplitud de los intervalos. Si empezamos

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    6/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 5

    en 33, lo que es bastante logico, los intervalos seran,

    (33, 35] (35, 37] (37, 39] (39, 41] (41, 43] (43, 45] (45, 47]....(61, 63]

    es decir, 15 intervalos.

    Esta quizas no sea la mejor regla para todos los casos que se nos puedan presentar,pero es una posibilidad que emplearemos con cierta frecuencia. Cuando no se indiquenada en contra, se usara en problemas y ejercicios.

    2.2. Diagramas de tronco y hojas o tallo y hojas o Stemand Leaf [Trabajo personal del alumno]

    Son una variacion de las tablas de frecuencia, conservando los datos originales yanadiendo alguna informacion adicional.

    Realmente, este diagrama tiene una gran similitud con los histogramas pero repre-senta directamente los dgitos de los valores observados en vez de barras o rectangulos.De esta forma, su construccion es mucho mas sencilla y se conserva mucha mas in-formacion. La observacion de un diagrama de tronco y hoja revela propiedades ycaractersticas tales como,

    Rango de valores de los datos, as como concentracion y simetra de los mismos.

    Valores que se separan marcadamente del resto, y valores poco observados olagunas.

    Para construirlo seguiremos los siguientes pasos,

    1. Examinar los datos para decidir cuantos dgitos se van a conservar, truncandoa partir del ultimo dgito retenido. Todos los dgitos, salvo el ultimo, forman el

    tronco de la observacion, el ultimo dgito es la hoja. El lugar de truncamiento,que podemos hacer con o sin redondeo, dependera del tipo de datos.

    2. Escribir la lista de posibles troncos desde el menor al mayor y cada hoja ala derecha del tronco al que pertenece. Adicionalmente, se pueden ordenar lashojas sobre cada tronco en orden ascendente.

    3. Anadir una serie de anotaciones indicando de que forma se pueden leer los da-tos a partir del diagrama y el numero de datos. Ademas, si hay valores que seseparan en exceso del resto, se anotan aparte indicando el sentido de distancia-miento. De esta forma, se obtiene un diagrama mas compacto.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    7/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 6

    A veces, cuando los dgitos correspondientes a las hojas son unidades, se originandiagramas con pocos troncos pero si se toman decimas, aparecen demasiados. En estos

    casos, se puede dividir un tronco en dos partes, diferenciando cada parte con un *para las hojas de 0 a 4, y con un . para las de 5 a 9. Tambien es posible diferenciarcinco partes distintas empleando *, T, F, S y . para hojas de 0 a 1, 2 a3, 4 a 5, 6 a 7, y 8 a 9 respectivamente. Observese la similitud de estas clases conlas diferentes amplitudes de intervalos empleadas en la regla de construcci on de losmismos que hemos utilizado en la seccion anterior.

    Con objeto de constatar las diferencias que se pueden detectar entre dos grupos dedatos empleando los diagramas de tronco y hoja, vamos a considerar dicho diagramapara los conjuntos de datos de los Ejemplos 2. y 3. Dichos diagramas se muestran acontinuacion.

    unidad = 1 1|2 representa 12

    5*|00112344

    5.|555678

    6*|0011122333444

    6.|5555566677888999999

    7*|0000000111111222233344444

    7.|5555555555666666666777777777788888899999

    8*|0000000111111222223333334444444

    8.|55555666777889999*|0000112234

    9.|5667888

    Figura 1. Diagrama de tronco y hoja. Datos del Ejemplo 2.

    unidad = 1 1|2 representa 12

    INF|34,39,41

    4T|3

    4F|55

    4S|6

    4.|88899999

    5*|0000000011111

    5T|222333333333333333

    5F|444444444444555555555555

    5S|6666667777

    5.|8888888888999999

    6*|000000000001111111

    6T|222222

    Figura 2. Diagrama de tronco y hoja. Datos del Ejemplo 3.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    8/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 7

    En la primera fila, se da informacion sobre la unidad utilizada y como estanrepresentados los valores sobre el diagrama. Si hay valores extremos, se representan

    en la fila siguiente, indicando si son superiores o inferiores. Por ejemplo, en la Figura2., hay tres valores extremos inferiores. La deteccion de estos valores se ha hechoempleando el metodo basado en los cuartiles. Este metodo se expone y estudia en elTema 4.

    Para los datos del Ejemplo 2., se observa, como ya sabamos, una gran simetra, elintervalo intercuartlico, que contiene el 50 % de las observaciones, y la inexistencia devalores extranos. Para los del Ejemplo 3., el diagrama muestra asimetray presenciade valores extranos, raros o anomalos.

    Los conceptos mencionados anteriormente, es decir, cuartiles, intervalo intercuartli-co, vallas interiores y exteriores y mediana, se veran en el Tema 3. El concepto devalores extremos o extranos se estudiara en el Tema 4.

    3. Resumenes graficos

    Las representaciones graficas permiten captar rapidamente y sin gran esfuerzo lasprincipales caractersticas de un conjunto o distribucion de frecuencias. Son un mediocomplementario aunque muy importante pare realizar un analisis estadstico de losdatos.

    Las representaciones graficas basicas estan asociadas a los resumenes numericos otablas de frecuencias y son,

    Diagramas de barras e histogramas: Representan fundamentalmente fre-cuencias, ya sean absolutas o relativas. Los diagramas de barras se empleanbasicamente para variables discretas, mientras que los histogramas se asocian avariables de tipo continuo, agrupadas en intervalos.

    Polgonos de frecuencia acumulada: Representan frecuencias acumuladas.

    Otras representaciones son los diagramas de rectangulos, los diagramas desectores, lospictogramasy los perfiles ortogonales

    A continuacion vamos a exponer los diferentes tipos de representaciones graficas,clasificandolas segun el tipo de datos a los que se aplican.

    3.1. Resumenes graficos para variables cualitativas

    3.1.1. Diagramas de rectangulos

    Para variables cualitativas, podemos emplear los diagramas de rectangulos. Segun

    que estos se representen en horizontal o vertical, se denominan diagramas de barraso diagramas de columnas.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    9/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 8

    Veamos los primeros. Basicamente consisten en representar las frecuencias median-te barras o rectangulos horizontales de longitudes proporcionales a las mismas. Por

    ejemplo, si una modalidad presenta una frecuencia doble que otra, su correspondientebarra tendra tambien una longitud doble a la de la otra. Vease la Figura 3.

    fi

    xi

    Figura 3. Diagrama de barras. En vertical aparecen las modalidades, xi. Las longitudesde las barras de cada modalidad son proporcionales a sus frecuencias.

    En principio, es indiferente emplear frecuencias absolutas o relativas, pues unas

    y otras son proporcionales entre si, pero si se compara una variable para diferentesconjuntos de elementos, hay que tener precaucion pues el numero total de elementos decada conjunto puede influir indirectamente en las longitudes de las barras, falseandoen cierta medida la interpretacion. Por este motivo, en tales caso hay que emplearfrecuencias relativas.

    El siguiente ejemplo se empleara, al igual que los datos de los ejemplos 1., 2. y 3.,a lo largo de todo el tema, y se refiere a las preferencias de un conjunto de personaspor diferentes tipos de espectaculos, diferenciadas por sexo.

    EJEMPLO 4 Se ha preguntado a un grupo de 100 varones, y a un grupo de 143

    mujeres, sobre sus preferencias de ocio, siendo las modalidades los siguientes espectaculos:CINE, TEATRO, MUSICA y FUTBOL.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    10/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 9

    Una vez recogidos los datos se han contado, clasificado y tabulado, obteniendose los

    siguientes resumenes, diferenciados por sexo,

    PREFERENCIAS DE OCIO. VARONES

    ESPECTACULOS ni fiCINE 48 048

    TEATRO 12 012

    MUSICA 10 010

    FUTBOL 30 030

    100

    PREFERENCIAS DE OCIO. MUJERES

    ESPECTACULOS ni fiCINE 60 0419580420

    TEATRO 17 0118881119

    MUSICA 23 0160839161

    FUTBOL 43 0300699301

    143

    A continuacion vamos a construir un diagrama de barras para los datos corres-pondientes a las preferencias sobre diversos espectaculos que ha mostrado un grupode 100 varones, y que aparecen en el Ejemplo 4. Lo haremos con el programa EXCEL,para lo cual pulsaremos el icono correspondiente a graficos, y una vez que aparezcala galera de posibilidades, optaremos por el diagrama de barras horizontales massimple.

    En la lista es el primero, y como no vamos a realizar comparaciones, podemosemplear frecuencias absolutas. En el asistente para graficos que se nos muestra en lapantalla escogeremos la pestana serie, e introduciremos en el lugar adecuado el rangode celdas que contenga las frecuencias absolutas.

    Tambien introduciremos los ttulos y rotulos adecuados para una presentacionfinal lo mas informativa posible. En la Figura 4. exponemos el resultado obtenido.

    Con pequenas variaciones se pueden obtener diagramas de columnas, as comorealizar representaciones de este tipo para varias series de datos, lo que permite inte-resantes comparaciones.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    11/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 10

    Figura 4. Diagrama de barras para los datos del Ejemplo 4. Preferencias del grupo de

    varones. Realizado con EXCEL.

    Volvemos a insistir en el cuidado que se debe tener al realizar estas comparacionescuando las series que se comparan se refieren a grupos o conjuntos de elementos dediferentes tamanos. Por ejemplo, si queremos comparar, en terminos generales, laspreferencias entre varones y mujeres, mediante diagramas de este tipo, por ejemplocon barras apiladas, tendramos que emplear las frecuencias relativas, pues hay 143mujeres y 100 hombres, y esta diferencia podra producir una falsa impresion si usamosfrecuencias absolutas, pero queremos realizar un estudio en terminos relativos.

    En la Figura 5. exponemos un diagrama de barras apiladas para preferencias devarones y mujeres, realizado con EXCEL, la forma de proceder es similar a la deldiagrama anterior, pero introduciendo las dos series de datos, para varones y paramujeres, que aparecen en el Ejemplo 4., y anadiendo los rotulos adecuados. Como seaprecia en el grafico, se han empleado las frecuencias relativas para poder apreciarlas diferencias genericas entre las preferencias de varones y mujeres.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    12/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 11

    Figura 5. Diagrama de barras apiladas para los datos del Ejemplo 3. Preferencias de

    varones y mujeres. Realizado con EXCEL.

    3.1.2. Diagramas de sectores

    Sobre un crculo, se dibujan, para cada modalidad, sectores circulares de amplitudproporcional a las frecuencias. Ahora es indiferente emplear frecuencias absolutas orelativas.

    Supongamos que a la modalidad xi

    le corresponde una amplitud de i

    grados. Setiene i=cfi, siendo c la constante de proporcionalidad, por lo que,

    360o =i

    i = ci

    fi = 1

    por consiguiente i = fi 360o. Y de esta forma se calculan las correspondientes

    amplitudes de cada modalidad, en grados sexagesimales.

    Por ejemplo, para los datos correspondientes a los varones del Ejemplo 4, lasamplitudes correspondientes aparecen en la tabla que se expone a continuacion.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    13/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 12

    PREFERENCIAS DE OCIO. VARONES

    ESPECTACULOS ni fi i= fi 360o

    CINE 48 048 17280TEATRO 12 012 4320

    MUSICA 10 010 3600

    FUTBOL 30 030 10800100

    As, para construir el diagrama de sectores, habra que tomar un crculo y dividirloen sectores con las respectivas amplitudes angulares anteriores. Para ello se necesitaalgun instrumento para poder medir angulos.

    El programa EXCEL nos evita este proceso. En efecto, siguiendo un metodo analo-go al empleado para los diagramas de barras, hemos obtenido los siguientes diagramascon preferencias de varones y mujeres.

    Figura 6. Diagramas de sectores para los datos del Ejemplo 4. Preferencias de varones y

    mujeres. Realizado con EXCEL.

    Finalmente, para terminar este apartado, diremos que aunque los diagramas derectangulos y sectores son especficos para variables de tipo cualitativo, es posible

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    14/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 13

    por supuesto aplicarlos a variables cuantitativas, incluso continuas. Por ejemplo, re-cordemos que los datos del Ejemplo 2., relativos a los 175 estudiantes se resumen

    numericamente en la siguiente tabla,

    (ei1, ei] xi ni Ni fi Fi(465, 555] 51 11 11 11/175 11/175(555, 645] 60 16 27 16/175 27/175(645, 735] 69 39 66 39/175 66/175(735, 825] 78 63 129 63/175 129/175(825, 915] 87 35 164 35/175 164/175

    (915, 1005] 96 11 175 11/175 175/175175 1

    Aunque para este tipo de datos no sea lo mas apropiado, pues ya existen resumenesgraficos especficos para ellos como el histograma, no hay ningun inconveniente enconstruir un diagrama de barras como el que aparece en la Figura 6., realizado conel programa EXCEL.

    Figura 7. Diagrama de barras para los datos del Ejemplo 2., agrupados en intervalos.

    Realizado con EXCEL.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    15/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 14

    3.2. Resumenes graficos para variables cuantitativas

    Las variables de tipo intrnsecamente cuantitativo, como numero de hijos, puntua-ciones en un examen o tallas y pesos tienen tipos de graficos especficos, adaptados asus particularidades. Recordemos que las variables de este tipo pueden ser discretaso continuas, pero esta distincion es mas bien teorica, y en la practica distinguiremosfundamentalmente si la variable esta agrupada en intervalos o no. As, en los ejemplosbasicos que estamos manejando continuamente en el Tema 2., la variable NUMERODE HIJOS no se agrupa en intervalos, pues sus valores presentan poca variedad, perolas PUNTUACIONES de los 175 estudiantes s se agrupan ya que presentan numero-sos valores distintos, aunque desde un punto de vista practico tenga un caracter discre-to pues ningun profesor califica por ejemplo con 743337664553443656664. As pues,

    distinguiremos basicamente que esten o no agrupadas, y consideraremos como ejem-plos paradigmaticos los ya mencionados, es decir, el NUMERO DE HIJOS de las 150familias [Ejemplo 1.] y las PUNTUACIONES de los 175 estudiantes [Ejemplo 2.].Vease inicio del Tema 2.

    3.2.1. Diagramas de barras

    Son especficos para las variables no agrupadas. En el eje de abscisas, es decir,el horizontal, se colocan los distintos valores de la variable, en su sitio segun su valor yla escala que se considere. Sobre cada uno de ellos, se levanta una lnea perpendicular

    al eje. Las longitudes pueden ser las frecuencias absolutas, las relativas o magnitudesproporcionales a las mismas. Realmente lo que importa es la relacion entre las barras,y el tomar una u otra opcion solo hace variar la escala del grafico. Vease Figura 8.

    x1 x2 xk

    Figura 8. Diagrama de barras para una variable cuantitativa. En la horizontal aparecen

    las modalidades,xi. Las longitudes de las barras de cada modalidad son lascorrespondientes frecuencias o cantidades proporcionales.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    16/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 15

    Sobre este esquema basico existen numerosas variaciones. Por ejemplo, se puedenconsiderar lneas o barras finas de diferentes colores. Tambien se pueden comparar

    diferentes conjuntos de datos, de forma similar a como se haca con variables cuali-tativas, mediante diagramas de columnas adheridas o apiladas. Recuerdese que paraeste tipo de comparaciones, y segun el objetivo que se quiera conseguir, las frecuen-cias absolutas pueden no resultar apropiadas. Vease lo dicho para los diagramas derectangulos.

    En la Figura 9. se expone un diagrama de barras realizado con EXCEL para losdatos del numero de hijos de 150 familias [Ejemplo 1.]. Observese que en este grafico,las alturas de las barras coinciden con las frecuenciasni

    Figura 9. Diagrama de barras para el numero de hijos de 150 familias. Realizado con

    EXCEL.

    3.2.2. Histogramas

    Son especficos de variables agrupadas en intervalos. En el eje de abscisas secolocan los intervalos, y sobre cada uno de ellos se levanta un rectangulo de area igual,o proporcional, a la frecuencia del mismo, que en principio puede ser tanto absolutacomo relativa. Vease Figura 10.

    Si por ejemplo queremos que las areas de los rectangulos coincidan con las frecuen-cias absolutas, la altura, hi, del rectangulo sobre el intervalo (ei1, ei] de amplitud ai

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    17/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 16

    sera tal que ni = aihi y por consiguiente,

    hi=ni/ai i= 1, 2, . . . , k

    que nos permite calcular las alturas de los rectangulos.

    Observemos que para una misma frecuencia, cuanto mayor es la amplitud delintervalo menor es la altura del rectangulo, pues el elemento representativo del histo-grama es la superficie. Observemos tambien que si todos los intervalos son de igualamplitud, se pueden tomar las alturas directamente iguales a las frecuencias.

    e0 e1 e2 ek

    Figura 10. Histograma para una variable cuantitativa agrupada.

    A veces, la aplicacion rigurosa de la regla anterior, bajo una determinada escala,da lugar a graficos poco esteticos, por ejemplo muy aplastados o muy estirados envertical, pudiendose entonces introducir un factor de proporcionalidad que produzcauna grafica mas proporcionada. Esto equivale simplemente a un cambio de escala, yno distorsiona en absoluto la finalidad del histograma.

    En la Figura 11. se expone un histograma realizado con EXCEL para los datos delEjemplo 2., es decir, las puntuaciones de 175 estudiantes, agrupadas en intervalos. Eneste caso, todos los intervalos tienen la misma amplitud, y en la grafica, la altura delos rectangulos construidos sobre cada intervalo se ha hecho coincidir con la frecuenciaabsoluta,ni. De esta forma se consigue que las superficies de los diferentes rectangulo

    guarden una relacion de proporcionalidad con las frecuencias de cada uno, que comoya hemos mencionado, es la idea fundamental de este tipo de grafico.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    18/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 17

    Figura 11. Histograma para los datos del Ejemplo 2, puntuaciones de 175 estudiantes,agrupados en intervalos. Realizado con EXCEL.

    3.2.3. Polgono de frecuencias

    Este grafico se puede construir tanto para variables no agrupadas como agrupadasen intervalos, y tanto con frecuencias absolutas como relativas. Nosotros lo veremoscon frecuencias absolutas.

    3.2.3.1. Variables no agrupadas en intervalos

    Consiste en construir, a partir de un diagrama de barras, existente o hipotetico,segmentos rectilneos que unan los extremos de las barras, formando as una lneapoligonal que une los puntos (x1, n1), (x2, n2),...,(xk, nk). Usualmente, este graficose proporciona en combinacion con el diagrama de barras, pero no es estrictamentenecesario. En la Figura 12. aparece esquematicamente un diagrama de este tipo,construido a partir del diagrama de barras.

    En la Figura 13. podemos ver un polgono de frecuencias, obtenido con el programaEXCEL, para los datos del numero de hijos de 150 familias, ya conocidos. Como puedeverse, la evolucion del polgono permite captar rapidamente el fenomeno es estudio.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    19/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 18

    x1 x2 xkxi

    Figura 12. Polgono de frecuencias para una variable cuantitativa no agrupada en

    intervalos.

    Figura 13. Polgono de frecuencias para el numero de hijos de 150 familias. Realizadocon EXCEL.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    20/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 19

    3.2.3.2. Variables agrupadas en intervalos

    Consiste en construir, a partir de un histograma, existente o hipotetico, segmentosrectilneos que unan los puntos medios de las bases superiores de cada rectangulo,formando as una lnea poligonal.

    Sixison las marcas de clases de los intervalos, y hison las alturas de los rectangulosconstruidos sobre los intervalos, dicha lnea poligonal es la que une los puntos (x1, h1),(x2, h2),...,(xk, hk).

    Usualmente, este grafico se proporciona en combinacion con el histograma, pero noes estrictamente necesario. En la Figura 14. aparece esquematicamente un diagramade este tipo, construido a partir del histograma.

    En la Figura 15. podemos ver un polgono de frecuencias, obtenido con el programa

    EXCEL, para los datos de las puntuaciones de 175 estudiantes, ya conocidos. Comopuede verse, la evolucion del polgono permite captar rapidamente el fenomeno esestudio.

    e0 e1 e2 ek

    Figura 14. Polgono de frecuencias para una variable cuantitativa agrupada en intervalos.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    21/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 20

    Figura 15. Polgono de frecuencias para las puntuaciones de 175 estudiantes. Realizadocon EXCEL.

    3.2.4. Curva acumulativa

    Este grafico pretende plasmar visualmente la acumulacion de la frecuencia, alaumentar los valores de la variable. Usualmente emplea frecuencias relativas acu-muladas y se puede realizar tanto para variables no agrupadas como agrupadas enintervalos. Para este tipo de grafico es indispensable que los valores de la variable secoloquen ordenados de menor a mayor.

    3.2.4.1. Variables no agrupadas en intervalos

    Para este tipo de datos, la curva acumulativa es la representacion grafica de lasiguiente funcion,

    F(x) =

    0 si x < x1F1 si x1 x < x2F2 si x2 x < x3

    Fk1 si xk1 x < xk1 si xk x

    La grafica es una lnea constante a trozos, nunca decreciente, y con saltos enlos puntos x1, x2,...,xk, correspondientes a las discontinuidades de la funcion F(x).

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    22/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 21

    Observemos que el crecimiento de esta lnea indica la forma en que se distribuyen lasobservaciones en los diferentes valores de la variable. Realmente, para un valorx IR,

    F(x) es la frecuencia relativa o proporcion de individuos cuyo valor de la variable enestudio es menor o igual que x.

    Por ejemplo, para el conocido ejemplo del numero de hijos de 150 familias, F(3)es la frecuencia relativa o proporcion de familias que tienen 3 hijos o menos, es decir0 o 1 o 2 o 3 hijos, y as se comprende el hecho de que la grafica presente saltos enlos valores xi.

    La funcionF(x) se denominafuncion de distribucionde la variable estadsticaque se estudia. No hay que confundir esta funcion con la funcion de distribucionasociada a una variable aleatoria, que se estudia en Calculo de Probabilidades. Soncosas distintas.

    x1 x2 x3 xk

    F1

    F2

    1

    )

    [ )

    [ )[ )

    F(x)

    [

    Figura 16. Curva acumulativa para una variable cuantitativa no agrupada en intervalos.

    Es la grafica de la funcionF(x).

    En la Figura 16. aparece esquematicamente un grafico de este tipo. Observese quela notacion ) y [ indica que extremo de los segmento es abierto o cerrado respectiva-mente.

    3.2.4.2. Variables agrupadas en intervalos

    La idea es la misma que para datos no agrupados, pero ahora, se aplica la hip otesisteorica de que las observaciones se distribuyen uniformemente en los intervalos, con

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    23/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 22

    lo cual la acumulacion se supone exenta de discontinuidades. Concretamente, estagrafica se obtiene uniendo por segmentos rectilneos los puntos,

    (, 0), (e0, 0), (e1, F1), (e2, F2), , (ek1, Fk1), (ek, 1), (+, 1)

    formando as una lnea poligonal continua y creciente que indica la forma en que sedistribuyen las observaciones en los diferentes valores de la variable. Esta lnea es larepresentacion de una funcion que denotamos, con en el caso anterior, F(x).

    Realmente, para un valor x IR, F(x) es la frecuencia relativa o proporcion deindividuos cuyo valor de la variable en estudio es menor o igual que x. Por ejemplo,para el conocido ejemplo de las puntuaciones de 175 estudiantes, F(675) es la fre-cuencia relativa o proporcion de estudiantes que han obtenido 675 o menos, es decir

    una nota en el intervalo [0, 67

    5].Tambien como en el caso anterior, la funcionF(x) se denomina funcion de distri-

    bucion de la variable estadstica que se estudia. No hay que confundir esta funcioncon la funcion de distribucion asociada a una variable aleatoria, que se estudia enCalculo de Probabilidades. Son cosas distintas.

    En la Figura 17. aparece esquematicamente un grafico de este tipo. Observese lacontinuidad y su caracter creciente.

    e0 e1 e2 ek

    1

    F1

    F2

    F3

    F(x)

    Figura 17. Curva acumulativa para una variable cuantitativa agrupada en intervalos.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    24/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 23

    3.3. Otros tipos de graficos

    3.3.1. Pictogramas

    Estos graficos utilizan figuras relacionadas con el fenomeno que se estudia de formaque su tamano o cantidad indique la frecuencia de cada modalidad.

    Supongamos que se ha estudiado la produccion lactea media diaria de tres granjasde ganado vacuno, denominadas GRANJA A, GRANJA B y GRANJA C, siendo lasproducciones en litros,

    GRANJA PRODUCCION LACTEAGRANJA A 495

    GRANJA B 2456GRANJA C 1567

    En la Figura 18. se expone un pictograma que pretende representar las diferenciasde produccion mediante el tamano de la figura.

    Figura 18. Pictograma para la produccion lactea de las granjas A, B y C

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    25/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 24

    3.3.2. Cartogramas

    Sobre un mapa se indica, para cada region geografica, la frecuencia o intensidadde la caracterstica en estudio. Para hacerlo se pueden emplear diferentes colores otramas, o tambien cantidades numericas.

    A modo de ejemplo, se expone en la Figura 19. un cartograma en el que se quiererepresentar las diferencias de porcentaje de aulas de ensenanza concertada sobre eltotal de la ensenanza privada, en diferentes comunidades. Este cartograma se haextrado de un Boletn Informativo elaborado por el Instituto Nacional de Estadsticaen Junio de 2002, sobre la ensenanza privada en Espana.

    Figura 19. Cartograma representativo de los porcentajes de aulas de ense nanza privada

    concertada sobre el total de la ensenanza privada. Fuente: I.N.E., Junio de 2002.

    Como es facil de comprender, ni los pictogramas ni los cartogramas pueden con-siderarse graficas muy representativa ni exactas. Este problema puede eliminarse enparte acompanando el grafico de las cantidades numericas, como en el caso del anteriorcartograma.

    Jose A. Mayor Gallego. Universidad de Sevilla

  • 7/27/2019 temesd02.pdf

    26/26

    F.M.E. Estadstica Descriptiva. Tema 2: Resumenes numericos y graficos 25

    3.3.3. Perfil ortogonal

    Se emplea para representar diferentes caractersticas de un mismo individuo. Estarepresentacion tiene gran interes en estudios psicologicos o pedagogicos. Consisteen representar, para cada individuo, representar en un eje horizontal las distintascaractersticas en estudio, y en el eje vertical los valores de cada una.

    Por ejemplo, supongamos que un alumno de Primero de Estadstica presenta lassiguientes calificaciones,

    Asignatura CalificacionEstadstica Descriptiva 8Analisis Matematico 5

    Algebra 6Calculo de Probabilidades 4Informatica 5Teora de la Probabilidad 2Investigacion Operativa 6

    que representadas graficamente dan lugar al siguiente perfil ortogonal que aparece enla Figura 20.,

    Figura 20. Perfil ortogonal para las calificaciones obtenidas por un alumno de Primero deEstadstica. Realizado con EXCEL.