Daniels Capítulo 2 Bioestadística: base para el análisis de las ciencias de la salud . Daniel...

42
2.1 INTRODUCCION 2.4 ESTADISllCA DESCRIPTIV A: MEDIDAS DE TENDENCIA CENTRAL 2.2 ARREGLO ORDENADO 2.5 ESTADISllCA DESCRIPTIVA: 2.3 DATOS AGRUPADOS Y MEDIDAS DE DISPERSION DISTRIBUCION DE FRECUENCIAS 2.6 RESUMEN 2. t JNTRODUCCION En el capitulo 1 se establecio que la toma de medici ones y el proceso de con teo producen numeros que contienen informacion. El objetivo de la gente que aplica herramientas estadisticas a esos numeros es determinar la naturaleza de esa informacion. Esta tare a es mucho mas facil si los numeros estan organizados y resumidos. Cuando se hacen las mediciones sobre entidades de una poblaci6n 0 . muestra, los valores resultantes estan disponibles para el investigador 0 estadfstico como una masa de datos desorganizados. Las mediciones que no han sido organizadas, procesadas 0 manejadas de alguna otra forma se les llama datos crudos (materia prima). A menos que el numero de observaciones sea extremadamente pequeno, es improbable que esos datos crudos proporcionen suficiente informaci6n hasta que sean puestos en alglin orden. En este capitulo se ensenan algunas tecnicas para organizar y procesar datos de tal manera que sea mas facil determinar que informacion contienen. Lo mas actual en procesamiento de datos es el calculo de un numero individual que de alguna manera incluye informaci6n importante acerca de los datos que sirvieron para calcularlo. A estos numeros individuales utilizados para describir datos se les llama medidas descriptivas. Despues de estudiar este capitulo el estudiante podra calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos. EI proposito de este capitulo es desarrollar en el estudiante habilidades para poder mane jar la informacion numerica que se encuentre como profesional en ciencias de la salud. Entre mejor capacitado este para manejar tal informacion, tendra una mejor idea del ambiente y de las fuerzas que generan la informacion. 15

Transcript of Daniels Capítulo 2 Bioestadística: base para el análisis de las ciencias de la salud . Daniel...

21 INTRODUCCION 24 ESTADISllCA DESCRIPTIV A MEDIDAS DE TENDENCIA CENTRAL

22 ARREGLO ORDENADO 25 ESTADISllCA DESCRIPTIVA

23 DATOS AGRUPADOS Y MEDIDAS DE DISPERSION DISTRIBUCION DE FRECUENCIAS 26 RESUMEN

2t JNTRODUCCION

En el capitulo 1 se establecio que la toma de medici ones y el proceso de con teo producen numeros que contienen informacion El objetivo de la gente que aplica herramientas estadisticas a esos numeros es determinar la naturaleza de esa informacion Esta tare a es mucho mas facil si los numeros estan organizados y resumidos Cuando se hacen las mediciones sobre entidades de una poblaci6n 0

muestra los valores resultantes estan disponibles para el investigador 0

estadfstico como una masa de datos desorganizados Las mediciones que no han sido organizadas procesadas 0 manejadas de alguna otra forma se les llama datos crudos (materia prima) A menos que el numero de observaciones sea extremadamente pequeno es improbable que esos datos crudos proporcionen suficiente informaci6n hasta que sean puestos en alglin orden

En este capitulo se ensenan algunas tecnicas para organizar y procesar datos de tal manera que sea mas facil determinar que informacion contienen Lo mas actual en procesamiento de datos es el calculo de un numero individual que de alguna manera incluye informaci6n importante acerca de los datos que sirvieron para calcularlo A estos numeros individuales utilizados para describir datos se les llama medidas descriptivas Despues de estudiar este capitulo el estudiante podra calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos

EI proposito de este capitulo es desarrollar en el estudiante habilidades para poder manejar la informacion numerica que se encuentre como profesional en ciencias de la salud Entre mejor capacitado este para manejar tal informacion tendra una mejor idea del ambiente y de las fuerzas que generan la informacion

15

16 CAPITULO 2 ESTADISTICA DESCRIPTIV A

22 ARREGLO OBDENADO

EI primer paso para organizar datos es preparar un arreglo ordenado Un arreglo ordenado es una lista de valores de un grupo (sea poblacion 0 muestra) en orden de magnitud de menor a mayor valor Se recomienda el uso de la computadora si el numero de mediciones a ordenar es bastante grande

Un arreglo ordenado permite determinar con rapidez los valores de las medishyciones mas pequefias de las mas grandes y otros aspectos acerca de los datos arreshyglados que pudieran necesitarse en caso de urgencia A continuaci6n se muestra la construcci6n de un arreglo ordenado con los datos que se estudiaron en el ejemplo 141

EJEMPL9221

La tabla 141 contiene una lista de las edades de los individuos que participaron en el estudio de residentes de Groenlandia estudiados en el ejemplo 1041 Como puede apreciarse esta tabla desordenada requiere de mucha investigaci6n para determinar informacion basica como la edad de los individuos mas j6venes hasta los mas viejos

Soludon La tabla 221 presenta los datos de la tabla 141 en forma de arreglo ordenado AI referirse a la tabla 221 es posible determinar rapidamenshyte la edaddel individuo mas joven (18) y la edad del mas viejo (63) Tambien es posible identificar con facilidad que casi tres cuartas partes de los individuos tienen menos de 40 afios de edad bull

Anii1isisporcompldadom Cuando se requieren cilculos adicionales y organizashycion de un conjunto de datos en forma manual el trabajo se facilita mediante un arreshyglo ordenado Si los datos son analizados por computadora esto no es aconsejable

TABIA221 Arreglo ordenado de las edades de los individuos de la tabla 141

18 18 19 19 20 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 25 25 25 25 26 26 26 2626 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 32 33 33 33 34 34 34 34 34 35 36 36 36 37 37 37 37 37 38 38 38 38 38 39 39 39 40 40 40 40 40 40 41 41 41 42 42 42 42 43 43 43 44 44 44 45 45 45 46 46 47 47 47 47 48 48 48 48 48 48 49 49 50 50 50 51 51 52 52 53 53 53 53 56 61 62 63 63

17 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Dialog box

Manip Sort Session command

II Sort

~===i 0 Qescending

l====i 0 Dgscending

====i 0 Damp5cQding

o Descendinsect

~~~ llliIL1

MTB gt Sort Cl C2 SUBCgt By Cl

FIGURA 221 Caja de diaIogo para e1 ejemplo 221

para preparar un arreglo ordenado a menos que se necesite para prop6sitos de refeshyrencia 0 para otro uso La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribuci6n de frecuencias y para hacer otros amllisis

Si desea un arreglo ordenado muchos paquetes de software para computadoshyni contienen rutinas para construirlo Por ejemplo suponga que se usa el MINITAB Yque las edades de la tabla 1041 estan en la columna 1 El comando SORT C 1 C2 dasifica las edades y las pone en la columna 2 como 10 muestra la tabla 221 Si se utilizael paquete MINITAB para Windows y los datos se colocan en la columna 1 el proceso es como sigue con el mouse haga die en Manip luego en Sort escriba c1 en la caja etiquetada como Sort column[s] escriba c2 en la caja etishyquetada como Store sorted column[s] in (para tener los datos dasificados en c2) y escriba c1 en la caja etiquetada Sort by column Si desea ordenar en forma descendente haga dic en Descending Si no se selecciona esa opci6n en este punto el resultado es una clasificaci6n en orden ascendente Finalmente haga dic en OK La caja de dialogo para el ejemplo 221 se muestra en la figura 221

23 DATOSAGRUPADOS YDISTRIBUCION DE FRECUENCIAS

Aunque un conjunto de observaciones puede hacerse mas comprensible y mas sigshynificativo por medio de un arregloordenado es mas util el resumen que se obtiene mediante la agrupaci6n de datos Antes de la era de las computadoras uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el calculo de varias medidas descriptivas como porcentajes y promedios Debido a

18 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos sin agrupacion previa actualmente el proposito principal de agrupar los datos es el de resumir la informacion Se debe tener en mente que los datos contienen inforshymacion y que el resumen es una forma sencilla para determinar su naturaleza

Para agruparun conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos Estos intervalos normalmente se identifican como intervalos de clase

Una de las primeras consideradones ruando se agrupan datos es la de ruantos intervalos se deben incluir Resulta inadecuado incluir pocos intervalos porque se perderia informacion Por otro lado si se utilizan muchos intervalos el objetivo de resumir no se consigue La mejor guia en este caso asi como para la toma de otras dedsiones sobre la agrupadon de datos es el conocimiento de los datos Puede ser que los intervalos de clase queden determinados por los precedentes como en el caso de las tabulaciones anuales en las que los intervalos de clase de los afios anteriores se conservan para propositos comparativos Una regIa empfrica que habitualmente se sigue establece que deben serentre seis y 15 intervalos Si hay menos de seis intervalos los datos se han resumido en exceso y la informaci6n que contienen se habra perdido Si hay mas de 15 intervalos los datos no fueron resumidos 10 suficiente

Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase son necesarios pueden utilizar la f6rmula propuesta por Sturges (1) Esta formula se enuncia k = 1 + 3322(loglO n) donde k es el numero de intervalos de clase y n es el numero de valores en el conjunto de datos en observaci6n La respuesta que se obtiene con la regla de Sturges no es definitiva sino que se debe considerar unicashymente como gufa El numero de intervalos de clase especificado par esta regIa debera incrementarseo disminuirse por conveniencia y para lograr una presentashycion mas clara

Por ejemplo suponga que una muestra tiene 275 observaciones para agrupar Ellogaritmo base 10 de 275 es 24393 Con la aplicacion de la formula de Sturges se obtiene k = 1 + 3322(24393) 9 En la practica otras consideraciones pueden sugerir el uso de 8 0 menos 0 quiza 10 0 mas intervalos de clase

Otra preguntaque se debe responder se refiere a la amplitud del intervalo de clase Los interval os de clase generalmente deben ser de la misma amplitud aunshyque algunas veces esto es imposible La amplitud se determina dividiendo el rango entre k que es el numero de intervalos de clase Simbolicamente la amplitud de los intervalos de clase esta dada por

R w (231)

k

donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos Por 10 general con este procedimiento se obtiene una amplitud que no es conveniente usar y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 231) que sea mas conveniente

19 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles Cuando la naturaleza de los datos los hace adecuados la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5 Generalmente los intervalos de clase se almacenan de menor a mayor es decir el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo intershyvalo contiene las mediciones mas grandes Cuando sea este el caso ellimite infeshyrior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande

Aunque muchos paquetes de software para microcomputadora contienen rushytinas para construir interval os de clase frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados A continuashyci6n se utilizan las 169 edades incluidas en la tabla 141 y arregladas en la tabla 221 para ilustrar la construcci6n de la distribuci6n de frecuencias

EJEMPLO 23t

Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuenshycias de datos y tambien se quiere saber que tan amplios deben ser los intervalos

Solucion Para tener una idea del numero de intervalos a utilizar la aplicaci6n de la regIa de Sturges indica

k = 1 + 3322(log 169)

= 1 + 3322(2227886705)

8

Ahora al dividir el rango entre 8 para darse una idea de la amplishytud de los intervalos de clase se obtiene

R = 63 -18 = 45 =5625 k 8 8

Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector Suponga que se decide que sea 10 Ahora es posible construir los intervalos Puesto que el valor mas pequeno en la tabla 221 es 18 y el mayor es 63 entonces los intervalos inician con 10 Y terminan con 69 Se obtienen los siguientes intervalos

10-19

20-29

30-39

40-49

50-59

60-69

20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

Puede observarse que hay 6 de esos intervalos es dedr dos menos que el numero de intervalos calculados con la regIa de Sturges

AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase el cual se determina sumando los limites extreshymosdel intervalo de clase y dividiendo entre 2~ Por ejemplo el punto medio del intervalo de clase 10-19 es (10 + 19)2= 145 bull

Cuando se agrupan datos manualmente determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos Si se aplica esto al ejemplo anterior se obtiene la tabla 231

Una tabla de este tipo se canoce como distribucwn de frecuencias En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficashydos AI consllltarla es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos

Frecuencias relaiivas En ocasiones puede ser de utilidad conocer la proshypordon en lugar del nlimero de valores que caen dentro de un intervalo de clase en particular Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores Si en el ejemplo anteshyrior se pretende conocer la proporci6n de valores entre 30 y 39 inclusive se divide 47 entre 169 para obtener 2781 Esto indica que 47 de 169 ~7169 0 02781 de los valores caen entre 30 y 39 AI multiplicar 2781 por roo se obtiene el porcenshytaje de valores entre 30 y 39 Con 10 anterior se puede decir que el 2781 por ciento de los individuos tienen entre 30 y 39 alios de edad Finalmente a la proshypordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo

TABlA 231 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 141 y221

Intervalos de clase Frecuencias

10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4

Total 169

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

16 CAPITULO 2 ESTADISTICA DESCRIPTIV A

22 ARREGLO OBDENADO

EI primer paso para organizar datos es preparar un arreglo ordenado Un arreglo ordenado es una lista de valores de un grupo (sea poblacion 0 muestra) en orden de magnitud de menor a mayor valor Se recomienda el uso de la computadora si el numero de mediciones a ordenar es bastante grande

Un arreglo ordenado permite determinar con rapidez los valores de las medishyciones mas pequefias de las mas grandes y otros aspectos acerca de los datos arreshyglados que pudieran necesitarse en caso de urgencia A continuaci6n se muestra la construcci6n de un arreglo ordenado con los datos que se estudiaron en el ejemplo 141

EJEMPL9221

La tabla 141 contiene una lista de las edades de los individuos que participaron en el estudio de residentes de Groenlandia estudiados en el ejemplo 1041 Como puede apreciarse esta tabla desordenada requiere de mucha investigaci6n para determinar informacion basica como la edad de los individuos mas j6venes hasta los mas viejos

Soludon La tabla 221 presenta los datos de la tabla 141 en forma de arreglo ordenado AI referirse a la tabla 221 es posible determinar rapidamenshyte la edaddel individuo mas joven (18) y la edad del mas viejo (63) Tambien es posible identificar con facilidad que casi tres cuartas partes de los individuos tienen menos de 40 afios de edad bull

Anii1isisporcompldadom Cuando se requieren cilculos adicionales y organizashycion de un conjunto de datos en forma manual el trabajo se facilita mediante un arreshyglo ordenado Si los datos son analizados por computadora esto no es aconsejable

TABIA221 Arreglo ordenado de las edades de los individuos de la tabla 141

18 18 19 19 20 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 25 25 25 25 26 26 26 2626 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 32 33 33 33 34 34 34 34 34 35 36 36 36 37 37 37 37 37 38 38 38 38 38 39 39 39 40 40 40 40 40 40 41 41 41 42 42 42 42 43 43 43 44 44 44 45 45 45 46 46 47 47 47 47 48 48 48 48 48 48 49 49 50 50 50 51 51 52 52 53 53 53 53 56 61 62 63 63

17 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Dialog box

Manip Sort Session command

II Sort

~===i 0 Qescending

l====i 0 Dgscending

====i 0 Damp5cQding

o Descendinsect

~~~ llliIL1

MTB gt Sort Cl C2 SUBCgt By Cl

FIGURA 221 Caja de diaIogo para e1 ejemplo 221

para preparar un arreglo ordenado a menos que se necesite para prop6sitos de refeshyrencia 0 para otro uso La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribuci6n de frecuencias y para hacer otros amllisis

Si desea un arreglo ordenado muchos paquetes de software para computadoshyni contienen rutinas para construirlo Por ejemplo suponga que se usa el MINITAB Yque las edades de la tabla 1041 estan en la columna 1 El comando SORT C 1 C2 dasifica las edades y las pone en la columna 2 como 10 muestra la tabla 221 Si se utilizael paquete MINITAB para Windows y los datos se colocan en la columna 1 el proceso es como sigue con el mouse haga die en Manip luego en Sort escriba c1 en la caja etiquetada como Sort column[s] escriba c2 en la caja etishyquetada como Store sorted column[s] in (para tener los datos dasificados en c2) y escriba c1 en la caja etiquetada Sort by column Si desea ordenar en forma descendente haga dic en Descending Si no se selecciona esa opci6n en este punto el resultado es una clasificaci6n en orden ascendente Finalmente haga dic en OK La caja de dialogo para el ejemplo 221 se muestra en la figura 221

23 DATOSAGRUPADOS YDISTRIBUCION DE FRECUENCIAS

Aunque un conjunto de observaciones puede hacerse mas comprensible y mas sigshynificativo por medio de un arregloordenado es mas util el resumen que se obtiene mediante la agrupaci6n de datos Antes de la era de las computadoras uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el calculo de varias medidas descriptivas como porcentajes y promedios Debido a

18 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos sin agrupacion previa actualmente el proposito principal de agrupar los datos es el de resumir la informacion Se debe tener en mente que los datos contienen inforshymacion y que el resumen es una forma sencilla para determinar su naturaleza

Para agruparun conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos Estos intervalos normalmente se identifican como intervalos de clase

Una de las primeras consideradones ruando se agrupan datos es la de ruantos intervalos se deben incluir Resulta inadecuado incluir pocos intervalos porque se perderia informacion Por otro lado si se utilizan muchos intervalos el objetivo de resumir no se consigue La mejor guia en este caso asi como para la toma de otras dedsiones sobre la agrupadon de datos es el conocimiento de los datos Puede ser que los intervalos de clase queden determinados por los precedentes como en el caso de las tabulaciones anuales en las que los intervalos de clase de los afios anteriores se conservan para propositos comparativos Una regIa empfrica que habitualmente se sigue establece que deben serentre seis y 15 intervalos Si hay menos de seis intervalos los datos se han resumido en exceso y la informaci6n que contienen se habra perdido Si hay mas de 15 intervalos los datos no fueron resumidos 10 suficiente

Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase son necesarios pueden utilizar la f6rmula propuesta por Sturges (1) Esta formula se enuncia k = 1 + 3322(loglO n) donde k es el numero de intervalos de clase y n es el numero de valores en el conjunto de datos en observaci6n La respuesta que se obtiene con la regla de Sturges no es definitiva sino que se debe considerar unicashymente como gufa El numero de intervalos de clase especificado par esta regIa debera incrementarseo disminuirse por conveniencia y para lograr una presentashycion mas clara

Por ejemplo suponga que una muestra tiene 275 observaciones para agrupar Ellogaritmo base 10 de 275 es 24393 Con la aplicacion de la formula de Sturges se obtiene k = 1 + 3322(24393) 9 En la practica otras consideraciones pueden sugerir el uso de 8 0 menos 0 quiza 10 0 mas intervalos de clase

Otra preguntaque se debe responder se refiere a la amplitud del intervalo de clase Los interval os de clase generalmente deben ser de la misma amplitud aunshyque algunas veces esto es imposible La amplitud se determina dividiendo el rango entre k que es el numero de intervalos de clase Simbolicamente la amplitud de los intervalos de clase esta dada por

R w (231)

k

donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos Por 10 general con este procedimiento se obtiene una amplitud que no es conveniente usar y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 231) que sea mas conveniente

19 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles Cuando la naturaleza de los datos los hace adecuados la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5 Generalmente los intervalos de clase se almacenan de menor a mayor es decir el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo intershyvalo contiene las mediciones mas grandes Cuando sea este el caso ellimite infeshyrior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande

Aunque muchos paquetes de software para microcomputadora contienen rushytinas para construir interval os de clase frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados A continuashyci6n se utilizan las 169 edades incluidas en la tabla 141 y arregladas en la tabla 221 para ilustrar la construcci6n de la distribuci6n de frecuencias

EJEMPLO 23t

Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuenshycias de datos y tambien se quiere saber que tan amplios deben ser los intervalos

Solucion Para tener una idea del numero de intervalos a utilizar la aplicaci6n de la regIa de Sturges indica

k = 1 + 3322(log 169)

= 1 + 3322(2227886705)

8

Ahora al dividir el rango entre 8 para darse una idea de la amplishytud de los intervalos de clase se obtiene

R = 63 -18 = 45 =5625 k 8 8

Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector Suponga que se decide que sea 10 Ahora es posible construir los intervalos Puesto que el valor mas pequeno en la tabla 221 es 18 y el mayor es 63 entonces los intervalos inician con 10 Y terminan con 69 Se obtienen los siguientes intervalos

10-19

20-29

30-39

40-49

50-59

60-69

20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

Puede observarse que hay 6 de esos intervalos es dedr dos menos que el numero de intervalos calculados con la regIa de Sturges

AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase el cual se determina sumando los limites extreshymosdel intervalo de clase y dividiendo entre 2~ Por ejemplo el punto medio del intervalo de clase 10-19 es (10 + 19)2= 145 bull

Cuando se agrupan datos manualmente determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos Si se aplica esto al ejemplo anterior se obtiene la tabla 231

Una tabla de este tipo se canoce como distribucwn de frecuencias En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficashydos AI consllltarla es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos

Frecuencias relaiivas En ocasiones puede ser de utilidad conocer la proshypordon en lugar del nlimero de valores que caen dentro de un intervalo de clase en particular Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores Si en el ejemplo anteshyrior se pretende conocer la proporci6n de valores entre 30 y 39 inclusive se divide 47 entre 169 para obtener 2781 Esto indica que 47 de 169 ~7169 0 02781 de los valores caen entre 30 y 39 AI multiplicar 2781 por roo se obtiene el porcenshytaje de valores entre 30 y 39 Con 10 anterior se puede decir que el 2781 por ciento de los individuos tienen entre 30 y 39 alios de edad Finalmente a la proshypordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo

TABlA 231 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 141 y221

Intervalos de clase Frecuencias

10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4

Total 169

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

17 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Dialog box

Manip Sort Session command

II Sort

~===i 0 Qescending

l====i 0 Dgscending

====i 0 Damp5cQding

o Descendinsect

~~~ llliIL1

MTB gt Sort Cl C2 SUBCgt By Cl

FIGURA 221 Caja de diaIogo para e1 ejemplo 221

para preparar un arreglo ordenado a menos que se necesite para prop6sitos de refeshyrencia 0 para otro uso La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribuci6n de frecuencias y para hacer otros amllisis

Si desea un arreglo ordenado muchos paquetes de software para computadoshyni contienen rutinas para construirlo Por ejemplo suponga que se usa el MINITAB Yque las edades de la tabla 1041 estan en la columna 1 El comando SORT C 1 C2 dasifica las edades y las pone en la columna 2 como 10 muestra la tabla 221 Si se utilizael paquete MINITAB para Windows y los datos se colocan en la columna 1 el proceso es como sigue con el mouse haga die en Manip luego en Sort escriba c1 en la caja etiquetada como Sort column[s] escriba c2 en la caja etishyquetada como Store sorted column[s] in (para tener los datos dasificados en c2) y escriba c1 en la caja etiquetada Sort by column Si desea ordenar en forma descendente haga dic en Descending Si no se selecciona esa opci6n en este punto el resultado es una clasificaci6n en orden ascendente Finalmente haga dic en OK La caja de dialogo para el ejemplo 221 se muestra en la figura 221

23 DATOSAGRUPADOS YDISTRIBUCION DE FRECUENCIAS

Aunque un conjunto de observaciones puede hacerse mas comprensible y mas sigshynificativo por medio de un arregloordenado es mas util el resumen que se obtiene mediante la agrupaci6n de datos Antes de la era de las computadoras uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el calculo de varias medidas descriptivas como porcentajes y promedios Debido a

18 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos sin agrupacion previa actualmente el proposito principal de agrupar los datos es el de resumir la informacion Se debe tener en mente que los datos contienen inforshymacion y que el resumen es una forma sencilla para determinar su naturaleza

Para agruparun conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos Estos intervalos normalmente se identifican como intervalos de clase

Una de las primeras consideradones ruando se agrupan datos es la de ruantos intervalos se deben incluir Resulta inadecuado incluir pocos intervalos porque se perderia informacion Por otro lado si se utilizan muchos intervalos el objetivo de resumir no se consigue La mejor guia en este caso asi como para la toma de otras dedsiones sobre la agrupadon de datos es el conocimiento de los datos Puede ser que los intervalos de clase queden determinados por los precedentes como en el caso de las tabulaciones anuales en las que los intervalos de clase de los afios anteriores se conservan para propositos comparativos Una regIa empfrica que habitualmente se sigue establece que deben serentre seis y 15 intervalos Si hay menos de seis intervalos los datos se han resumido en exceso y la informaci6n que contienen se habra perdido Si hay mas de 15 intervalos los datos no fueron resumidos 10 suficiente

Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase son necesarios pueden utilizar la f6rmula propuesta por Sturges (1) Esta formula se enuncia k = 1 + 3322(loglO n) donde k es el numero de intervalos de clase y n es el numero de valores en el conjunto de datos en observaci6n La respuesta que se obtiene con la regla de Sturges no es definitiva sino que se debe considerar unicashymente como gufa El numero de intervalos de clase especificado par esta regIa debera incrementarseo disminuirse por conveniencia y para lograr una presentashycion mas clara

Por ejemplo suponga que una muestra tiene 275 observaciones para agrupar Ellogaritmo base 10 de 275 es 24393 Con la aplicacion de la formula de Sturges se obtiene k = 1 + 3322(24393) 9 En la practica otras consideraciones pueden sugerir el uso de 8 0 menos 0 quiza 10 0 mas intervalos de clase

Otra preguntaque se debe responder se refiere a la amplitud del intervalo de clase Los interval os de clase generalmente deben ser de la misma amplitud aunshyque algunas veces esto es imposible La amplitud se determina dividiendo el rango entre k que es el numero de intervalos de clase Simbolicamente la amplitud de los intervalos de clase esta dada por

R w (231)

k

donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos Por 10 general con este procedimiento se obtiene una amplitud que no es conveniente usar y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 231) que sea mas conveniente

19 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles Cuando la naturaleza de los datos los hace adecuados la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5 Generalmente los intervalos de clase se almacenan de menor a mayor es decir el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo intershyvalo contiene las mediciones mas grandes Cuando sea este el caso ellimite infeshyrior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande

Aunque muchos paquetes de software para microcomputadora contienen rushytinas para construir interval os de clase frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados A continuashyci6n se utilizan las 169 edades incluidas en la tabla 141 y arregladas en la tabla 221 para ilustrar la construcci6n de la distribuci6n de frecuencias

EJEMPLO 23t

Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuenshycias de datos y tambien se quiere saber que tan amplios deben ser los intervalos

Solucion Para tener una idea del numero de intervalos a utilizar la aplicaci6n de la regIa de Sturges indica

k = 1 + 3322(log 169)

= 1 + 3322(2227886705)

8

Ahora al dividir el rango entre 8 para darse una idea de la amplishytud de los intervalos de clase se obtiene

R = 63 -18 = 45 =5625 k 8 8

Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector Suponga que se decide que sea 10 Ahora es posible construir los intervalos Puesto que el valor mas pequeno en la tabla 221 es 18 y el mayor es 63 entonces los intervalos inician con 10 Y terminan con 69 Se obtienen los siguientes intervalos

10-19

20-29

30-39

40-49

50-59

60-69

20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

Puede observarse que hay 6 de esos intervalos es dedr dos menos que el numero de intervalos calculados con la regIa de Sturges

AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase el cual se determina sumando los limites extreshymosdel intervalo de clase y dividiendo entre 2~ Por ejemplo el punto medio del intervalo de clase 10-19 es (10 + 19)2= 145 bull

Cuando se agrupan datos manualmente determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos Si se aplica esto al ejemplo anterior se obtiene la tabla 231

Una tabla de este tipo se canoce como distribucwn de frecuencias En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficashydos AI consllltarla es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos

Frecuencias relaiivas En ocasiones puede ser de utilidad conocer la proshypordon en lugar del nlimero de valores que caen dentro de un intervalo de clase en particular Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores Si en el ejemplo anteshyrior se pretende conocer la proporci6n de valores entre 30 y 39 inclusive se divide 47 entre 169 para obtener 2781 Esto indica que 47 de 169 ~7169 0 02781 de los valores caen entre 30 y 39 AI multiplicar 2781 por roo se obtiene el porcenshytaje de valores entre 30 y 39 Con 10 anterior se puede decir que el 2781 por ciento de los individuos tienen entre 30 y 39 alios de edad Finalmente a la proshypordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo

TABlA 231 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 141 y221

Intervalos de clase Frecuencias

10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4

Total 169

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

18 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos sin agrupacion previa actualmente el proposito principal de agrupar los datos es el de resumir la informacion Se debe tener en mente que los datos contienen inforshymacion y que el resumen es una forma sencilla para determinar su naturaleza

Para agruparun conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos Estos intervalos normalmente se identifican como intervalos de clase

Una de las primeras consideradones ruando se agrupan datos es la de ruantos intervalos se deben incluir Resulta inadecuado incluir pocos intervalos porque se perderia informacion Por otro lado si se utilizan muchos intervalos el objetivo de resumir no se consigue La mejor guia en este caso asi como para la toma de otras dedsiones sobre la agrupadon de datos es el conocimiento de los datos Puede ser que los intervalos de clase queden determinados por los precedentes como en el caso de las tabulaciones anuales en las que los intervalos de clase de los afios anteriores se conservan para propositos comparativos Una regIa empfrica que habitualmente se sigue establece que deben serentre seis y 15 intervalos Si hay menos de seis intervalos los datos se han resumido en exceso y la informaci6n que contienen se habra perdido Si hay mas de 15 intervalos los datos no fueron resumidos 10 suficiente

Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase son necesarios pueden utilizar la f6rmula propuesta por Sturges (1) Esta formula se enuncia k = 1 + 3322(loglO n) donde k es el numero de intervalos de clase y n es el numero de valores en el conjunto de datos en observaci6n La respuesta que se obtiene con la regla de Sturges no es definitiva sino que se debe considerar unicashymente como gufa El numero de intervalos de clase especificado par esta regIa debera incrementarseo disminuirse por conveniencia y para lograr una presentashycion mas clara

Por ejemplo suponga que una muestra tiene 275 observaciones para agrupar Ellogaritmo base 10 de 275 es 24393 Con la aplicacion de la formula de Sturges se obtiene k = 1 + 3322(24393) 9 En la practica otras consideraciones pueden sugerir el uso de 8 0 menos 0 quiza 10 0 mas intervalos de clase

Otra preguntaque se debe responder se refiere a la amplitud del intervalo de clase Los interval os de clase generalmente deben ser de la misma amplitud aunshyque algunas veces esto es imposible La amplitud se determina dividiendo el rango entre k que es el numero de intervalos de clase Simbolicamente la amplitud de los intervalos de clase esta dada por

R w (231)

k

donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos Por 10 general con este procedimiento se obtiene una amplitud que no es conveniente usar y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 231) que sea mas conveniente

19 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles Cuando la naturaleza de los datos los hace adecuados la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5 Generalmente los intervalos de clase se almacenan de menor a mayor es decir el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo intershyvalo contiene las mediciones mas grandes Cuando sea este el caso ellimite infeshyrior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande

Aunque muchos paquetes de software para microcomputadora contienen rushytinas para construir interval os de clase frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados A continuashyci6n se utilizan las 169 edades incluidas en la tabla 141 y arregladas en la tabla 221 para ilustrar la construcci6n de la distribuci6n de frecuencias

EJEMPLO 23t

Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuenshycias de datos y tambien se quiere saber que tan amplios deben ser los intervalos

Solucion Para tener una idea del numero de intervalos a utilizar la aplicaci6n de la regIa de Sturges indica

k = 1 + 3322(log 169)

= 1 + 3322(2227886705)

8

Ahora al dividir el rango entre 8 para darse una idea de la amplishytud de los intervalos de clase se obtiene

R = 63 -18 = 45 =5625 k 8 8

Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector Suponga que se decide que sea 10 Ahora es posible construir los intervalos Puesto que el valor mas pequeno en la tabla 221 es 18 y el mayor es 63 entonces los intervalos inician con 10 Y terminan con 69 Se obtienen los siguientes intervalos

10-19

20-29

30-39

40-49

50-59

60-69

20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

Puede observarse que hay 6 de esos intervalos es dedr dos menos que el numero de intervalos calculados con la regIa de Sturges

AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase el cual se determina sumando los limites extreshymosdel intervalo de clase y dividiendo entre 2~ Por ejemplo el punto medio del intervalo de clase 10-19 es (10 + 19)2= 145 bull

Cuando se agrupan datos manualmente determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos Si se aplica esto al ejemplo anterior se obtiene la tabla 231

Una tabla de este tipo se canoce como distribucwn de frecuencias En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficashydos AI consllltarla es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos

Frecuencias relaiivas En ocasiones puede ser de utilidad conocer la proshypordon en lugar del nlimero de valores que caen dentro de un intervalo de clase en particular Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores Si en el ejemplo anteshyrior se pretende conocer la proporci6n de valores entre 30 y 39 inclusive se divide 47 entre 169 para obtener 2781 Esto indica que 47 de 169 ~7169 0 02781 de los valores caen entre 30 y 39 AI multiplicar 2781 por roo se obtiene el porcenshytaje de valores entre 30 y 39 Con 10 anterior se puede decir que el 2781 por ciento de los individuos tienen entre 30 y 39 alios de edad Finalmente a la proshypordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo

TABlA 231 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 141 y221

Intervalos de clase Frecuencias

10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4

Total 169

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

19 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles Cuando la naturaleza de los datos los hace adecuados la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5 Generalmente los intervalos de clase se almacenan de menor a mayor es decir el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo intershyvalo contiene las mediciones mas grandes Cuando sea este el caso ellimite infeshyrior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande

Aunque muchos paquetes de software para microcomputadora contienen rushytinas para construir interval os de clase frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados A continuashyci6n se utilizan las 169 edades incluidas en la tabla 141 y arregladas en la tabla 221 para ilustrar la construcci6n de la distribuci6n de frecuencias

EJEMPLO 23t

Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuenshycias de datos y tambien se quiere saber que tan amplios deben ser los intervalos

Solucion Para tener una idea del numero de intervalos a utilizar la aplicaci6n de la regIa de Sturges indica

k = 1 + 3322(log 169)

= 1 + 3322(2227886705)

8

Ahora al dividir el rango entre 8 para darse una idea de la amplishytud de los intervalos de clase se obtiene

R = 63 -18 = 45 =5625 k 8 8

Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector Suponga que se decide que sea 10 Ahora es posible construir los intervalos Puesto que el valor mas pequeno en la tabla 221 es 18 y el mayor es 63 entonces los intervalos inician con 10 Y terminan con 69 Se obtienen los siguientes intervalos

10-19

20-29

30-39

40-49

50-59

60-69

20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

Puede observarse que hay 6 de esos intervalos es dedr dos menos que el numero de intervalos calculados con la regIa de Sturges

AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase el cual se determina sumando los limites extreshymosdel intervalo de clase y dividiendo entre 2~ Por ejemplo el punto medio del intervalo de clase 10-19 es (10 + 19)2= 145 bull

Cuando se agrupan datos manualmente determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos Si se aplica esto al ejemplo anterior se obtiene la tabla 231

Una tabla de este tipo se canoce como distribucwn de frecuencias En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficashydos AI consllltarla es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos

Frecuencias relaiivas En ocasiones puede ser de utilidad conocer la proshypordon en lugar del nlimero de valores que caen dentro de un intervalo de clase en particular Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores Si en el ejemplo anteshyrior se pretende conocer la proporci6n de valores entre 30 y 39 inclusive se divide 47 entre 169 para obtener 2781 Esto indica que 47 de 169 ~7169 0 02781 de los valores caen entre 30 y 39 AI multiplicar 2781 por roo se obtiene el porcenshytaje de valores entre 30 y 39 Con 10 anterior se puede decir que el 2781 por ciento de los individuos tienen entre 30 y 39 alios de edad Finalmente a la proshypordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo

TABlA 231 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 141 y221

Intervalos de clase Frecuencias

10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4

Total 169

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A

Puede observarse que hay 6 de esos intervalos es dedr dos menos que el numero de intervalos calculados con la regIa de Sturges

AIgunas veces resulta util referirse al centro Hamado punta media del intervalo de clase el cual se determina sumando los limites extreshymosdel intervalo de clase y dividiendo entre 2~ Por ejemplo el punto medio del intervalo de clase 10-19 es (10 + 19)2= 145 bull

Cuando se agrupan datos manualmente determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos Si se aplica esto al ejemplo anterior se obtiene la tabla 231

Una tabla de este tipo se canoce como distribucwn de frecuencias En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficashydos AI consllltarla es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos

Frecuencias relaiivas En ocasiones puede ser de utilidad conocer la proshypordon en lugar del nlimero de valores que caen dentro de un intervalo de clase en particular Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores Si en el ejemplo anteshyrior se pretende conocer la proporci6n de valores entre 30 y 39 inclusive se divide 47 entre 169 para obtener 2781 Esto indica que 47 de 169 ~7169 0 02781 de los valores caen entre 30 y 39 AI multiplicar 2781 por roo se obtiene el porcenshytaje de valores entre 30 y 39 Con 10 anterior se puede decir que el 2781 por ciento de los individuos tienen entre 30 y 39 alios de edad Finalmente a la proshypordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo

TABlA 231 Distribuci6n de frecuencias de las edades de los 169 individuos incluidos en la talJla 141 y221

Intervalos de clase Frecuencias

10-19 4 20-29 66 30-39 47 40-49 36 50-59 12 60-69 4

Total 169

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

21 23 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS

TABlA 232 Distribuciones de frecuencia frecuencia acumulada frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 141

Frecuencia Intervalos de Frecuencia Frecuencia relativa clase Frecuencia acumulada relativa acumulada

10-19 4 4 0237 0237 20-29 66 70 3905 4142 30-39 47 117 2781 6923 40-49 36 153 2130 9053 50-59 12 165 0710 9763 60-69 4 169 0237 10000

Total 169 10000

Para determinar la frecuencia de valores que caen dentro de dos 0 mas inshytervalos de clase se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes Analogamente si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervashylos de clase entonces se suman las frecuencias relativas respectivas Se pueden sumar 0 acumular las frecuencias y las frecuencias relativas para facilitar la obtenshycion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos La tabla 232 muestra los datos de la tabla 231 con las frecuencias acumuladas frecuencias relativas y frecuenshycias relativas acumuladas

Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59 entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 232 y se resta 4142 de 9763 para obtener 5621

Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 232 MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porshycentajes EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado Cuando se asignan los codigos 0 1 2 3 4 Y 5 respectivamente a las seis clases de intervalos se debeteclear el siguiente comando

MTBgt Code (10 19)0 (2029) 1 (3039)2 (4049)3 (5059)4 (6069)5 c1 c2

La caja de dialogo los comandos de la sesion y la salida se muestran en la figura 231

E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma que es un tipo especial de grafica de barras

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

22 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Caja de dialogo Comandos de la sesi6n

MTBgt C2i Stat gt-shy Tables gt-- Tally SUBCgt Countsi

SUBCgt CumCountsi Teclear C2 en Variables Verifique Counts SUBCgt Percents Percents Cumulative Counts y SUBCgt CumPercents Cumulative percents en Display Clic OK

Resultados

Resumen estadlstico para variables discretas

C2 Count CumCnt Percent CumPct 0 4 4 237 237 1 66 70 3905 4142 2 47 117 2781 6923 3 36 153 2130 9053 4 12 165 710 9763 5 4 169 237 10000

N 169

FIGURA 231 Distribuci6n de frecuencia frecuencias acumuladas porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 141 tal como 10 construy6 el paquete MINITAB

Para construir un histograma los valores de la variable respectiva se ponen sabre el eje horizontal y las frecuencias (0 frecuencias relativas si as se quiere) de ocurrencia en el eje vertical Sobre cada intervalo de clase arriba del eje horishyzontal se levanta una barra rectangular 0 celda como algunas veces se Ie nomshybra hasta que intercepte con la frecuencia respectiva Las barras del histograma deben ser adyacentes y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica

El nivel de precision que se observa en los datos obtenidos y que tienen medishyciones ~obre una escala continua indica algUn orden de redondeo El orden de redonshydec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados Cuando una distribucion de frecuencia se construye a parshytir de los datos los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales Esto mismo se ha efectuado en el ejemplo Sin embargo se sabe que algunos de los valores que caen dentro del segundo intervalo de clase por ejemplo probablemente seran un poco menores que 20 mientras que

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

23 23 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS

70TABlA 233 Datos de la iabla 23 t que muestra los

60IImites COllectos de los intervalos de clase

50

Intervalos de clase Frecuencias l 400 c Q) J Q)95-195 4 t) 30 u

195-295 66 20295-395 47

395-495 36 10

495-595 12 595-695 4

Total 169

otros seran un poco mayores que 29 cuando la medici6n es precisa AI considerar la continuidad implfcita de la variable y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo entonces es 16gico suponer que 195 y 295 son los limites correctos para este segundo intervalo Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 233

Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos no habra separaciones entre las barras y se obtendra el histograma que se muestra en la figura 232 Se utiliz6 el paquete MINITAB para elaborar el histograma Se almacenaron los datos en la columna 1 y se Ie nombr6 Edad El procedimiento se muestra en la figura 233 EI mensaje 145645110 indica que el primer punto medio es 145 que el ultimo punto medio es 645 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades Se conshysider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado por las barras en la figura 232

145 245 345 445 545 645

Edad

FIGURA 232 Histograma de las edades de 169 individuos a partir de la tabla 231

Caja de dialogo Comandos de la sesi6n

Graph Histogram

Teclear Edad en X

MTBgt Histogram Edad SUBCgt MidPoint 14564510 SUBCgt Bar

Clic Options Elegir MidPoint Teclear 145645l0 en MidPointcutPoint positions Clic OK dos veces

FIGURA 233 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 141

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

24 CAPITULO 2 ESTADISTICA DESCRIPTIVA

AI espacio entre los limites del histograma se Ie conoce como area del histograma A cada observacion se Ie asigna una unidad de esta area Puesto que se tienen 169 observaciones el histograma tiene en total 169 unidades Cada harra contiene cierta proporcion del area total de acuerdo con la frecuencia La segunda barra por ejemplo contiene 66169 del area Esto como ya se estudi6 es la freshycuencia de ocurrencia de los valores entre 195 y 295 A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las freshycuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizonshytal El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal

El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia que es una dase especial de grafica lineal Para dibujar este poHgono primero se hace una marca arriba del punto medio de cada intervalo de clase representado sobre el ~je horizontal de la grafica como se muestra en la figura 232 La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuenshycia La figura 234 muestra el polfgono de frecuencia para los datos de edades de la tabla 221

Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adishydonal en cada extremo del histograma correspondiente Esto permite que el area total sea delimitada El area total bajo el poligono de frecuencia es igual al area bajo

70 70

60 60

5 50 ro

5 50

c ltIl l (J

e u

40

30

20

c ltIl l (J

e u

40

30

20

10 10

0 0 145 245 345 445 545 645 145 245 345445 545 645

Edad Edad

FIGURA 234 Pollgono de frecuencia para las FIGURA 235 Histograma y poligono de freshyedades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos incluishy221 das en la tabla 221

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

25 23 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS

el histograma La figura 235 muestra el poligono de frecuencia de la figura 234 sobrepuesta al histograma de la figura 232 Esta figura permite observar la relashycion entre las dos formas graficas para un mismo conjunto de datos

Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito Un despliegue construido correctamente al igual que un histograma proporciona informacion respecto al rango del conjunto de datos muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado)

Para construir un despliegue se divide cada medicion en dos la primera parte se llama tallo y la segunda hojas EI tallo se forma con uno 0 mas digitos iniciales de la medicion y las hojas se forman con uno 0 mas de los digitos restantes Todos los numeros divididos se muestran en un solo despliegue los tallos forman una columna ordenada de menor a mayor En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos aun cuando una medicion con ese tallo no este en el conjunto de datos Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos Cuando las hojas se forman con mas de un digito todos los digitos despues del primero se pueden boshyrrar Los decimales cuando ocurren en los datos originales se omiten en el desplieshygue Los tallos se separan de sus hojas mediante una linea vertical Asi se observa que un despliegue tambien es un arreglo ordenado de los datos

Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relashytivamente pequeiios Como una norma no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturashyleza de sus datos Los histogramas son mas adecuados para las publicaciones de circulacion externa EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas

FJEMPLO 232

Utilice los datos de edades de la tabla 221 para construir un despliegue de tallo y hojas

Soindon Puesto que todas las mediciones son numeros de dos dfgitos se tienen tallos y hojas de un digito cada uno Por ejemplo la medicion 18 tiene un tallo de 1 y una hoja de 8 La figuni 236 muestra el despliegue de tallo y hojas para los datos

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

26 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Tallo Hoja

1 8899 2 011122222233333334444444445555666666666667777777777888888899999999 3 0000000000111111122222333444445666777~788888999

4 000000111222233344455566777788888899 5 000112233336 6 1233

FIGURA 236 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla 221 (unidad de tallo = I unidad de hoja = I)

EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas Con los datos en la columna 1 Hamada Edad el paquete produce y presenta una salida como la que se muestra en la figura 237 El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente Los numeros en las columnas del extrema izquierdo de la figura 237 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella 0 el numero de observaciones en esa linea y en la de abajo

Caja de dialogo Comandos de la sesi6n

MTB gt Stem-and-Leaf Edadi Graph gt- Characte~ Graphs gt- Histogram gtshy SUBCgt Increment 10 Stem-and-Leaf

Tedear Edad en Variables Tedear 10 en Increment Clic OK

Resultados Oespliegue en modo caracter de tallo y hojas

Stem-and-Leaf of Edad N= 169 Leaf Unit = 10

4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+

(47) 3 00000000001111111222223334444456667777788888999 52 4 0000001112222333A4455566777788888899

16 5 000112233336 4 6 1233

FIGURA 237 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

EJERCICIOS 27

Por ejemplo el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observacioshynes en esa linea y en todas las de abajo El numero entre parentesis dice que hay 47 observaciones en esa lInea Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observashyciones es impar 0 las dos observaciones centrales si el numero total de observaciones es par

EI signa + al final de la segunda linea de la figura 237 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea y que existe al menos una hoja adicional que no se muestra En este caso la frecuencia para el grupo de edades de 20-29 es de 66 En la linea hay s6lo 65 hojas as que el signo + indica que existe una hoja mas un 9 que no se muestra bull

Una manera para no exceder la capacidad dela linea es tener mas lineas Esto se puedehacer acortando la distancia entre las lfneas es decir reduciendo la amplishytud de los intervalos de c1ase Para este ejemplo se puede utilizar un intervalo de dases con amplitud 5 as que la distancia entre las lfneas es de 5 La figura 238 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas

Stem-and-Leaf of Edad N 169 Leaf Unit 10

4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999

(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333

5 5 6 4 6 1233

FIGURA 238 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 221 con intervalos de clase de amplitud = 5

EjERCICIOS

231 En un estudio de la actividad proliferativa del cancer de seno Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67 Los investishygadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho Los pacientes

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A

tenfan entre 26 y 82 aftos de edad La siguiente tabla muestra los valores de i-67 (expresashydos en porcentajes) para esos pacientes

1012 1080 1054 2730 838 1015 548 2350 3260 4270 1930 1640 440 2680 1660 3300 1165 2630 173 3590

963 931 740 935 1478 ~142 2511 1260 1796 4112 2830 1950 1592 1940 719

465 7300 1784 1090 274 2109 1195 3330 453 1940

100 2700 903 5120 640 1372 3290 980 243 200 877 940 3540 5170 4350 300 470 1400 1500 360 409 920 620 500 1500

1760 5000 1000 2000 3000 522 500 1500 2500 1000

1270 3000 1000 1500 2000 739 400 2500 2000 3000

2136 4985 2970 1995 500 1136 2489 2955 1000 3890 812 2885 1980 499 600 314 500 4420 3000 988 433 920 487 1000 2910 507 200 300 200 296 810 484 979 500 950 423 1000 1983 2000 477

1311 7500 2000 500 455 407 1479 899 397 3000 607 1500 4000 1879 1376

4582 432 569 142 1857 558 1282 450 441 188 500 1000 412 1424 911 969 837 620 207 312 414 203 269 369 542 459 1000 627 637 1378

2755 983 655 821 342 351 910 1120 688 753 858 500 2950 960 603

1470 560 2810 548 700 672 332 1352 570 1780

1310 975 737

FUENTE Utilizado con autorizaci6n de Silvio M Veronese Ph D

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

EJERCICIOS 29

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poligono de frecuencia

b) ~Que porcentaje de las mediciones es menor que 10

c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20

d) ~Que porcentaje de mediciones esta entre 20 y 49 inclusive

e) ~Cuantas mediciones son mayores que 39

t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69

g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor ~Cual seria su respuesta ~Por que

b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma Por ejemplo puede ser simetrica (la mitad izquierda es al menos aproximashydamente igual a la mitad de la derecha) con inclinaci6n a la izquierda (las frecuencias tienshyden a incrementarse conforme-Ias medicionesse iilcrementan en tamano) con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamashyno) 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro) ~C6mo

se describe esta distribuci6n

232 Jarjour et al (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL siglas en ingles) en individuos con rinitis alergica individuos con asma y voluntarios normales Una de las mediciones obtenidas es la proteishyna total Olgml) en muestras de BAL Los siguientes son los resultados de 61 muestras analizadas

7633 5773 7478 10036 7350 7763 8878 7740 5116 6220

14949 8624 5790 7210 6720 5438 5407 9147 6232 4473 5547 9506 7150 7353 5768 5170 11479 6170 4723 7815 5307 10600 3590 8540 7230 6110 7220 4198 5936 6396 6660 6991 5920 5441 5976

12840 6710 8382 9533 8817 10930 7955 5850 8260 15356 8470 6280 7017 4440 6190 5505

FUENTE Utilizado con autorizaci6n de Nizar N ]arjour M D

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

30 CAPITULO 2 ESTADISTICA DESCRIPTIVA

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones esta entre 55 y 114 inclusive

c) ~Cuantas mediciones son menores que 95

d) ~Que proporci6n de las mediciones es mayor 0 igual que 75

e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 11499

f) Remitase al ejercicio 231 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n

233 Ellis et al (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos Como parte del estudio los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar

1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479

FUENTE Utilizado con autorizaci6n de Peter E Ellis

a) Construya con los datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un polfgono de frecuencia

b) ~Que porcentaje de mediciones es menor que 500

c) ~Que porcentaje de mediciones esta entre 500 y 999 inclusive

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

EJERCICIOS 31

d) ~Que porcentaje de mediciones es mayor que 749

e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio231 inciso h

f) CCuantas de las mediciones son menores que 1000

234 EI objetivo de un estudio de Herrman et at (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n socialen Melboume Australia Los tres grupos de convictos se cIasificaron como aquellos que estuvieron de acuerdo en ser entrevistados aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos los investigadores obshytuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivishyduo que rehus6 la entrevista

18 4380 0 360 4955 720 1095 727 2190 730 365 1275 450 455 180 344

3650 0 2340 2555 2920 540 360 545

270 545 180 90 1000 0 2005 60 270 150 717 540 180 1825 3710 90 910 2920 180 660

90 270 2555 365 253 284 4015 3100 450 330 2885 1050 360 0 730 90

1460 1000 3160 450 1095 1460 910 1200 635 360 360 120

1953 0 466 1460 844 120 2920 409 360 1095 240 910 570 330 4745 0 951 540 88 1125 540 730 545 450 90 450 1670 730

FUENTE Utilizado con autorizacion de Helen Herrman M D

a) Construya con los datos Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas Un histograma

Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

32 CAPITULO 2 ESTADISTICA DESCRIPTIV A

b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el ejercido 231 indso h c) ~Por que se cree que los datos esuin inclinados de esa manera d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores e) (Cmintas mediciones son mayores que 729 f) (Que porcentaje de mediciones es menor que 1460

235 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como consecuencia de la administracion de derto anestesico

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5 3 1 17 10 4 7 7 11 8

a) Construya a partir de estos datos Una distribuci6n de frecuencias Un histograma Una distribuci6n de frecuendas relativas Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

236 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano en 60 hospitales comunitarios

30 55 27 45 56 48 45 49 32 57 47 56 37 55 52 34 54 42 32 59 35 46 24 57 32 26 40 28 53 54 29 42 42 54 53 59 39 56 59 58 49 53 30 53 21 34 28 50 52 57 43 46 54 31 22 31 24 24 57 29

a) Construya a partir de estos datos Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Un histograma Un poligono de frecuenda

b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

237 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente ingreso a la universidad se registraron las siguientes puntuaciones con base en algunas rutishynas de ejercicios

254 281 192 260 212 179 225 179 181 149 182 210 235 239 258 166 159 223 186 190 180 188 135 233 220 204 219 211 245 151 198 190 151 157 204 238 205 229 191 200 222 187 134 193 264 312 214 227 190 212 165 194 206 193 218 198 241 149 164 225 265 222 264 249 175 205 252 210 178 159 220 201 203 172 234 198 173 187 189 237 272 195 227 230 168 232 217 249 196 223 232 191 175 236 152 258 155 215 197 210

(ContinUa)

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

EJERCICIOS 33

214middot 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208

a) Construya a partir de estos datos

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Un poligono de frecuencia

Un histograma

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

238 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe Construya un despliegue de tallo y hojas con esos datos Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 231 inciso h

35 32 21 43 39 60 36 12 54 45 37 53 45 23 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57

239 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgenshycias de dos hospitales urbanos Construya un despliegue de tallo y hojas para cada conjunto de datos Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 inciso h

Hospital A

24910 20250 22220 21440 20590 21430 19510 21330 22550 19140 20120 23980 24570 21300 23880 17110 22200 21250 20170 18490 24830 20970 23390 22980 21790

Hospital B

19950 18400 17320 18600 21410 12550 14350 19040 15200 16570 15470 14530 15460 19030 13540 16770 20340 18670 15530 19590 16890 16670 17860 15020 21240

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

34 CAPITULO 2 ESTADISTICA DESCRIPTIV A

2310 Para este ejercicio es necesario utilizar los datos del ejemplo 141 desplegados en la tabla 141

a) Construya intervalos de clase con amp1itud 5 para

Una distribuci6n de frecuencias

Una distribuci6n de frecuencias relativas

Una distribuci6n de frecuencias acumuladas

Una distribuci6n de frecuencias relativas acumuladas

Un histograma

Un poHgono de frecuencia

b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 231 incisoh

2311 Los objetivos de una investigaci6n realizada por Skjelbo et ai (A-5)fueron examinar a) la relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malashyriamiddoto) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida entre habitantes de Tanzania A partir de la informacion proporcionada por las muestras de orina de 216 individuos los investigadores calcularon el porcentaje de inmutabilidad de Sshymefenitofna hacia R-mefenitoina (porcentaje SIR) Los resultados son los siguientes

00269 00400 00550 00550 00650 00670 00700 00720 00760 00850 00870 00870 00880 00900 00900 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 00990 01000 01020 01040 01050 01050 01080 01080 01090 01090 01090 01160 01190 01200 01230 01240 01340 01340 01370 01390 01460 01480 01490 01490 01500 01500 01500 01540 01550 01570 01600 01650 01650 01670 01670 01677 01690 01710 01720 01740 01780 01780 01790 01790 01810 01880 01890 01890 01920 01950 01970 02010 02070 02100 02100 02140 02150 02160 02260 02290 02390 02400 02420 02430 02450 02450 02460 02460 02470 02540 02570 0 2600 02620 02650 02650 02680 02710 02800 02800 02870 02880 02940 02970 02980 02990 03000 03070 03100 03110 03140 03190 03210 03400 03440 03480 03490 03520 03530 03570 03630 03630 03660 03830 03900 03960 03990 04080 04080 04090 04090 04100 04160 04210 04260 04290 04290 04300 04360 04370 04390 04410 04410 04430 04540 04680 04810 04870 04910 04980 05030 05060 05220 05340 05340 05460 05480 05480 05490 05550 05920 05930 06010 06240 06280 06380 06600 06720 06820 06870 06900 06910 06940 ()7040 07120 07200 07280 07860 07950 08040 08200 08350 08770 09090 09520 09530 09830 09890 l()120 l0260 l0320 10620 11600

FUENTE Utilizado con autorizaci6n de Erik Skjelbo M D

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

EJERCICIOS 35

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acunmlada asi como las siguientes graficas histograma poligono de frecuencia y desplieglte de tallo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a cualquier individuo con un porcentaje mefenitofna SIR mayor a 9 ~Cuantos y que porcentashyje de individuos son metabolizantesde bajo rendimiento

d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que 7 entre 3 y 6999 inclusive y mayores que 4999

2312 Schmidt et al (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criteshyrios de transfusion fijos La siguiente tabla muestra las estaturas en centimetros de 109 indishyviduos de los cuales 97 son varones

1720 1710 1700 1655 1800 1700 1730 1700 1820 1810 1720 1800 1800 1800 1790 1820 1800 1650 1680 1730 1820 1720middot 1710 1850 1760 1780 1760 1820 1840 1690 1770 1920 1690 1690 1780 1720 1750 1710 1690 1520 1805 1780 1820 1790 1760 1830 1760 1800 1700 1760 1750 1630 1760 1770 1840 1690 1640 1760 1850 1820 1760 1700 1720 1780 1630 1650 1660 1880 1740 1900 1830 1600 1800 1670 1780 1800 1750 1610 1840 1740 1750 1960 1760 1730 1730 1810 1810 1775 1710 1730 1740 1790 1880 1730 1560 1820 1780 1630 1640 1600 1800 1800 1780 1840 1830 1770 1690 1800 1620

FUENTE Utilizado con autorizaci6n de Henrik Schmidt M D

a) Construya con los datos las siguientes distribuciones frecuencia frecuencia relativa freshycuencia acumulada y frecuencia relativa acumulada as como las siguientes grMicas histograma poligono de frecuencia y despliegue de allo y hojas

b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 231 inciso h

c) ~C6mo se puede explicar la forma de distribucion de estos datos

d) ~Que tan altos son el642 por ciento de individuos mas altos

e) ~Que tan altos son ell009 por ciento de individuos de menor estatura

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

36 CAPITULO 2 ESTADISTICA DESCRIPTIV A

24 ESTADiSTICADESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL

Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles existen muchas situaciones en que se requieren otros tip6s de resumen de datos Lo que se necesita en muchos casos es la posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n Para distinguirlas entre sf se tienen las siguientes definiciones

DEFINICIONES

1 Una Inedida descriptiva calculada a partir de los datos de una m1lestra se llaIna estadistica

2 Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro

Algunos tipos de medidas descriptivas se pueden calcular a partir de un conshyjunto de datos Sin embargo este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion Las medidas de tendencia central se consideran en esta secci6n y las medidas de dispersi6n en la siguiente

Encada una de las medidas de tendenda central de las que se discuten s6lo tres tinicamente un valor delconjunto de datos se considera como el representatishyvo del todo Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores Tal como se vera la palabra promedio se puede definir en diversas formas

Las tres medida~ de tendencia central de uso mas frecuente son la media la moda y la mediana

La media aritmetica La medida de tendencia central mas conocida es la meshydia aritmetica Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de promedio EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular Puesto que no se estudian otras medias en este libro no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados

FJEMPLO 241

Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la tabla 141

Soluci6n Se procede de la siguiente forma

27+27+middotmiddotmiddot+23+39edad media =-------shy

169

5797

169 34302

bull Los tres puntos en el numerador representan valores que no se muestran para

economizar espacio

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

23 ESTADisTICA DESCRIPTIVA MEDIDAS DE TENDENCIA CENTRAL 37

Formula general para la media Es conveniente generalizar el procedishymiento para obtener la media y ademas representarlo en notaci6n de forma mas compacta Se inicia por designar a la variable aleatoria con la letra mayiiscula X En este ~empl0 X representa a la variable aleatoria de edad Los valores espedficos para una variable aleatoria se representan con la letra minuscula x Para referirse al primero al segundo al tercer valor y asf sucesivamente se afiade un subfndice a la x Por ejemplo a partir de la tabla 141 se tiene

Xl = 27 x1 = 27 = 39X l69

En general un valor comun para la variable aleatoria se designa con Xi y el valor final en una poblaci6n finita de valores con xN donde N es el numero de valores en la poblacion Por ultimo se utiliza la letra griega Il para simbolizar la media de la poblacion Ahora se puede escribir la formula general para la media de una poblashyci6n finita como sigue

N

LXi (241)Il=~

N

El simbolo 21significa que todos los valores para la variable se suman desde el

primero hasta el ultiIJ1o A este slmbolo L se Ie conoce como signa de sumataria y se utiliza extensamente en este libro Cuando por el contexto sea obvio cuales son los valores que se suman los simbolos de arriba y de abajo del signo L se omiten

La media de la muesira Cuando se calcula laIl1edia para una muestra de valores el procedimiento reciendescrito requiere algunas modificaciones en la notashycion Se utiliza 3c para identificar a la media dela muestra yn para indicar el numero de valores enla muestra For 10 tanto la media de la muestra se expresa como sigue

(242) n

EJEMPLO 242

En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 141 Ahora corresponde calcular la edad media de los 10 individuos en la inuestra

Soludon Las edades (vease la tabla 142) de los 10 individuos de la muestra son XI = 42x = 28x = 28x 61xs 31x6 = 23x7 = 50xs = 34xg = 322 3 4 x

10 = 37 AI sustituir los datos de la muestra en la ecuaci6n 242 se obtiene

n

2 Xi 42+28+ +37366 x=~= =-=366

n 10 10 bull

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Propiedades de ta media La media aritmetica tiene ciertas prapiedades algunas deseables y otras no tanto Algunas de estas propiedades son las siguientes

1 Es unica Para un conjunto de datos existemiddotuna y s610 una media aritmetica

2 Simplicidad EI calculo y comprension de lamedia aritmetica son sencillos

3 Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media esta es afectada por cada valor Por 10 tanto los valores extremos influyen sobre la media y en algunos casos pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central

A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media Considere la siguiente situacion cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento Suponga que se reporta 10 siguiente $75 $75$80 $80 Y $280 EI cobra medio para los cinco medicos es de $118 un valor que no es muy representativo del conshyjunto de datos El unico valor atlpico del con junto tuvo el efecto de inflar la media

La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales de forma que el numero de valores mayoshyres 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta Si el numero de valores es impar la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud Cuando el nushymera de valores en e conjunto es pat no existe un valor medio unico sino que existen dos valores medios En tal caso la mediana corresponde a la media de esos dos valores centrales cuando todos los valores son arreglados en orden de magnishytud Es decir la mediana del conjuntode datos es la (n+ 1) 12-esima observacion cuando las observaciones han sido ordenadas Por ejemplo si se tienen 11 observashycjones la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada Si se tienen 12 observaCiones la mediana es la (12+ 1)2=65-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada

EJEMPLO 243

Encuentre la mediana de los datos contenidos en la tabla 221

Soluci6n En la tabla los valores ya estan ordenados de modo que s610 se requiere encontrar losqos valores mediosEl valor medio es el (n+ 1)2 =(169+ 1)1 2 1702 85-esimo Contando desde el mas pequeno hasta el 85shyesimo valor se observa que corresponde al 31 Por 10 tanto la edad meshydiana de los 169 individuos es de 31 anos bull

FJEMPLO 244

Obtenga ahora la edad mediana para los indviduos de la muestra descrita en el ejemplo 242

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

39 25 ESTADisTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Soluci6n Al arreglar las 10 edades en orden de magnitud desde el valor mas peshyquefio hasta el mas grande seobtiene 232828313234374250 61 Puesto que se trata de un numero impar de valores no existe solo un valor central Sin embargo los dos valores del centro son 32 y 34 asf que la mediana es (32 + 34)2 = 33 bull

_ Propiedades de la mediana Entre las propiedades de la mediana se enshycuentran las siguientes

1 Es unica Al igual que en el caso de la media existe solamente una mediana par~un conjunto de datos

2 Simplicidad Es muy sencillo calcularla

3 Los valores extremos no tienen efectos importantes sobre la mediana 10 que sf ocurre con la media

La moda La moda de un conjunto devalores es aquel valor que ocurre con mayor frecuencia Si todos los valores son diferentes no hay moda Por otra parte un conjunto devalores puede tener mas de una moda

FJEMPLO 245

Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 221

Soluci6n El conteo de las edades en la tabla 221 revela que la edad 26 ocurre con mas frecuencia (11veces) La moda para esta poblaci6n de edades es de 26 bull

Para ilustrar un conjunto de valores que tiene mas de una moda considere un laboratorio con diez empleados cuyas edades son 20 2120203422242727 Y 27 Se puede decir que estos datos tienen dos modas 20 y 27 Una muestra que consista en los valores 10 21 33 53 Y 54 no tiene modapuestoque todos los valores son diferentes

La moda se puedeutilizarpara describir datos cualitativos Por ejemplo sushyponga que los pacientes de una cHnica de salud mental durante un afio dado recishybieron uno de los siguientes diagnosticos retardo mental sfndrome cerebral organico psicosis neurosis y trastornos de personalidadEl diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal

25 ESTADISllCA DESCRIP11VA MEDIDA DE DISPERSION

G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos Si todos los valores son iguales no hay dispersion perosi no todos son iguales entoncesexiste dispersi6n en los datos La magnitud de la dispersion es pequefia cuando los valores aunque difeshyrentes son cercanos entre sf La figura 251 muestra los pollgonos de frecuencia

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA

PobIaci6n A

~ Poblacl6n B

)1

FIGUBA 25t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n

para dos poblaciones que tienen medias iguales pero diferente magnitud de variashybilidad La poblacion B mas variable que la poblaeion A es mas dispersa Si los valores estan ampliamente esparcidos la dispersion es mayor Otros tirminos sinoshynimos de dispersion son variaciOn expansion y dispersion

El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango Este es la difereneia entre el valor mas peshyqueno y el mas grande en un eonjumo de observaciones Si se representa el rango como R el valor mayor como xL Y el valor menor como xs el rango se ealcula como sigue

(251)

EJEMPLO 251

Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 242

Soluci6n Puesto queel individuo mas joven en la muestra tiene 23 anos y el mas viejo tiene 61 el rango calculado es

R = 61- 23 38 bull La utilidad de rango es limitada EI hecho de que toma en consideracion solo dos valores hace que sea una medida pobre de dispersion Su ventaja principal es la simplicidad de su caleulo

La variancia Cuando los valores de un conjunto de observaciones se eneuenshytran ubicados cerca de su mediala dispersion es menor que cuando estan esparcidos En consecuencia sepuede pensar intuitivamente que es posible medir la dispershysion en funcion del esparcimiento de los valores alrededor de su media Esta medishy

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

41 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION

cion se efectlia mediante 10 que se conoce como variancia Por ejemplo para calcushylar la variancia de una muestra de valores se resta la media de cada uno de los valores individuales las diferencias se elevan al cuadrado y despues se suman entre sf Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra menos 1 para obtener la variancia de la muestra Si se asigna la letra S2 para simbolizar la varian cia de la muestra el procedimiento descrito se expresa como sigue

9 i=l (252)s-=---shyn-l

FJEMPlO 252

Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 242

Soluci6n

(42 -366)2 + (28 -366)2 + + (37 366)2

91196399997

= -------- 132933333 bull9

Grados de libertad La razon de dividir entre n - 1 en lugar de entre n como hubiera de esperarse es una consideracion teorica conocida como gradas de libertad En el calculo de la variancia se puede decir que hay n - 1 gradas de libertad El razonamiento es como sigue la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero hecho que puede demostrarse Si se conoshycen los valores de n 1 de las desviaciones a partir de la media entonces se conoce el n-esimo valor ya que queda determinado automaticamente debido a la restricshycion de que todos los valores de n se sumen a cero Desde un punto de vista practishyco dividir las diferencias al cuadrado entre n 1 en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferenshycia que se estudian posteriormente Elconcepto de grados de libertad se tratara de nuevo mas adelante Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2)

Cuando se calcula la varian cia a partir de una poblacion finita de N valores se sigue el procedimiento recien descrito excepto que se resta Jl de cada x y se divide entre N en lugar de N-l Si se asigna el sfmbolo (52 para la variancia de una poblashycion finita la formula es la siguiente

(253) N

DesviaclOn estdndar La variancia representa unidades al cuadrado por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepshyto enlerminos de las unidades originales Para obtener la medida de dispersion en unidades originales simplemente se obtiene la rafz cuadrada de la variancia El

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

42 CAPITULO 2 ESTADISTICA DESCRIPTIVA

resultado se llama desviaci6n estandar En general la desviacion estandar de una muestra se obtiene mediante la siguiente formula

(254)s n-l

La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 253

El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos Sin embargo cuando se quiere comparar la dispersion de dos conjuntos de datos la comparacion de las dos desviaciones estandar puede dar un resultado equivocado Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades Por ejemshyplo se pretende conocer para una poblacion dada si los niveles de colesterol en el suero medidos en miligramos por cada 100 mI son mas variados que el peso del cuerpo medido en libras 0 kilogramos

Ademas aunque se utilice la misma unidad de medici on las dos medias pueshyden diferir bastante Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso se encontrani que esta ultima es numericamente mayor que la anterior debido a que los pesos mismos son mayoshyres y no porque la dispersion sea mayor

Lo que se necesitaensituaciones como esta es una medida de variancia relashytiva en lugar de una de variancia absoluta Tal medida la constituye el coeficiente de variaci6n el cual expresa la desviacion estandar como un porcentaje de la media La formula es como sigue

s cv = -= (100) (255) x

Se aprecia entonces que como la media y las desviacionesestandar se expreshysan en la misma unidad de medici6n la unidad de medici6n se cancela al calcular el coeficiente de variaci6n Entonces se obtiene una medida independiente de la unidad de medici6n

FJEMPLO 253

Los siguientes resultados corresponden ados muestras formadas por varones

Muestra 1 Muestra 2

Edad 25 anos 11 afios Peso medio 145libras 80 libras Desviacion estandar 10libras 10 libras

El prop6sito es saber ~uaI tiene mayor variabilidad los pesos de individuos de 25 anos 0 los de 11 afios

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

43 25 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSI6N

Solucion Una comparacion de las desviaciones estandar puede conducir a la conshyclusi6n de que las dos muestras tienen igual variabilidad Sin embargo si se cakulan los coeficientes de variacion se obtiene para los sujetos de 25 aiios de edad

CV ~(100)=69145

y para los de 11 anos de edad

10CV == -(100) =125

80 Si se comparan estos resultados la impresi6n recibida es diferente bull

EI coeficiente de variaci6n tambien es utH para comparar los resultados obteshynidos por diferentes personas que efectuan investigaciones que involucran la misshyrna variable Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n constituye una estadistica util para comparar la variabilidad de dos 0

m~s variables medidas en escalas diferentes Por ejemplo podrfa utilizarse el coefishycienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p=sos se expresan en libras y la variabilidad de los pesos de otra muestra expresados en kilogramos

Analisispor computadnra Los paquetes de software para computadora proshyporcionan una variedad de posibilidades para el Gilculo de las medidas descriptishyvas En la figura 252 se muestra una impresi6n de las medidas descriptivas disponibles en el paquete MINITAB Los datos son las edades correspondientes al ejemplo 242 Con los datos de la columna 1 el procedimiento MINITAB se muesshytra en la figura 253

En las salidas impresas Ql y Q3 son el primer y tercer cuartil respectivamenshyteo Estas medidas se describen mas adelante en este capitulo

TRMEAN significa media arreglada La media arreglada se utiliza algunas veshyces en lugar de la media aritmetica como medida de rendencia central Se calcula despues de que algunos val ores extremos son excluidos Por 10 tanto la media arreshyglada no tiene la desventaja de ser influenciada indebidamente por los valores exshytremos como en el caso de la media aritmetica EI termino SEMEAN significa enw estdndar de La media Esta medida al igual que la media arreglada se estudiara con detalle en un capitulo pr6ximo La figura 254 muestra para los mismos datos la salida impresa de SASreg que se obtiene al utilizar la instrucci6n PROC MEANS

N 10

MEAN 3660

MEDIAN 3300

TRMEAN 3525

STDEV 11 53

SEMEAN 365

MIN 2300

MAX

6100 2800 Q3

4400

FIGURA 252 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 242 con el paquete de software estadistico MINITAB

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

44 CAPITULO 2 ESTADISTICA DESCRIPTIV A

Caja de dialogo Comandos de lei sesi6n

Stat gt- Basic Statistics gt- Descriptive Statistics MTB gt Describe C1

Teclear Cl en Variables Elegir Tabular form bajo Display options Clic OK

FIGURA 253 EI procedimiento del paquete MINITAB para calcular las medidas desshycriptivas a partir de los datos del ejemplo 242

Perceiles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n Estas medidas desshycriptivasse Haman parametros delocalizacion porque pueden utilizarse para desigshynar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable En ese senti do los parametros de localizacion ubishycan la distribucion sobre el eje horizontaL Por ejemplo una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50 en la grafica de las dos distributiones Otros parametros de localization son los percentiles y cuartiles Se puede definir un percentil como sigue

DEFINICION

Dado un conjunto de n observaciones Xl X 2 bullbullbull X n el p-esuo percentil P es el valor de X tal que p por ciento 0

menos de lasobservaciones son menores que P y (100 - p) por ciento 0 menos de las observaciones son mayores que P

Los subindices en P sirven para distinguir un percentil de otro El decimo percentiI por ejemplo se designa como P

IO el septuagesimo se expresa como P

70

y aSl sucesivamente El percentil quincuagesimo es la mediana y se designa como EI vigesimo quinto percentil suele representar el primer cuartil y se expresa Pso

como Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil o cuartil medio denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercer cuartil Qs

VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE

EDADES 10 366QOOOOOO 1152967187 2300000000 6100000000

STD ERROR SUM VARIANCE CV OF MEAN

364600238 36600000000 13293333333 31 502

FIGURA 254 Salida impresa de las medidasdescriptivas calculadas a partir de la muesshytra de edades del ejemplo 242 con el paquete SASreg

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

45 25 ESTADtSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

Cuandose pretende encontrar los cuartiles para el conjunto de datos se utishylizan las siguientes formulas

n+l b d d---eSlma 0 servaClon or ena a 4

2(n+l) n+l Q2 = =-- -eSlma observaClon ordenada

4 2

~------ -esima observaci6n ordenada 4

Alnplituddel intercuarlil Tal como se ha visto el rango proporciona una medishyda no piocesada (cruda) de la variabilidad presente en un conjunto de datos La desshyvenlpoundja de la amplitud es el hecho de que esta se calcula a partir de dos valores el mas grande y el mas pequeno Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil

DEFINICI6N

La alIlpliQtd del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil es decir

(256)

Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes y un IQR pequeno indica una magnitud pequeshynade variabilidad entre las observaciones relevantes Puesto que estas expresiones son bastante vagas es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo Se puede hacer la comparacion forshymando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100 Es decjrr 100(IQRR) indica que el porcentaje de IQR es de toda la amplitud

Groftea de caja con valQres exirelUos (box and whisker) Un disposishytivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot) Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos y se siguen los cinco pasos que se mencionan a continuacion

I Representar a la variable de interes sobre el eje de las x

2 Dibujar sobre el eje horizontal un cuadro de tal forma que el extremo izshyquierdo este alineado can el primer cuartil QJ y el extremo derecho del cuashydro quede alineado can el tercer cuartil Q s

3 Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2

4 Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos

5 Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

46 CAPITULO 2 ESTADISTICA DESCRIPTIVA

TABIA2~5t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres

J

12 21 25 25 30 38 40 42 45 50 50 50 50 60 65 70 80 95 130

FUENTE William C Pitts Virginia A Rojas Michael] Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast AmericanJournal of Clinical Pathology 95 623-632

El examen de la grafica para un conjunto de datos revela informacion respecshyto a la magnitud de la dispersion localizacion de la concentracion y simetria de los datos

El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos

FJEMPLO 254

En una revista medica de publicacion periodica Pitts et al (A-7) asegura que los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar y dasificar con precision debido a susvariados patrones histologicos y a su rareza En un intento por estudiar mas detalles de las caracterfsticas biologishycas los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia La tabla 251 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros

Soluci6n Lamedicion mas pequena y 1a mas grande son5 y 130 respectivamenshyte El primer cuartil es QI = (20 + 1) 4 525-esima medicion la cual es 25 + (25)(30 25) = 2625 La mediana es Q

2 = (20 + 1) 2 =

1O5-esima medicion igua1 a 45 + (5)(50 -45) 475 E1 tercer cuarti1 es Q3 = 3(20 + 1) 4 = 1575-esima medicion iguala 60 + (75)(65shy60) = 6375 La amp1itud del intercuartil es IQR = 6375 - 2625 = 375 La amplitud es 125 y el IQR es 100(375125) == 30 porciento de la amplitud La caja de valores extremos resultante se muestra en la figushyra 255

AI examinar la figura 255 se observa- que 50 por ciento de las mediciones estan entre 26 y 64 los valores aproximados del primero y tercer cuartil respectivamente La barra vertical dentro de la caja muestra que la mediana esta cerca de 475

o 2 3 4 5 6 7 8 9 10 11 12 13 14

Diametro (em)

FIGUR- 255 Caja de valores extremos del ejemplo 254

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

47 25 ESTADiSTICA DESCRIPTIVA MEDIDAS DE DISPERSION

14

12

0 10E l a B 0

E 6

~ 4

2

0

I

FIGURA 256 Caja de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 251

La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada hacia la derecha

Muchos paquetes de software estadistico tienenla capacidad para construir grHicas de caja con valores extremos La figura 256 muestra una construida con MINITAB a partir de los datos de la tabla 251 Se colotan los datos en la columna 1 se renombra la variable con Tumsize (tamanodel tumor) y se procede como se muestra en lafigura 257 EI asterisco en la figura 256 sirve para alertar que hay un valor inusualmente mayor que los demas Hamada outlier (valor muy alejado) el cualcorresponde al melanoma de 13 em de diametro La linea superior en la figura 256 se detiene en 95 y el valor mas grande no se considera que sea un valor muyalejado La figura 256 ejemplifica que la caja de valores extremos pueshyde desplegarse tanto vertical como horizontalmente

En el paquete SASreg se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos Esta instrucci6n tambien produce otras medidas desshycriptivas y desplegados que incluyen graficas de tallo y hojas medias variancias y cuartiles

Andlisis exploratorio de datos La grafica de caja con va10res extremos aSI como la de tallo y hojas son ejemplos de 10 que se conclCe como tecnicas de analisis de exploraci6n de datos Estas tecnicas populares debido al resultado del trabajo de Tukey (3) permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen

Caja de dialogo Comandos de la sesi6n

Statgt EDA gt Boxplot MTB gt Boxplot

Teclear Tumsize en Y Tumsize En Data Display 1 seleccionar IQRange Box sose gt BOXi

En Data Display 2 seleccionar Outlier Symbol sose gt Symbol

Clic OK sose gt outlier

FIGURA 257 El procedimiento del paquete MINITAB paraproducir la figura 256

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

48 CAPITULO 2 ESTADISTICA DESCRIPTIV A

EJERCICIOS

Calcule para cada uno de los con juntos de datos de los siguientes ejercicios a) la media b) la mediana c) la moda d) la amplitud e) la varianza f) la desviaci6n estandar g) el coeficiente de variacion y h) la amplitud del intercuartil Cada con junto de datos debe considerarse como una muestra Para los ejercicios que se considere adecuado prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para comprender la naturaleza de los datos Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos Establezca los razonamientos que justi shyfican cada elecci6n

251 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al (A-8) parainvestigar la eficacia del tramiento para mejorar el intershycambio de gases Los siguientes valores representan la superficie corporal de los pacientes

210 174 168 183 157 171 173

l65 174 157 276 190 177

FUENTE Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review ofRespiratory Disease 144 390-394

252 Los estudios de Dosman etal (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos Se estudiaron siete pacientes asmaricos con edades entre 19 y 33 alios Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes

394 147 206 236 374 343 378

FUENTEJA Dosman W C Hodgson y D W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review ofRespiratory Disease 144 45-50

253 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals en Escocia entre los afios de 1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno Nueve pacientes

murieron En un articulo de la revistaAge and Ageing Sridharan et al (A-10) afirmaron que la elevada mortalidad por absceso hepatico piogeno se debe al menos en parte ala falta de sospecha clinica Lasedades de los individuos estudiados son las siguientes

63 72 62 69 71 84 81 78 61 76 84 67 86 69 64 87 76

FUENTE GV Sridharan S P Wilkinson y W R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203 Cortesfa de Oxford University Press

254 Arinami et al (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X Los valores de IQ para cada individuo son los sigt~ientes

17 22 17 18 17 19 34 26 14 33 21 29

FUENTE Tadao Arinami Miki Sato Susumu Nakajima e Ikuko Kondo Auditory Brain-stem Responses in the Fragile X Syndrome AmericanJournal ofHuman Genetics 43 46-51 Copyright de la American Society of Human Genetics Todos los dereshychos reservados -Publicaci6n de la Universidad de Chicago

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

49 26 RESUMEN

255 En un articulo de la revista American Journal ofObstetrics and Gynecology el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanshyguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardashydo En este articulo afirmo que los datos preliminares sugieren que el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados

24 26 27 28 28 28 29 30 30 31 32 32 33 33 34 34 35 35 35 36

FUENTE Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses American Journal of Obstetrics and Gynecology 165 143-15l

256 El objetivo del estudio de Kuhnz et al (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son

62 53 57 55 69 64 60 59 60 60

FUENTE Wilhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Mariane Mahler Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum American Journal ofObstetrics and Gynecology 165 596-602

257 Ver el ejercicio 231

258 Ver el ejercicio 232

259 Ver el ejercicio 233

2510 Ver el ejercicio 234

2511 Ver el ejercicio 235

2512 Ver el ejercicio 236

2513 Ver el ejercicio 237

2514 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportashymiento como las medidas por la escala de ansiedad de Zung (ZAS siglas en ingles de Zung Anxiety Scale) Los siguientes valores representan las puntuaciones de ZAS de los 26 indivishyduos con diagnostico de trastornos de panico

53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

Construya una grafica de valores extremos con estos datos

26 RESUNIEN

En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado distribuci6n de frecuencias distribuci6n de frecuencias relativas histogramas y poHgonos de freshy

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

50 CAPITULO 2 ESTADISTICA DESCRIPTIV A

cuencia Se describen los conceptos de tendencia central y variaci6n y junto con ellos las medidas mas generales media mediana moda amplitud variancia y desshyviaci6n estandar Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas

Se destaca la importancia que tiene el empleo de la computadora como heshyrramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos

PREGUNTAS YFJERCICIOS DE REPASO

1 Defina los siguientes conceptos a) Despliegue de tallo y hojas b) Grafica de valores extremos

c) Percentil d)Cuartil

e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos

g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica

k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma

2 Defina y compare las caracteristicas de la media la mediana y la moda

3 ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n

4 Explique por que se utiliza n 1 para calcular la variancia

5 ~Cual es el prop6sito del coeficiente de variaci6n

6 ~Cual es el prop6sito de la regia de Sturges

7 ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)

8 Describa desde su propio campo de estudio una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media mediana moda variancia y desviaci6n estandar

9 Recolecte un conjunto de datos reales 0 realistas en su campo de estudio para construir una distribuci6n de frecuencias una distribucion de frecuencias relativas un histograma y un polfgono de frecuencia

10 Calcu1e la media mediana moda variancia y desviacion estandar para los datos del ejercicio 9

11 Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion

12 En el ejercicio 2514 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14) En ese estudio tambien se incluyo a individuos sanos como controles (es decir individuos que no padecen trastornos de panico) Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos

26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25

FUENTE Utilizado con autorizaci6n de Thomas W Uhde M D

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

PREGUNTAS Y EJERCICIOS DE REPASO 51

a) Combine estos valores con las puntuaciones del ejercicio 2514 y elabore una grafica de tallo y hojas

b) Con base en la grafica de despliegue de tallo y hojas describa en una palabra la naturaleza de los datos

c) tPor que luce asi la grafica del inciso b

d) Para la combinaci6n de datos de ZAS calcule la media moda mediana variancia y desviaci6n estandar

13 Consulte el ejercicio 12 y calcule s610 para los 21 controles sanos la media moda mediana variancia y desviaci6n estandar

14 Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico la media moda mediana variancia y desviaci6n estandar

15 ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad el integrado por individuos sanos y enfermos el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico ~C6mo se justifica la respuesta

16 Analice el ejercicio 12 ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS la media 0 la mediana ~Por que

17 Swifet al (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psishyquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram De acuershydo con los investigadores el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio umiddot hospitalizaci6n psiquiatrica Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos

Edad Cantidad

20-29 55

30-39 93

40-49 113

50-59 90

60-69 85 FUENTE Ronnie Gorman Swift Diane O Perkins Charles L70-79 73 Chase Debra B Sadler y Michael

80-89 29 Swift Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome

American Joumal ofPsychiatry 148 Total 543 775-779

Con base en estos datos elabore una distribuci6n de frecuencias relativas una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas

18 La motivaci6n de un estudio realizado por Roberts et 01 (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestishyman el total de energfa necesaria en varones adultos j6venes Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal quienes desarrollaban de tiempo comshypleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra

--_ _---shy

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

52 CAPITULO 2

244 304

230 206

ESTADISTICA DESCRIPTIVA

214 251 213 238 208 229 209 232 211

260 FUENTE Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Witer Method AmericanJournal ofClinical Nutrition 54499-505

a) Calcu1e media moda mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) E1abore una grafica de tallo y hojas

c) E1abore una graflCa de va10res extremos

d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media dentro de dos desviaciones estandar y dentro de tres desviaciones estandar

19 Consulte el ejercicio 18 Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivishyduos de 1a muestra estudiada por Roberts et al (A-16)

Pesos 839 990 638 713 653 796 703 692 564 662 887 597 646 788

Estaturas 185 180 173 168 175 183 184 174 164 169 205 161 177 174

FUENTE Susan B Roberts Melvin B Heyman William] Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements of Young Adult Men Determined by Using the Doubly Labeled Water Method AmericanJournal ofClinical Nutrition 54499-505

a) Para cada variable ca1cu1e media mediana variancia desviaci6n estandar y coeficiente de variaci6n

b) Para cada variable elabore un despliegue de tallo y hojas y una grafica de va10res extremos

c) ~Que conjunto de mediciones tiene mayor variabilidad peso 0 estatura ~Que bases tiene su respuesta

20 La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reshyportada durante un ano en un estado en particular

Edad Numero de casos

5-14 15-24 25-34 35-44 45-54 55-64

5 10

120 22 13 5

Total 175

Para estos datos elabore una distribuci6n de frecuencias acumuladas una distribuci6n de frecuencias relativas una distribuci6n de frecuencias relativas acumuladas y un histograma

21 Nombre los tres sin6nimos de variaci6n (variabilidad)

22 Como parte de un proyecto de investigaci6n los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP por las siglas en ingles de serum lipid

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

53 PREGUNTAS Y EJERCICIOS DE REPASO

peroxide) a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus 585 617 609 770 317 383 517 431309524 Calcule la media mediana variancia y desviaci6n estandar

23 Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos 407 271 364 337 384 383 382421404450 Calcule para estos datos la media mediana variancia y desviaci6n estandar Compare los resultados con los del ejercicio 22 ltQue es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus ltEstos resultados proveen suficientes bases para tomar acci6n medica Explique su respuesta

24 A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospishytal Elabore una grMica de tallo y hojas ltC6mo describiria la forma de estos datos

32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26

25 Se compararon dos metodos para colectar sangre para estudios de coagulaci6n Los siguienshytes valores son el tiempo parcial de tromboplastina activada (APTT siglas en Ingles) de 30 pacientes en cada uno de los dos grupos Elabore una grafica de valores extremos a partir de cada con junto de mediciones Compare las dos grMicas andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos ltQue metodo tiene mayor meshydiana Compare el IQR del metodo 1 con el IQR del metodo 2 ltPara cwil metodo es el IQR un mayor porcentaje de R

Metodo 1 207 296 344 566 225 297

312 383 285 228 448 416 249 290 301 339 397 453

229 203 284 355 228 547

524 209 461 350 461 221

Metodo 2 239 232 562 302 272 218 537 316 246 498 226 489

231 346 413 341 267 201 389 242 211 407 398 214 413 237 357 292 274 232

26 Exprese con palabras las siguientes propiedades de la media de 1a muestra

a) L(x xy = un minimo

b) nX= LX c) L(x-x) 0

27 Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso Con las puntuaciones de cada examen para cada estudianshyte eI profesor calcula una medida de tendencia central que servici como calificaci6n final

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

54 CAPITULO 2 ESTADISTICA DESCRIPTIVA

del curso del estudiante Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes ~Cual escogeria ellector si fuera uno de los alumnos (Por que

28 Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n

a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175

200-249 175-199 175-200 250-274 200-224 200-225

etc 225-249 225-250 etc etc

(Que intervalo de clase sera el mas conveniente para el objetivo (Por que Establezca espeshydficamente por que los otros dos son menos convenientes

29 En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidadeslitro) para una muestra de 300 individuos sanos La media es de 95 y la desviaci6n estandar es de 40 Los estudiantes utilishyzaron las siguientes amplitudes de los intervalos de clase a) 1 b) 5 c) 10 d) 15 e) 20 1) 25

Comente la conveniencia de utilizar estas amplitudes

30 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana

31 De un ejemplo relacionado con ciencias de la salud de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media

32 Indique para las siguientes variables cual puede ser mejor medida de tendencia central la media mediana 0 moda y explique su respuesta

a) Ingreso anual de las enfermeras tituladas en el Sureste

b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princishypal de la ciudad

c) Pesos de losjugadores de basquetbol de la escuela preparatoria

33 Consulte el ejercicio 2311 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

34 Consulte el ejercicio 2312 y calcule media mediana variancia desviaci6n estandar prishymer cuartil tercer cuartil y amplitud del intercuartil Elabore una grafica de valores extreshymos (La media moda y mediana son iguales Si no explique por que Analice los datos en terminos de variabilidad Compare el IQR con la amplitud (Que sugieren las comparacioshynes respecto a la variabilidad de las observaciones

35 Thilothammal et al (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa Entre los datos

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

55 BIBLIOGRAFIA

recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real) La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio

733 546 824 765 854 923 555 683 805 710 568 806 722 769 1000 659 504 660 830 723 1000 645 796 740 509 710 765 996 557 887 727 673 648 740 726 807 793 724 781 663 740 727 659 733 1090 657 960 728 736 700 774 844 736 738 720 975 1300 681 764 796 700 597 896 769 746 864 641 505 909 705 882 705 677 769 730 769 781 634 588 740 686 550 714 846 1237 937 732 800 456 925 656 613 663 840 775 769 802 769 700 606 590 847 782 919 FUENTE Utilizada con autorizaci6n del 675 769 826 doctor N Thilothammal

a) Para estos datos ca1cule las siguientes medidas descriptivas media mediana moda varian cia desviacion estandar amplitud primer cuartH tercer cuartil e IQR

b) Elabore las siguientes graficas histograma poHgono de frecuencia tallo y hojas y valores extremos

c) Analice los datos en terminos de variabilidad Compare el IQR con la amplitud ~Que sugiere la comparaci6n respecto ala variabilidad de las observaciones

d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media en dos desviaciones estandar de la media y en tres desviaciones estandar de la media

e) ~Que proporcion de medici ones es menor que 100

f) ~Que proporcion de mediciones es menor que 50

BmUOGRAIltiA

Bibliografia de metodologia

I H A Sturges The Choice of a Class Interval Journal ofthe American Statistical Association 2165-66

2 Helen M Walker Degrees of Freedom TheJournal ofEducational Psychology 31253-269

3 John W Tukey Exploratory Data Analysis Addison-Wesley Reading MA

Bibliografia de aplicaciones

A-I Silvio M Veronese y Marcello Gambacorta Detection of Ki-67 Proliferation Rate in Breast Cancer AmericanJournal ofClinical Pathology 95 30-34

A-2 Nizar NJarjour William] Calhoun Lawrence B Schwartz y William W Busse Elevated Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with Increased Airway Obstruction American Review ofRespiratory Disease 14483-87

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147

56 CAPITULO 2 ESTADISTICA DESCRIPTIVA

Amiddot3 Peter M Ellis GrahamW Mellsop Ruth Beeston y Russell R Cooke Platelet Tritiated Imipramine Binding in Patients Suffering from Mania journal ofAffective Disorders 22 105-110

Amiddot4 Helen Herrman Patrick McGorry Jennifer Mills y Bruce Singh Hidden Severe Psychiatric Morbidity in Sentenced Prisoners An Australian Study American journal of Psychiatry 148 236-239

Amiddot5 Erik Skjelbo Theonest K Mutabingwa Ib Bygbjerg Karin K Nielsen Lars F Gram y Kim Brlsen Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians Clinical Pharmacology amp Therapeutics 59 304-311

Amiddot6 Henrik Schmidt Poul Erik Mortensen SjIlren Lars FjIllsgaard y Esther A Jensen Autotransshyfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion Annals of Thoracic Surgery 61 1178-1181

Amiddot7 William C Pitts Virginia A Rojas Michael J Gaffey Robert V Rouse Jose Esteban Henry F Frierson Richard L Kempson y Lawrence M Weiss Carcinomas with Metaplasia and Sarcomas of the Breast Americanjournal ofClinical Pathology 95 623-632

AmiddotS Enrique Fernandez Paltiel Weiner Ephraim Meltzer Mary M Lutz David B Badish y Reuben M Cherniack Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation American Review of Respiratoiry Disease 144 390-394

A-9 JA Dosman W C Hodgson yD W Cockcroft Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma American Review of Respiratory Disease 144 45-50

AmiddotI0 G V Sridharan S P Wilkinson yW R Primrose Pyogenic Liver Abscess in the Elderly Age and Ageing 19 199-203

Amiddot1l Tadao Arinami Miki Sato Susumu Nakajima e Ikudo Kondo Auditory Brain-stem Responses in the Fragile X Syndrome Americanjournal ofHuman Genetics 4346-51

Amiddot12 Giancarlo Mari Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses American journal of Obstetrics and Gynecology 165 143-151

Amiddot13 Welhelm Kuhnz Durda Sostarek Christiane Gansau Tom Louton y Marianne Mahler Sinshygle and Multiple Administration of a New Triphasic Oral Contraceptive to Women Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum Americanjournal of Obstetrics and Gynecology 165 596-602

Amiddot14 tv1urray B Stein y Thomas W Uhde Endocrine Cardiovascular and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder Archives ofGeneral Psychiatry 48 148-156

Amiddot15 Ronnie Gorman Swift Diane O Perkins Charles L Chase Debra B Sadler y Michael Swift Psychiatric Disorders in 36 Families with Wolfram Syndrome Americanjournal ofPsychiatry 118775-779

Amiddot16 Susan B Roberts Melvin B Heyman William J Evans Paul Fuss Rita Tsay y Vernon R Young Dietary Energy Requirements ofYoung Adult Men Determined by Using the Doubly Labeled Water Method Americanjournal ofClinical Nutrition 54 499-505

Amiddot17 N Thilothammal P V Krishnamurthy Desmond K Runyan y K Banu Does BCG Vaccine Prevent Tuberculous Meningitis Archives ofDisease in Childhood 74 144-147