Semana02_Capitulo02

14
Semana 2: Capítulo 2 1 DIPLOMATURA Bioestadística básica aplicada, mediada con entorno R. Después de haber visto algo más de R y RStudio, seguiremos con algunos conceptos de Bioestadística. Análisis descriptivo mediante tablas y gráficos. Recordemos que una vez que se ha tomado la decisión sobre cuál será la población estadística y la muestra a analizar, una vez que se toman o miden las variables en cada elemento, deberá registrarse por escrito esta información. Después de eso el investigador puede además trasladar esos datos a una base de datos de modo informático. Lo que nunca debe hacerse es destruir la base de datos en formato papel. En algún libro alguna vez se leyó que es más duradera la más suave de las tintas sobre papel que la mejor de las memorias y esto incluye tanto a memoria neuronal como informática. El papel es siempre el mejor plan B ante la ausencia de un valor, la confirmación de un dato anómalo o un posible error de tipeo. Ahora, ya sea en papel o en la computadora, se tiene un listado de letras o números, dependiendo si la variable es cualitativa o cuantitativa y debiéramos entonces resumir esa información. Ya aprendimos una forma de resumir la información: con medidas de resumen. Ahora describiremos otras dos: mediante tablas y gráficos. Tablas de distribución de frecuencia Variables cualitativas nominales Se tiene una variable cualitativa nominal. Por ejemplo se les pregunta a 20 estudiantes tomados al azar si se enteran de la información de la Carrera que cursan en los Avisadores, por vías informáticas o por comentarios de pasillo. Los resultados son: Avisadores, avisadores, comentarios, informática, comentarios,…, avisadores. Entonces se resume esa información en la siguiente tabla: (FA) (FR) Variable (X) 11 0,55 Avisadores 6 0,30 Comentarios 3 0,15 Informática Tabla 1: Distribución de frecuencia del modo en que se enteran de la información importante los estudiantes. Donde: la variable modo en que se enteran de la información la denominamos X : Frecuencia Absoluta: número de elementos que poseen un valor determinado de la variable. En la tabla 1: 6 personas se enteran por Comentarios. : Frecuencia Relativa: proporción de elementos que poseen un valor determinado de la variable. En la tabla 1: una proporción de 0,3 se enteraron por Comentarios (dicho de otro modo, el 30,00% de las personas se enteran por comentarios de pasillo). Los gráficos correspondientes a esta tabla son gráficos de tortas y de barras (no confundir con histograma).

description

Semana

Transcript of Semana02_Capitulo02

Semana 2: Capítulo 2

1 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Después de haber visto algo más de R y RStudio, seguiremos con algunos conceptos de Bioestadística.

Análisis descriptivo mediante tablas y gráficos.

Recordemos que una vez que se ha tomado la decisión sobre cuál será la población estadística y la muestra a analizar, una vez que se toman o miden las variables en cada elemento, deberá registrarse por escrito esta información. Después de eso el investigador puede además trasladar esos datos a una base de datos de modo informático. Lo que nunca debe hacerse es destruir la base de datos en formato papel. En algún libro alguna vez se leyó que es más duradera la más suave de las tintas sobre papel que la mejor de las memorias y esto incluye tanto a memoria neuronal como informática. El papel es siempre el mejor plan B ante la ausencia de un valor, la confirmación de un dato anómalo o un posible error de tipeo. Ahora, ya sea en papel o en la computadora, se tiene un listado de letras o números, dependiendo si la variable es cualitativa o cuantitativa y debiéramos entonces resumir esa información. Ya aprendimos una forma de resumir la información: con medidas de resumen. Ahora describiremos otras dos: mediante tablas y gráficos. Tablas de distribución de frecuencia Variables cualitativas nominales Se tiene una variable cualitativa nominal. Por ejemplo se les pregunta a 20 estudiantes tomados al azar si se enteran de la información de la Carrera que cursan en los Avisadores, por vías informáticas o por comentarios de pasillo. Los resultados son: Avisadores, avisadores, comentarios, informática, comentarios,…, avisadores. Entonces se resume esa información en la siguiente tabla:

(FA)

(FR)

Variable (X)

11 0,55 Avisadores

6 0,30 Comentarios

3 0,15 Informática

Tabla 1: Distribución de frecuencia del modo en que se enteran de la información importante los estudiantes. Donde: la variable modo en que se enteran de la información la denominamos X

: Frecuencia Absoluta: número de elementos que poseen un valor determinado de la variable. En la tabla 1: 6 personas se enteran por Comentarios.

: Frecuencia Relativa: proporción de elementos que poseen un valor determinado de la variable. En la tabla 1: una proporción de 0,3 se enteraron por Comentarios (dicho de otro modo, el 30,00% de las personas se enteran por comentarios de pasillo). Los gráficos correspondientes a esta tabla son gráficos de tortas y de barras (no confundir con histograma).

Semana 2: Capítulo 2

2 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Figura 1: Gráfico de barras y de torta de una variable cualitativa Variables cuantitativas Si ocurriera que la información que poseemos es escasa, con pocos números diferentes, no vale la pena agruparla. Entonces se está en presencia de una Distribución simple o de tipo 1. Ejemplo 1. Se estudia el número de hojas que poseen las plántulas de una especie vegetal al mes de haberlas sembrado. Se toman 5 plántulas, se les cuentan las hojas y los valores son: 12; 17; 11; 13; 8.

Figura 2: Representación gráfica de una distribución de tipo 1 Si se tienen más elementos tomados en la muestra, vale la pena el resumirlos en una tabla. Distribución de tipo 2 Ocurre cuando es necesario agrupar a una variable cuantitativa discreta con pocos valores diferentes. Ejemplo 2. En un hospital, se le pregunta a cada uno de los empleados de una muestra de 130, el número de hijos que posee. Los resultados son: 1; 2, 0; 5; 7; 3; 1; 1; 3;…; 4. Entonces ahora sí podemos resumir en una tabla donde en cada fila colocaremos el valor de la variable del siguiente modo:

Semana 2: Capítulo 2

3 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

(FA)

(FR)

(FAAa)

(FRAa)

(FAAd)

(FRAd)

Variable (X)

20 0,1538 20 0,1538 130 1 0

31 0,2385 51 0,3923 110 0,8462 1

36 0,2769 87 0,6692 79 0,6077 2

19 0,1462 106 0,8154 43 0,3308 3

11 0,0846 117 0,9000 24 0,1846 4

9 0,0692 126 0,9692 13 0,1000 5

3 0,0231 129 0,9923 4 0,0308 6

1 0,0077 130 1 1 0,0077 7

Tabla 2: Tabla de distribución de frecuencias de la variable número de hijos Donde: X es la variable número de hijos.

: Frecuencia Absoluta: número de elementos que poseen un valor determinado de la variable. En la tabla 2: 31 personas poseen 1 hijo

: Frecuencia Relativa: proporción de elementos que poseen un valor determinado de la variable. En la tabla 2: una proporción de 0,2385 poseen 1 hijo (dicho de otro modo, el 23,85% poseen un hijo).

Frecuencia Absoluta Acumulada ascendente: número de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2: 51 personas poseen 1 hijo o menos.

Frecuencia Relativa Acumulada ascendente: proporción de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2: una proporción de 0,3923 poseen 1 hijo o menos.

Frecuencia Absoluta Acumulada descendente: número de elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 2: 110 personas poseen 1 hijo o más.

Frecuencia Relativa Acumulada descendente: proporción de elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 2: una proporción de 0,8462 poseen 1 hijo o más. Los gráficos que corresponden a esta distribución son los que se presentan en la Figura 3.

Figura 3: Representación gráfica de una distribución de tipo 2. Se presenta un gráfico de bastones y de escalones (frecuencia acumulada)

Semana 2: Capítulo 2

4 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Distribución de tipo 3 Ocurre cuando es necesario agrupar una variable cuantitativa continua o una cuantitativa discreta con muchos valores diferentes. Ejemplo 3. Se tomaron 68 porciones de agua de un río para estudiar la distribución del Carbonatos. Los resultados (en ppm) son: 423,07; 452,23;...…; 561,34. Como se puede ver es imposible disponer una tabla en la forma de la tabla 2.2, ya que si una variable es continua es poco probable tener dos valores iguales de la variable. De tal modo, quedaría una tabla con 68 filas donde cada fila poseerá una frecuencia absoluta de 1 (uno) para resumir 68 valores. Por lo tanto es necesario dividir a la variable en distintos intervalos de clase. Cada intervalo a su vez posee una amplitud determinada. No hay un número de intervalos exactos, pero una aproximación a éste fue propuesta por Sturges en 1936 que se obtiene mediante la fórmula: k= 1+3,33 Log10(n), Donde k es el número óptimo de intervalos.

MC

(FA)

(FR)

(FAAa)

(FRAa)

(FAAd)

(FRAd)

Variable X

435,61 2 0,0294 2 0,0294 68 1 448,15 423,07

460,69 11 0,1618 13 0,1912 66 0,9706 473,23 448,15

485,77 18 0,2647 31 0,4559 55 0,8088 498,30 473,23

510,84 17 0,25 48 0,7059 37 0,5441 523,38 498,30

535,92 15 0,2206 63 0,9265 20 0,2941 548,46 523,38

561,00 5 0,0735 68 1 5 0,0735 573,54 548,46

Tabla 3: Tabla de distribución de frecuencias de la variable Carbonato Donde: X: variable Carbonato (en ppm) MC: Marca de clase (se obtiene promediando los extremos del intervalo)

: Frecuencia Absoluta: número de elementos que se encuentran en un determinado intervalo de valores de la variable. En la tabla.3: 11 alícuotas de agua poseen entre 448,15 y 473,23 ppm de Carbonato.

: Frecuencia Relativa: proporción de elementos que se encuentran en un determinado intervalo de valores de la variable. En la tabla 3: una proporción de 0,1618 poseen entre 448,15 y 473,23 ppm de Carbonato (dicho de otro modo, el 16,18%).

Frecuencia Absoluta Acumulada ascendente: número de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 3: 13 alícuotas de agua poseen menos de 473,23 ppm de Carbonato.

Frecuencia Relativa Acumulada ascendente: proporción de elementos acumulados que poseen un valor determinado de la variable y sus valores inferiores. En la tabla 3: una proporción 0,1912 poseen menos de 473,23 ppm de Carbonato.

Semana 2: Capítulo 2

5 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Frecuencia Absoluta Acumulada descendente: número de elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 3: 66 alícuotas de agua poseen más de 448,15 ppm de Carbonato.

Frecuencia Relativa Acumulada descendente: proporción de elementos acumulados que poseen un valor determinado de la variable y sus valores superiores. En la tabla 3: una proporción de 0,9706 poseen más de 448,15 ppm de Carbonato. A partir de la tabla 3 se pueden construir dos tipos de gráficos: histogramas de frecuencias y su respectivo gráfico acumulado.

a

b

Figura 4: Representación gráfica de una distribución de tipo 3. Se presenta un histograma de frecuencias y de frecuencias acumuladas. Se observa en la Figura 4a la presencia de un polígono de frecuencias que pasa por el valor central de cada intervalo y en la Figura 4b una ojiva de frecuencias que pasa por el mayor valor del intervalo. Formas de la distribución. Es muy común observar gráficos de distribución donde sólo se grafican el eje x y una línea suavizada del polígono de frecuencias. De ese modo podremos observar la forma de la distribución de la variable. Esas formas pueden ser simétricas, asimétricas a la derecha, a la izquierda, entre otros casos. (Figuras 5).

a

B

Semana 2: Capítulo 2

6 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

c

d

Figura 5: Formas de diferentes distribuciones. a: simétrica, b: asimétrica a la derecha, c: asimétrica a la izquierda, d: en forma de J invertida. Ahora presentaremos un gráfico denominado Gráfico de cajas, donde se puede observar graficados medidas vistas anteriormente Media, Mediana, Cuartilos y Percentiles. A su vez se observa la distancia del recorrido intercuartílico, si la variable es o no simétrica y si se presentan datos anómalos o extremos (Figura 6).

A

b

Figura 6: Gráfico de cajas de una distribución simétrica (a) y asimétrica (b). Se observan Percentiles, Cuartilos y Mediana, así como el punto representa Media y datos extremos. También es común ver gráficos que representa el valor de la media a la cual se le suma y se le resta, por ejemplo un desvío estándar (Figura 7).

Figura 7: Gráfico de puntos donde se consigna la media más menos el desvío estandard

Semana 2: Capítulo 2

7 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Un punto importante que nos quedó sin desarrollar la semana pasada y que ahora que hemos visto el tema distribución de las variables podemos retomar es el siguiente:

Relaciones entre las distintas medidas de posición.

En variables cuya distribución es simétrica se observa que los valores de Media, Mediana y Modo

coinciden. Mientras que en las distribuciones asimétricas se van distanciando a medida que se

incrementa la asimetría.

a

b

Figura 8: Distribución simétrica donde coinciden Media, Mediana y Modo. b: Distribución

asimétrica a la derecha, donde Modo<Mediana<Media.

El recorrido de valores que pueden tener medidas de posición varía de menos infinito a infinito ó

bien depende del rango de valores de cada variable en particular.

La unidad en que se expresan las medidas de posición corresponde a la misma unidad de la

variable.

A continuación comenzaremos a desarrollar opciones gráficas con R: 1) Abra Rstudio. 2) Limpie el espacio de trabajo. (CLEAR). 3) Cargue (Importe) la base de datos SEMANA02_BASE03 (es la misma base anterior, pero discriminando por sexo). 4) Comience a trabajar con las opciones gráficas a continuación. Comenzaremos con gráficos básicos y al pasar las semanas iremos realizando opciones más complejas.

Semana 2: Capítulo 2

8 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

1) Histograma

Esta será la primera opción gráfica que utilizaremos en R. Un histograma es una representación gráfica que se aplica sobre una variable continua (o una variable discreta con muchos valores diferentes). Anteriormente aislamos la información de la columna y la asignamos a un nuevo objeto llamado VR (por Variable Respuesta). Debemos entonces, primero aislar la información de una columna de la base de datos en un objeto (que será “VR”); y en segunda instancia indicarle a R que deseamos obtener un histograma de esa variable. Cree una nueva ventana de Scrip: File- New file- R Script Copie las siguientes sentencias de este archivo, péguelo en su Ventana 1 de RStudio (ahora llamada Untitled1), selecciónelo y haga clic en RUN.

VR <- SEMANA02_BASE03[,2] hist(VR) Si usted ha realizado los pasos anteriores correctamente, debería aparecer en la Ventana 4 un histograma como el siguiente:

Semana 2: Capítulo 2

9 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Si el gráfico apareció, FELICITACIONES, ES ESTE SU PRIMER GRÁFICO en R!!! Lo que hemos hecho es utilizar una función de R que es “hist()” y darle como argumento una variable continua.

Nosotros no hemos indicado en cuántos intervalos queríamos dividir a los valores de la variable. Si no indicamos la cantidad de intervalos, R decide una cantidad de intervalos para el caso. Veremos más adelante en el curso como indicar cuántas categorías deseamos para gráfico de un histograma. Por defecto en el histograma las barras son de color blanco. Si aplicamos el siguiente Script cambiará el color (Transcribirlo de la siguiente figura:)

Al ejecutarlo (RUN) obtendrás:

Fíjate que con las flechas de arriba a la izquierda de la Ventana 4 puede mover los gráficos:

Semana 2: Capítulo 2

10 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Si usted desea guardar el gráfico, tiene la posibilidad de hacerlo desde la solapa”Export” de la Ventana 4. Export Save Plot as Image y podrás guardarlo en el Directorio que desees, en el formato que prefieras.

2) Box plot (gráfico de cajas).

Un gráfico de Box Plot se realiza sobre una variable continua, que podría ser una variable respuesta (“VR”). Cuando creamos VR lo que hicimos fue aislar de la base de datos la información de una variable. Ahora utilizaremos la función “boxplot()” para hacer un gráfico de cajas con VR. Pegue la siguiente sentencia en su Ventana 1. VR <- SEMANA02_BASE03[,2] boxplot(VR) Esta ha sido la sentencia para crear un gráfico de cajas con toda la información de una variable continua. Es muy común tener que realizar varios gráficos de cajas a la vez, pero teniendo en cuenta otra variable, por ejemplo sexo. En ese caso, lo que tenemos son los valores de la variable respuesta separados por los niveles de una variable categórica (por ejemplo varón y mujer, que son niveles de la variable sexo). Esto genera una caja para cada nivel. Por un lado, ya tenemos en un objeto la información de la variable respuesta (VR). Debemos ahora aislar una columna de la base de datos, que sea una variable categórica y con ambos elementos utilizar la función “boxplot()”. Copie y pegue las sentencias a continuación en su hoja SCRIPT (Ventana 1), selecciónelas y haga clic en RUN. VC <- SEMANA02_BASE03[,3] boxplot(VR ~ VC) Si ha tenido éxito, aparecerá un gráfico donde se observan dos cajas por separado. Si le parece que le falta un poco de color, puede probar con la siguiente sentencia: boxplot(VR ~ VC, col=”red”)

Semana 2: Capítulo 2

11 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

Aparecerá entonces el siguiente gráfico:

Es MUY frecuente que haya incompatibilidad en los signos especiales de los diferentes programas. A veces RStudio no entiende las comillas: “ ” !! o bien ” ” !!!! Mirá en RStudio el script anterior y vas a ver que coloca a la función y al argumento con diferente color (en la Ventana 1). Si tu RStudio entendió, vas a ver antes de aplicar RUN lo siguiente:

Si tu RSudio no entendió, puede pasarte esto:

Fíjate que “red” no está de un color diferente. Si eso ocurre, cuando apliques RUN, en la Ventana 3 aparecerá un mensaje como:

Lo que debieras hacer es tipear en la Ventana 1 el texto debajo del que está copiado, utilizando la comilla de SHIFT + 2. (las comillas provienen de una tecla doble comilla y no son dos teclas de una comilla simple!!!!)

Semana 2: Capítulo 2

12 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

y allí lo toma….. NOTA MUY IMPORTANTE: Hemos visto que las funciones necesitan argumentos. Por ejemplo vimos:

summary (VR)

o también

hist (VR)

Generalizando entonces el modo de expresar estos Script fue:

funcion (Argumento)

El orden en que se indican los argumentos es importante. En el ejemplo:

boxplot (VR ~ VC ,

col=”red”)

indica:

funcion (Argumento 1 ~ Argumento 2 ,

Argumento 3)

Siempre en la función boxplot el primer argumento debe ser una variable cuantitativa, mientras que el segundo argumento debe ser una variable nominal. Si usted cambia de lugar a VR y a VC, obtendrá un cartel de error. Siempre existe un separador entre argumentos que deben ser colocados correctamente este

separador: ~ es exclusivo para separar la variable cuantitativa de la categórica. Para separar

cualquier otro argumento, se utiliza la coma. Si obviamos una coma, la función dará error. Algo más: las comillas son importantes en el argumento 3 (las comillas se obtienen con las teclas SHIFT + 2. Algunas veces las otras comillas no son las correctas). Recordemos que el argumento 3 de la función boxplot era el color, entonces se decía: col=”red”.

Semana 2: Capítulo 2

13 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

El primer tiempo con R en su computadora, usted descubrirá todo un abanico de símbolos que posiblemente desconocía en su teclado... Y también se dará cuenta que algunos están por demás escondidos para su gusto. Tómelo con calma. Solo necesita un poco de práctica. Ejercitación: La base de datos llamada SEMANA02_BASE04 posee los datos tomados sobre el nivel de glucemia del cordón umbilical de 40 pacientes recién nacidos. A su vez se dispone de la información sobre el tipo de acidosis que posee el recién nacido o bien si es un “control”. Se pide: Obtenga las medidas de posición y dispersión. Realizar un histograma de frecuencias Realizar un gráfico de cajas Realizar un gráfico de cajas, particionado por acidosis. Resumen de Script Puede utilizar las sentencias a continuación como un Script de referencia sobre la semana 2. Le recomendamos: 1) No se malacostumbre a sólo copiar y pegar Scripts ya hechos, sino que los tome como modelos para verificar si usted los ha tipiado correctamente. Al iniciarse en R es muy común equivocarse al tipiar de paréntesis, comillas, etc. 2) Visualice el ordenamiento del Script que generan los comentarios (iniciados con #), e intente generar usted mismo cada vez que trabaja un Script ordenado. A continuación le indicamos un resumen de éstos: CUIDADO!!! Muchas veces las comillas del SCRIPT que siguen, no son bien tomadas por RStudio!!! ####################################################### ##### INICIO SCRIPT SEMANA 2 - Capitulo 2 ##### Histograma, Boxplot y opciones gráficas en R ####################################################### # Aislamos la Variable Respuesta Continua (VR) VR <- SEMANA02_BASE03[,2] # Aislamos la Variable Categórica (VC) VC <- SEMANA02_BASE03[,3] # Gráfico de Histograma (Sin opciones) hist(VR) # Gráfico de Histograma Rojo hist(VR, col=”red”)

Semana 2: Capítulo 2

14 DIPLOMATURA

Bioestadística básica aplicada, mediada con entorno R.

# Gráfico BoxPlot sin opciones boxplot(VR) # Gráfico Boxplot rojo boxplot(VR, col=”red”) # Gráfico Boxplot, Particionado, rojo boxplot(VR ~ VC, col=”red”) ###################################################### ##### FIN SCRIPT SEMANA 2 - Capitulo 2 ##### Histograma, Boxplot y opciones gráficas en R ###################################################### Nota: El Script anterior sólo funcionará si usted ya tiene cargada la base de datos SEMANA02_BASE03 como un objeto de R. Habiendo cargado el archivo “SEMANA02_BASE03.csv” con las opciones “Import Dataset” de RStudio entonces no le arrojará mensajes de error.