Estad stica Aplicada I (ESMA3101)

30
Estad´ ıstica Aplicada I (ESMA3101) Prof. Pedro A. Torres Saavedra February 24, 2014 Lecci´on 6-7: Organizando Datos Cuantitativos En esta lecci´on vamos a utilizar la misma base de datos del estudio observacional sobre dieta con n =315 individuos (ver notas de la Lecci´on 5). El primer paso es importar la base de datos a R usando RStudio. Esta base de datos ha sido compartida en formato .csv en una direcci´ on de internet (recuerde que puede importar la base de datos munualmente usando la opci´ on Tools->Import Dataset). # Lee la base de datos install.packages("RCurl", repos="http://cran.us.r-project.org") library(RCurl) tt = getForm("https://docs.google.com/spreadsheet/pub", hl ="en_US", key = "0AhpzM-gDQ-UcdHB2TnVwakd4ZHJQVU4yMDdoWDdVWEE", output = "csv", .opts = list(followlocation = TRUE, verbose = TRUE, ssl.verifypeer = FALSE)) dieta <- read.csv(textConnection(tt)) View(dieta) attach(dieta) Distribuciones de Frecuencias e Histogramas Una distribuci´on de frecuencias es una lista que muestra los valores de la variable en forma individual o en intervalos con las respectivas frecuencias (n´ umero de individuos en cada valor o intervalo de valores). Distribuciones de Frecuencias No Agrupadas El primer tipo de distribuciones de frecuencias se conoce como no agrupadas ya que los valores originales de la variable son listados con su respectiva frecuencia. Vamos a estudiar la distribuci´on del n´ umero de bebidas alcoh´ olicas consumidas por semana (variable ALCOHOL) para los individuos en el estudio. Ejemplo § 1

Transcript of Estad stica Aplicada I (ESMA3101)

Page 1: Estad stica Aplicada I (ESMA3101)

Estadıstica Aplicada I (ESMA3101)Prof. Pedro A. Torres Saavedra

February 24, 2014

Leccion 6-7: Organizando Datos Cuantitativos

En esta leccion vamos a utilizar la misma base de datos del estudio observacional sobre dietacon n = 315 individuos (ver notas de la Leccion 5).

El primer paso es importar la base de datos a R usando RStudio. Esta base de datos hasido compartida en formato .csv en una direccion de internet (recuerde que puede importarla base de datos munualmente usando la opcion Tools->Import Dataset).

# Lee la base de datos

install.packages("RCurl", repos="http://cran.us.r-project.org")

library(RCurl)

tt = getForm("https://docs.google.com/spreadsheet/pub",

hl ="en_US",

key = "0AhpzM-gDQ-UcdHB2TnVwakd4ZHJQVU4yMDdoWDdVWEE",

output = "csv",

.opts = list(followlocation = TRUE, verbose = TRUE,

ssl.verifypeer = FALSE))

dieta <- read.csv(textConnection(tt))

View(dieta)

attach(dieta)

Distribuciones de Frecuencias e Histogramas

Una distribucion de frecuencias es una lista que muestra los valores de la variable en formaindividual o en intervalos con las respectivas frecuencias (numero de individuos en cada valoro intervalo de valores).

Distribuciones de Frecuencias No Agrupadas

El primer tipo de distribuciones de frecuencias se conoce como no agrupadas ya que losvalores originales de la variable son listados con su respectiva frecuencia.

Vamos a estudiar la distribucion del numero de bebidas alcoholicas consumidas porsemana (variable ALCOHOL) para los individuos en el estudio.

Ejemplo

§

1

Page 2: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

# Construye una tabla de distribucion de frecuencias

myvariable = ALCOHOL

cbind(Frecuencia = table(myvariable),

Frec.Acumulada = cumsum(table(myvariable)),

Frec.Relativa = prop.table(table(myvariable)),

Frec.Rel.Acumulada = cumsum(prop.table(table(myvariable))))

Frecuencia Frec.Acumulada Frec.Relativa Frec.Rel.Acumulada

0 161 161 0.511111 0.5111

1 49 210 0.155556 0.6667

2 16 226 0.050794 0.7175

3 13 239 0.041270 0.7587

4 10 249 0.031746 0.7905

5 10 259 0.031746 0.8222

6 6 265 0.019048 0.8413

7 17 282 0.053968 0.8952

8 5 287 0.015873 0.9111

9 2 289 0.006349 0.9175

10 2 291 0.006349 0.9238

11 5 296 0.015873 0.9397

14 6 302 0.019048 0.9587

15 2 304 0.006349 0.9651

16 1 305 0.003175 0.9683

17 1 306 0.003175 0.9714

18 3 309 0.009524 0.9810

20 2 311 0.006349 0.9873

21 1 312 0.003175 0.9905

22 1 313 0.003175 0.9937

35 2 315 0.006349 1.0000

• La columna Frecuencia contiene el numero de individuos que toma un numero dadode bebidas alcoholicas a la semana. Por lo tanto, la Frecuencia siempre es un numeroentre 0 y el total de datos (n = 315). Por ejemplo, hay 161 individuos que no consumenbebidas alcoholicas a la semana.

• La columna Frec.Acumulada contiene el numero de individuos que toma un numerodado o menos de bebidas alcoholicas a la semana. Note que la ultima Frecuencia

Acumulada es igual al total de datos (n = 315). Por ejemplo, 239 individuos tomantres o menos bebidas alcoholicas a la semana.

• La columna Frec.Relativa contiene la proporcion de individuos que toma un numerodado de bebidas alcoholicas a la semana. Es decir, es la division entre Frecuencia y eltotal de individuos (n = 315). La Frecuencia Relativa siempre es un numero entre0 y 1. Recuerde que para pasar una proporcion a porciento debemos multiplicar por

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 2 of 30

Page 3: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

100 (Ejemplo: 0.05 es el 5%). Por ejemplo, el 51.1% de los individuos no consumenbebidas alcoholicas.

• La columna Frec.Rel.Acumulada contiene la proporcion de de individuos que toma unnumero dado o menos de bebidas alcoholicas a la semana. Es decir, es la division entreFrecuencia Acumulada y el total de estudiantes (n = 315). La ultima Frecuencia

Relativa Acumulada es igual a 1. Ejemplo: 79.05% de los individuos consumen 4 omenos bebidas alcoholicas a la semana.

¿Que mas podemos concluir con base en los resultados de la tabla de dis-tribucion de frecuencias?

Note que en los comandos anteriores, lo unico que debemos cambiar si deseamos crear unadistribucion de frecuencias para otra variable es el comando myvariable=ALCOHOL. Por ejem-plo, si estamos interesados en la variable edad, debemos cambiar esa lınea por myvariable

= AGE; lo demas permanece igual.

Datos discretos se pueden representar usando graficas de barras. Por ejemplo,supongamos que queremos estudiar la distribucion del numero de bebidas al-coholicas consumidas por semana (variable ALCOHOL).

Ejemplo

§

# Construye una tabla de distribucion de frecuencias relativas en porcientos

abs.frec = table(ALCOHOL)

rel.frec = prop.table(abs.frec)*100

rel.frec = round(rel.frec, 2)

# Grafica de barras con frecuencias relativas en porcientos

barplot(rel.frec, main="Numero de Bebidas Alcoholicas por Semana",

xlab = "Numero de Bebidas", ylab = "Porciento (%)")

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 3 of 30

Page 4: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

0 1 2 3 4 5 6 7 8 9 11 15 17 20 22

Número de Bebidas Alcohólicas por Semana

Número de Bebidas

Por

cien

to (

%)

010

2030

4050

Construya a mano la distribucion de frecuencias de los siguientes datos:{10, 12, 13, 12, 10, 15, 17, 15, 14, 15}.

Repita el ejercicio usando R. Recuerde que debe ingresar los datos en R us-ando el comando: mydata = c(10,12,13,12,10,15,17,15,14,15). Luego usamydata como la variable que quiere analizar.

Ejercicio

B

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 4 of 30

Page 5: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Distribuciones de Frecuencias Agrupadas

Para construir una distribucion de frecuencias agrupadas necesitamos un poco mas detrabajo ya que tenemos que dividir el rango de la variable en clases y luego contar cuantoselementos pertenecen a cada clase o intervalo. Este tipo de analisis se acostumbra a hacerpara variables cuantitativas continuas pero tambien aplica a variables cuantitativas discretas.

Procedimiento Para Construir una Distribucion de Frecuencias

Vamos a utilizar los datos de las notas de un examen.

notas = c(76, 74, 82, 96, 66, 76, 78, 72, 52, 68, 86,

84, 62, 70, 78, 92, 82, 74, 88, 60)

Pasos a seguir:

1. Identifique el mınimo y maximo valor en los datos. Calcule la amplitud de los datos,es decir, amplitud = maximo−minimo. Usando R:

amplitud = max(notas) - min(notas)

amplitud

[1] 44

2. Seleccione un numero de clases m y el ancho de las clases c tal que m ·c sea ligeramentemayor que la amplitud 44. Por ejemplo, escojamos m = 5 y c = 10 (note que m · c =5 · 10 = 50 > 44). En general, se sugiere usar entre 6 y 12 clases, dependiendo deltamano de muestra.

3. Seleccione un valor inicial, el cual debe ser menor que el mınimo valor en los datos.Por ejemplo, un valor inicial podrıa ser 50 (el mınimo valor es 52). Lo que queremoshacer es dividir la amplitud de la variable en m = 5 clases. Ası que los lımites de esasclases serıan 50, 60, 70, 80, 90, 100. El maximo valor en los datos es 96, ası que todoslos datos quedan dentro de las clases conformadas.

Las clases quedan conformadas de la siguiente manera:

• Clase 1 [50, 60): Personas con 50 puntos pero menos de 60 puntos.

• Clase 2 [60, 70): . . .

• Clase 3 [70, 80): . . .

• Clase 4 [80, 90): . . .

• Clase 5 [90, 100): . . ..

4. El siguiente paso consiste en contar cuantos datos pertenecen a cada clase. Para realizareste procedimiento manualmente, una buena estrategia es ordenar los datos de menora mayor.

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 5 of 30

Page 6: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Figure 1: Clases para la distribucion de frecuencias

sort(notas)

[1] 52 60 62 66 68 70 72 74 74 76 76 78 78 82 82 84 86 88 92 96

Con esta informacion vamos construyendo la tabla de distribucion de frecuencias de lamisma manera que lo hicimos con los datos discretos.

Clase (Nota/Puntaje) Frec. Absoluta[50, 60) 1[60, 70) 4[70, 80) 8[80, 90) 5[90, 100) 2

5. El siguiente paso consiste en agregar otros valores a la tabla: Frecuencia Acumu-lada, Frecuencia Relativa y Frecuencia Relativa Acumulada.

Nota Frec. Absoluta Frec. Absoluta Acum. Frec. Relativa Frec. Relativa Acum.[50, 60) 1 1 0.05 0.05[60, 70) 4 5 0.20 0.25[70, 80) 8 13 0.40 0.65[80, 90) 5 18 0.25 0.90[90, 100) 2 20 0.10 1.00

Con base en esta distribucion de frecuencias podemos concluir que la mayorıa de estu-diantes sacaron notas entre 60 y 90 puntos. Mas especificamente, el 40% de los estudiantessacaron entre 70 y 80 puntos en el examen. De otro lado, el 95% de los estudiantes aproboel examen (D, C, B o A).

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 6 of 30

Page 7: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histogramas

La distribucion de frecuencias de una variable numerica puede ser representada graficamenteusando un histograma. Un histograma es un grafico de barras con las siguientes carac-terısticas:

• Un tıtulo para identificar la poblacion o muestra de interes.

• Una escala vertical (eje Y) para identificar las frecuencias (o frecuencias relativas) delas clases.

• Una escala horizontal para identificar la clases de la variable de interes. Las barras enel histograma debe estar unidas (no deben haber espacios entre las barras).

Usando la tabla anterior podemos construir los histogramas manualmente. Note que tantola Frecuencia como la Frec.Relativa pueden ser usadas para construir los histogramas.La conclusion sera la misma en ambos casos.

Una forma simple de construir histogramas en R/RStudio es usando el siguiente comando:

hist(notas)

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 7 of 30

Page 8: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histogram of notas

notas

Fre

quen

cy

50 60 70 80 90 100

01

23

45

67

En este caso el histograma es construido usando las frecuencias. Note que el histogramano tiene tıtulos en la grafica ni en los ejes. Una forma de agregar tıtulos al histograma esusando los siguientes comandos:

hist(notas, main = "Histograma de Notas Usando Frecuencias Absolutas",

ylab = "Frecuencia (Numero de estudiantes)",

col="green")

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 8 of 30

Page 9: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histograma de Notas Usando Frecuencias Absolutas

notas

Fre

cuen

cia

(Núm

ero

de e

stud

iant

es)

50 60 70 80 90 100

01

23

45

67

Ahora, si queremos hacer el histograma con las frecuencias relativas tenemos que agregarel comando freq=FALSE:

hist(notas, main = "Histograma de Notas Usando Frecuencias Relativas",

ylab = "Frecuencia Relativa (Proporcion de estudiantes)",

col="green", freq = FALSE)

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 9 of 30

Page 10: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histograma de Notas Usando Frecuencias Relativas

notas

Fre

cuen

cia

Rel

ativ

a (P

ropo

rció

n de

est

udia

ntes

)

50 60 70 80 90 100

0.00

00.

005

0.01

00.

015

0.02

00.

025

0.03

00.

035

Distribucion de Frecuencias en R/RStudio

Tal como hemos podido experimentar en el ejercicio anterior, construir una distribucionde frecuencias manualmente puede llegar a ser tedioso, especialmente si tenemos muchosdatos. Por lo tanto, nosotros usaremos R/RStudio para calcular una tabla de distribucionde frecuencias. Por ejemplo, construyamos la distribucion de frecuencias para las notas.Vamos a usar seis (6) clases.

# Construye una tabla de distribucion de frecuencias con 6 clases

myvariable = notas

puntaje <- factor(cut(myvariable, right = FALSE, breaks = 6))

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 10 of 30

Page 11: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Freq <- table(puntaje)

dist.frec <- transform(Freq, Frec.Acumulada = cumsum(Freq),

Frec.Relativa = prop.table(Freq),

Frec.Rel.Acumulada = cumsum(prop.table(Freq)))

dist.frec

puntaje Freq Frec.Acumulada Frec.Relativa Frec.Rel.Acumulada

1 [52,59.3) 1 1 0.05 0.05

2 [59.3,66.7) 3 4 0.15 0.20

3 [66.7,74) 3 7 0.15 0.35

4 [74,81.3) 6 13 0.30 0.65

5 [81.3,88.7) 5 18 0.25 0.90

6 [88.7,96) 2 20 0.10 1.00

La construccion de histogramas en R es relativamente facil usando los siguientes comandos(note que le estamos diciendo a R que queremos un histograma con seis clases para quegrafique lo mismo que obtuvimos en la tabla de distribucion de frecuencias):

# Construye un histograma con 6 clases

# Los lımites de las clases son definidos previamente usando la opcion "breaks="

myvariable = notas

hist(myvariable, breaks = c(52, 59.3, 66.7, 74, 81.3, 88.7, 96),

main = "Histograma de Notas",

xlab = "Nota", ylab = "Frecuencia (Numero de estudiantes)",

col="green",

right = FALSE, freq=T)

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 11 of 30

Page 12: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histograma de Notas

Nota

Fre

cuen

cia

(Núm

ero

de e

stud

iant

es)

60 70 80 90

01

23

45

6

Tanto en la tabla como en el histograma podemos decirle a R/RStudio cuantas clases usary como construirlas. Por ejemplo, vamos a reproducir la tabla de distribucion de frecuenciasque construimos manualmente. Los lımites de clases son 50, 60, 70, 80, 90, 100.

# Construye una tabla de distribucion de frecuencias con 6 clases

myvariable = notas

puntaje <- factor(cut(myvariable, right = FALSE, breaks = c(50,60,70,80,90,100)))

Freq <- table(puntaje)

dist.frec <- transform(Freq, Frec.Acumulada = cumsum(Freq),

Frec.Relativa = prop.table(Freq),

Frec.Rel.Acumulada = cumsum(prop.table(Freq)))

dist.frec

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 12 of 30

Page 13: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

puntaje Freq Frec.Acumulada Frec.Relativa Frec.Rel.Acumulada

1 [50,60) 1 1 0.05 0.05

2 [60,70) 4 5 0.20 0.25

3 [70,80) 8 13 0.40 0.65

4 [80,90) 5 18 0.25 0.90

5 [90,100) 2 20 0.10 1.00

# Construye un histograma con 6 clases

# Los lımites de las clases son definidos previamente usando la opcion "breaks="

myvariable = notas

hist(myvariable, breaks = c(50,60,70,80,90,100),

main = "Histograma de Notas",

xlab = "Nota", ylab = "Frecuencia (Numero de estudiantes)",

col="green",

right = FALSE, freq=T)

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 13 of 30

Page 14: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histograma de Notas

Nota

Fre

cuen

cia

(Núm

ero

de e

stud

iant

es)

50 60 70 80 90 100

02

46

8

Construya un histograma para las siguientes variables:

• Edad (AGE)

• Consumo de grasa (FAT)

• Consumo de fibra (FIBER)

Discuta brevemente como es la distribucion de los individuos en la muestra paracada variable.

Ejercicio

B

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 14 of 30

Page 15: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Tipos de Histogramas

Existen varios tipos de histogramas dependiendo de la distribucion de la variable de in-teres. Estos son algunas de las posibles formas de histogramas. ¿Como se interpretan loshistogramas si estuvieramos hablando de las edades de un grupo de individuos?

Simétrico, Normal

Variable

Fre

quen

cy

050

100

150

Simétrico, Uniforme

Variable

Fre

quen

cy

020

4060

8010

0

Sesgado a la derecha (Skewed to right)

Variable

Fre

quen

cy

050

100

150

200

Sesgado a la izquierda (Skewed to right)

Variable

Fre

quen

cy

020

4060

8010

012

0

En forma de J (J−shaped)

Variable

Fre

quen

cy

010

020

030

0

Bimodal

Variable

Fre

quen

cy

050

100

150

200

250

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 15 of 30

Page 16: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Construya un histograma para las variables Beta-Caroteno en la dieta (BE-TADIET) y Beta-Caroteno en la sangre (BETAPLASMA). ¿Que me dicen los his-togramas con respecto al consumo de beta-caroteno medido a traves de los alimentosy de la sangre?. Use los siguientes comandos:

Ejercicio 1

B

par(mfrow = c(1, 2))

hist(BETADIET, col = "green", xlab = "Betacaroteno en Dieta (mcg/dıa)")

hist(BETAPLASMA, col = "red", xlab = "Betacaroteno en Sangre (mcg/dıa)")

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 16 of 30

Page 17: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Histogram of BETADIET

Betacaroteno en Dieta (mcg/día)

Fre

quen

cy

0 2000 6000 10000

020

4060

8010

0

Histogram of BETAPLASMA

Betacaroteno en Sangre (mcg/día)

Fre

quen

cy

0 500 1000 1500

050

100

150

200

Compare el consumo de beta-caroteno medido a traves de la sangre para hombresy mujeres. Use los siguiente comandos:

Ejercicio 2

B

betadiet.males = BETADIET[SEX==1]

betadiet.females = BETADIET[SEX==2]

par(mfrow=c(1,2))

hist(betadiet.males, col="blue", xlim=range(BETADIET),

main="Hombres", xlab="Beta-Caroteno (Dieta, mcg/dıa)")

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 17 of 30

Page 18: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

hist(betadiet.females, col="red", xlim=range(BETADIET),

main="Mujeres", xlab="Beta-Caroteno (Dieta, mcg/dıa)")

Hombres

Beta−Caroteno (Dieta, mcg/día)

Fre

quen

cy

0 2000 6000 10000

02

46

8

Mujeres

Beta−Caroteno (Dieta, mcg/día)

Fre

quen

cy

0 2000 6000 10000

020

4060

8010

0

Curva Acumulada de Frecuencia Relativa (O’give)

Usando los datos de la Frecuencia Relativa Acumulada de la tabla de distribucion de fre-cuencias de las notas, podemos construir una curva llamada ojiva. Una ojiva es una curvamostrando las frecuencias relativas acumuladas para las diferentes clases.

Lamentablemente no existe un solo comando para generar esta curva en R usando losdatos originales. Sin embargo, los siguientes comandos generan la ojiva usando las frecuenciasrelativas acumuladas.

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 18 of 30

Page 19: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

# Construye una ojiva para notas

myvariable = notas

limites = c(50, 60, 70, 80, 90, 100)

puntaje <- factor(cut(myvariable, right = FALSE, breaks = limites))

Freq <- table(puntaje)

Frec.Rel.Acumulada = cumsum(prop.table(Freq))

plot(limites[-1], Frec.Rel.Acumulada, col="red", lwd=2,

type="b", ylab="Frecuencia Relativa Acumulada",

main="Ojiva",

xlab="Nota")

text(limites[-1], Frec.Rel.Acumulada,

round(Frec.Rel.Acumulada,2), pos=4, cex=0.7)

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 19 of 30

Page 20: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

60 70 80 90 100

0.2

0.4

0.6

0.8

1.0

Ojiva

Nota

Fre

cuen

cia

Rel

ativ

a A

cum

ulad

a

0.05

0.25

0.65

0.9

1

El siguiente ejemplo construye la ojiva para la variable edad (AGE).

# Construye una ojiva para AGE

myvariable = AGE

limites = c(10,20,30,40,50,60,70,80,90)

puntaje <- factor(cut(myvariable, right = FALSE, breaks = limites))

Freq <- table(puntaje)

Frec.Rel.Acumulada = cumsum(prop.table(Freq))

plot(limites[-1], Frec.Rel.Acumulada, col="red", lwd=2, type="b",

ylab="Frecuencia Relativa Acumulada", main="Ojiva", xlab="Edad")

text(limites[-1], Frec.Rel.Acumulada,

round(Frec.Rel.Acumulada,2), pos=4, cex=0.7)

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 20 of 30

Page 21: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

20 30 40 50 60 70 80 90

0.0

0.2

0.4

0.6

0.8

1.0

Ojiva

Edad

Fre

cuen

cia

Rel

ativ

a A

cum

ulad

a

0

0.05

0.27

0.56

0.71

0.86

0.99 1

Analisis de Series Temporales

Supongamos que tenemos los datos de las tasas de desempleo (%) en Puerto Rico desde1970 hasta 2013 segun el Departamento del Trabajo y Recursos Humanos de PR (Fuente:http://www.estadisticas.gobierno.pr). Una grafica de lıneas puede ser usada en estoscasos para representar los datos.

Esta base de datos ha sido compartida en formato .csv en una direccion de internet (re-cuerde que puede importar la base de datos munualmente usando la opcion Tools->Import

Dataset).

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 21 of 30

Page 22: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

# Lee la base de datos

install.packages("RCurl", repos="http://cran.us.r-project.org")

library(RCurl)

tt = getForm("https://docs.google.com/spreadsheet/pub",

hl ="en_US",

key = "0AhpzM-gDQ-UcdDhzV0dpaGF0YU54ZDZGVTM3QzlLNEE",

output = "csv",

.opts = list(followlocation = TRUE, verbose = TRUE,

ssl.verifypeer = FALSE))

tasas = read.csv(textConnection(tt))

View(tasas)

attach(tasas)

# Grafica de lıneas para una serie temporal

plot(Year, Desempleo, main="Tasa de Desempleo (%) en PR",

type="b",

xlab="A~no",

ylab="Tasa de Desempleo (%)",

col="blue",

sub="Fuente: Departamento del Trabajo y Recursos Humanos de PR",

ylim=c(0,30))

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 22 of 30

Page 23: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

1970 1980 1990 2000 2010

05

1015

2025

30

Tasa de Desempleo (%) en PR

Fuente: Departamento del Trabajo y Recursos Humanos de PRAño

Tasa

de

Des

empl

eo (

%)

Veamos que sucede si creamos la misma grafica usando diferentes escalas en el eje Y. Porejemplo, si le decimos al programa que la escala del eje Y es de 0 a 100 entonces los cambiosen la tasa de desempleo son menos drasticos, lo cual puede llevar a conclusiones erroneas (eneconomıa cambios relativamente pequenos en la tasa de desempleo suelen indicar cambiosimportantes en la economıa de un paıs).

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 23 of 30

Page 24: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

1970 1980 1990 2000 2010

05

1015

2025

30Tasa de Desempleo (%) en PR

Fuente: Departamento del Trabajo y Recursos Humanos de PRAño

Tasa

de

Des

empl

eo (

%)

1970 1980 1990 2000 2010

1012

1416

1820

22

Tasa de Desempleo (%) en PR

Fuente: Departamento del Trabajo y Recursos Humanos de PRAño

Tasa

de

Des

empl

eo (

%)

1970 1980 1990 2000 2010

020

4060

8010

0

Tasa de Desempleo (%) en PR

Fuente: Departamento del Trabajo y Recursos Humanos de PRAño

Tasa

de

Des

empl

eo (

%)

Diagramas de Hoja y Tallo (Stem-and-Leaf )

Existe otros tipos de graficos para analizar datos cuantitativos tales como el diagrama detallo y hojas y el diagrama de puntos.

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 24 of 30

Page 25: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Vamos a hacer un diagrama de tallo y hojas para la variable BETADIET usando el comandostem().

# Diagrama de tallo y hojas

stem(BETADIET)

The decimal point is 3 digit(s) to the right of the |

0 | 223344

0 | 55555666666666666677777778888888888899999999999

1 | 0000000000001111111111111111222222222222222333333333444444444444444

1 | 55555555555556666677777777777777777788889999999

2 | 0000000011111111111112222222233333333444444444

2 | 555555566666677777778889999999999

3 | 01111122333333444444

3 | 555566666777889

4 | 0001333444

4 | 5578899

5 | 0134

5 | 689

6 | 013

6 | 699

7 | 04

7 |

8 | 0

8 |

9 |

9 | 6

El tallo del diagrama es creado usando las unidades de miles (el mensaje al comienzo dela salida indica como leer los numeros en el diagrama). Por ejemplo, el elemento 9|6 en laultima fila del diagrama corresponde a un valor de alrededor de 9600 mcg de betacaroteno(el valor original es 9642). El elemento 0|2 al comienzo del diagrama indica que hay undato alrededor de 200 mcg por dıa (el mınino consumo es 214 mcg/dıa). Al igual que elhistograma, este diagrama busca describir la forma de la distribucion de los datos, al igualque la tendencia central y variabilidad de los datos.

Material Opcional (Mas Avanzado)

Si tiene tiempo libre y la curiosidad por la estadıstica es inevitable, puede intentar generarhistogramas sobrepuestos para dos grupos usando la librerıa o paquete ggplot2 de R. Elprimer paso es instalar dicha librerıa ejecutando los siguientes comandos:

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 25 of 30

Page 26: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

# Instala la librerıa ggplot2

install.packages("ggplot2")

Luego use los siguientes comandos para graficar los histogramas de BETADIET parahombres y mujeres:

library(ggplot2)

# Histogramas superpuestos

ggplot(dieta, aes(BETADIET, fill = factor(SEX, labels=c("M", "F"))))+

geom_histogram(alpha = 0.5, aes(y = ..density..),

position = 'identity',binwidth = 500)+

labs(title="Dotplot de Consumo de Beta-Caroteno en Dieta",

y="Numero de Individuos",

x="Betacaroteno en Dieta (mcg/dıa)")+

scale_fill_discrete("Sexo")

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 26 of 30

Page 27: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

0e+00

1e−04

2e−04

3e−04

4e−04

0 2500 5000 7500 10000Betacaroteno en Dieta (mcg/día)

Núm

ero

de In

divi

duos

Sexo

M

F

Dotplot de Consumo de Beta−Caroteno en Dieta

Estos son solo algunos ejemplos del potencial y de la calidad de R/RStudio para hacergraficos estadısticos. Tanto los tıtulos como las etiquetas de la leyenda se pueden cambiarpara personalizar las graficas.

Por ejemplo, podemos hacer un diagrama de puntos de la variable BETADIET con coloresen los puntos indicando el sexo.

# Dotplot de BETADIET con colores por SEX

ggplot(dieta, aes(x = BETADIET,

fill = factor(SEX, labels=c("M", "F"))))+

geom_dotplot(method="histodot", stackgroups = TRUE,

binwidth = 100,

binpositions = "all", dotsize=3)+

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 27 of 30

Page 28: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

scale_fill_discrete("Sexo")+

scale_y_continuous(name = "", breaks = NULL)+

labs(title="Dotplot de Consumo de Beta-Caroteno en Dieta",

y="Numero de Individuos",

x="Betacaroteno en Dieta (mcg/dıa)")

0 2500 5000 7500 10000Betacaroteno en Dieta (mcg/día)

Sexo

M

F

Dotplot de Consumo de Beta−Caroteno en Dieta

Tambien podemos hacer un histograma de la variable BETADIET donde podamos verla la participacion de hombres y mujeres en cada clase.

# Histograma de BETADIET con colores por SEX

qplot(BETADIET, data=dieta, geom="histogram",binwidth=1000,

fill=factor(SEX, labels=c("M", "F"))) +

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 28 of 30

Page 29: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

labs(title="Histograma de BETADIET",

y="Numero de Individuos", x="Betacaroteno en Dieta (mcg/dıa)")+

scale_fill_discrete("Sexo")

0

30

60

90

0 4000 8000Betacaroteno en Dieta (mcg/día)

Núm

ero

de In

divi

duos

Sexo

M

F

Histograma de BETADIET

Las librerıas ggplot2 y lattice son excelentes recursos para generar graficos estadısticosde calidad.

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 29 of 30

Page 30: Estad stica Aplicada I (ESMA3101)

Notas de Clase - Estadıstica Aplicada I (Applied Statistics I ) (ESMA3101)

Recursos Adicionales

• Seccion 2.2 del libro de texto.

• Java applets que muestran diferentes tipos de histogramas. El efecto de cambiar elnumero de clases y amplitud de las clases tambien se puede visualizar: http://www.

shodor.org/interactivate/activities/Histogram/

c©2014 Prof. Pedro A. Torres Saavedra [email protected] Page 30 of 30