Organización y presentación de los datos, estadistica descriptiva
-
Upload
max-ferrol -
Category
Documents
-
view
76 -
download
1
description
Transcript of Organización y presentación de los datos, estadistica descriptiva
Organización y Presentación Presentación de los Datos
La estadística tienen como objetivos sintetizar, organizar, analizar y extraer la variación más relevante de un fenómeno en particular. De tal forma, los datos recabados deben presentarse de forma en que sean fáciles de analizar de forma en que sean fáciles de analizar visualmente y que su presentación sea sencilla y estética .
Los métodos para describir conjuntos de datos pueden ser tabulares o gráficos .
Métodos Tabulares
La presentación de información cuantitativa o cualitativa , mediante tablas , es frecuentementeobservada tanto en la literatura observada tanto en la literatura científica como en las ciencias sociales . En estas tablas se procura que sean los más sencillasy claras .
De acuerdo a la disciplina las tablas pueden seguir diferentes formatos, por ejemplo en la literatura científica solo se evita el uso de líneas verticales.
Sin embargo, frecuentemente se presenta el titulo de la tabla por encima de esta y alineada a la izquierda.
Licenciatura Número de Egresados
Egresados por Licenciatura en la UNSIJ
Informática 21
Ciencias Ambientales 11
Ingeniería Forestal 16
Calificaciones obtenidas por alumnos de la UNSIJ (mínima 10 - Máxima 100)
16 38 75 45 67 3116 38 75 45 67 31
92 43 91 89 19 24
54 46 92 33 16 11Para resumir la información del número de estudiantes que obtuvieron una calificación en particular, se hace por medio de una tabla con dos encabezados, lo cual permite mostrar la frecuencia de calificaciones por intervalo.
En este tipo de tablas la amplitud de los valores numéricos de los datos está dividida en un cierto número de Intervalos o Clases , las cuales se utilizan para reportar el número de observaciones que pertenecen a cada de observaciones que pertenecen a cada Intervalo.
El número de observaciones que pertenecen a una clase o intervalo se denomina frecuencia.
Con la información del presente ejemplo, primero hay que decidir en cuantas clases deberá dividirse el intervalo y después su amplitud.
De acuerdo a la experiencia se recomienda entre 5 y 20 clases, resulta conveniente construirlas de 5 y 20 clases, resulta conveniente construirlas de modo que todas las clases tengan la misma anchura, la cual recibe el nombre de amplitud de Clase.
En este caso optaremos por 7 clases, todas ellas con igual amplitud de clase.
Clase Frecuencia
40 8
50 3
60 1
Tabla de distribución de calificaciones entre alumn os de la UNSIJ
60 1
70 1
80 1
90 1
100 3
Alumnos 18
Nota: datos obtenidos al azar
Sin embargo, existen otros métodos: primero se debe obtener el valor mínimo y el máximo.
16 53 14.3 8 123
0 10.3 19.7 1.1 2160 2.7 29.5 3.1 87.1
11.3 0.2 62.5 0 1.760.4 1.1 142.3 0.4 4.1
176.9 1.9 202.8 3.3 35.1176.9 1.9 202.8 3.3 35.1119.8 32.1 169.9 19.7 124.3155.6 25.9 157.6 146.6 0.4133.6 154.1 8.9 187 12.3
70.8 158.7 16.3 257 22.84.9 171.9 58.2 163.2 89.71.6 99.4 145.5 93 243.79.4 34.3 149.8 8.9 134.63.4 0 71.6 9.7 114.34.5 0 72.4 6.1 3.810 5.2 9.8 3.6 57.3
108.6 98.6
Número de decimales y cifras, Sokal y Rohlf (1995) proponen que debe existir entre 30 a 300 unidades entre el valor mínimo y máximo. Cuando se encuentra por encima de este valor debe reducirse el número de cifras, cuando se encuentra por debajo se debe incrementar las cifras.
Por ejemplo:
Si se consideran unidades (5 -10)Si se consideran unidades (5 -10)Mínimo 5Máximo 10Diferencia 5
Pero si se considera decimales (5.0-10.0)Mínimo 50Máximo 100Diferencia 50, por lo que se debe considerar como significativo el uso de decimales
Regresando a los datos de precipitación mensual en el Estado de México
Por ejemplo:
Si se consideran unidades (0 -257)Si se consideran unidades (0 -257)Mínimo 0Máximo 257Diferencia 257Por lo que se deben considerar desde el cero hasta centenas
Sturges , que establece que el número de clases es K = 1 + log2 n = 1 + 3.322 log n, la cual subestima el número de intervalos.
Velleman (1976), K = , recomendada cuando 2√ n es pequeño (n < 50)
Dixon y Kronmal (1965), K = 10 log √ n, para n grande (n > 50).
García-Cue el al. proponen que para cualquier tamaño de muestra √n
Sturges = 1 + 3.322 log n = 1 + 3.322 log 82 = 7.35 = 7
García-Cue el al = √ 82 = 9.05 = 9
Para obtener los intervalo por clase, tomando el mé todo de Sturges, tenemos:
377.367
0257 ≈=−=c7MÁXIMO MÍNIMO
0 37
37 74
74 111
111 148
148 185
185 222
222 259
Comúnmente se elige al punto central de cada intervalo y se le denomina Centro de clase (mi) o punto medio de la clase (mi ), el cual se obtiene dividiendo entre dos la suma de los límites de clase.
5.182
0372
minmaxmi ≈−=−= ii
22MÁXIMO MÍNIMO Centro Clase
0 37 18.5
37 74 55.5
74 111 92.5
111 148 129.5
148 185 166.5
185 222 203.5
222 259 240.5
El siguiente paso para construir la Tabla de Frecuencias es contar el número de observaciones que pertenecen a cada clase. Este número es llamado Frecuencia Absoluta de clase (fi).
MÁXIMO MÍNIMOCentro Clase
fi FRECUENCIA
0 37 18.5IIIII IIIII IIIII IIIII IIIII IIIII
IIIII IIIII IIIII 450 37 18.5
IIIII IIIII IIIII 45
37 74 55.5 IIIII III 8
74 111 92.5 IIIII I 6
111 148 129.5 IIIII IIII 9
148 185 166.5 IIIII IIII 9
185 222 203.5 III 3
222 259 240.5 II 2
También resulta conveniente calcular las frecuencias relativas de clase (fRi); que indican la proporción del total de observaciones perteneciente a cada clase. Para obtenerlas, se divide la frecuencia absoluta de la clase entre el total de observaciones (Total de frecuencias absolutas).
55.08249 ===
n
fifRi
82nMÁXIMO MÍNIMO
Centro Clase
fi fi fRi
0 37 18.5IIIII IIIII IIIII IIIII IIIII IIIII
IIIII IIIII IIIII 45 0.55
37 74 55.5 IIIII III 8 0.10
74 111 92.5 IIIII I 6 0.07
111 148 129.5 IIIII IIII 9 0.11
148 185 166.5 IIIII IIII 9 0.11
185 222 203.5 III 3 0.04
222 259 240.5 II 2 0.02
Total 82 1.00
A la tabla de frecuencias es conveniente añadirle información sobre el número de datos cuyo valor numérico es menor o igual que el límite superior de cada clase; este número recibe el nombre de frecuencia acumulada (FAi). y se obtiene al sumar las frecuencias absolutas de las clases precedentes. De la misma manera se calcula la frecuencia relativa acumulada (FRA), al adicionar las frecuencias relativas de las clases anteriores.
MÁXIMO MÍNIMOCentro Clase
fi fi fiA fRi fRA
0 37 18.5IIIII IIIII IIIII IIIII IIIII
IIIII IIIII IIIII IIIII45 45.00 0.55 0.55
37 74 55.5 IIIII III 8 53.00 0.10 0.65
74 111 92.5 IIIII I 6 59.00 0.07 0.72
111 148 129.5 IIIII IIII 9 68.00 0.11 0.83
148 185 166.5 IIIII IIII 9 77.00 0.11 0.94
185 222 203.5 III 3 80.00 0.04 0.98
222 259 240.5 II 2 82.00 0.02 1.00
Total 82 1.00 1.00
Métodos Gráficos
Un inconveniente de presentar los datos en la forma tablas de distribución de frecuencias es que la información contenida no es aparentemente evidente a menos que sea estudiada con detalle .
La forma más eficiente de simplificar la interpretación de la información y evidenciar los patrones y tendencias es transformándola a presentaciones visuales .
En esta sesión se presentaran los métodos gráficos más frecuentes .
Gráficas de Puntos o Líneas Las gráficas de puntos permiten presentar datos de forma
rápida de la forma en como están distribuidos los datos.
Esta consiste en una línea marcada con divisiones de la escala en el cual la variable es medida.escala en el cual la variable es medida.
Cada punto representa una observación, si el valor se repite, el punto es colocado encima del último que fue graficado.
Describir información por medio de gráfica de barras es particularmente útil cuando se utilizan variables categóricas que son obtenidas en una escala nominal.
Gráficas de Barras
escala nominal.
Una gráfica de barras usa líneas (i.e. barras) que representan categorías discretas de datos, en donde la longitud de la línea es proporcional a la frecuencia dentro de esa categoría
Suponga que en un bosque coloca 31 nidos artificiales, 15 son ocupados por gorriones, 10 por azulejos, 4 por carpinteros y 2 por cuervos. La tabla tendrá que ser construida de la siguiente manera, junto con la gráfica
ave fave f
gorrión 15
azulejo 10
carpintero 4
cuervo 2
n 31 0
2
4
6
8
10
12
14
16
gorrión azulejo carpintero cuervo
Nú
mer
od
e o
bse
rvac
ion
es (
f)
HistogramaLos histogramas son gráficas de barras en donde el área cada bloque es proporcional a la frecuencia.El área de un bloque es obtenido multiplicando el ancho del bloque (intervalo de clase) por la altura (frecuencia)
50
0
5
10
15
20
25
30
35
40
45
50
18.5 55.5 92.5 129.5 166.5 203.5 240.5
Fre
cue
nci
a
Centro Clase
Ancho clase: 18.5Frecuencia: 45Área: (18.5*45) = 842.5
Polígono de Frecuencia y Curva de FrecuenciaSi el punto medio del tope de cada bloque del histograma es unido por una línea, un polígono de frecuencia es construido
Cuando el número de observaciones de una variable continua es grande y las unidades de incremento entre bloques es pequeña, las líneas entre bloques tiende a ser suavizada, formando una curva continua, llamada curva de frecuencia .
Gráfica DispersiónCuando pares de observaciones de dos variables son obtenidas de la misma muestra (es decir, los datos son bivariados), una gráfica de dispersión es utilizada para desplegar los datos.
Gráfica CircularLas gráficas son utilizadas frecuentemente para desplegar datos en porcentajes o proporciones. Si se considera que el total de datos es el 100% a cada categoría le corresponde una fracción o rebanada de pastel.