ANÁLISIS ESTADÍSTICO DE UNA VARIABLE · N-ésima del producto de todos los números. Se...
Transcript of ANÁLISIS ESTADÍSTICO DE UNA VARIABLE · N-ésima del producto de todos los números. Se...
1
ANÁLISIS ESTADÍSTICO DE UNA VARIABLE
El análisis estadístico de una variable permite describir las características de un
grupo con respecto a una variable. Este análisis puede realizarse a través de valores
promedios, mediante el uso de medidas de posición; a través de la variación de los valores
con respecto a un promedio o con respecto a un valor central, haciendo uso de las medidas
de dispersión; u observando la distribución de los datos, para saber hacia que lado se
inclina la curva, utilizando las medidas de forma de la distribución. Estos tres tipos de
medidas son utilizados, en términos generales, para clasificar a un grupo en específico.
Para el análisis estadístico de una variable, existen tres tipos de medidas ha utilizar:
Medidas de Posición
Medidas de Dispersión
Medidas de Forma de la Distribución
Cada una de estas medidas, se utiliza para resumir la información contenida en los
datos y cuya interpretación permite detectar ciertas regularidades en el comportamiento
de los mismos.
MEDIDAS DE POSICIÓN
Se dividen en dos grupos:
Tendencia Central
Cuantiles
1) Tendencia Central:
Las medidas de Tendencia Central sirven como punto de referencia para una
interpretación o una comparación, el valor de estas medidas debe ser representativo. Son
conocidas bajo este nombre (medidas de tendencia central) puesto que los valores
estudiados tienden a reflejar su concentración en los valores centrales.
Son medidas de tipo promedio y se dividen en dos subgrupos:
Promedios Matemáticos.
Promedios NO Matemáticos.
2
1.1 – Promedios Matemáticos.
Los promedios son una medida de posición que dan una descripción de cómo están
centrados los datos. El promedio como punto típico de los datos es el valor alrededor del
cual están agrupados los demás valores de una variable.
Dentro del grupo de los promedios matemáticos se encuentran:
1.1.1 – Media Aritmética ( X ).
La media aritmética es el valor obtenido al sumar todos los datos y dividir el
resultado entre el número total de datos. Se representa con la letra X .
La fórmula ha utilizar, cuando los datos no están agrupados en clases, para el cálculo
de la media aritmética es la siguiente:
N
X
X
N
i
i 1
Es decir, la media aritmética es igual a la sumatoria de todos los datos dividida entre
el total de la población.
Ejemplo: Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso promedio.
kgX 00,806
788768729184
Si los datos se encuentran agrupados en clases, la fórmula ha utilizar es la siguiente:
N
Xifi
X
N
i
1
3
Es decir, la media aritmética es igual, ahora, a la sumatoria de los puntos medios (Xi),
debido a que todos los valores que se encuentran entre los límites de un intervalo, están
uniformemente distribuidos en él, por la frecuencia absoluta simple (fi) entre el tamaño de
la población (N).
Ejemplo: En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones
que muestra la siguiente tabla. Calcula la puntuación media.
Puntuaciones fi Xi Xifi
10 – 20 1 15 15
20 – 30 8 25 200
30 – 40 10 35 350
40 – 50 9 45 405
50 – 60 8 55 440
60 – 70 4 65 260
70 – 80 2 75 150
42 1820
N
Xifi
X
N
i
1 puntosX 33,43
42
1820
Propiedades de la Media Aritmética.
1- La suma de las desviaciones de todos los valores de una distribución respecto a la
media es igual a cero.
0)( XXi
2- La suma de los cuadrados de las desviaciones de los valores de la variable con respecto
a una constante se hace mínima cuando la misma coincide con la media aritmética.
2)( XXi mínimo
3- Si a todos los valores de la variable se les suma un mismo número, la media aritmética
queda aumentada en dicho número.
4
4- Si todos los valores de la variable se multiplican por un mismo número, la media
aritmética queda multiplicada por dicho número.
Observaciones sobre la Media Aritmética.
1- La media se puede determinar sólo para variables cuantitativas.
2- La media es independiente de las amplitudes de los intervalos.
3- La media es muy sensible a las puntuaciones extremas.
4- La media no se puede calcular si hay un intervalo con una amplitud indeterminada.
1.1.2 – Media Geométrica (G).
La media geométrica de una cantidad infinita de números (digamos N números), es la raíz
N-ésima del producto de todos los números. Se representa con la letra G.
La fórmula ha utilizar es la siguiente:
NNXXXG )())(( 21
Propiedades y usos de la media geométrica.
Propiedades: sólo tiene dos propiedades matemáticas.
- Primera propiedad: “el producto de los valores de la serie permanecerá
constante cuando el valor de cada individuo sea substituido por el valor de la
media geométrica” (Ya Lum, Chou-1972).
Ejemplo: la media geométrica para la serie 2, 4, 8, 16 y 32 es 8, entonces:
(2)(4)(8)(16)(32)= 32768 = (8) (8) (8) (8) (8)
- Segunda propiedad: “las sumas de las desviaciones de los logaritmos de las
observaciones originales por encima o por debajo del logaritmo de la media
5
geométrica, son iguales; es decir, 0)log(log Gx . Alternativamente, podemos
decir que el valor de la media geométrica es tal que equilibra la razón de las
desviaciones de las observaciones obtenidas en ella” (Ya Lum, Chou-1972).
Ejemplo: la media geométrica para la serie 2, 4, 8, 16 y 32 es 8, entonces:
8
328
1684
82
8
Usos.
- La media geométrica sólo es relevante si todos los números son positivos.
Cuando existe un número negativo, la media geométrica es inexistente en el
campo de los números reales (R).
- La aplicación más útil de la media geométrica es la de promediar tasas de
cambios, debido a que el promedio de tasas de cambio sólo puede ser medido
correctamente por el método de dicha media.
1.1.3 – Media Armónica (H).
La Media Armónica, es el recíproco de la media aritmética de los recíprocos de los
datos. Se representa con la letra H y se calcula tanto para datos agrupados como para
datos NO agrupados.
Para datos agrupados:
El método para calcular la media armónica para datos no agrupados se ilustra en el
siguiente ejemplo:
Ejemplo: Calcular la media armónica de los valores 1, 4, 10, 8 y 10.
La fórmula ha utilizar para calcular la media armónica es la siguiente:
N
HN
i
Xi
1
1
1
6
Solución: La media aritmética de los recíprocos de los cinco valores es:
N
Xi
N
i
1
1
200
63
5
1
40
63
55
404541040
101
81
101
41
11
La media armónica de los cinco valores es el recíproco de la media aritmética de los
recíprocos:
H 2,363
200
La media aritmética de los recíprocos de N valores es:
N
XXXX N/1/1/1 21
La media armónica (H) es el recíproco de la media aritmética:
NXXX
NH
/1/1/1 21
o
N
i
Xi
NH
1
)/1(
Sustituyendo los valores del ejemplo en la fórmula: la media armónica puede ser
calculada directamente como sigue:
2,363
200
63
405
55
4063
101
81
101
41
11
H
1.1.4 – Media Cuadrática (RMS).
La Media Cuadrática es la raíz cuadrada de la media aritmética de los valores al
cuadrado y se usa eficientemente para promediar los errores o desviaciones porque es más
susceptible a los mismos, se representa por las letras RMS.
La fórmula aplicada es la siguiente:
N
Xi
RMS
N
i
1
2
7
1.2 – Promedios NO Matemáticos.
Los promedios NO matemáticos, son Lambién medidas de tendencia central pero
que a diferencia de los matemáticos, donde se deben hacer cálculos, en éstos sólo importa
la posición que ocupa el dato.
Se dividen en dos grupos:
1.2.1 – Mediana (Md).
Se define esta medida de posición como el valor que divide una distribución de tal
manera que quede a cada lado un número igual de términos. Para determinar la mediana
es necesario ordenar los datos, utilizando cualquiera de los métodos de agrupación. Se
identifica con el símbolo Md.
El valor de la mediana puede coincidir o no con un valor de la serie, todo depende si
el número de datos es par o impar.
Para series de datos impares, su ubicación es la siguiente:
2
1N
Para series de datos pares, su ubicación es la siguiente:
122
Ny
N
Para determinar el valor de la mediana en datos agrupados en clases, la fórmula a
utilizar es la siguiente:
Icfi
FliMd i
N
12
De donde:
Md= mediana li= límite inferior de la clase medianal
Fi-1= frecuencia absoluta acumulada,
anterior a la posición de la mediana
fi= frecuencia absoluta simple de la clase
en donde está ubicada la mediana
N= población N/2= ubicación de la mediana
Ic= intervalo de clase
8
Ejemplo: calcular la mediana en la siguiente serie de datos agrupados en clases:
Clase medianal:
57
510 2
15
Md 57
55,710
Md
79,110 Md puntosMd 79,11
50% de los alumnos obtuvieron calificaciones iguales o
inferiores a 11,79 puntos. 50% de los alumnos obtuvieron
calificaciones iguales o superiores a 11,79 puntos.
Características de la Mediana.
Para poder calcular la mediana en una distribución de frecuencia, el nivel
mínimo es ordinal.
En caso de datos agrupados en clases, en donde no se conocen los valores
extremos, se puede calcular la mediana, siempre que se tengan los datos
próximos al centro.
En aquellas series en donde exista una gran concentración de los datos con
respecto a un valor central, pero que, sin embargo, existen valores extremos
muy aislados de esa concentración, se aconseja utilizar la mediana como
promedio, ya que ella es menos susceptible a los valores extremos que la
media.
Puntuaciones fi Fi
0 – 5 3 3
5 – 10 2 5
10 – 15 7 12
15 – 20 3 15
15
9
1.2.2 – Modo (Mo).
Es el valor que aparece con más frecuencia en una serie de datos. Se obtiene
fácilmente de una clasificación ordenada. El modo no se ve afectado por la ocurrencia de
los valores extremos, ya que es sensible al acomodo de los datos estando estos agrupados
en clases. Se identifica con el símbolo Mo.
Es importante señalar que cuando en una distribución de frecuencia hay dos valores
que se repitan un número igual de veces y estas repeticiones sean consideradas las más
frecuentes, en dicho caso se habla de una distribución bimodal; en el caso de que haya más
de dos valores que se repitan un número igual de veces y sean estos valores considerados
los más frecuentes, en este caso no hay forma lógica de determinar el valor que debe ser
escogido como modo. Se da también el caso de que no exista algún valor que pueda ser
considerado como el más frecuente, debido a que todas las clases presentan la misma
frecuencia, en dichos casos la distribución carece de modo.
Cuando los datos están agrupados en clases existe lo que llamamos la clase modal,
que es aquella clase en la que se encuentra el modo, la clase premodal, que es la clase que
está antes del modo, y la clase posmodal, que es la clase que está después del modo.
- Para la determinación del modo en datos no agrupados, simplemente se toma como
modo aquel valor que más se repita.
Ejemplo: determinar el modo en la siguiente distribución de frecuencia de datos no
agrupados: 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 6
Respuesta: 4 es el modo, debido a que es el valor que más se repite en la serie de
datos.
10
- Para la determinación del modo en series de datos agrupados en clases, se utiliza la
siguiente fórmula:
IcliMo
21
1
De donde:
Ejemplo: determinar el modo en la siguiente distribución de frecuencia:
Clase premodal:
Clase modal:
Clase posmodal:
5)37()27(
)27(10
Mo 5
45
510
Mo
59
510 Mo 78,210Mo
puntosMo 78,12
La puntuación que más se repite en la distribución es 12,78 puntos.
Mo= modo 1 frecuencia absoluta simple de la clase modal, menos
la frecuencia absoluta simple de la clase premodal.
li= límite inferior de la clase modal 2 frecuencia absoluta simple de la clase modal, menos
la frecuencia absoluta simple de la clase posmodal.
Ic= intervalo de clase
Puntuaciones fi
0 – 5 3
5 – 10 2
10 – 15 7
15 – 20 3
15
11
2) Cuantiles.
Los cuantiles son medidas de posición que dividen la distribución en partes iguales,
es decir, en intervalos que comprenden el mismo número de valores. Cuando la
distribución contiene un número alto de intervalos y se requiere obtener un promedio de
una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.
2.1 – Cuartiles.
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual
queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el
valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.
Para Datos Agrupados en clases.
La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados en
clases es la siguiente:
Icfi
FliQ i
NA
A
14
De donde:
QA= Cuartil li= límite inferior de la clase en donde está
ubicado el cuartil
N= población fi= frecuencia absoluta simple de la clase en
donde está ubicado el cuartil
A.N/4= posición
del cuartil
Fi-1= frecuencia absoluta acumulada,
anterior a la posición del cuartil.
Ic= intervalo de clase
12
2.2 – Deciles.
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez
partes porcentualmente iguales. Los deciles se denotan D1, D2,..., D9, que se leen primer
decil, segundo decil, etc.
Para Datos Agrupados en clases.
La fórmula para calcular los deciles en datos agrupados es la siguiente:
Icfi
FliD i
NA
A
110
De donde:
2.3 – Percentiles.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados en
cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes
iguales el conjunto de datos ordenados. Los percentiles (P1, P2,..., P99), son leídos primer
percentil,..., percentil 99.
DA= Decil li= límite inferior de la clase en donde está
ubicado el decil
N= población fi= frecuencia absoluta simple de la clase
en donde está ubicado el decil
A.N/10= posición
del decil
Fi-1= frecuencia absoluta acumulada,
anterior a la posición del decil
Ic= intervalo de clase
13
Para Datos Agrupados en clases.
Cuando los datos están agrupados en una tabla de frecuencia, la fórmula ha utilizar
es la siguiente:
Icfi
FliP i
NA
A
1100
De donde:
Ejemplo: Determinación del cuartil 1, decil 7 y percentil 30, de la siguiente distribución de
frecuencia:
Salarios
(Bs.F)
fi Fi
200 – 299 85 85
300 – 399 90 175
400 – 499 120 295
500 – 599 70 365
600 – 699 62 427
700 – 800 36 463
463
PA= Percentil li= límite inferior de la clase en donde está
ubicado el percentil
N= población fi= frecuencia absoluta simple de la clase
en donde está ubicado el percentil
A.N/100= posición
del percentil
Fi-1= frecuencia absoluta acumulada,
anterior a la posición del percentil
Ic= intervalo de clase
14
Como son datos agrupados en clases, se utilizan las fórmulas:
Icfi
FliQ i
NA
A
14 Ic
fi
FliD i
NA
A
110 Icfi
FP i
NA
A
1100
Siendo,
4ó
NAnPosici A
La posición del cuartil A.
10ó
NAnPosici A
La posición del decil A.
100ó
NAnPosici A
La posición del percentil A.
Entonces,
* Cuartil 1= Percentil 25 (Q1=P25)
75,1154
4631ó 1
nQPosici 100
90
8575,1153001
Q BsFQ 17,3341
10090
85300 4
4631
1
Q 17,343001 Q
li= 300 Fi-1= 85 Ic= 100 fi= 90
Interpretación: 25% de los trabajadores ganan salarios inferiores a 334,17BsF y 75% de los
trabajadores ganan salarios superiores a 334,17BsF
* Decil 7= Percentil 70 (D7=P70).
10,32410
4637ó 7
nDPosici 100
70
29510,3245007
D BsFD 57,5417
10070
295500 10
4637
7
D 57,415007 D
li= 500 Fi-1= 295 Ic= 100 fi= 70
Interpretación: 70% de los trabajadores ganan salarios inferiores a 541,57BsF y 30% de los
trabajadores ganan salarios mayores de 541,75BsF.
15
*Percentil 30= Decil 3 (P30=D3)
90,138100
46330ó 30
nPPosici 100
90
8590,13830030
P BsFP 89,35930
10090
85300 100
46330
30
P 89,5930030 P
li= 300 Fi-1= 85 Ic= 100 fi= 90
Interpretación: 30% de los trabajadores ganan salarios por debajo de 359,89BsF y un 70%
de los trabajadores ganan salarios superiores a 359,89BsF
NOTA: para datos no agrupados en clases, se sigue igual criterio que con la mediana.
MEDIDAS DE DISPERSIÓN
Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su
variabilidad, a la evaluación de cuán separados o extendidos están estos datos o bien
cuánto difieren unos de otros. Las medidas de dispersión se dividen en dos grupos:
Absolutas (Por conservar la unidad de medida).
Relativas (Por eliminar la unidad de medida).
1) Medidas de Dispersión Absolutas.
1.1 Rango (R).
El Rango es la resta del valor máximo (VM) con el valor mínimo (Vm) de la serie de
datos que se nos presenta.
La fórmula para calcular el rango es la siguiente:
mM VVR
16
1.2 Desviación Cuartil (DQ).
Conocidos los cuartiles se puede calcular la desviación cuartil, la cual mide la
amplitud o rango existente entre el 50% central de la distribución de los datos.
La fórmula para calcular la desviación cuartil es la siguiente:
13 QQDQ
1.3 Desviación Media (DM).
La desviación media, medida como la sumatoria de los valores absolutos de las
desviaciones y representada con el símbolo DM, se expresa de la siguiente manera:
NOTA: la media puede ser sustituida por la mediana.
1.4- Varianza (S2).
La Varianza es una medida de dispersión absoluta que indica la variabilidad (o
dispersión) de un conjunto de datos observados, es decir, nos permite ver los “grados” de
uniformidad u homogeneidad de los mismos. Está representada por S² o 2 (sigma) y se
define en función de las diferencias entre la media ( ), y cada uno de los valores de la
variable, elevadas al cuadrado, para eliminar el signo negativo. Se calcula según las
fórmulas:
Para datos NO agrupados.
N
XXi
S
N
i
2
12
)(
o 21
2
2 XN
Xi
S
N
i
Para datos agrupados.
N
XXifi
S
N
i
1
2
2
)(
o 21
2
2 XN
fiXi
S
N
i
Entre las observaciones importantes respecto al cálculo de la varianza tenemos que en
los casos donde no se pueda hallar la media ( X ) tampoco se podrá determinar la varianza
17
y que ésta no se expresa en las mismas unidades que los datos, pues estos estarán elevados
al cuadrado, lo cual la hace impráctica.
Propiedades de la Varianza, entre otras:
1- La varianza será siempre un valor positivo o cero, en el caso de que los datos sean
iguales.
2- Si a todos los datos de la variable se les suma un mismo número la varianza no varía.
3- Si todos los datos de la variable se multiplican por un mismo número la varianza queda
multiplicada por el cuadrado de dicho número.
1.5 – Desviación Estándar (S).
Por su parte, la desviación típica o estándar es la raíz cuadrada positiva de S².
(Hermann - Josef, K. 1977). Es decir, se calcula extrayendo la raíz cuadrada a la varianza,
con la finalidad de obtener las unidades originales de los datos de dispersión y se denota
como S.
Al respecto, Pilar Pestaña de Martínez, docente e investigadora, afirma que la
desviación estándar “es la medida de dispersión más frecuentemente utilizada en
estadística descriptiva, constituyendo la base para los cálculos de regresión y correlación.”
Asimismo, el profesor Simón Cabrera en su guía de teoría de Estadística Descriptiva,
publicada en el blog http://wwwyyy.wordpress.com, señala que:
“La desviación típica como medida absoluta de dispersión, es la que mejor nos proporciona la
variación de los datos con respecto a la media aritmética, su valor se encuentra en relación directa
con la dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a menor
dispersión, menor desviación típica.”
18
La desviación estándar se calcula de la siguiente forma:
Para datos NO agrupados.
N
XXi
S
N
i
1
2)(
o 21
2
XN
Xi
S
N
i
Para datos agrupados.
N
XXifi
S
N
i
1
2)(
o 21
2
XN
fiXi
S
N
i
Ejemplo: Complete la siguiente la tabla correspondiente a la edad en que murieron 25
personas de fiebre tifoidea. Sólo se consideraron edades entre 40 y 60 años
cumplidos )ñ0,52( osaX . (Rascón, O. 1974. Pág. 266, Ej. 39)
Edad
(años)
fi )( XX 2)( XX 2)( XXfi
40 2 -12 144 288
45 4 -7 49 196
50 5 -2 4 20
55 10 3 9 90
60 4 8 64 256
25 850
Halle la varianza y desviación típica e interprete.
X = 52,0 años
N = 25 personas.
N
XXi
S
N
i
2
12
)(
25
8502 S 22 años00,34S
19
La varianza refleja en este caso, que el promedio de desvíos respecto a la media,
expresada en unidades al cuadrado, de las edades (comprendidas entre 40 y 60 años) en
que murieron 25 personas de fiebre tifoidea, es igual a 34,00 años2.
N
XXifi
S
N
i
1
2)(
2años34S años84,5S
Con respecto a los resultados obtenidos en el cálculo, se interpreta: la desviación
absoluta de las edades, en promedio, con respecto a la media es 5,84 años
2) Medidas de Dispersión Relativas.
El concepto de variación es el grado en que los datos numéricos tienden a extenderse
al rededor de un valor, generalmente el valor medio.
El concepto de Coeficiente de Variación es el cociente de la desviación estándar entre
el promedio aritmético, expresado en porcentaje.
Las medidas de dispersión relativas, nos permiten realizar comparaciones, ya que
ellas no toman en cuenta las unidades en que vienen expresadas las variables. Estas
medidas se expresan en porcentajes (%) y se determinan por la relación existente entre una
medida de dispersión absoluta y una medida de tendencia central. Dicha relación nos
permite comparar la realidad de los datos entre varias series. Entre ellas tenemos:
2.1- Coeficiente de Variación de Pearson (CVP).
Indica la relación existente entre la desviación típica de los datos y su media, de ahí
que la variable debe alcanzar la escala de razón en su medición.
Al dividir la desviación típica por la media se convierte en un valor exento de unidad
de medida. Si se comparan varios datos, tomando en cuenta el coeficiente de variación,
será más homogéneo aquel grupo que tenga menor variación y por tanto, será menos
homogéneo aquel grupo que tenga mayor variación. Se representa con las letras CVP.
100X
SCVP
20
2.2- Coeficiente de Variación Medianal (CVM).
Equivale a la razón entre la desviación cuartil(DQ) y la mediana(Md). Permite
comparar, de forma relativa, la dispersión entre dos grupos distintos e incluso, comparar
la variación producto de dos variables diferentes (que pueden provenir de un mismo
grupo). Se representa con las letras CVM.
100Md
DQCVM
MEDIDAS DE FORMA DE LA DISTRIBUCIÓN
Las medidas de forma de la distribución indican el lado hacia el cual se concentran
los datos de la distribución, graficados en la curva de frecuencia. La media, mediana y
modo siempre estarán ubicados bajo la curva de frecuencia. En algunos casos dichos
promedios poseerán el mismo valor numérico, por lo cual se dice que la distribución es
simétrica, ya que MoMdX ; sin embargo en otros casos tanto la media, como la
mediana y el modo tendrán valores numéricos distintos, lo cual hará que la curva de
distribución se incline ya sea hacia el lado derecho, por lo cuál se dice que la asimetría es
positiva, o hacia el lado izquierdo, por lo cuál se dice que la asimetría es negativa.
Se dividen en tres (3) grupos:
Primer coeficiente de asimetría de Pearson.
Coeficiente de asimetría de Bowley.
Kurtosis.
1) Primer coeficiente de asimetría de Pearson (Asp).
En una distribución de frecuencia simétrica, los valores de la modo, mediana y
media, coinciden en la curva de frecuencia: MoMdX .
Cuando la distribución de frecuencia es asimétrica, quiere decir que los tres valores
no son iguales y se apartan uno de otro. Mientras más se separa la media de la moda,
21
mayor es la asimetría. El coeficiente de asimetría de Pearson se encuentra entre los valores
menos uno(-1) y uno(1), es decir: 11 Asp . Cuando el coeficiente de asimetría se
acerca a (-1), se dice que la curva es asimétrica negativa y cuando se acerca a (1), es
asimétrica positiva; cuando el coeficiente de asimetría es igual a cero (0), se dice que la
curva es simétrica.
La curva de frecuencia asimétrica, puede ser positiva, cola hacia el lado derecho; y
negativa, cola hacia el lado izquierdo.
Positiva Negativa
Si la diferencia de la media y el modo es dividida entre la desviación estándar,
entonces, el cociente es llamado el Coeficiente de Asimetría, usado por Karl Pearson, para
medir su grado, su fórmula es la siguiente.
S
MoXAsp
; 11 Asp
Ejemplo: En un test realizado a un grupo de 42 personas se han obtenido las edades que
muestra la siguiente tabla. Calcule el Coeficiente de Asimetría de Pearson.
Edades fi Xi Xifi Xi2 Fi. Xi2
10 – 20 1 15 15 225 225
20 – 30 8 25 200 625 5000
30 – 40 10 35 350 1225 12250
40 – 50 9 45 405 2025 18225
50 – 60 8 55 440 3025 24200
60 – 70 4 65 260 4225 16900
70 – 80 2 75 150 5625 11250
42 1820 88050
22
Primero se obtienen la media y el modo:
N
Xifi
X
N
i
1 añosX 33,43
42
1820
La edad promedio de las 42 personas es 43,33 años.
IcliMo
21
1 10)910()810(
)810(30
Mo
1012
230
Mo 10
3
230 Mo
1067,030 Mo 70,630 Mo
añosMo 70,36
La edad que más se repite es 36,70 años.
Luego obtenemos la desviación estándar:
21
2
XN
fiXi
S
N
i
21 )33,43(
42
88050
N
iS
49,187743,20962 S 94,218S
añosS 80,14
La variabilidad absoluta de las edades, en promedio, con respecto a la media es 14,80
años.
Ahora, calculamos el coeficiente de Asimetría:
S
MoXAsp
80,14
7,3633,43 Asp 45,0Asp
Como el resultado del coeficiente de asimetría es positivo, quiere decir que la cola de
la distribución es hacia el lado derecho, es decir, hacia los valores más altos de las edades.
Esto también quiere decir, que el modo es menor a la media aritmética, por una
cantidad igual al 0,45 de la desviación estándar.
23
2) Coeficiente Asimetría de Bowley (Asb).
Para Bowley, calcular la asimetría, venía dada al trabajar con los cuartiles, pero
debemos recordar lo siguiente:
- Si la distribución es simétrica, Q3 y Q1 estarán equidistantes de Md:
13 QMdMdQ
Sin embargo, como trabajamos con una distribución asimétrica, pues la distancia de
Q3 a Md no es igual a la distancia de Md a Q1.
Entonces la diferencia entre las dos distancias puede usarse como base para medir la
asimetría, esto fue lo sugerido por Bowley en la siguiente fórmula:
13
13 2
MdQQAsb
; 11 Asb
Cabe destacar, que para resolver dicha fórmula se debe calcular los cuartiles
requeridos. Al igual que en el primer coeficiente de asimetría de Pearson, el coeficiente de
asimetría de Bowley también oscila entre los valores menos uno(-1) y uno(1); cuando se
acerca a (-1) es asimétrica negativa, cuando se acerca a (1) es asimétrica positiva y cuando
es cero(0) la curva es simétrica.
3) Kurtosis.
Este recurso para describir una distribución de frecuencia, es usado para mostrar el
grado de concentración o picudez, de valores concentrados alrededor del modo, es decir
de una curva apuntada; o de valores descentralizados con respecto al modo hacia ambos
extremos de la curva de frecuencia, en consecuencia una curva achatada.
Apuntada Achatada
24
Existen varios tipos de curva, entre las cuales encontramos:
Mesokúrtica Leptokúrtica Platikúrtica
La distribución normal, la cual no es muy picuda ni muy achatada, es la mesokúrtica
y se emplea usualmente como estándar para medir la picudez de la curva.
Es importante destacar que la kurtosis sólo se aplica en distribuciones unimodales y
simétricas.
25
BIBLIOGRAFÍA
1- Libros:
Hermann - J, K. (1977). Curso Básico De Estadística: Introducción a la técnica
descriptiva del análisis estadístico. España: Editorial Herder.
Pestaña de M, P. (2.002). Estadística: Conceptos básicos, terminología y metodología
de la estadística descriptiva. República Bolivariana de Venezuela. Los Libros De El
Nacional, Colección Minerva.
Rascon Ch, O. (1974). Introducción A La Estadística Descriptiva. Vol. I. México:
Universidad Nacional Autónoma de México.
s/a. (s/f). Estadística. Consultado el 21 de septiembre de 2008. Disponible en línea:
http://www.vitutor.com/estadistica/descriptiva/a_15.html
Stephen Shao(1973). Estadística para economistas y administradores de empresas.
México: Herrero Hermanos, SUCS., S.A.
Ya - Lun, Chou(1972). Análisis estadístico. México: Nueva Editorial Interamericana.
2- Páginas Web:
www.metodosestadisticos.unizar.es/asignaturas/16630/Tema3.pdf
www.tgrajales.net/tendenciacentral.pdf
www.sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html
www.sitios.ingenieria
usac.edu.gt/estadistica/estadistica2/estadisticadescritptiva.html
http://www.vitutor.com/estadistica/descriptiva/a_15.html
http://www.hiru.com/es/matematika/matematika
http://www.economia.unam.mx/profesor/barajas/estadis/parte2.pdf