Descript Iva
-
Upload
felix-honorio-ramires-torres -
Category
Documents
-
view
37 -
download
0
Transcript of Descript Iva
-
5/28/2018 Descript Iva
1/34
Clculo y EstadsTICa. Primer Semestre.EstadsTICa
Curso Primero
Graduado en Geomtica y Topografa
Escuela Tcnica Superior de Ingenieros en Topografa, Geodesia y Cartografa.
Universidad Politcnica de Madrid
Captulo I
ESTADSTICA DESCRIPTIVA
Manuel Barrero Ripoll. M ngeles Castejn Solanas.
M Luisa Casado Fuente. Luis Sebastin Lorente.
Departamento de Ingeniera Topogrfica y Cartografa
Universidad Politcnica de Madrid
-
5/28/2018 Descript Iva
2/34
2-I
-
5/28/2018 Descript Iva
3/34
I. ESTADSTICA DESCRIPTIVA
3-I
1.1Conceptos generales 5
1.2Tipos de variable estadstica 5
1.3 Distribucin de frecuencia. Sumario estadstico 6
1.4 Agrupacin en intervalos 9
1.5 Representaciones grficas 10
1.5.1 Representacin grfica de variables estadsticas discretas 11
1.5.1.1 Diagrama de barras
1.5.1.2 Polgono de frecuencia
1.5.1.3 Polgono de frecuencias acumuladas
1.5.2 Representacin grfica de variables estadsticas discretas con valores
agrupados en intervalos 12
1.5.2.1 Histograma de frecuencias
1.5.2.2 Polgono de frecuencias
1.5.2.3 Polgono de frecuencias acumuladas
1.5.3 Representacin grfica de variables estadsticas cualitativas 14
1.5.3.1 Diagrama de barras
1.5.3.2 Diagrama de sectores
1.6 Los grficos en EXCEL 15
1.7 Parmetros estadsticos. Introduccin 17
1.8 Medidas de posicin y centralizacin 18
1.8.1 Moda
1.8.2 Mediana
1.8.3 Cuantiles
1.8.4 Media aritmtica. Propiedades
1.9 Clculo con EXCEL de los parmetros de posicin y tendencia central de un
conjunto de datos individualizados 23
-
5/28/2018 Descript Iva
4/34
4-I
1.10 Medidas de Dispersin 25
1.10.1 Rango de la variable estadstica
1.10.2 Rango intercuartlico
1.10.3 Varianza y desviacin tpica. Propiedades
1.10.4 Cuasivarianza o Varianza muestral. Propiedades
1.10.5 Coeficiente de variacin de Pearson. Propiedades
1.11 Clculo con EXCEL de los parmetros de dispersin de un conjunto de datos
individualizados 28
1.12 Momentos 28
1.12.1 Relaciones entre los momentos
1.12.2 Clculo con EXCEL de los parmetros estadsticos cuando los datos
estn agrupados
1.13 Medidas de forma 29
1.13.1 Coeficiente de asimetra de Pearson
1.13.2 Coeficiente de asimetra de Fisher
1.13.3 Coeficiente de apuntamiento o curtosis
1.14 Errores en las observaciones 32
1.14.1 Valores atpicos. Outliers
1.14.2 Grficos de caja. Boxplot
-
5/28/2018 Descript Iva
5/34
UNIVERSIDAD POLITCNICA DE MADRID I. ESTADSTICA DESCRIPTIVA
Escuela Tcnica Superior de Ingenieros en Topografa Geodesia y Cartografa 5-I
1.1Conceptos generales.La Estadstica es la ciencia que trata de la teora y de la aplicacin de mtodos apropiados
para representar, resumir y analizar datos, as como realizar inferencias o pronsticos a partirde los mismos.
Por su enfoque, se puede clasificar en Estadstica Descriptiva e Inferencia Estadstica.
LaEstadstica Descriptivatiene como objetivo el tratamiento numrico y grfico de los datosprocedentes de un colectivo, con objeto de describir o resaltar algunas de las propiedades dedicho colectivo.
El objetivo de laInferencia Estadstica es el estudio de las tcnicas que permiten larealizacin de pronsticos sobre la poblacin a partir de una muestra.
Para el estudio de la estadstica descriptiva, comenzamos abordando los siguientes conceptos:o Poblacin y Muestra.o Variable estadstica.o Frecuencias y distribuciones estadsticas.o Representaciones grficas.
Poblacin y Muestra
o Una poblacin estadstica es un conjunto de elementos del cual nos interesa estudiaralguna caracterstica comn.
o Unamuestraes un subconjunto de la poblacin estadstica.oLa caracterstica comn que estudiamos de una poblacin se denomina variable
estadstica. La variable estadstica presentara diversas modalidades que sern losposibles valores que puede tomar la variable.
De una poblacin de marcas de coche podemos estudiar entre otras las siguientes
variables estadsticas:
1.2 Tipos de variable estadstica.Segn sea la naturaleza de los valores, la variable
estadstica puede clasificarse en dos grupos:
Variable estadstica Carrocera
Modalidades
Berlina.
Todo terreno.
Familiar.
Variable estadstica Combustible
Modalidades
Gasolina 95.
Gasolina 98.
Gasoil
Potencia en c.v.
65, 83, 92, 115, 130,
Anchura del vehculo (mm)
1670, 1725, 1810,
Tabla 1.1
-
5/28/2018 Descript Iva
6/34
6-I
Cualitativas. Cuando los valores que toma la variable no son numricos.
o La carrocera de un vehculo (variable estadstica).
Berlina, Todo terreno, Familiar (valores o modalidades)
Cuantitativas. Cuando los valores que toma la variable son nmeros reales.o Potencia en c.v. (variable estadstica).
65, 83, 92, 115, 130, (valores o modalidades)
Las variables cuantitativas se clasifican en discretas y continuas.
Una variable estadstica cuantitativa es discretasi sus posibles valores pertenecen a
un conjunto numerable. El caso ms frecuente es aqul en que los posibles valores son
nmeros naturales; por ejemplo, el nmero de asientos de un cochees una variable estadstica
discreta.
Una variable estadstica cuantitativa es continuasi sus posibles valores pertenecen
a un conjunto no numerable, en general valores de o de un intervalo de ; por ejemplo, la
anchura del vehculoes una variable estadstica continua
1.3 Distribucin de Frecuencia. Sumario estadstico. El estudio de lasdistribuciones de frecuencia tiene como objeto construir tablas verticales u horizontales que se
utilizarn para una mejor presentacin e interpretacin de los datos obtenidos en la muestra.
En la primera columna (fila) se escriben los valores de la variable y en la segunda el nmero
de veces que se repite el valor de la variable.
Se distinguen cuatro tipos de frecuencias:
o Frecuencia absoluta ni.o Frecuencia relativa fi.o Frecuencia absoluta acumulada Ni.o Frecuencia relativa acumulada Fi.
Frecuencia absoluta del valor xi .Llamamos frecuencia absoluta (ni)del valor xide unavariable estadstica X, al nmero nide veces que se repite el valor xi.
La suma de todas las frecuencias absolutas, es el nmero total de elementos
que componen la muestra y que representamos por n.
k
1 2 k i
i 1
n n ... n n n=
+ + + = =
La tabla (1.3.1) formada por los valores de la variable junto con sus
respectivas frecuencias absolutas se denomina distribucin de frecuencias
absolutas.
ix in
1x 1n
2x 2n
.
.
.
.
kx kn
nTabla 1.3.1
-
5/28/2018 Descript Iva
7/34
I. ESTADSTICA DESCRIPTIVA
7-I
La distribucin de frecuencias absolutas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:
La frecuencia absoluta del valor xi=3es ni=4. Se ha obtenido cuatro veces el valor tres.
Frecuencia relativa del valor xi . Llamamos frecuencia relativa(fi)del valor xide unavariable estadstica X, al cociente entre la frecuencia absoluta y el nmero n de elementos que
componen la muestra.
ii
nf
n=
La suma de todas las frecuencias relativas es igual a la unidad.
k ki
i 1 k
i 1 i 1
nf f ... f 1
n= == = + + =
La tabla (1.3.3), formada por los valores de la variable junto con sus respectivas frecuencias
relativas, se denomina distribucin de frecuencias relativas.
La distribucin de frecuencias relativas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:
La frecuencia relativa del valor xi= 3es fi = 0.4. El valor 3 aparece en la proporcin de 4/10 y,por consiguiente, el 40% de las veces.
Frecuencia absoluta acumulada Ni . Lamamos frecuenciaabsoluta acumulada (Ni) del valor xi de una variable estadstica X, a lasuma de las frecuencias absolutas de los valores inferiores o iguales a x i,
por tanto,i
i j
j 1
N n=
= y se verifica kN n=
La tabla (1.3.6) es la distribucin de frecuencias absolutas acumuladas de
la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
La frecuencia absoluta acumulada del valor x=3es Ni=9. Se han obtenidonueve veces valores menores o iguales que 3.
ix 1 2 3 4
in 3 2 4 1Tabla 1.3.2
Xi fi
x1 f1
x2 f2
.
.
.
.xk fk
1Tabla 1.3.3
Xi 1 2 3 4fi 0.3 0.2 0.4 0.1
Tabla 1.3.4
Xi Ni
1x 1N
2x 2N
.. ..
kx kN n= Tabla 1.3.5
Xi Ni1 3
2 5
3 9
4 10Tabla 1.3.6
-
5/28/2018 Descript Iva
8/34
8-I
Frecuencia relativa acumulada Fi . Llamamos frecuencia relativa acumulada (Fi)del valor xial cociente entre la frecuencia absoluta acumulada Niy el n total de elementos n,
as pues
ii
NF
n
=
y se verifica kF 1= .
La tabla (1.3.8) es la distribucin de frecuencias relativas
acumuladas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
La proporcin de valores menores o iguales que 3es 0.9 y, por tanto, el 90%.
Tambin es frecuente usar una tabla llamada sumario
estadstico, en la que aparecen los valores de la variable junto
con los valores de los distintos tipos de frecuencia.
El sumario estadstico para la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}
puede adoptar la forma de la tabla (1.3.9).
Las distribuciones y tablas anteriores se utilizan cuando se realizan pocas observaciones y, por
tanto, la variable tiene pocos valores distintos; o, aunque haya un gran nmero de
observaciones, existen pocos valores de la variable distintos. Cuando los distintos valores de
la variable son muchos, las tablas anteriores no son eficaces ya que su comprensin es ms
difcil a medida que aumenta el nmero de valores distintos de la variable. Es por ello que se
debe agrupar la variable en intervalos adecuadamente elegidos, y en tal caso, se dice que la
variable es continua por intervalos.
Ejemplo 1.-Los siguientes valores, proceden de un examen realizado a 80 estudiantes, y cuyorango terico de valores es de 0 a 10.
Observamos que hay una gran cantidad de valores distintos, por ello, agrupamos los datos en
intervalos como se puede observar en la tabla (1.3.10). De esta forma, la presentacin de los
datos y de los grficos son ms fciles de asimilar.
Xi Fi
1x 1F 2x 2F
.
...
kx kF 1= Tabla 1.3.7Xi 1
2 3 4
Fi 0.3 0.5 0.9 1Tabla 1.3.8
Xi ni fi Ni Fi
1 3 0.3 3 0.3
2 2 0.2 5 0.5
3 4 0.4 9 0.9
4 1 0.1 10 1
10 1Tabla 1.3.9
3.6 4.3 4.5 4.6 4.6 4.8 4.9 4.9 5.0 5.1 5.8 4.4 4.5 5.0 5.6 4.6
4.9 5.0 5.0 5.1 3.9 4.3 4.5 4.6 4.7 4.8 5.3 4.6 5.2 4.9 5.8 4.8
4.5 4.6 4.8 4.9 4.9 5.0 5.1 5.1 5.5 5.6 5.2 4.3 4.8 4.9 4.3 5.3
5.5 4.6 5.1 5.3 5.0 3.8 4.9 5.3 5.7 5.7 5.2 5.2 5.0 5.2 5.4 5.1
5.4 5.3 5.9 6.0 6.1 6.0 6.3 5.8 5.9 5.8 5.2 4.6 5.1 4.2 5.3 4.0
-
5/28/2018 Descript Iva
9/34
I. ESTADSTICA DESCRIPTIVA
9-I
1.4 Agrupacin en intervalos. Para elaborar y entender este tipo de agrupacionesnecesitamos primeramente estudiar algunas nuevas definiciones y establecer algunos criterios
previos.
Llamamos 0 1 2 k e e e ... e< < < < a los extremos de los intervalosen
los que agrupamos la variable estadstica.
Definimos amplitud del intervalo ai como la diferencia
i i i 1a e e = . El punto medio xi de cada intervalo se denomina
centro o marca del intervalo i i 1i
e ex
2
+= .
Definimos rango o recorrido de la variable como la diferencia
entre el valor mximo y el valor mnimo de la variable.
Designamos por (ni)al nmero de observacionesque quedan dentro del intervalo [ )i 1 ie , e .
La agrupacin de los datos en intervalos tiene la ventaja de simplificar los clculos y el
inconveniente de la prdida de informacin ya que, una vez que los valores son introducidos
en un mismo intervalo, pierden su valor real y asumen como valor el valor central del
intervalo. Por ello, debemos elegir los intervalos de forma que se equilibren los aspectos de
simplicidad y prdida de informacin. Lo cual nos lleva a introducir algunas cuestionessubjetivas y que a continuacin exponemos.
Realizacin de las agrupaciones. Para evitar la prdida de informacin es conveniente(aunque no necesario) que se verifiquen las reglas siguientes:
Los intervalos deben tener la misma amplitud. La anchura de cada intervalo se
obtendr redondeando por exceso el cociente que resulte de dividir el rango de la variable
entre el nmero de intervalos elegido.
Aunque no existe una regla fija, recomendamos construir un nmero de intervalos
prximo a n o al nmero 101 3.3log (n)+ , y nunca ms de 22 intervalos.
Intervalo xi ni fi Ni Fi[3.5 4) 3.75 3 3/80 3 3/80
[4 4.5) 4.25 7 7/80 10 10/80
[4.5 5) 4.75 26 26/80 36 36/80[5 5.5) 5.25 28 28/80 64 64/80
[5.5 6) 5.75 12 12/80 76 76/80
[6 6.5] 6.25 4 4/80 80 1
Sumas 80 1Tabla 1.3.10
Intervalo xi ni
[eo - e1) x1 n1
[e1 - e2) x2 n2
... ... ...
[ei-1 - ei) xi ni
... ... ...
[ek-1 - ek] xk nk
Tabla 1.4.1
-
5/28/2018 Descript Iva
10/34
10-I
Para que los grficos y tablas sean ms fciles de comprender, es conveniente tomar
intervalos de forma que las amplitudes sean mltiplos o submltiplos de 5 o de 10.
Los intervalos deben solaparse sin ambigedad. El criterio que seguiremos ser
tomar intervalos de la forma [a, b), o bien, aadimos en los extremos un decimal ms que losutilizados por los valores de la muestra.
Los intervalos deben ser homogneos, es decir, no deben existir intervalos con ms
del 30% ni menos del 5% del total de datos.
Es importante que no existan intervalos con frecuencia cero.
En el ejemplo del examen realizado a los 80 estudiantes, los valores mximo y mnimo son 6.3
y 3.6 respectivamente, as pues, el rango de la variable es: r = 6.3 3.6 = 2.7
Deseamos intervalos con amplitudes mltiplos o submltiplos de 5 y extremos de fcil lectura,
para ello, si redondeamos el rango a 3 y tomamos e0=3.5 con 6 intervalos, obtenemos
intervalos de amplitud 0.5.
As pues, tomamos como extremo inferior del primer intervalo 3.5, y el valor 6.5 como
extremo superior del ltimo intervalo (rango 3). Observen que de esta forma la amplitud de
cada intervalo es 0.5, los intervalos son homogneos, no existen intervalos de frecuencia cero
y las notas superiores e inferiores a 5 quedan separadas.
Procediendo de esta forma hemos obtenido el sumario estadstico de la tabla (1.4.2).
1.5 Representaciones grficas.Una buena representacin grfica, junto con las tablasde frecuencias anteriormente citadas, permiten captar rpidamente las caractersticas de la
muestra as como resumir y analizar los datos. De las muchas formas de representacin grfica
que existen, estudiaremos algunas de las ms utilizadas y cmo se realizan con EXCEL.
Segn sean los datos, las grficas se pueden clasificar en:
De Caracteres Cuantitativos.Variables estadsticas discretas.
Intervalo xi ni fi Ni Fi[3.5 4) 3.75 3 3/80 3 3/80[4 4.5) 4.25 7 7/80 10 10/80[4.5 5) 4.75 26 26/80 36 36/80[5 5.5) 5.25 28 28/80 64 64/80[5.5 6) 5.75 12 12/80 76 76/80[6 6.5] 6.25 4 4/80 80 1Sumas 80 1
Tabla 1.4.2
-
5/28/2018 Descript Iva
11/34
I. ESTADSTICA DESCRIPTIVA
11-I
Diagrama de barras. Polgonos de frecuencias. Polgonos de frecuencias
acumuladas.
Variables estadsticas discretas con frecuencias agrupadas en intervalos.
Histogramas. Polgonos de frecuencias. Polgonos de frecuencias acumuladas.
De Caracteres Cualitativos.
Diagrama de barras. Diagrama de sectores. Pictogramas.
1.5.1Representaciones grficas de las variables estadsticas discretas
1.5.1.1Diagrama de barras. Para la construccin de este grfico se parte de un sistema de ejescoordenados: en el eje horizontal se representan los valores de la variable X i y en el eje
vertical los valores de las frecuencias absolutas ni(o relativas fi). Este grfico se puede realizar
mediante barras horizontales o verticales (columnas). La longitud de cada una de las barras
representa la frecuencia absoluta o frecuencia relativa de cada valor.
Ejemplo 2. La tabla (1.5.1) representa la puntuacin obtenida en un test de 10 preguntas
realizado a 45 alumnos.
En el grfico (1.5.1) representamos el diagrama de columnas (barras verticales)correspondiente al test realizado por los 45 alumnos del ejemplo 2.
En caso de utilizarse para comparar muestras distintas de una misma variable, se debe tener
precaucin, ya que, en este caso, debemos usar frecuencias relativas para eliminar la
influencia visual que ejerce el tamao de cada una de las muestras.
1.5.1.2 Polgono de frecuencias. Su construccin se realiza representando en un sistema de
ejes coordenados los puntos i i(x ,n ) o i i(x , f ) , dependiendo de que se quiera representar elpolgono de frecuencias absolutas o el polgono de frecuencias relativas, unindose a
continuacin dichos puntos mediante una [email protected]
Puntuacin 0 1 2 3 4 5 6 7 8 9 10
N de alumnos 1 2 3 5 9 6 5 5 4 3 2Tabla 1.5.1
0
2
4
6
8
10
0 1 2 3 4 5 6 7 8 9 10
Grfico 1.5.1
Diagrama de barras de frecuencias absolutas ni
-
5/28/2018 Descript Iva
12/34
12-I
El grfico (1.5.2) representa el polgono de frecuencias absolutas de los resultados del test del
ejemplo 2 de la pgina 12.
1.5.1.3 Polgono de frecuencias acumuladas. Se realiza de forma anloga al polgono de
frecuencias, pero utilizando los puntos (xi, Ni) o (xi, Fi), segn se quiera representar elpolgono de frecuencias absolutas acumuladas o de frecuencias relativas acumuladas. A
continuacin se unen de forma escalonada los puntos representados.
La tabla (1.5.2) y el grfico (1.5.3) representan la distribucin de frecuencias absolutas
acumuladas y el polgono de frecuencias absolutas acumuladas del resultado del test del
ejemplo 2 de la pgina 12.
1.5.2Representaciones grficas de variables estadsticas discretas con valores agrupados enintervalos
1.5.2.1Histograma de frecuencias. Se utiliza para representar datos que han sido agrupadosen intervalos. Se construye de forma anloga al diagrama de barras pero levantando para cada
intervalo un rectngulo. En este grfico los rectngulos tienen que solaparse (variable
agrupada en intervalos)y el rea de cada rectngulo ser proporcional a la frecuencia (n io fi)
del intervalo.
Si los intervalos son de igual amplitud, la altura h ide cada rectngulo ser igual a la frecuencia
(nio fi) ya que el rea solo depender de la altura.
Puntuacin Ni0 1
1 32 6
3 11
4 20
5 26
6 31
7 36
8 40
9 43
10 45Tabla 1.5.2
0
2
4
6
8
10
0 1 2 3 4 5 6 7 8 9 10
Polgono de frecuencias absolutas ni
Grfico 1.5.2
0
10
20
30
40
50
0 1 2 3 4 5 6 7 8 9 10
Grfico 1.5.3
Polgono de frecuencias absolutas acumuladas Ni
-
5/28/2018 Descript Iva
13/34
UNIVERSIDAD POLITCNICA DE MADRID I. ESTADSTICA DESCRIPTIVA
Escuela Tcnica Superior de Ingenieros en Topografa Geodesia y Cartografa 13-I
Si algn intervalo es de distintaamplitud, el clculo de su altura (h i)
se efectuar hallando el cocientei
ii
nh
a ii
i
fh
a , donde ai
representa la amplitud del intervalo.
1.5.2.2 Polgono de frecuencias. En este grfico representamos los puntos medios (xi, ni)o
(xi, fi) de cada intervalo y a continuacin se unen los puntos mediante una poligonal.
La poligonal debe comenzar y
acabar cortando al eje de la
variable en los puntos medios
de los que seran un intervalo
anterior al primero y otro
posterior al ltimo (variableagrupada en intervalos). De estaforma el rea encerrada por el
polgono ser n o 1, segn queutilicemos nio fi.
1.5.2.3.Polgono de frecuencias acumuladas. Se trata de poder observar la acumulacin defrecuencias hasta un valor determinado de la variable; por ello, es muy til para calcular
percentiles de una formagrfica. El grfico se
obtiene al unir medianteuna poligonal los puntos(ei, Ni)o (ei, Fi).
Al ser un grfico de datosagrupados en intervalos, el
polgono siempre empiezaen (e0, 0) y acaba en (ek, n) (ek,1).
03
10
36
64
7680 80
0
10
20
30
40
50
60
70
80
90
3.5 4 4.5 5 5.5 6 6.5 7
Polgono de frecuencias acumuladas del ejemplo 1.
(Notas de examen realizado por 80 estudiantes )
Grfico 1.5.6
Q1 Q3
0
5
10
15
20
25
30
3.5 - 4 4 - 4.5 4.5 - 5 5 - 5.5 5.5 - 6 6 - 6.5
Grfico 1.5.4
Histograma del ejemplo 1
(Notas de examen realizado por 80 estudiantes)
0
5
10
15
20
25
30
3.25 3.75 4.25 4.75 5.25 5.75 6.25 6.75
Polgono de frecuencias de datos agrupados en intervalos.
Ejemplo 1. (Notas de examen realizado por 80 estudiantes)
Grfico 1.5.5
-
5/28/2018 Descript Iva
14/34
14-I
1.5.3 Representaciones grficas de variables estadsticas cualitativas. Existe una granmultitud de grficos para representar los datos de una muestra o poblacin de una variable
estadstica cualitativa. Nosotros solo mostramos algunos de ellos, y para ilustrar las grficas
explicadas en este epgrafe utilizaremos el siguiente ejemplo.
Ejemplo 3.- Se pregunta a un grupo de 100 hombres y 125 mujeres sobre sus preferencias de
vehculos, siendo stas las modalidades siguientes: BERLINA, 4X4, DEPORTIVO y
MONOVOLUMEN.
Los resultados obtenidos se reflejan clasificados por sexo en la siguiente tabla:
1.5.3.1 Diagramas de barras. Para las variables cualitativas se pueden emplear los diagramasde barras horizontales o en columnas. Ambos consisten en representar las frecuencias
mediante rectngulos horizontales o verticales, cuyas longitudes sean iguales a la frecuencia
absoluta de cada modalidad cualitativa.
En el caso en que se desee comparar diferentes conjuntos con diferente nmero de elementos,
debemos utilizar la frecuencia relativa para evitar falsear la longitud de las barras.
As en el ejemplo
anterior para comparar
las preferencias entre
los hombres y las
mujeres, debemos
utilizar las frecuencias
relativas fi como en elgrfico (1.5.8).
HOMBRES MUJERES Total
MODALIDADES ni fi ni fi
BERLINA 50 0.50 75 0.6 125
DEPORTIVO 5 0.05 20 0.16 254X4 10 0.10 5 0.04 15
MONOVOLUMEN 35 0.35 25 0.2 60
100 1 125 1 225
Tabla 1.5.3
Diagrama de barras. Hombres
0
1
0
2
0
3
0
4
0
5
0
6
0
Berlina Deportivo 4X4 Monovolumen
Ejemplo 3
Diagrama de barras. Mujeres
0
2
0
4
0
6
0
8
0
Berlina Deportivo 4X4 Monovolumen
Ejemplo 3
Grfico1.5.7
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Berlina Deportivo 4X4 Monovolumen
Hombres
Mujeres
Grfico 1.5.8
Diagrama de barras. Ejemplo 3
-
5/28/2018 Descript Iva
15/34
I. ESTADSTICA DESCRIPTIVA
15-I
1.5.3.2 Diagrama de sectores. La idea de este grfico es semejante a la del diagrama derectngulos; se cambia la longitud de cada rectngulo por la amplitud en los ngulos o en el
rea de los sectores en que se divide el crculo.
Es la representacin en la que el crculo aparece dividido en sectores, de forma que los
ngulos, y por tanto las reas respectivas, sean proporcionales a las frecuencias.
1.5.3.3 Pictogramas. La idea de este grfico es semejante a la del diagrama de rectngulos; lavariable se representa por un dibujo de tamao proporcional a la frecuencia del valor de
variable.
1.5.3.3.1 Cartogramas. Son representaciones sobre mapas de la variable en estudio.Usualmente los distintos valores de la variable se representan con colores distintos o distinta
intensidad; como ejemplo podemos observar el cartograma elaborado por el Instituto deEstadstica de la Comunidad de Madrid. Consejera de Economa y Consumo sobre la renta
per cpita del ao 2004 en la Comunidad de Madrid.
Diagrama de sectoresEjemplo 3 (Hombres)
5%
10%
35%
50%Berlina
Deportivo
4X4
Monovolumen
Diagrama de sectores
Ejemplo 3 (Mujeres)
60%16%
4%
20%
Berlina Deportivo 4X4 Monovolumen
Grfico 1.5.9Grfico 1.5.9Grfico 1.5.9Grfico 1.5.9
-
5/28/2018 Descript Iva
16/34
16-I
1.6 Los grficos en EXCELms importantes de un grfico
botn secundario del ratn en e
Para realizar con Excel los grfi
valores de la variable (modalid
menInsertar y de l, el botn
De este modo aparece una pant
Pulsando la pestaaAceptar,ap
3
0
1
2
3
4
5
1
Seriede da
Lneas dedivisin
Eje devalores
rea delgrfico
. En el grfico (1.6.1)se representan algunode EXCEL. Una vez realizado el grfico, s
tas zonas podremos modificar el grfico.
cos anteriormente estudiados, seleccionamos
ades) y sus frecuencias, y a continuacin se
lla como la que se muestra en la figura 1.6.1
arece el grfico en la misma hoja como el de
Diagrama de barras
2
4
1
4
2
1
4
2 3 4
A
B
Rtulosde datostos
Grfico 1.6.1
Figura 1.6.1
s de los elementos
i pulsamos con el
primeramente los
leccionamos en el
.
la figura 1.6.2.
Ttulo
rea detrazado
Leyenda
-
5/28/2018 Descript Iva
17/34
Observemos que, encima de
deHerramientas de grfico
que permite realizar cambios
Tambin podemos realizar c
este caso, segn la posicin
1.7 Parmetros EstadLos parmetros estadsticos
sentido de condensar en ellestadsticos nos proporciona
datos. En este curso estudia
Medidas de posicin y de ce
la variable, alrededor de lo
estudiaremos los siguientes:
Moda.
Media.
Mediana.
Cuantiles.
I.
la pestaaDiseo,aparece ot
ra nueva una p
y que, pulsando en ella, aparece una nuev
en el grfico.
ambios en el grfico pulsando el botn sec
el puntero se obtienen unas opciones de cam
ticos. Introduccinson ciertos valores representativos de un co
s la informacin contenida en dicho conjun informacin acerca de la situacin, disp
os las siguientes medidas o parmetros:
tralizacin. Tienen por objeto dar una ideas cuales se agrupa una cantidad de datos.
ma
Figura 1.6.3
ESTADSTICA DESCRIPTIVA
17-I
estaa con el nombre
a barra (figura 1.6.3)
ndario del ratn; en
bio u otras.
junto de datos, en el
to. Estos parmetrosrsin y forma de los
el valor o valores de
Por su importancia
-
5/28/2018 Descript Iva
18/34
18-I
Cuartiles.
Deciles.
Percentiles.
Medidas de dispersin. Estas medidas determinan lo agrupada o dispersa que est la poblaciny por ello nos dan una idea de la mayor o menor concentracin de los valores de la variable
alrededor de cierto valor. Por su importancia estudiaremos las siguientes:
Rango intercuartlico.
Varianza de la poblacin y de la muestra.
Desviacin tpica de la poblacin y de la muestra.
Coeficiente de variacin.
Momentos no centrados.
Momentos centrados.
Medidas de forma. Tratan de identificar ciertas diferencias en la forma de la distribucin conrespecto a un modelo determinado.
Coeficientes de Asimetra.
Coeficiente de Curtosis.
1.8 Medidas de posicin y centralizacin
1.8.1ModaM0. La moda de un conjunto de datos es el valor de la variable que tiene mximafrecuencia absoluta ni, o relativa fi. Puede ser calculada tanto para variables cualitativas como
para variables cuantitativas.
La moda puede no ser nica, o incluso no existir cuando todos los valores de la variable tienen
la misma frecuencia.
Clculo de la moda. Si la variable no est agrupada en intervalos, se observa directamente el
valor de la variable que tiene mayor frecuencia absoluta o relativa.
Hallar la moda de los conjuntos de datos A = { 1, 1, 1, 2, 2, 3,3,3,3, 4 }, B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4 } y C= {1, 2, 3, 4, 5, 6, 7, 8, 9}.
- En Ala moda M0es 3,por ser el valor ms frecuente n=4.
- En Bexisten dos valores modales M0= 1y 4,la frecuencia absoluta en ambos es n=4.
- En Cno existe moda ya que todos los valores tienen igual frecuencia.
Si la variable est agrupada en intervalos, se define el intervalo modalcomo el intervalo que
tiene mayor frecuencia, y adoptamos como moda M0el punto medio del intervalo modal.
-
5/28/2018 Descript Iva
19/34
I. ESTADSTICA DESCRIPTIVA
19-I
En la distribucin de frecuencias de las notas del test del ejemplo 1, observamos que el
intervalo [5 5.5) es el intervalo modal y su puntomediox = 5.25es el valor que adoptamos como moda.
La moda tiene la ventaja de ser fcil su clculo, pero tiene
el inconveniente de que dos muestras con datos muy
parecidos pueden tener modas muy distintas.
Es importante observar que al agrupar en intervalos
perdemos informacin acerca del autntico valor modal.
1.8.2MedianaM. Se define como el valor central de losvalores de la variable una vez que stos han sido ordenados en sentido creciente. Por tanto, la
mediana M es un valor de la variable tal que el 50% de los datos son inferiores y el otro 50%
de los datos son superiores.
Clculo de la mediana. En primer lugar ordenamos los datos de menor a mayor;
Si los datos no estn agrupados en intervalos, pueden darse dos casos, quen
2sea entero o
que no lo sea.
Sin
2no es un nmero entero, la mediana M es el valor de la variable que ocupa la
posicin: parte entera del nmero n 12
+ .
Sin
2 es un nmero entero, la mediana se calcula hallando el valor central de los
valores de la variable que ocupan las posiciones: parte entera de los nmerosn
2y
n1
2+ .
En el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} observamos que los datos estnordenados y n=10, por tanto, la mediana es M=2.5 que corresponde al punto medio de los
valores de la variable que ocupan las posiciones n 52
= (x=2) y n 1 62
+ = (x=3).
En el conjunto de datos B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4} observamos que el nmero de datoses impar y estn ordenados. La mediana es el valor de la variable que ocupa el lugar parte
entera den
1 62
+ = , y por tanto, la mediana es M=2.
Si los datos estn agrupados en intervalos, el clculo se realiza de forma semejante a comose realiza para datos no agrupados; la diferencia estriba en que, en vez de hallar el punto
medio, calculamos su valor por interpolacin lineal.
Intervalo xi ni fi
[3.5 4) 3.75 3 3/80
[4 4.5) 4.25 7 7/80
[4.5 5) 4.75 26 26/80
[5 5.5) 5.25 28 28/80[5.5 6) 5.75 12 12/80
[6 6.5] 6.25 4 4/80
Sumas 80 1
Tabla 1.8.1
-
5/28/2018 Descript Iva
20/34
20-I
Sin
2est en el intervalo [ei-1, ei), se tiene:
i i i-1 i
i-1
n e - e a
n - N h2
=
i-1M e h= + .
La interpolacin lineal anterior puede resumirse
en la formula:i 1
i 1
i
nN a
2M e
n
= +
Para calcular la mediana de datos agrupados en intervalos procedemos de la siguiente forma:
se localiza el primer intervalo cuya frecuencia acumulada supere la mitad de las observaciones,esto es, 80/2=40; esta frecuencia acumulada est en el intervalo [5 5.5) que denominamos
intervalo mediano, por ser aqul que contiene a la
mediana. El valor de la mediana lo obtenemos
aplicando la frmula anterior:
( )40 36 0.5M 5 5.07
28
= + =
La generalizacin del concepto de la mediana dalugar a nuevas medidas de posicin que llamaremos
cuantiles.
1.8.3 Cuantiles. Son medidas de posicin o de orden. En general dividen en dos partes a losdatos colocados en orden creciente y tambin determinan la posicin de cada uno de los datos.
Los cuantiles ms usados son los cuartiles, deciles y percentiles.
Los cuartiles dividen los datos ordenados de la poblacin en cuartas partes. Existentres cuartiles Q1, Q2y Q3. Elprimer cuartil (Q1)es un valor de la poblacin tal que el 25% delos datos son menores y el 75% son mayores que l. El segundo cuartil se denomina mediana
(Q2=M). En el tercer cuartil (Q3) el 75% de los datos toman valores menores y el 25%mayores.
Existen 9 decilesy dividen a la poblacin en diez partes iguales. Se llama decil deorden (D ),al valor de la variable que divide a la poblacin en dos partes de tal forma que
10
del total de los datos tomen valores inferiores a D y
10
10
del total de datos tomen
valores superiores, con N y 0 10< < .
Intervalo xi ni Ni
[3.5 4) 3.75 3 3
[4 4.5) 4.25 7 10
[4.5 5) 4.75 26 36
[5 5.5) 5.25 28 64
[5.5 6) 5.75 12 76
[6 6.5] 6.25 4 80
Sumas 80
Tabla 1.8.2
Mei-1 ei
n/2
Ni-1h
Ni
ni
Grfico 1.8.1
-
5/28/2018 Descript Iva
21/34
I. ESTADSTICA DESCRIPTIVA
21-I
Existen 99percentiles y dividen a la poblacin en cien partes iguales. Se llamapercentil de orden (P )al valor de la variable que divide a la poblacin en dos partes de
tal forma que el100
del total de los datos tomen valores inferiores a P y
100
100
del total
tomen valores mayores, siendo N y 0 100< < .
El clculo de los cuantiles se realiza de forma anloga al clculo de la mediana.
En el conjunto de datos A= {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los datos estn ordenados y3
n4
no es
un nmero entero; por tanto, el tercer cuartil es Q3=3, ya que es el valor de la variable que
ocupa el lugar: parte entera de3
n 14
+ .
El decil sexto es el valor D6=3, que corresponde al valor medio de los valores de la variable
que ocupan las posiciones6
n 610
= (x=3) y6
n 1 710
+ = (x=3).
El percentil 40 coincide con el decil 4 y es el valor medio de los valores que ocupan los
lugares40
n 4100
= y40
n 1 5100
+ = , as pues P40=2.
En el caso de que los datos estn agrupados en intervalos, el clculo se realiza de forma
semejante a como se realiza para la mediana, pero todo referido al intervalo que contenga el
valor de las frecuencias n4
, n
10
y n
100
, segn sea el cuantil a calcular.
Por ejemplo, para el clculo del percentil 80, localizamos el intervalo donde se encuentra P 80,
y calculamos su valor por interpolacin lineal.
Si n100
est en el intervalo [ei-1, ei);
i i i 1 i
i 1
n e e a
n N h100
=
i 1P e h = + .
por tanto, la interpolacin lineal anterior se
puede resumir en la formula:
i 1 i
i 1
i
n N a
100P en
= + .
P80ei-1 ei
Ni-1
h
Ni
n
Grfico 1.8.2
80n/100
-
5/28/2018 Descript Iva
22/34
22-I
El clculo de algunos cuantiles del ejemplo 1 es:
1n 20
4=
( )1
20 10 0.5Q 4.5 4.69
26
= + = .
3n 60
4=
( )3
60 36 0.5Q 5 5.43
28
= + =
6n 48
10=
( )6
48 36 0.5D 5 5.21
28
= +
95n 76
100=
( )95
76 76 0.5P 6 6
4
= + = .
1.8.4 Media aritmtica X. Propiedades. Posiblemente es el parmetro estadstico ms
conocido y utilizado. Se representa por X y se define como la suma de todos los valores del
conjunto de datos dividida por el nmero de datos; por tanto:
1 1 2 2 k k n x n x ... n x
Xn
+ + +=
k
i i
i 1
1n x
n ==
k
i i
i 1
f x=
= .
La media del conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es
X 2.3= , ya que:
3 1 2 2 4 3 1 4X
10
+ + + = =
23
10=2.3
El clculo de la media tambin puede realizarse en
forma de tabla aadiendo una nueva columna con los
valores nixi.
Cuando las observaciones han sido agrupadas en
intervalos, el clculo se realiza de la misma forma,
pero utilizando el valor central del intervalo como
valor de todas las observaciones que han sido
adjudicadas a dicho intervalo.
La media del ejemplo de la tabla (1.8.5) es
3 3.75 7 4.25 26 4.75 28 5.25 12 5.75 4 6.25X
80
+ + + + + = =
405.5
80= 5.068
Intervalo xi ni Ni
[3.5 4) 3.75 3 3
[4 4.5) 4.25 7 10[4.5 5) 4.75 26 36
[5 5.5) 5.25 28 64
[5.5 6) 5.75 12 76
[6 6.5] 6.25 4 80
Sumas 80Tabla 1.8.3
ix in in ix
1 3 3
2 2 43 4 12
4 1 4
10 23
Tabla 1.8.4
Intervalo xi ni in ix
[3.5 4) 3.75 3 11.25
[4 4.5) 4.25 7 29.75
[4.5 5) 4.75 26 123.5[5 5.5) 5.25 28 147
[5.5 6) 5.75 12 69
[6 6.5] 6.25 4 25
Sumas 80 405.5Tabla 1.8.5
-
5/28/2018 Descript Iva
23/34
I. ESTADSTICA DESCRIPTIVA
23-I
Propiedades
1.Solo es aplicable para variables estadsticas cuantitativas.
2.No depende del orden en el que estn colocados los datos.
3.Es ms representativa cuanto mayor sea la concentracin de los valores alrededor
suyo y ms simtrica sea la distribucin.
4.Es muy sensible a la presencia de datos extremos.
5.La media de las desviaciones a la media es cero.
( )k k
i i i i
i 1 i 1
1 1n x X n x X 0
n n= = = =
6.Si se multiplican todos los valores de la variable estadstica X por una constante a,
la media queda multiplicada por la constante a.
k k
i i i i
i 1 i 1
1 1aX an x a n x aX
n n= == = =
7.Si se suma una constante b a los n valores de la variable, la media queda aumentada
en dicho valor b.
( )k k
i i i i
i 1 i 1
1 1 1b X n b x bn n x b X
n n n= =+ = + = + = +
1.9 Clculo con EXCEL de los parmetros de posicin y tendencia central deun conjunto de datos individualizadosA continuacin exponemos un procedimiento para calcular estos parmetros utilizando las
correspondientes funciones especficas de EXCEL.
=MODA(nmero1;[nmero2];) Calcula la moda del rango de datos.
=MEDIANA(nmero1;[nmero2];) Calcula la mediana del rango de datos.
=CUARTIL(matriz;cuartil) Calcula el valor de uno de los cuartiles. Matriz es elrango de los datos y cuartil son los valores 1, 2, 3, para calcular Q1, Q2=M y Q3,
respectivamente.
=cuartil(matriz;3), calcula el tercer cuartil del rango de los datos.
=PERCENTIL(matriz;k)Calcula el percentil 100k, donde k es un nmero entre 0 y 1.=percentil(matriz;0.3)calcula el P30que coincide con D3.
=PROMEDIO(nmero1;[nmero2];)Calcula la media del rango de datos.
-
5/28/2018 Descript Iva
24/34
24-I
Como ejemplo, usaremos los conjuntos de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, B = {1, 1, 1,
1, 2, 2, 3, 4, 4, 4, 4} y C = {1, 2, 3, 4, 5, 6, 7, 8, 9}.
Escribimos en sucesivas casillas las frmulas de los parmetros que deseamos calcular, por
ejemplo, para el clculo del cuartil tercero; en la celda 17,B hemosescrito:=cuartil(B2:B11;3).
Adems, podemos aadir unos rtulos tiles, como se muestra en el grfico 1.9.1.
Notemos que algunos
parmetros calculados por
EXCEL no coinciden con
algunas de las definiciones
dadas.
Por ejemplo, la moda del
conjunto B nos indica slo
un valor modal en vez de
dos; en el conjunto C la
moda es indicada con
#N/A, es decir, no existe
valor modal. El primer y
tercer cuartil de los
conjuntos de datos A y Bson distintos de los que
obtendramos nosotros. La
diferencia es debida a que
se utilizan criterios
distintos. Cuando el
percentil buscado es un
valor exacto de la serie de
datos, nosotros tomamos
como valor del percentil el
punto medio de los valores
que ocupan los lugares n4
y n 14
+ , mientras que
EXCEL interpola entre
dichos valores.
Figura 1.9.1
-
5/28/2018 Descript Iva
25/34
I. ESTADSTICA DESCRIPTIVA
25-I
1.10 Medidas de DispersinComo dijimos anteriormente, la media es ms representativa cuanto mayor sea la
concentracin de los valores alrededor suyo; por ello, uno de los objetivos de las medidas de
dispersin es el estudio de diferentes parmetros que nos indiquen el grado de alejamiento de
los datos respecto de algn parmetro central.
1.10.1Rango o recorrido de la variable estadstica(Re). Se define como la diferencia entre elmximo y el mnimo valor de la variable. Es una medida muy sencilla de calcular, pero, poco
robusta, pues solo tiene en cuenta los valores extremos.
Para los datos del conjunto A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, Re=xmax-xmin=4-1=3.
Para evitar la influencia en el rango de los datos con valores extremos, suele ser frecuente
utilizar el rango intercuartlico.
1.10.2 Rango o recorrido intercuartlico (IQR). La diferencia entre el tercer y el primercuartil se denomina recorrido o rango intercuartlicoy se representa por IQR.
Es fcil observar que el rango intercuartlico contiene el 50% de las observaciones centrales.
3 1IQR Q Q=
Su clculo es muy sencillo, y es una medida muy robusta en el sentido de no estar
influenciada por la presencia de valores extremos.
Del ejemplo 1, sabemos que Q3=5.43 y Q1=4.69, por tanto, IQR=0.74.
1.10.3 Varianza (2) y desviacin tpica () poblacionales. Propiedades. Al igual que lamedia en las medidas de posicin, la varianza es la medida de dispersin ms utilizada. Ambas
suelen formar parte de muchas definiciones y estudios estadsticos. La varianza mide la
dispersin de los valores de la variable respecto de la media. Cuanto mayor sea la varianza,
menos representativa es la media.
Se define la varianza poblacional, o simplemente varianza (2
), de un conjunto de datos,como la media de los cuadrados de las diferencias a la media.
( )k 2
2
i i
i 1
1n x X
n = =
Se define desviacin tpica( )de la poblacin, como la raz cuadrada de la varianza.
( )k 2
i i
i 1
n x X
n
=
=
-
5/28/2018 Descript Iva
26/34
26-I
Calcular la varianza y la desviacin tpica de los datos {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} .
Por ser la media X 2.3= , la varianza es
2 2 2 2
23(1 2.3) 2(2 2.3) 4(3 2.3) 1(4 2.3)
1.0110
+ + + = =
y la desviacin tpica
1.01 1.005 = =
Propiedades de la varianza
I. La varianza es siempre positiva.
II. Si se multiplican todos los valores de la variable por una constante a, la varianzaqueda multiplicada por la constante a2.
Si ax= entonces:
( ) ( )k k2 2
2 2 2 2
y i i i i x
i 1 i 1
1 1n y Y a n x X a
n n= = = = = .
III. Si sumamos una constante b a los valores de la variable, la varianza no cambia.
Si y b x= + entonces:
( ) ( ) ( )k k k2 2 2
2 2
y i i i i i i x
i 1 i 1 i 1
1 1 1n y Y n (b x ) (b X) n x X
n n n= = = = = + + = =
IV. La varianza es la media de los cuadrados de la variable, menos el cuadrado de la media
de la variable.
( ) ( )k k2 22 2
x i i i i i i i
i 1 i 1
1 1n x X n x 2n x X n X
n n= = = = + =
k22
i i
i 1
1n x X
n =
V. La principal ventaja de la desviacin tpica frente a la varianza es que la primera se
mide en las mismas unidades que los datos.
1.10.4 Cuasivarianza o Varianza muestral (S2). Propiedades.Se define varianza muestral oCuasivarianza(S2)como la cantidad
( )k 2
2
i i
i 1
1S n x X
n 1 ==
Este parmetro tiene gran importancia en inferencia estadstica, ya que se utiliza con ms
frecuencia que la varianza.
La raz cuadrada de la cuasivarianza se denomina desviacin tpica muestral o
cuasidesviacin tpica(S).
( )k
2i i
i 1
n x X
Sn 1
=
=
-
5/28/2018 Descript Iva
27/34
I. ESTADSTICA DESCRIPTIVA
27-I
La cuasivarianza y desviacin tpica muestral del conjunto {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} son2 2 2 2
2 3(1 2.3) 2(2 2.3) 4(3 2.3) 1(4 2.3)S 1.129
+ + + = = y S 1.1222 1.06=
PropiedadesI. Cuanto mayor sea el nmero n de datos, ms se aproximan S2 a 2y S a .
II. 2 2n
Sn 1
=
yn
Sn 1
=
.
1.10.5 Coeficiente de variacin de Pearson (CV). Propiedades. En la propiedad II de lavarianza, se observa que sta es afectada por los cambios de escala y, por tanto, no es til para
comparar dispersiones entre variable estadsticas con distintas unidades. Por ello, para
comparar la dispersin entre muestras o poblaciones, se utiliza el coeficiente de variacin de
Pearson. Se define el coeficiente de variacin de Pearson (CV) como el cociente entre ladesviacin tpica y el valor absoluto de la media. Generalmente se expresa en porcentajes.
CV 100 %X
= .
Algunas de sus propiedades son:
Es independiente de las unidades que se utilicen.
Nos permite comparar la dispersin de dos distribuciones con medias o con unidades
diferentes.
Tiene el inconveniente de no estar definido para distribuciones con media cero.
Adems, cuando la media se aproxima a cero el coeficiente de variacin tiende a infinito.
Ejemplo. Calcular los parmetros anteriores para los valores de la evaluacin de losestudiantes recogidos en el ejemplo (1) y agrupados en la tabla (1.10.5).
Para calcular la varianza debemoshallar el valor de
( )k 2
2
i i
1
1n x X
n = . Para ello,
aadimos dos nuevas columnas, la
primera para el clculo de la media y la
segunda para el clculo de la suma de
los cuadrados de las diferencias a la
media. ( )
k 2
i i1
n x X
.
ntervalo xi ni i in x ( )2
i in x X
[3.5 4) 3.75 3 11.25 5.2173
[4 4.5) 4.25 7 29.75 4.6924
[4.5 5) 4.75 26 123.5 2.6416
[5 5.5) 5.25 28 147 0.9198
[5.5 6) 5.75 12 69 5.5692
[6 6.5] 6.25 4 25 5.5814
Sumas 80 405.5 24.6219Tabla 1.10.5
-
5/28/2018 Descript Iva
28/34
28-I
Figura 1.11.1
X=405.5
80 5.0687 2 =
24.6219
80 0.308 0.3083 0.555 =
2 80S 0.3083 0.31279
=
S 0.3122 0.558= 0.5552
CV 100 10.95%5.0687
=
1.11 Clculo con Excel de los parmetros de dispersin de un conjunto dedatos individualizadosEXCEL dispone de algunas funciones especficas para el clculo de los parmetros de
dispersin:
=VARP(nmero1;[nmero2];).Calcula la varianza del conjunto de datos.
=DESVESTP(nmero1;[nmero2];).Calcula la desviacin tpica del conjunto de
datos.
=VAR(nmero1;[nmero2];).Calcula la cuasivarianza de los datos.
=DESVEST(nmero1;[nmero2];).Calcula la desviacin tpica muestral.
Como ejemplo, usaremos el conjuntos de
datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
Escribimos en sucesivas casillas las
frmulas de los parmetros que deseamos calcular; por ejemplo, para el clculo de la
cuasivarianza en la celda (4,C) hemos escrito:
=VAR(A3:A12).
1.12 MomentosLos momentos son medidas de dispersin sobre un determinado valor. En general,se define el
momento de orden rrespecto del valorccomo
Segn el valor que tome c, se distinguen dos casos importantes:
Si c=0, entonces los momentos de orden r se denominan momentos no centrales o
respecto del origeny se denotan por kr i i
i 1
1m n x
n ==
( )k
r
r i i
i 1
1m (c) n x c
n ==
-
5/28/2018 Descript Iva
29/34
I. ESTADSTICA DESCRIPTIVA
29-I
Se observa que:
o El momento de orden 0 respecto del origen siempre es la unidad (m0=1).
o El momento de orden 1 respecto del origen coincide con la media ( )1m X= .
Si c X= , entonces los momentos de orden r se denominan momentos centrales orespecto de la media y se denotan por
( )k r
r i i
i 1
1n x X
n = =
Es importante notar que:
o El momento de orden 0 respecto de la media siempre es la unidad, (0=1).
o El momento de orden 1 respecto de la media siempre es cero, (1=0).
o El momento de orden 2 respecto de la media siempre coincide con la varianza,
(2=2).
1.12.1. Relaciones entre los momentos
2=m2-m12. 3=m3-3m2m1+2m1
3. 4=m4-4m3m1+6m2m12-3m1
4.
Ejemplo. Para el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los momentos centrales yno centrales son:
1
3 1 2 2 4 3 1 4 23m A
10 10
+ + + = = = .
2 2 2 2
2
3 1 2 2 4 3 1 4 63m
10 10
+ + + = = .
3 3 3 3
3
3 1 2 2 4 3 1 4 191m
10 10
+ + + = = .
4 4 4 4
4
3 1 2 2 4 3 1 4 615m
10 10
+ + + = = .
2
2 2
2 2 1
63 23 10.1m m
10 10 10
= = = =
3
3
3 3 2 1 1
191 63 23 23 36m 3m m 2m 3 2
10 10 10 10 1000
= + = + =
2 42 4
4 4 3 1 2 1 1
615 191 23 63 23 23m 4m m 6m m 3m 4 6 3 1.79
10 10 10 10 10 10
= + = + =
1.13 Medidas de formaAdems de la tendencia central y de la dispersin, se puede tratar de caracterizar la forma de
una distribucin mediante ndices que determinen la asimetra y el apuntamiento de la
distribucin.
Asimetra. Una distribucin de frecuencias es simtrica si su correspondiente grfico essimtrico respecto a un eje vertical.
-
5/28/2018 Descript Iva
30/34
30-I
Si la distribucin es simtrica, la mediana y la media coinciden.
M X=
Si la distribucin es simtrica y unimodal, la mediana, media y moda coinciden.
oM X M= =
Una distribucin con asimetra por la derecha o
positiva, quiere decir que la grfica de frecuencias
desciende ms lentamente por la derecha que por
la izquierda. En este caso se verifica que
oM M X .
Una distribucin asimtrica por la izquierda o
negativa, quiere decir que la grfica de
frecuencias desciende ms lentamente por la
izquierda que por la derecha. En este caso se
verifica que
oX M M .
1.13.1 Coeficiente de Asimetra de Pearson.Propiedades. Se define como el cociente
os
X MA
=
.
Mide la asimetra respecto de la moda.
Si As=0 es simtrica respecto de la moda. 0X M= .
Si As>0 es asimtrica a la derecha de la moda. 0X M> .
Si As
-
5/28/2018 Descript Iva
31/34
I. ESTADSTICA DESCRIPTIVA
31-I
Es un coeficiente adimensional y mide la asimetra respecto de la media.
Si g1=0 la distribucin es simtrica o no sesgada.
Si g10 la distribucin es asimtrica o sesgada a la derecha y o eM M X .
1.13.3 Coeficiente de apuntamiento o curtosis g2. Elcoeficiente de apuntamiento de Fisherse define e interpreta como sigue:
( )k 4
i i
i 12 4
n x X1
g 3n
=
=
.
Si la distribucin estudiada tiene por media X y desviacin tpica muestral S, entonces:
Si g2>0, la distribucin es ms apuntada que la normal ( )N X,S .
Si g2
-
5/28/2018 Descript Iva
32/34
32-I
Fi ura 16.1.1
EXCEL dispone de dos funciones especficas para el clculo de los parmetros de forma, pero
nosotros no las utilizaremos, ya que Excel calcula los estimadores de forma para la poblacin;
por ello, efectuaremos el clculo de las medidas de forma utilizando la tabla de clculos que
hemos empleado para hallar los momentos.
1.14 Errores en las observaciones.Uno de los objetivos principales de la Estadstica es el de obtener informaciones tiles a partir
de los datos disponibles. Por ello, es muy importante que los datos que utilicemos sean fiables
(no contengan errores) y, por tanto, en todo tratamiento estadstico es conveniente efectuar un
proceso de depuracin y estudio de los datos.
1.14.1 Valores atpicos o Outliers. Los valores atpicos o errneos, por ser inusualmentegrandes o pequeos, en general son atribuibles a una de las siguientes causas:
El valor se observa y se registra o introduce en el ordenador incorrectamente.
El valor proviene de una poblacin distinta.
El valor es correcto, pero representa un suceso poco comn.
El problema que se nos presenta es decidir si un determinado dato, con un valor poco comn,
puede ser utilizado, o por el contrario lo hemos de rechazar. La respuesta no es fcil, ya que si
rechazamos datos de forma inadecuada, podemos perder informacin valiosa y, por el
contrario, si los aceptamos, puede variar los resultados de forma que nuestras conclusiones
sean errneas. En la actualidad existe gran multitud de procedimientos que nos facilitan el
tomar una decisin sobre la depuracin de datos. Consideramos que el estudio detallado de
estos procedimientos queda fuera del mbito de esta asignatura y solo haremos una breve
descripcin de uno de ellos
-
5/28/2018 Descript Iva
33/34
I. ESTADSTICA DESCRIPTIVA
33-I
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
335 340 345 350 355 360
Grfico 1.14.1
1.14.2 Grficos de caja. Boxplot. Los histogramas y los polgonos de frecuenciaproporcionan impresiones visuales acerca de un conjunto de datos. Las cantidades numricas,
tales como la media o varianza, proporcionan informacin acerca de alguna caracterstica
particular de los datos.
Losgrficos de cajason unas representaciones grficas que describen simultneamente varias
caractersticas importantes de un conjunto de datos, como son el centro, la dispersin y la
asimetra, pero tambin permiten identificar observaciones que caen inusualmente lejos del
grueso de los datos, lospuntos atpicos, (Outliers).
Para la construccin de este grfico, se calcula previamente la media X, la mediana M, los
cuartiles Q1y Q3, as como los valores LI y LS que denominaremos barreras o bigotes:
LI=max( xmin, Q1-1.5(Q3 Q1)) LS=min ( xmax, Q3+1.5(Q3- Q1)).
Donde xminy xmaxson los valores mximo y mnimo del conjunto de datos.
Una vez calculados los valores anteriores, procedemos de la siguiente forma. Dibujamos una
caja cuyos lados verticales corresponden a los valores de Q1y Q3, trazamos una lnea vertical
en el valor de la mediana, y dos pequeas lneas verticales (barreras) para los valores de LI y
LS. A continuacin, trazamos un segmento a cada lado de la caja hasta las barreras y por
ltimo colocamos el valor de la media y de los posibles puntos atpicos. El resultado de este
grfico se muestra en el grfico 1.14.1
Todo dato que est fuera del intervalo [LI , LS] ser considerado como posible dato atpico,
anmaloo Outlier y corresponde a un dato que debera ser estudiado.
En este grfico hemos de observar que LS es menor que algunas observaciones; estas
observaciones corresponden a puntos atpicos. La media es mayor que la mediana y, por tanto,
es asimtrica hacia la derecha.
-
5/28/2018 Descript Iva
34/34
34-I
Grfico 1.14.2
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
23,35 23,4 23,45 23,5 23,55 23,6
Ejemplo.En el conjunto de datos, 23.39, 23.45, 23.47, 23.47, 23.50, 23.50, 23.58, el valor dela mediana es M=23.47, la media 23.48, el primer cuartil Q1=23.45, el tercer cuartil Q3=23.50
y los valores de los datos mximo y mnimo son respectivamente 23.39 y 23.58.
Los valores de las barreras son:
Q1-1.5(Q3-Q1)=23.375,
por tanto
LI=xmin=23.39.
Q3+1.5(Q3-Q1)=23.575,
por tanto
LS=23.575.
En consecuencia, el dato 23.58 es un valor atpico y se representa como el grfico 1.14.2.