minimos cuadrados
-
Upload
mirian-viveros -
Category
Documents
-
view
218 -
download
1
description
Transcript of minimos cuadrados
TRABAJO DE ESTADISTICA
Estudiantes
BLANCA SUSANA BRAVO PORTILLA
LIDA ROSERO
WILLIAM ERAZO
ANDRES LOPEZ
UNIVERSIDAD MINUTO DE DIOS
FACULTAD DE ADMINISTRACION EN SALUD OCUPACIONAL
PROGRAGRA ADMINISTRACION
MOCOA – COLOMBIA
2015
LINDON OSPINA – Docent
INTRODUCCIÓN
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información
con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la
distribución de datos se denomina medida o parámetro de tendencia central o de
centralización.
Es decir; Cuando se hace referencia únicamente a la posición de estos parámetros dentro
de la distribución, independientemente, de que ésta esté más o menos centrada, y se habla de
estas medidas como medidas de posición.
MINIMOS CUADRADOS 1
Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de
la optimización matemática, en la que, dados un conjunto de pares ordenados: variable
independiente, variable dependiente, y una familia de funciones, se intenta encontrar
la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor
ajuste"), de acuerdo con el criterio de mínimo error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las
ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los
correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados
promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por
gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el
residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un
gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de
mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria.
El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de
sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución
normal. También es importante que los datos a procesar estén bien escogidos, para que
permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en
particular, véase mínimos cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros
problemas de optimización pueden expresarse también en forma de mínimos cuadrados,
minimizando la energía o maximizando la entropía.
MEDIA ARITMÉTICA
1 Investigado en www.wikipedia .com
Es la medida de posición central más utilizada, la más conocida y la más sencilla de
calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo
cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de
uno de sus valores o a los valores extremos demasiado grandes o pequeños.
La media se define como la suma de todos los valores observados, dividido por el
número total de observaciones.
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa
cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con
muestras de la población todas las ecuaciones que se presenten a continuación serán
representativas para las muestras. La media aritmética para una muestra está determinada
como
Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi)
representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los
datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la
multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la
información; es decir,
Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número
de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las
frecuencias de cada clase.
Para entender mejor este concepto vamos a suponer que hemos tomado la edad de
5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su
interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30
años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los
puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización de estos
datos se representados en la tabla.
Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a
Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si a estos
mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3), tomando
como referencia cada uno de los valores individuales, obtendríamos que la media es igual a
Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años
aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la
exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos
inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores
desagrupados, aunque tiene algunos procedimientos para valores agrupados.
MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es
decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de
datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica
que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del
mismo. Para determinar la posición de la mediana se utiliza la fórmula
Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2,
5, 8, 10 y 13), la posición de la mediana sería:
Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie,
que equivale al número (8). Si por el contrario contamos con un conjunto de datos que
contiene un número par de observaciones, es necesario promediar los dos valores medios de la
serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8,
10, 13 y 15) y la posición de la mediana sería,
Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y
medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir
una mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaría
que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por
encima de este valor.
En conclusión la mediana nos indica el valor que separa los datos en dos fracciones
iguales con el cincuenta por ciento de los datos cada una. Para las muestras que cuentan con
un número impar de observaciones o datos, la mediana dará como resultado una de las
posiciones de la serie ordenada; mientras que para las muestras con un número par de
observaciones se debe promediar los valores de las dos posiciones centrales.
EJEMPLO DE LA MEDIANA:
Hallar la mediana de las siguientes edades.
17, 18, 20, 23, 30, 32, 40, 50,34
1. Se ordena de mayor a menor
2. Si se tiene un número impar la mediana seria el central
3. Pero si tiene un par se suman los dos centrales y se divide por dos
4. 17,18,20,23,30,32,34,40,50
5. Me= 30
LA MODA
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir,
si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2
quien sería la moda de los datos. Es posible que en algunas ocasiones se presente dos valores
con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo
que se conoce como multimodal.
En conclusión las Medidas de tendencia central, nos permiten identificar los valores más
representativos de los datos, de acuerdo a la manera como se tienden a concentrar.
La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría
cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el
contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las
cuales cuenta con el cincuenta por ciento de los datos. Por último la Moda nos indica el valor
que más se repite dentro de los datos.
EJEMPLO
Se realizó una encuesta en el barrio san Agustín del municipio de Mocoa en la escuela del
cabildo indígena kamsa biya. Se midieron a 35 alumnos para saber cuál era la estatura más
frecuente en los alumnos. Hallar la media, mediana y moda
1.48 1.50 1.47 1.46 1.45 1.52 1.53 1.50 1.47 1.46 1.45 1.48 1.48 1.50 1.50 1.53
1.53 1.47 1.54 1.55 1.56 1.50 1.47 1.46 1.45 1.44 1.43 1.44 1.45 1.51 1.48 1.53
1.40 1.42 1.42
Hallar la media.
X=1.40+1.42+1.42+1.43+1.44+1.44+1.45+1.45+1.45+1.46+1.46+1.46+1.47+
1.47+1.47+1.47+1.48+1.48+1.48+1.48+1.50+1.50+1.50+1.50+1.50+1.51+1.52+
1.53+1.53+1.53 +1.54+1.55+1.56
35
X=1.39
ESTATURA Frecuencia
1.40 1
1.42 2
1.43 1
1.44 2
1.45 3
1.46 3
1.47 4
1.48 4
1.50 5
1.51 1
1.52 1
1.53 3
1.54 1
1.55 1
1.56 1
Total 35
MEDIANA
1.40, 1.42, 1.42, 1.43, 1.44, 1.44, 1.45, 1.45+1.45+1.46+1.46+1.46+1.47+
1.47+1.47+1.47+1.48+1.48+1.48+1.48+1.50+1.50+1.50+1.50+1.50+1.51+1.52+
1.53+1.53+1.53 +1.54+1.55+1.56
LOS DATOS SE PUEDEN GRAFICAR
CUANTILES
Los cuantiles son medidas de posición que se determinan mediante un método que determina
la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.
Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en
intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un
número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella,
se puede dividir la distribución en cuatro, en diez o en cien partes.
Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles,
cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la
distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta
forma una extensión de la mediana.
Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):
u Q(u)
0.5 Mediana
0.25, 0.75 Cuartiles
0.1, ... , 0.99 Deciles
0.01, ..., 0.99 Centiles
CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la
mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%)
de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por
debajo del cual quedan las tres cuartas partes (75%) de los datos.
Datos Agrupados
Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de
datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una
tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos
agrupados es la siguiente:
k= 1, 2,3
Dónde:
Lk = Límite real inferior de la del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es
decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el
75% de las observaciones.
Fórmula de Q1, para series de Datos agrupados:
Dónde:
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor
valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son
mayores que la mediana y el 50% son menores.
Fórmula de Q2, para series de Datos agrupados:
Dónde:
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es
decir aquel valor de la variable que supera al 75% y es superado por el 25% de las
observaciones.
Fórmula de Q3, para series de Datos agrupados
Dónde:
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del
percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.
Para Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:
El primer cuartil:
Cuando n es par:
Cuando n es impar:
Para el tercer cuartil
Cuando n es par:
Cuando n es impar:
DECILES
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en
diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan
D1, D2,..., D9, que se leen primer decil, segundo decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.
Datos Agrupados
Para datos agrupados los deciles se calculan mediante la fórmula.
k= 1,2, 3,... 9
Dónde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra fórmula para calcular los deciles:
El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es
superado por el 60% de las observaciones.
El quinto decil corresponde a la mediana.
El noveno decil supera al 90% y es superado por el 10% restante.
Donde (para todos):
L1 = límite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3... Xn, se localiza mediante las siguientes
fórmulas:
Cuando n es par:
Cuando n es impar:
Siendo A el número del decil.
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden características tales como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes
porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el
conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,...,
percentil 99.
Datos Agrupados
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la
fórmula:
k= 1, 2,3,... 99
Dónde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra forma para calcular los percentiles es:
Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y
nueve por ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es
superado por el 40% de las observaciones.
El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:
Para los percentiles, cuando n es par:
Cuando n es impar:
Siendo A, el número del percentil.
Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el
percentil 50 y el tercer cuartil con el percentil 75.
3. EJEMPLO
Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla:
Salarios No. De fa
(I. De Clases) Empleados (f1)
200-299 85 85
300-299 90 175
400-499 120 295
500-599 70 365
600-699 62 427
700-800 36 463
Como son datos agrupados, se utiliza la fórmula
Siendo,
La posición del primer cuartil.
La posición del 7 decil.
La posición del percentil 30.
Entonces,
El primer cuartil:
115.5 – 85 = 30.75
Li = 300, Ic = 100, fi = 90
El 7 decil:
Posición:
324.1 – 295 = 29.1
Li = 500, fi = 70
El percentil 30
Posición:
138.9 – 85 = 53.9
fi = 90
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334;
que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los
empleados.
CONCLUSIÓN
Podemos concluir que este tipo de medidas nos permiten identificar y ubicar el punto (valor)
alrededor del cual se tienden a reunir los datos (“Punto central”). Estas medidas aplicadas a
las características de las unidades de una muestra se les denomina estimadores o estadígrafos;
mientras que aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la
población. Los principales métodos utilizados para ubicar el punto central son la media, la
mediana y la moda.
La estadística trata en primer lugar, de acumular la masa de datos numéricos provenientes
de la observación de multitud de fenómenos, procesándolos de forma razonable. Mediante la