Regrecion y correlacion

14

Click here to load reader

Transcript of Regrecion y correlacion

Page 1: Regrecion y correlacion

Introducción

Hemos trabajado con una sola variable aleatoria es decir unidimensional,

conoceremos como trabajar simultáneamente dos o más variables con el objetivo

de ver si existe relación

Entre ellas y si existe relación entre estos pares de variables (constituye pares

ordenados) esta posible relación o asociación lo mide la regresión y la correlación

se busca detectar la posible relación entre la variable y la diferencia en que la

refracción mide en forma funcional, a través de una ecuación, la posible relación

entre las variables y predecir una de ellas como (variables dependientes) y en

función de la otra (variable independiente)

La regresión podemos expresar funcionalmente, mediante una ecuación, la

relación entre las variables.

La correlación se dirige solo a medir la intensidad o fuerza con que están

relacionadas linealmente las variables. Si se trata de dos variables, la regresión y

la correlación es simples; si se analizan más de dos, es regresión y

correlaciónmúltiple.

Regresión y correlaciónsimple de una población bivariante (bidimensional) es la

que contiene dos medidas en cada componente elemental.

Lo importante al analizar los datos bivariantes o las series bidimensionales es

descubrir y medir la posible relación entre las variables y determinar cómovarían

juntas las variables.

Page 2: Regrecion y correlacion

Regresión lineal simple

El objetivo principal del análisis de la regresión lineal es establecer una relación

funcional entre dos variables relacionadas, tomando datos muéstrales (aleatorios),

que constituye buenos estimadores de la correspondiente relación poblacional.

Una vez que se ha establecido cuantitativamente esta relación (mediante la

correspondiente ecuación), es posible predecir o estimar el valor de una de las

variables (la dependiente) en función de la otra independiente. Como la variable

cuyo valor se estima se denomina variable dependiente y la asignaremos con la

letra Y; entonces que la variable conocida o variable de entrada, es la variable

independiente, X.

Calculo de la ecuación de regresión

Recolectada la serie bidimensional, que son pares de datos bivariados, estos se

llevan a un sistema de ejes coordenadas; la variable independiente, X se escribe

el eje de las abscisas y la variable dependiente en el eje las coordenas. Al

conjunto de puntos (x, y) que aparece en la grafica se llama “diagrama de

dispersión” de acuerdo a las formas que tomen dicho diagrama así será la función

(ecuación) que se utilizara, de tal forma que describa adecuadamente la relación

entre las variables. Ejemplos diversas relaciones, denominadas funciones o

ecuaciones de predicción.

Yc = a + bx (ecuación de la línea recta)

Yc = a+bx + cx2 (ecuación 2° o cuadratica)

Yc = abx (ecuación exponencial)

Yc = axb(ecuación potencial)

Se hace primero la línea recta

Ejemplo: se desea probar un determinado abono químico en la fertilización de una

determinada parcela cultiva de café.los resultados obtenidos se presentan donde

X representa aplicaciones de abono en arrobas y representa la producción en

sacos de 46 kilogramos.

Xi 1.0 1.5 2.0 3.0 2.5 2.5 3.5 4.0 4.5 4.5 5.0 6.0 6.5 8.0 7.5

Yi 3.0 4.0 3.0 5.0 4.0 5.0 6.0 6.0 6.5 7.0 7.0 8.0 8.0 10 9.0

Se hace primero la grafica para ver la forma que toma el diagrama de dispersión:

Page 3: Regrecion y correlacion

10

9 x

8 x yc= a + bx

7 p2

6 x

5 x

4 x

3 x

2 x

1 p1 x

0 a

1 2 3 4 5 6 7 8 9 x

La forma que toma el diagrama de dispersión (nubes de puntos de la grafica),

sugiere que se puede aplicar una función lineal (línea recta)

Métodos para calcular la ecuación de regresión; aquí utilizaremos el “método de

mínimos cuadrados” por ser matemáticamente más exacto. Supongamos que

Yc = a + bx es la ecuación de la línea recta; donde

Yc representa el valor teorico de la Yi o el valor estimado Y, que corresponde a un

valor particular de X . El criterio de mínimo cuadros requiere que encontremos las

constantes “a” y “b” tales que (yi-yc)2 sea un mínimo (es decir, tiende a

cero).podemos comprobar que la suma de esas diferencias, sin elevarse al

cuadrado, se anula, es decir, (yi-yc) =0. Esto nos asegura también que la línea

que estamos ajustando a dicho valores es la de mejor ajustes. Las constantes”a” y

“b” se llaman coeficientes de regresión:

“A” es la intercesión con el eje de las ordenadas Y

“B” es la pendiente de la línea de mejor ajuste es decir, la pendiente o coeficiente

de X, indica un cambio en el valor de Y, causado por el cambio en una unidad de

X.

Calcular “a” y “b” con la condición (yi-yc)2de ser un mínimo, sustituimos en esta

relación el valor de Yc = a + bx, y tenemos entonces (Yi- a - bx)2; la condición de

minimizar las derivaciones de los valores reales de Yi con respecto a la línea

teorica, basta con derivar con respecto a “a” y con respecto a “b” e igualar a cero

Page 4: Regrecion y correlacion

las derivadas; las ecuaciones que resulten serian capases de resolverlas, de

encontrar los valores de “a”y de “b” los cuales minimizaran dichas desviaciones.

Sea: Z= (Yi – a- bx)2

Derivado con respecto a la constante a tenemos

Dz

= 2 (yi- a - bx)(-1)=0 Dz Operando tenemos

-2 yi + 2na + 2b x = 0

-2 yi =-2na - 2 x

Yi= na + b x (1)

Derivando con respecto ab

Dz

= 2 (yi- a - bx)(-1)=0 Dz

Operando tenemos

-2 xyi + 2a x + 2b x2 = 0

-2xyi =-2a x – 2b x2

xy = a x + b x2 (2)

Resolviendo simultáneamente (1) y (2) encontramos los valores de a y b

Al sistema

Y= na + b x (1)

xy = a x + b x2 (2)

Para estas ecuaciones necesitas calcular las columnas que se presentan en el

siguiente cuadro:

Page 5: Regrecion y correlacion

Xi Yi Xy X 2

1.5 1.5 2.0 3.0 2.5 2.5 3.5 4.0 4.5 4.5 5.0 6.0 6.5 8.0 7.5

3 4 3 5 4 5 6 6

6.5 7 7 8 8 10 9

3 6 6 15 10

12.5 21. 24

29.25 31.5 35 48 52 80

67.5

1 2.25

4 9

6.25 6.25

12.25 16

20.25 20.25

25 36

42.25 64

56.25

Total 62. 91.5 440.75 321

Sustituir en la ecuaciones normales

Y= na + b x

xy = a x + b x2

91.5 =15 a +62 b

440.75 = 62 a + 321 b

Resolviendo el sistema por el método de suma y resta eleminamos la constante a,

multiplicando la primera por 62 y la segunda por 15

91.5 =15 a +62 b (-62)

440.75 = 62 a + 321 b (15)

-5673 = 930 a -3844b

6,611.25 = 930 a +4815

938.75 = +971b

938.75 B= = 0.97 971 Para encontrar el valor de a sustituimos en el valor de b en cualquier ecuación

91.5 = 15 a +62(0.97)

91.5 = 15 a + 60

31.36 = 15 a

Page 6: Regrecion y correlacion

31.36 A= =2.09 15 La ecuación de regresión que así Yc = 2.09 + 0.97 La línea recta que aparece cruzando el diagrama de dispersión es trazo Calculando dos puntos, p1 (1,3) y p2 (5,7) para la grafica. Con la ecuación calculada, podemos hacer estimaciones de Y y de X

Regresióncurvilínea Caso parabólico (función de segundo grado) Calculamos la ecuación de regresión parea la siguiente información permanece en un sistema químico que reacción, después de x minutos.

Xi 1.0 1.2 1.5 2.0 2.5 2.7 3.0 3.2 3.5 4.0 4.5 5.0 5.2 5.5 6.0

Yi 34 32 26 18 18 12 14 12 15 13 18 16 22 26 35

Se llevan los datos a la grafica para ver la forma que toma el diagrama de

dispersión

Yi

35

30

25

20

15

10

5

0

1 2 3 4 5 6 xi

El diagrama de dispersión toma la forma de una parábola, por lo tanto ajustaremos

una ecuación de segundo grado:Yc = a+bx + cx2 para encontrar las ecuaciones

normales, por el método de mínimos cuadrados. Es decir (yi-yc)2sustituyendo en

yc por su valor se tiene (Yi – a- bx- cx2 )2luego se derivaa “ a,b,c” igualando las

derivas a cero y se llegara a las ecuaciones siguientes.

x x

x x

x

x

x

x

x

x

x

X x x

Page 7: Regrecion y correlacion

Y= na + b x + c X2 (1)

xy = a x + b x2 + c X3(2)

x2 y = a x2 + b X 3 + c X 4 (3)

Sustituimos en el sistema:

Y= na + b x + c X2 (1)

xy = a x + b x2 + c X 3 (2)

x2 y = a x2 + b X 3 + c X 4 (3)

311 = 15a + 50.8b + 208.26c

1038.1 = 50.8a +208.26 + 955.162c

4457.07 = 208.26a + 955.162b + 4685.55c

Sustituyendo la 1 y 2 para eliminar la constante a

311 = 15a + 50.8b + 208.26c (-50.8

1038.1 = 50.8a +208.26 + 955.162c (15

-15798.8 = -762 a – 2580.64b – 10579.608c

15571.5 = 762 a + 3123.90b + 14327.430c

-227.3 = + 543.26b + 3747.822c (4)

Resolviendo (1)y (3)

311 = 15a + 50.8b + 208.26c (-208.26

4457.07 = 208.26a + 955.162b + 4685.55c (15

-2087.19 = +3747.822b + 26911.0224c (5)

Simultáneamente (4) y (5)

-227.3 = 543.26b + 3747.822c (-3747.822

-2087.19 = 3747.822b + 26911.0224c (543.26

1985766.779 = + 573512.28c

Despejando c, tenemos

Page 8: Regrecion y correlacion

1985766.779 C= = 3.46 573512.28c Sustituyendo este valor en (4)

-227.3 = 543.26b + 3747.822c (3.46)

-227.3 = 543.26b + 12967.46412

Despejando b

-13194.76412 B= = -24.29 543.26 Despejando para a en la (1) 311 = 15a + 50.8(-24.29) + 208.26(3.46)

311 = 15 a – 1233.932 + 720.5796

Despejando

824.3524 A = = 54.96 15 Sustituyendo los valores encontrados de a, b, c, en la ecuación Yc = a+bx + cx2

Yc = 54.96 – 24.29x + 3.46x2

Que es la ecuación de regresión pedida

Caso exponencial : Yc = abx

Caso exponencial se utiliza cuando se desea calcular especialmente tasas de crecimiento. Esto implica tomar la variable tiempo como independiente; sin embargo, puede considerarse cualquier otra variable y ajustarla a la función sin hacer referencia a tasas de crecimiento.

Se le ajusta una función exponencial Yc = abx. . aplicando logaritmos a la función

Yc = abx tenemos

Log Yc = log a + x log b

Como en los casos anteriores interesa minimizar la expresión

Z = ( ( log Yi – log Yc)2

Page 9: Regrecion y correlacion

Sustituyendo Yc por su valor, tenemos

Z = ( ( log Yi – log a – X log b)2

Derivar con respecto a a, b e igualar a cero las derivadas, llegamos a las

siguientes ecuaciones normales:

log Yi = nlog a+ log b xi (1)

x. log Yi = log a xi+ log b xi2 ( 2)

Caso exponencial y tiempo como variable independiente

Esta se utiliza cundo se desea estudiar el comportamiento de una variable

económico, social o de cualquier naturaleza, en función del tiempo, tenemos una

serie histórica o cronológica. Esta variable puede acusar una determinada

tendencia en el tiempo. La cual se resuelve asiendo uso de logaritmo exponencial

Yc = abx aplicamos logaritmo

Log Yc = log a + t log b

Las ecuaciones normales para encontrar a y b son

log Y = log a+ t log b t (1)

t log Y = log a t + log b t2 ( 2)

Función exponencial o curva geométrica Yc = axb.

A esta función Yc = axb se le aplicar logaritmo, tenemos

Log Yc = log a + b log x la expresión

( log Yi – log Yc)2 es un mínimo; sustituyendo en esta expresiónLog Yc por su

valor, tenemos : ( log Yi – log a – b log x)2 es un mínimo. Al derivar tenemos al

recpesto a “ay b “ e igualar a cero las derivadas, obtenemos las ecuaciones

normales.

log Y = n log a+ b log x (1)

logx log Y = log a log x+ b (log x )2 ( 2)

Page 10: Regrecion y correlacion

Desviación estándar de regresión

La desviación estándar de regresión, se llama también “error estándar de

estimación” se define como la desviación típica de las desviaciones de los valores

de yi con respecto a yc en formula queda así

yx = (yi –yc)2

N

Se puede observar que es similar a la desviación típica o estándar de xi vista

anterior

= (xi –xc)2

N

En el cálculo de yx, yc sustituye a X. el uso de yc en lugar de X proviene de que se

quiere utilizar la línea teórica como centro o punto de referencia, en vez de usa la

media aritmética; de esta forma se mide la dispersión de los valores yi con

respecto a la línea teórica de regresión. Entre más pequeños son los valores de

yx mas cércanos están los valores originales Yi con respecto a la línea recta, y por

lo tanto menos dispersión hay entre los valores de yi con respecto yc es decir las

estimaciones que se hagan a la variable independiente Y, al variar X . en el caso

hipotético de que yi = yc el valor de el error estándar de estimación, seria cero ,

donde los valores yi caen en la línea teóricos de regrecion.

Yi= a + bx yc = a-bx

Regresión positiva regresión negativa

Page 11: Regrecion y correlacion

Entre más se alejan los puntos de yi con respecto a yc mas dispersiónpresenta el grafico y menos útiles será la ecuación de regresión para efectos de estimación de la variable dependiente Y

Otra fórmula para calcular el error de regresión estándar:

yx = y2 –a y-b xy

n

Coeficiente de correlación

La correlación mide la intensidad o la fuerza con que están relacionadas con la

variables, y será medida por el coeficiente “r” de correlación

Tipos de correlación

Atendiendo el numerador variables estudiadas, la correlación puede ser :

a) correlación simple:

cuando se estudia el grado de asociación o dependencia entre dos variables.

b) correlaciónmúltiple:

cuando se estudia el grado de asociación que puede existir entre tres o más

variables , una de ella dependiente y el resto independientes.

C) correlación parcial:

En el caso de correlaciónmúltiple es la cuantificación del grado de asociación neta

entre dos variables, y una vez eliminada estadísticamente la influencia de las otras

variables independientes.

Atendiendo la naturaleza de la función y según el tipo de ecuación de regresión, la

correlaciónpuede ser rectilínea, parabólica, exponencial, potencial.

Atendiendo la relación de las variables

a) correlación directa o positiva: cuando por aumentos en la variable dependiente;

o, si disminuye la variable independiente, ocurren disminuciones en la variable

dependiente.

b) correlación inversa o negativa: cuando por aumentos en la variable

independiente ocurren disminuciones en la variable dependiente: o si disminuye la

variable independiente, ocurren aumentos en la variable dependiente.

Page 12: Regrecion y correlacion

Calculo del coeficiente de correlación “r”

Estudiaremos tres métodos para calcular el valor del coeficiente r de correlación

(1)en términos de variable (2) en términos de varianza y (3) con el método

producto- memento de k pesaron.

Cálculos de r en términos de variaciones

Calcular la media aritmética de yi (yi= y/n)la obtenemos sin tomar en cuenta los

valores de x. la yc que representa la línea de regresión de los valores de yc = a

+bx, la obtenemos con la influencia de los valores de x si los valores de yi están

relacionados con los valore de x en algún grado; las desviaciones de los valores

de y con respecto a su media y debe ser reducido por una magnitud debida a la

introducción de los valores de x al calcular los valores de la línea teórica yc

Véase la grafica que representa el diagrama de dispersión total (yi- y

La grafica se ha trazado, entre los puntos (x,y) que constituyen el diagrama de dispersión, la línea teórica Yc de la ecuación de regresión y la línea que representa la media aritmética Y de Yi si levantamos una perpendicular desde un valor cualquiera de Xi la desviación total de Yi con respecto a su media Y se divide en dos desviación no explicada y la deviación explicada.

Page 13: Regrecion y correlacion

desviación total = desviación no explicada + deviación explicada.

(Yi -Y) = (Yi- Yc) + (Yc-Y)

Sumatoria, en la expresión y elevamos al cuadrado

(Yi -Y)2 = (Yi- Yc)2 + (Yc-Y)2

La variación total queda dividida en dos componentes : a) variación en Yc con respecto a su media Y, y se llama variación explicada; el segundo componente se refiere a otros factores que pueden influir en el comportamiento de la variable dependiente.

El coeficiente de correlación expresa en función de estas variaciones:

variación explicada r= o simbólicamente Variación total

r= (Yc-Y)2

(Yi -Y)2 Al cuadrado de r se le llama “coeficiente de determinación” o sea :

(Yc-Y)2 R2 =

(Yi -Y)2 Cálculos de r en términos de varianza.

El coeficiente de correlación r puede ser también expresado en términos de varianza con solo dividir por n en la expresión:

r= (Yc-Y)2 quedando así

(Yi -Y)2

r= (Yc-Y)2 n (Yi -Y)2 N

Page 14: Regrecion y correlacion

variación explicada r = Variación total

r= (Yc-Y)2

(Yi -Y)2

Calculo del coeficiente de correlación por el método producto – memento de Karl Pearson.

Karl Pearson. Llego a la siguiente formula abreviada para calcular el coeficiente “r” de correlación:

n xy – ( x )( y) r =

n x 2 – ( x )2 n y2- ( y)2

Regresión y correlación para datos agrupados

Hemos calculado regresión y correlación para un número pequeño de pares de

datos ( pequeñas series bidimensionales), pero si tenemos cincuenta o mas pares

de datos, calcular regresión y correlaciónsería demasiado trabajoso y nos llevaría

demasiado tiempo. Para no trabajar en las series bidimensionales simples se ha

ideado recursos abreviados para calcular regresión y correlación. Se agrupan los

valores de las variables en clase y frecuencias tal como hisimos cuando tratamos

el tema de transformar series simples en distribuciones de clases y frecuencias