ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue...

29
AN AN Á Á LISIS DE REGRESI LISIS DE REGRESI Ó Ó N LINEAL N LINEAL Varias partes tomadas de Julio H. Cole "Nociones de Regresión Lineal" en Enciclopedia Multimedia Virtual de Economía EMVI. http://eumed.net/cursecon/medir/index.htm

Transcript of ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue...

Page 1: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

ANANÁÁLISIS DE REGRESILISIS DE REGRESIÓÓN LINEALN LINEAL

Varias partes tomadas de

Julio H. Cole "Nociones de Regresión Lineal" en Enciclopedia Multimedia Virtual de Economía EMVI.http://eumed.net/cursecon/medir/index.htm

Page 2: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

El término “Regresión” fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911) quien se encontraba estudiando la relación entre la altura de los niños y la de sus padres.

Él encontró que, aunque padres altos solían a tener hijos altos y viceversa, había una tendencia de que las alturas de los niños convergieran hacia el promedio.

Galton afirmó entonces que había una tendencia de ““regresiregresióónn”” de las alturas hacia el promedio.

Claro que no lo puso de esa manera sino, con la soberbia de buenaristócrata inglés, dijo que había una tendencia de “regresiregresióón hacia n hacia la mediocridadla mediocridad”.

AnAnáálisis de Regresilisis de Regresióónn

Page 3: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

El objeto de un ananáálisis de regresilisis de regresióónn es investigar la relación estadística que existe entre una variable dependiente (Y)(Y) y una o más

variables independientes ( X( X11,, XX22,, XX33, , ……)). . Para poder realizar esta investigación, se debe postular una relacirelacióón funcionaln funcional entre las variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relacirelacióón linealn lineal.

Cuando solo existe una variable independiente, esto se reduce a Cuando solo existe una variable independiente, esto se reduce a una luna líínea rectanea recta:

Page 4: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Ejemploqq = a + b pp donde, por ejemplo, qq es la producción y pp el gasto

Recordamos que en la ecuación de la recta a es la ordenada al origen (donde la recta cruza al eje de las y) y b la pendiente

q

p

x x

x xx

Page 5: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

12119661043685750678707445462325

191162115

18518916014012511388

180175157145135118108988575

178165152144130116103948070

17515514014012011095907465

15214513713611510793847060

15013713512011010280796555

26024022020018016014012010080Ingreso familiar por semana, X, $

Gasto familiar por semana, Y, $

Totales, $

Si consideramos los siguientes datos tomados de 10 familias

Page 6: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Y ahora los graficamos. podemos ver que los gastos siguen una tendencia ¿cuál es ésta?

Ahora, lo que podemos buscar es si puede una recta ajustarse o ser una ajustarse o ser una buena aproximacibuena aproximacióónn a estas observaciones.

¿Cómo podemos hacer esto?

Page 7: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Volviendo al ejemplo de nuestros datos, tal vez podemos poner larecta en los valores máximos

Page 8: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

o tal vez podemos poner la recta en los valores mínimos

Page 9: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Vamos a usar un ejemplo interactivo para ver algunos conceptos que aclararemos más adelante

Ejemplo interactivo 1:

Regresión a "Ojo"

En este ejercicio nos dimos cuenta de que podemos ajustar diferentes rectas y algunas de ellas nos dan buenos resultados, como lo evidencia el parámetro que se llama en el ejercicio MSE, que es una medida del error en nuestra estimación.

Page 10: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Ejemplo interactivo 2:

Regresión de pares ordenados

En el ejercicio 2, pudimos ver que cada que vez que añadimos un punto, el programa calcula una recta y nos muestra las distancias entre los puntos y la recta.

De lo que hicimos en los ejercicios:

¿¿CCóómo afecta los resultados el que tengas algunos datos muy mo afecta los resultados el que tengas algunos datos muy separados de los demseparados de los demáás?s?

¿¿QuQuéé es lo que te indica que tu recta ajustada es un buen resultado?es lo que te indica que tu recta ajustada es un buen resultado?Es decir Es decir ¿¿ccóómo puedes saber qumo puedes saber quéé tan bien se ajustan los datos a una tan bien se ajustan los datos a una recta?recta?

Page 11: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

En el análisis de regresión, lo que queremos es encontrar la recta que mejor se “ajusta” a los datos observados. Para ello se emplean varios métodos, entre los cuales el más común es el denominado

MMÉÉTODO DE MTODO DE MÍÍNIMOS CUADRADOSNIMOS CUADRADOS..

Vamos ahora a la parte operativa del método.

El método de mmíínimos cuadradosnimos cuadrados se llama así porque obedece a encontrar la recta (en general se puede aplicar a cualquier curva) que proporcione las mínimas distancias entre dicha recta y los puntos u observaciones.

Page 12: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Estas distancias son las que se hicieron mse hicieron míínimas por el mnimas por el méétodotodo, aunque hay que notar que el método se llama “mínimos cuadrados” lo que induce a pensar que las distancias no son directas sino elevadas al cuadrado. La gráfica muestra un caso extremo en el que hay dos puntos que afectan nuestros resultados.

Page 13: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Las distancias a las que nos referimos se llaman residuos o errores y, como explicamos, no son directas sino elevadas al cuadrado. La gráfica muestra entonces qué es lo que estamos tratando de que sean mínimos.

errores cuadrados

Page 14: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

En muchos casos vamos a necesitar estudiar el comportamiento entre una variable dependiente y dos o más variables independientes y comprobar la posible existencia de alguna relación (CorrelaciCorrelacióónn) entre ellas.

Para resolver esto, el primer paso es desplegarlas en forma de plano cartesiano. Al poner todos nuestros datos como puntos en un diagrama o gráfica, a éste se le llama diagrama de dispersidiagrama de dispersióónn y nos ayuda a visualizar preliminarmente si existe algún tipo de correlación.

Page 15: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Por ejemplo, en el siguiente diagrama podemos observar que los pares ordenados correspondientes a las dos variables, o diagrama de dispersión, siguen una aparente tendencia lineal, o sea que parecen seguir una relación creciente lineal.

Page 16: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Hay que enfatizar que lo primero que se requiere es interpretar si la relación que guardan las variables se aproxima a una línea recta, o bien parecen seguir otro tipo de tendencia.

Por ejemplo, la gráfica siguiente nos muestra unos datos que siguen una relación no lineal, a la cual podríamos haber intentado ajustar una línea recta de manera errónea.

Page 17: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Entonces los pasos a seguir lo podemos las siguientes preguntas:

1. La tendencia que siguen los datos 1. La tendencia que siguen los datos ¿¿Se aproxima a una lSe aproxima a una líínea nea recta?recta?

2. 2. ¿¿CuCuáál es la recta que mejor se ajusta a nuestras l es la recta que mejor se ajusta a nuestras observaciones?observaciones?

3. 3. ¿¿QuQuéé tan buena es la aproximacitan buena es la aproximacióón de la recta escogida a los n de la recta escogida a los datos?datos?

Las dos primeras preguntas se pueden contestar por medio de un ananáálisis de regresilisis de regresióón linealn lineal usando, como dijimos, el método de “ajuste por majuste por míínimos cuadradosnimos cuadrados”.

La última pregunta se puede responder por medio del coeficiente coeficiente de correlacide correlacióón y n y por medio del error cuadrdel error cuadráático mediotico medio el cual veremos más adelante.

Page 18: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Para aclarar el procedimiento matemático vamos a seguir un ejemplo sencillo. Veamos estos datos de las ventas como función de clientes previos en diferentes puntos de venta

Punto de Venta Clientes Previos(X)

Ventas(Y)

A 2 2B 3 3C 0 2D 4 8

E 5 10F 1 2G 6 15H 3 5I 7 18J 5 10

Total 36 75

Page 19: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Diagrama de dispersión (gráfica XY)

Preguntas:

¿Las ventas están relacionadas con el número de clientes previos?¿Cuál es la relación?

76543210

20

15

10

5

0

Clientes Previos

Ven

tas

Ventas vs Clientes Previos

Page 20: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

EcuacionesEcuaciones parapara estimarestimar la recta de la recta de mejormejor ajusteajusteporpor mediomedio de de mmíínimosnimos cuadradoscuadrados

Empezamos con la ecuación de la recta que buscamos que tiene la forma:

El método de mínimos cuadrados se basa en encontrar la la derivadaderivada de los errores contra los parámetros que se buscan ((aa y y bb) ) e e igualarigualar a ceroa cero. Estonos proporciona dos ecuaciones llamadas normales, que hay que resolver:

y a bx= +

1 1

n n

i ii i

y na b x= =

= +∑ ∑

2

1 1 1

n n n

i i i ii i i

x y a x b x= = =

= +∑ ∑ ∑

Page 21: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Primero definimos

La solución de las ecuaciones anteriores nos va a llevar a otras ecuacionescon las que podemos calcular los valores buscados a y b .

2 2YYS y ny= −∑ XYS xy nx y= − ⋅∑

2 2XXS x nx= −∑

Page 22: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

22 var( )YYS y n y n y= − =∑

cov( , )XYS xy sx y x x y= − =∑

22 var( )XXS x nx n x= − =∑

Que no son otra cosa que las varianzaslas varianzas en en YY y en y en XX asasíí como la como la covarianzacovarianzade de XY, XY, pero sin normalizarpero sin normalizar (es decir sin dividir por N).(es decir sin dividir por N).

Page 23: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Con estas definiciones los coeficientes que buscamos simplementequedan definidos como:

XY

XX

Sb

S= a y bx= −

¡Estas son las ecuaciones que buscamos!

Ya que con estos valores podemos escribir nuestra ecuación:

y a bx= +

Page 24: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Calculando la ecuación de regresión para el ejemplo

Puntode

Venta

ClientesPrevios

(X)

Ventas(Y)

X2 Y2 XY

A 2 2 4 4 4B 3 3 9 9 9C 0 2 0 4 0D 4 8 16 64 32E 5 10 25 100 50F 1 2 1 4 2G 6 15 36 225 90H 3 5 9 25 15I 7 18 49 324 126J 5 10 25 100 50

Total 36 75 174 859 378

3.6x = 7.5y =

Page 25: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

La pendientependiente de la recta (bb) , o CoeficienteCoeficiente de de RegresiRegresióónn, esigual a:

b = [ 378 – (3.6) (7.5) ] / [174 – 10(3.6)2 ]

b = 2.432 (ventas por cliente)

La ordenadaordenada al al origenorigen de la recta (aa) es:

a = (7.5) – 2.432 (3.6)a = -1.26

Por lo tanto la la ecuaciecuacióónn de la recta de de la recta de regresiregresióónn para el ejemploes:

y = -1.26 + 2.432 x

2 2XY

XX

xy nx y Sb

Sx nx

− ⋅= =

−∑∑

a y bx= −

Page 26: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Ahora podemos obtener una recta que se ajusta a los datos(observaciones).

76543210

20

15

10

5

0

Clientes Previos

Ven

tas

Ventas vs Clientes Previos

yy = -1.26 + 2.432 xx

Page 27: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

¿Cómo podemos usar estos resultados?

Una forma es hacer “predicciones” para ciertos valores

Puntode

Venta

ClientesPrevios

(X)

Ventas(Y)

PredicciPrediccióónn( Y ( Y ′′ ))

Error (e)Error (e)e=( Ye=( Y--YY′′ ))

e e 22

A 2 2 +3.604 -1.604 2.573

B 3 3 +6.036 -3.036 9.217

C 0 2 -1.260 +3.260 10.628

D 4 8 +8.468 -0.468 0.219

E 5 10 +10.900 -0.900 0.810

F 1 2 +1.172 +0.826 0.686

G 6 15 +13.332 +1.668 2.782

H 3 5 +6.036 -1.036 1.073

I 7 18 +15.764 +2.236 5.000

J 5 10 +10.900 -0.900 0.810

Total 36 75 0.0 33.80

Page 28: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

Notar que

Σ (y - y′) = Σ (e) = 0.0= 0.0 (esto siempre se cumple)

Σ e 2 = error o RSSRSS = 33.8

Este también se puede calcular como:

(residual sum of squares)

Esto se llama Error Error CuadrCuadrááticotico o Suma de Suma de ResiduosResiduos CuadradosCuadrados..

XYYY bSSRSS −=

Page 29: ANÁLISIS DE REGRESIÓN LINEAL - …ramon/EstInf/Clase17.pdf · El término “Regresión”fue empleado por primera vez por Sir Francis Galton (pionero de la estadística, 1822-1911)

El Error El Error CuadrCuadrááticotico MedioMedio (MSE, o Mean Square ErrorMSE, o Mean Square Error en lasaplicaciones) no es otra cosa sino el el promediopromedio de este valor (sólo lo dividimos entre N).

La RaLa Raíízz CuadrCuadrááticatica MediaMedia (RMS, o Root Mean SquareRMS, o Root Mean Square en lasaplicaciones) no es otra cosa sino la la raraíízz cuadradacuadrada de MSE.de MSE.

El Error El Error EstEstáándarndar es la raíz cuadrática media pero ajustada por el número de coeficientes (dividida entre n-2).