Modlin General Iz 1

download Modlin General Iz 1

of 28

Transcript of Modlin General Iz 1

  • 7/24/2019 Modlin General Iz 1

    1/28

    MTODOS ECONOMTRICOS I

    1 INTRODUCCIN

    1.1 VARIABLES CATEGRICAS

    Variables de un nmero limitado de valores o categoras, la diferencia con las variables continuas es que staspueden tomar infinitos valores.

    Tipos de variables consideradas como categricas

    La mayora de observaciones en ciencias sociales se miden categricamente tales como:

    Nacimientos Casamientos Escolaridad Empleo Ocupacin Migracin Divorcio Muerte

    Cuando las variables continuas son tratadas como variables categricas, se le dice categorizacin odiscret izacinde la variable continua.

    Ejemplo:

    Variable continua: edadCategorizaciones:

    edad laboral / edad no laboral; niez / adolescencia / juventud / adultez / adulto mayor; clasificada tambin cada cinco aos; etc.

    Variable continua: educacinCategorizacin:

    primaria / secundaria / superior / postgrado

    Razones para estudiar una variable continua como variable categrica Su relevancia para el modelo terico

    Cuantitativa

    Cualitativa

    Continua

    Discreta

    Nominal

    Ordinal

    Categrica

    2 categoras = Binaria

    3 o ms categoras = Categrica

  • 7/24/2019 Modlin General Iz 1

    2/28

    Precisin en su medicin Los valores de la variable categrica se repiten de una manera considerable en la muestra Las categricas son ms importantes como variables respuestas que como variables explicativas(Powers y Xie 1999, pg. 2-3)

    Nombres de la variable en estudio Dependiente Salida Endgena Regresiva Explicada Respu esta (Tukey 1962)

    Distintos nombres de las otras variables: Independiente Entrada Exgena Regresora Explicativa Predeterminada Es tmul o (Tuk ey 1962)

    Utilizadas para explicar la variacin de la variable dependiente, tal que la variable dependiente es explicadapor, dependiente de, es una funcin de variables independientes en un mo delo estadstic o del t iporegresin.

    Modelo estadstico del tipo regresin: modelos que predicen el valor esperado o alguna otracaracterst ic a de la vari able dep endi entecomo una funcin de regresin de variables independientes.Similar al modelo lineal clsico, en la prediccin condicional de medias se usa el trmino regresin.

    Las investigaciones para analizar datos categricos tienen ms de 20 aos. La disponibilidad de software

    hace posible este avance.

    1.2 DOS FILOSOFAS DE DATOS CATEGRICOS

    Uno de los motivos para hacer difcil la consolidacin de los modelos estadsticos para datos categricos es laexistencia de dos filosofas acerca de la naturaleza de los datos categricos.

    1.2.1 Aproximacin transformacional

    Aproximacin Es tadst ic aoTransformacional

    Variables son inherentemente categricasy transformndolas se obtienen modelos

    Aproximacin de VariableLatenteo Economtr ic a

    Variables categricas son conceptualmentecontinuas, observadas o medidas comocategricas.

  • 7/24/2019 Modlin General Iz 1

    3/28

    En la aproximacin transformacional (o apro ximacin est adsti ca), la data categrica es consideradainherentemente categrica y debera modelarse como tal. El enfoque es estimar los parmetros de la poblacincorrespondientes a la muestra. No se hace mencin a variables no observadas.

    En esta aproximacin, la modelacin estadstica significa que el valor esperado de la variable dependientecategrica (luego de una transformacin), se expresa como una funcin lineal de las variables independientes

    ..var.var

    indepdefuncincategrica

    edependientE

    ..var.var

    indepdelinealfuncincategrica

    edependientEg

    La funcin de regresin no es lineal dado que la variable categrica es la variable dependiente.En este caso, el problema de no linealidad es manejado a travs de funciones no lineales que transforman elvalor esperado de la variable categrica en una funcin lineal de las variables independientes, tales funcionesson conocidas como funcin l ink.

    1.2.2 Aproximacin variable latente

    En la aproxim acin variable latente (o aprox imacin eco nomtri ca) se asume que una variable continualatente o no observada subyace a una variable categrica observada.Cuando la variable latente cr uza un lmit e (o umbra l) la variable categrica asume un valor diferente. Lasvariables categricas son una obs ervacin parcia lde las variables continuas.

    Se pueden inferir de valores categricos observados slo los intervalos dentro de los cuales cae la variablelatente, no as los valores reales de ellos. Por esa razn, esta aproximacin denomina a las variablescategricas como variable dependiente l imitada. (revisar Maddala 1983).

    MLTIPLES INTERPRETACIONES SIMILARES METODOLOGAS

  • 7/24/2019 Modlin General Iz 1

    4/28

    En esta aproximacin, el investigador se interesa ms en cmo las variables independientes afectan la variablecontinua latente (llamado anlisis estructural) y menos en cmo las variables independientes afectan la variable

    categrica observada.

    VARIABLE CATEGRICA

    Representa

    VARIABLE LATENTE

    No observable

    Variable binaria Propensin

    Admisin a universidad Calificaciones

    Si las calificaciones exceden un umbral,

    ingresan, si no exceden el umbral, noingresan

    Eleccin real de un cliente/individuos Diferencia entre costo y beneficio de unaalternativa de eleccin hecha por elcliente

    Participacin de mujeres en el mercadolaboral

    Verosimilitud de admisin o departicipacin en la fuerza laboral

    Decisin de participar y estatus departicipacin

    Verosimilitud de admisin o departicipacin en la fuerza laboral

    Muerte o no de un insecto por veneno Tolerancia al nivel de dosis de unamedicina o insecticida

    Variable latenteha sido extendida a variables categricas latentes

    Ejercicio: Investigar los trminos la tent tra it m odel; la tent class model

    MLTIPLES INTERPRETACIONES SIMILARES METODOLOGAS

  • 7/24/2019 Modlin General Iz 1

    5/28

    Ejercicio: Investigar autores y tipos de estudios en el tema.

    Sugerencia de investigacin: Ms adelante, con los dos enfoques investigarExisten mtodos similares a ambos enfoques?Cules son similares y cules diferentes?Existen combinacin de enfoques para ver el mismo problema?(Ref. Powers pg. 13)

    oestocsticlestructuraObservado

    lestructuraparte

    laenlicado

    noaleatorio

    componente

    ntesindependie

    yedependient

    entrerelacin

    edependient

    lade

    realesvalores

    exp.var

    .var

    .var

    ocurrenciala

    sujetaestquelaa

    breincertidum

    noise

    medidade

    errores

    omitidos

    lesestructura

    factores

    oestocstic

    Interpretacin de la regresin qu hace la regresin a los datos

    Powers propone:

    a. Causalidad: observado = mecanismo verdadero + disturbiob. Prediccin: observado = predictado + disturbioc. Descripcin: observado = resumen + disturbio

    a. Representa el mecanismo causal verdadero que genera la data.Meta: especificar un modelo que revele el mecanismo de generacin de la data (Modelo CausalVerdadero). Lo ms cercano posible a un modelo determinstico.

    b. Meta: producir predicciones de la respuesta tiles para nueva data, dada una relacin entre variablesexplicativas y var. respuesta.

    c. Meta: resumir los aspectos bsicos de la data sin distorsionarla

    Notacin:

    Yresumen ajustado o fitted

    Yresumen estadstico o estimador

    Ley de parsimonia:

    Si 2 modelos explican igualmente los hechos observados, el modelo ms simple es preferible hastaque nuevas evidencias muestren lo contrario.

  • 7/24/2019 Modlin General Iz 1

    6/28

    Accuracy (exactitud, precisin):En este caso, mxima informacin con mnimos errores asociados con los residuales.

    1.3 Dificultad de consolidacin

    Hay numerosas contribuciones tericas de investigadores de reas tan diversas como estadstica

    bioestadstica, economa, psicologa, sociologa, etc., el origen multidisciplinario de los mtodos ha determinadoel desarrollo de

    Es as que las diversas aplicaciones y terminologas en las distintas reas del conocimiento hace difcilsintetizar y consolidar las tcnicas estadsticas actualmente disponibles para el tratamiento de variablescategricas.

    1.4 ORGENES DE LOS MODELOS LINEALES GENERALIZADOS

    El siguiente repaso de las contribuciones ayudar a entender mejor los esfuerzos con el fin de consolidar losmodelos para datos categricos (fuente: James K. Lindsey 1997, P. McCullagh, J.A. Nelder 19xx)

    En 1805, Legendre propuso estimar los parmetros beta de un modelo lineal minimizando la suma decuadrados de los residuales.(P. McCullagh, J.A. Nelder pp.9)

    En 1809, Gauss introdujo la distribucin normal con media cero y varianza constante para los errores,en un texto de astronoma. (P. McCullagh, J.A. Nelder pp.9)

    En 1823, Gauss, en su Theoria Combinationis, abandon la suposicin normal a favor de la suposicinde constancia ms dbil de slo la varianza. Mostr que los estimadores de beta obtenida minimizandoel criterio de mnimos cuadrados, tiene mnima varianza entre la clase de los estimadores insesgados.(P. McCullagh, J.A. Nelder pp.9)

    Nelder y Wedderburn (1972), otorgaron el nombre de Modelos Lineales Generalizados, mostrando quela linealidad puede utilizarse para de alguna forma unificar diversas tcnicas estadsticas.

    Wedderburn (1974), extendi tal suposicin ms dbil hacia los modelos lineales generalizados,utilizando el concepto de quasi-verosimilitud.

    Recin en 1974, Wedderburn, realiz la extensin de la suposicin dbil hacia modelos linealesgeneralizados, utilizando el concepto de quasi-verosimilitud. (Cap. 9 P. McCullagh, J.A. Nelder)

    En 1919, Fisher investig en el rea de agricultura y en el transcurso de 10 aos, estableci losfundamentos de los diseos de experimentos. F. Yates continu con la investigacin. (P. McCullagh,J.A. Nelder pp.10)

    Distintas aproximaciones Problemassimilares

    Mltiples interpretaciones Metodologas similares

  • 7/24/2019 Modlin General Iz 1

    7/28

    Fisher (1920s1935), influenci la extensin del desarrollo de modelos lineales generalizados,correspondientes a los modelos para experimentos factoriales e incluy modelos especiales para ciertaclase de conteos y proporciones. (P. McCullagh, J.A. Nelder pp11)

    Funcin de verosimilituduna aproximacin a la inferencia para cualquier modelo estadstico (Fisher,1922);

    Fisher (1922), en su Ensayo de Dilusin, trabaj con la transformacin log log complementar. (Pgs11 y 12 McCullagh and Nelder 1989).

    Familia exponencialuna clase de distribuciones con estadsticos suficientes para los parmetros(Fisher, 1934);

    Bliss (1935), trabaja con el anlisis Probit, moderno mtodo de anlisis de datos en conexin conbioensayos, (Pgs 13 y 14 McCullagh and Nelder 1989).

    Berkson (1944, 1951). El modelo Logstico lineal fue utilizado en un contexto de experimentos debioensayo. (Pgs 14 McCullagh and Nelder 1989).

    Dyke y Patterson (1952), publicaron un anlisis de datos de clasificacin cruzada referente aproporciones de sujetos que tienen buen conocimiento de cncer, encontrando un modelo viable en elmodelo Logit para proporciones. (Pgs 14 McCullagh and Nelder 1989).

    Rasch (1960), Anlisis de temuna distribucin bernoull con el link logit Birch (1963), Modelos para conteo Log-linearuna distribucin Poisson con el link log. Feigl and Zelen (1965); Zippin and Armitage (1966); Glasser (1967); introdujeron Modelos de regresin

    para datos de supervivenciauna distribucin exponencial con el link log o el link recproco. Goodman (1981), list tres tipos ideales de tablas de contingencia para el contexto de los modelos

    Log-linear (ver Power 1999, pg. 88) Nelder (1966), introdujo los polinomios inversos que fueron extendidos a la curva respuesta en

    trminos de polinomios de inversa cuadrtica y de inversa de orden mayor, distribucin gamma con ellink recproco.

    Aitkin y Clayton (1980), demostraron que el anlisis de datos de supervivencia censoreados puedeadaptarse a los modelos lineales generalizados.

    Dobson A. J. (1983), An introduction to statistical modeling. Chapman and Hall, London. Para reconocer y diferenciar los modelos mencionados es necesario esquematizar o clasificar los

    modelos.

    2 FAMILIA EXPONENCIAL DE DISTRIBUCIONES

    Sea la distribucin de una v.a. )(~ fY

    )(f Pertenece a la Famil ia Exponencial de Distr ibucio nes(f.e.d.) si

    Se puede escribir as

    )(.)(.)(.)();(

    byaetysyf

    Reescribiendo

    )()()(.)(exp);( ydcbyayf

    })(exp{)( ydys })(exp{)( ct

  • 7/24/2019 Modlin General Iz 1

    8/28

    Se conocen las funciones (.),a (.),b (.)s y (.)t

    A la distribucin);( yf

    se le dice que es cannica (forma estndar) siyya )(

    )(b es el parmetro natural de la distribucin

    Si existen otros parmetros adems de theta que no son de inters, se consideran nuisance y seasumeque son conocidos.

    2.1 Clculo de E(Y) y V(Y) utilizando la f.e.d.

    Sea);( yf

    una funcin de distribucin perteneciente a la f.e.d.

    1);(

    dyyf

    se cumple en una densidadDerivando

    01);(

    d

    ddyyf

    d

    d

    0);(

    dyyfd

    d

    Derivando otra vez

    00);(

    d

    ddyyf

    d

    d

    d

    d

    0);(2

    2

    dyyfd

    d

    Como )()()(.)(exp);( ydcbyayf

    )()()(.)(exp);( ydcbyaddyf

    dd

    );()(')('.)();(

    yfcbyayfd

    d

    0);()(')('.)();(

    dyyfcbyadyyfd

    d

  • 7/24/2019 Modlin General Iz 1

    9/28

    0);()(');()()('

    dyyfcdyyfyab

    0)1)((');()()('

    cdyyfyab

    0)(')]([)(' cYaEb

    )('

    )(')]([

    b

    cYaE

    ----------------------------------------- (1)

    Como

    );()(')('.)();(

    yfcbyayfd

    d

    );()(')('.)(

    );()('')(''.)();(

    2

    2

    2

    yfcbya

    yfcbyayfd

    d

    );()('

    )('.)()('

    );()('')(''.)(

    2

    2

    yfb

    cyab

    yfcbya

    );())((.)()(');()('')(''.)(22

    yfYaEyab

    yfcbya

    Tomando esperanza (integrando en todo dominio)

    dyyfcbyayfd

    d);()('')(''.)();(

    2

    2

    dyyfYaEyab );())((.)()(' 22

    dyyfcdyyfyab );()('');()()(''

    dyyfYaEyab );())((.)()(' 22

    )()(')1()('')()('' 2 YaVbcYaEb

  • 7/24/2019 Modlin General Iz 1

    10/28

    0)()(')('')()('' 2 YaVbcYaEb

    Despejando )(YaV

    22

    )('

    )('')(

    )('

    )('')(

    b

    cYaE

    b

    bYaV

    22 )(')(''

    )('

    )('

    )('

    )(''

    b

    c

    b

    c

    b

    b

    33 )(')('')('

    )('

    )(')(''

    b

    cb

    b

    cb

    3)('

    )('')(')(')('')(

    b

    cbcbYaV

    -------------------------------- (2)

    Ejercicios: (Dobson)

    3.1 Las siguientes relaciones pueden describirse a travs de MLG. Para cada una identificar la variablerespuesta y las variables explicativas, seleccionar una funcin de distribucin para la variable respuesta,

    justificando su eleccin y escribir el componente lineal

    3.1.a El efecto de la edad, sexo, altura, ingesta media diaria de alimentos y el gasto energtico medio diario

    en el peso de una persona.3.1.b Las proporciones de ratones de laboratorio, infectados despus de la exposicin a una bacteria dondese utilizaron 5 niveles de exposicin distintas y 20 ratones fueron expuestos en cada nivel.

    3.1.c La relacin entre el nmero de viajes por semana al supermercado para un hogar y el nmero depersonas en el hogar, el ingreso familiar y la distancia al supermercado.

    3.2 Si la variable aleatoria Y tiene la distribucin Gamma con un parmetro de escala, que es el parmetrode inters, y un parmetro de forma conocida , entonces su funcin de densidad de probabilidad es

    )();(

    1

    yey

    yf

    Mostrar que esta distribucin pertenece a la familia exponencial de distribuciones y encontrar el parmetro

    natural. Utilizando los resultados de la seccin, calcular)(YE

    y)(YV

    3.3 Mostrar que las siguientes funciones de densidad de probabilidad pertenecen a la f.e.d.

    3.3.a Distribucin de Pareto1);( yyf

  • 7/24/2019 Modlin General Iz 1

    11/28

    3.3.b Distribucin Exponencial

    yeyf );(

    3.3.c Distribucin Binomial Negativa yr

    r

    ryyf

    11

    1);(

    , r conocida

    3.4 Utilizar los resultados de))(( YaE

    y))(( YaV

    calculados a partir de la f.e.d. para verificar los

    siguientes resultados

    3.4.a Para Y ~ Poisson

    3.4.b Para Y ~ Normal(u, sigma^2 ), )(YE y2)( YV

    3.4.c Para Y ~ Binomial(n, pi) nYE )( y )1()( nYV

    3.5Tasas de mortalidadPara una poblacin grande, la probabilidad de un individuo elegido aleatoriamente muera en un tiempoparticular es pequea. Si se asume que las muertes de una enfermedad no infecciosa son eventosindependientes, entonces el nmero de muertes Y en una poblacin, puede ser modelada en una distribucinde Poisson

    3.6 Considerar N variables aleatorias binarias NYYYY ,,,, 321 con

    iiYP )1( y iiYP 1)0(

    La funcin de probabilidad de iY puede escribirse comoii y

    i

    y

    i

    1)1( donde 0iY o 1iY

    3.6.a Mostrar que esta funcin de probabilidad pertenece a la f.e.d.

    3.6.b Mostrar que el parmetro natural es

    i

    i

    1log

    el logaritmo del los odds

    i

    i

    1 , llamada funcin logit

    3.6.c Mostrar que iiYE )(

    3.6.d Si la funcin link es

    xTg

    1log)(

  • 7/24/2019 Modlin General Iz 1

    12/28

    Mostrar que es equivalente a modelar la probabilidad como

    x

    x

    T

    T

    e

    e

    1

    3.6.e En el caso particular que

    xT 21 x

    resulta

    x

    x

    e

    e21

    21

    1

    que es la funcin logstica

    3.6.f Trazar el grfico pi vs x en este caso, tomando beta1 y beta2 como constantes. Cmo interpretara estegrfico si x es la dosis de un insecticida y pi es la probabilidad que un insecto muera?

    3.7 La distribucin de valor extremos de Gumble, con funcin de densidad de probabilidad

    yy

    yf expexp

    1

    );(

    donde 0 es considerado un parmetro nuisance, es un miembro de la familia exponencial?

    3.8 Suponga NYYYY ,,,, 321 variables aleatorias independientes, cada una con distribucin dePareto y

    2

    10 )()( iii xYE Es este un MLG? Justificar la respuesta.

    3.9 Sean NYYYY ,,,, 321

    variables aleatorias independientes con

    )log()( 210 iii xYE ; ),(~ 2NYi Para todo i=1, N.

    Es este un MLG? Justificar la respuesta.

    3.10 Para la Distribucin de Pareto encontrar el score stadstico U y la informacin J=Var(U). Verificar queE(U)=0.

    Hallar)]([ YaE

    y )(YaV

    utilizando la f.e.d. para la distribucin de Poisson

  • 7/24/2019 Modlin General Iz 1

    13/28

    2.2 Funcin log-verosmil

    La siguiente es la funcin log-verosmil de una f.d. en la familia exponencial

    c -------------------------------- (3)

    Ejercicio: diga qu es una funcin de verosimilitud.

    2.3 Estadstico score

    Derivando (3) con respecto a theta:

    )(')(').();(log);();(

    cbyayfd

    dyl

    d

    dyU

    El estadstico score es

    )(')(')( cbYaU ------------------------------------- (4)

    Aplicando esperanza a (4):

    )('))(()(')( cYaEbUE

    0)(')('

    )(')('

    c

    b

    cb

    2.4 Informacin J

    Aplicando varianza a (4):

    ))(()(')( 2

    YaVbUV De (2)

    3

    2

    )('

    )('')(')(')('')(')(

    b

    cbcbbUV

    )(')('')(')(')(''

    b

    cbcb

    )(')('')('

    )(')(')(''

    bcb

    bcb

    )(''

    )('

    )(')(''

    c

    b

    cb

    )(''

    )('

    )(')('')(

    c

    b

    cbUV

    ----------------------------------- (5)

  • 7/24/2019 Modlin General Iz 1

    14/28

    Obteniendo as la Informacin J:

    )(''

    )('

    )(')('')(

    c

    b

    cbUVJ

    ------------------------------ (6)

    Observacin.- el score U es utilizado para inferencia de valores de parmetros en Modelos Lineales

    Generalizados.

    Propiedad

    )'()()( 2 UEUEUV

    Prueba:

    a))()( 2UEUV

    )()()( 22 XEXEXV para toda v.a. X

    )()()( 22 UEUEUV

    Como 0)( UE

    )()( 2UEUV

    b))'()( UEUV

    Derivando U :

    )(')(')('

    cbYad

    d

    d

    dUU ----- de (4)

    )('')('')( cbYa

    Tomando esperanza a U:

    ))('')('')(()'( cbYaEUE

    )(''))(()('' cYaEb

    )('')('

    )(')(''

    c

    b

    cb

    )('')('

    )(')(''

    c

    b

    cb

  • 7/24/2019 Modlin General Iz 1

    15/28

    )('')('

    )(')(''

    c

    b

    cb

    )(UV

    )'()( UEUV

    Finalmente,

    )()'()( 2UEUEUVJ

    2.5 Familia exponencial en distribuciones conocidas

    3 MODELOS LINEALES GENERALIZADOS

    3.1 Ventajas

    Los Modelos Lineales Generalizados (MLG) son tiles para 3 situaciones genricas

    (1) Las variables respuesta tienen distribucin distinta a la normal(2) Las variables respuestas pueden ser categricas(3) La relacin entre variable respuesta y variables explicativas no necesariamente es lineal.

    Dos avances en la teora permiten utilizar mtodos similares a los Modelos Lineales en las situacionesgenricas mencionadas.

    Avance 1.- reconocimiento que varias de las propiedades convenientes de la normal son compartidas poruna amplia clase de distribuciones llamadas familia exponencial de distribuciones.

    Avance 2.- extensin de mtodos numricos para estimar los parmetros beta desde el modelo lineal )( iYE

    hasta el modelo lineal )( iYEg

    3.2 Condiciones

    Sean NYYYY ,,,, 321

    variables aleatorias independientes con distribuciones pertenecientes a la familia exponencial dedistribuciones.

    Se cumple

    1) La distribucin de cada iY tiene la forma cannica

    2) La distribucin de cada iY depende de un simple parmetro i

    3) Los i no necesariamente son iguales para cada iY

  • 7/24/2019 Modlin General Iz 1

    16/28

    })()()(exp{);( iiiiiiii ydcbyyf

    4) Todos los iY tienen la misma forma de distribucin tal que )()( iii bb , )()( iii cc y

    )()( iii ydyd ( i.e. eliminar los sub-ndices de dcb ,, )

    5) En la distribucin conjunta de NYYYY ,,,, 321

    })()()(exp{),,,,;,,,,(1

    2121 iiii

    N

    i

    NN ydcbyyyyf

    )()()(exp111

    i

    N

    i

    i

    N

    i

    ii

    N

    i

    ydcby

    6) Los parmetros i no son de inters directo, por ello, pueden ser distintos para cada iY .7) La forma de dependencia de la varianza y la media deben ser conocidas.

    3.3 Modelo (MLG)

    Si iiYE )( i es alguna funcin de i

    En un Modelo Lineal Generalizado, existe una transformacin de (.)g de i llamada Funcin Link,

    '))(()( iii XYEgg Notacin

    ')( iii Xg

    (.)g es una funcin montona diferenciable

    NYYYY ,,,, 321 independientes y comparten la misma distribucin de la f.e.d.

    'iX vector px1 de variables explicativas

    (es la traspuesta de la i-sima columna de la matriz diseo X , es un vector de variablesExplicativas, covariates o variables dummy cuando se trata de niveles de factores).

    1

    1

    1

    i

    i

    i

    i

    x

    xx

    X 111' iiii xxxX

    1,

    1,2

    1,1

    2

    22

    12

    1

    21

    11

    kN

    k

    k

    NN x

    xx

    x

    xx

    x

    xx

    X

    vector px1 de parmetros

  • 7/24/2019 Modlin General Iz 1

    17/28

    p

    2

    1

    i no necesariamente son las mismas

    3.4 Pasos para ajustar el modelo

    1) Especificacin del modelo (funcin link, distribucin de Y)2) Estimacin de parmetros3) Anlisis de residuales para la idoneidad del modelo4) Inferencia e interpretacin (hiptesis, intervalos de confianza)

    4 ESTIMACIN EN MLG

    4.1 Estadstico score

    Si)(.)(

    .)(.)();(

    bya

    etysyf

    )()()(.)(exp ydcbya

    )()()(.)(expln);(ln);ln();( ydcbyayfyyl

    )()()(.)( ydcbya

    )(')('.)();();( cbyayld

    dyU -------------------------- (1)

    Estadstico score:

    )(')('.)( cbYaU ---------------------------- (2)

    El estimador mximo verosmil es la solucin de 0)( U

  • 7/24/2019 Modlin General Iz 1

    18/28

    4.2 Aproximacin de Newton Raphson

    Dado un valor 1mx ( donde

    0)( 1 mxt ), se busca el valor m

    x tal que 0)( mxt es el cero ms cercano

    a1mx

    La pendiente de (.)t en el valor 1mx es:

    1

    11 )()()('

    (.)

    1

    mm

    mmm

    xx xx

    xtxtxt

    dx

    td

    m

    1 mm xx es pequea

    Si mx es la solucin requerida tal que 0)( mxt

    1

    1

    1

    1

    1

    11 )()(0)()()('

    mm

    m

    mm

    m

    mm

    mmm

    xxxt

    xxxt

    xxxtxtxt

    )('

    )(1

    11

    m

    mmm

    xt

    xtxx

    )('

    )(1

    11

    m

    mmm

    xt

    xtxx -------------------------------- (3)

    Empezando con 1x , sucesivas aproximaciones llevarn hasta que el proceso iterativo converja.

    Es la solucin de Newton Raphson.

    4.3 Mtodo scoring

    El mtodo scoring es el mtodo para hallar el estimador mximo verosmil

    a partir de la ecuacin deestimacin:

    1

    11

    m

    mmm

    J

    U ----------------------------------------- (4)

    )1( mx )(m

    x

  • 7/24/2019 Modlin General Iz 1

    19/28

    Hallar el valor de tal que 0)( U . Dado que

    1

    1 )()()('

    (.)

    1

    mm

    mmm

    xx

    UUU

    d

    Ud

    m

    Si m es la solucin requerida tal que 0)( mU

    1

    1 )(0)('

    mm

    mm UU

    1

    1 )()('

    mm

    mm UU

    )('

    )( 11m

    mmm

    U

    U

    -------------------------------- (5)

    Para la estimacin mximo verosmil se suele aproximar

    )(' m

    U con

    )(' m

    UE

    )(')( 11

    m

    mmm

    UE

    U

    Se sabe que 'UEJ

    )(')( 11m

    mmm

    UE

    U

    J

    U mmm

    )(

    11

    J

    U mmm )( 1

    1

    ------------------------------------- (6)

    4.4 Estimacin

    4.4.1 Funcin log-verosmil

    Sean NYYYY ,,,, 321 variables aleatorias independientes con distribuciones pertenecientes a la familia

    exponencial de distribuciones. De donde iiYE )( , '))(()( iii XYEgg y

    ')( iii Xg .

    Para cada iY la Fun cin log -vero sm iles: )()()();(log iiiii ydcbyyfl ------------------ (7)

    Para todoslos iY la Fun cin log -vero sm iles: )()()(1111

    i

    N

    i

    i

    N

    i

    ii

    N

    i

    i

    N

    i

    ydcbyll

    -----

    (8)

  • 7/24/2019 Modlin General Iz 1

    20/28

    4.4.2 Estadstico score en el MLG

    A partir de la derivada de la funcin log-verosimilitud (score), se aproximarn los parmetros del modelo.

    De la ec. (1), para cada j :

    N

    i j

    i

    i

    i

    i

    iN

    i j

    iN

    i

    i

    jj

    j

    lll

    lU

    111

    ..

    ------- (9)

    Desarrollando cada una de los tres factores dentro de la sumatoria

    N

    i j

    i

    i

    i

    i

    il

    1

    ..

    , es decir,

    i

    ili

    )(

    i

    iii

    )(

    j

    iiii

    )(

    Desarrollando (i), (ii), (iii)

    )()()()( iiiiii

    i ydcbyl

    i

    de (7)

    )(')(' iii cby

    )('

    )(')('

    i

    iii

    b

    cyb

    )(')(')('

    i

    iii

    bcyb

    ))(()(' iii YaEyb )()(' iii YEyb iii yb )('

    iiii

    i ybl

    )(' ------------------------------ (10)

    i

    ii

    iii

    1)(

    2)(')('')(')('')(')('

    )('

    )())((

    i

    iiii

    i

    i

    i

    i

    i

    i

    i

    i

    i

    b

    bccbb

    c

    YEYaE

  • 7/24/2019 Modlin General Iz 1

    21/28

    22 )('.)(')('')(')('')('

    )(')('

    )('')(')('')('

    ii

    iiiii

    i

    iiii

    bb

    cbbcb

    b

    cbbc

    )()('))(()('

    )('.)('

    )('')(')('')(')('

    2 iiii

    ii

    iiiii YVbYaVb

    bb

    cbbcb

    )()('ii

    i

    i YVb

    Utilizando el hecho que en un MLG la funcin de distribucin es cannica ))(( ii YYa

    )()('

    11

    ii

    i

    ii

    i

    YVb

    -------------------------------------- (11)

    ij

    i

    i

    j

    i

    i

    i

    j

    i xiii ..)(

    Recordando que kikiijk

    j

    jiiii xxxxXg

    11000

    ')(

    iji

    i

    j

    i x.

    ------------------------------------- (12)

    Combinando (10), (11) y (12)

    N

    i

    ij

    i

    i

    ii

    iii

    N

    i j

    i

    i

    i

    i

    ij x

    YVbyb

    lU

    11

    .)()('

    1)('..

    N

    i

    ij

    i

    i

    i

    iiN

    i

    ij

    i

    i

    i

    ii xYV

    yx

    YVy

    11

    .)(

    .)(

    1

    Resultando el estadstico score:

    N

    i

    ij

    i

    i

    i

    iij x

    YV

    yU

    1

    .)(

    --------------------------------------- (13)

    4.4.3 Matriz Informacin J

    Dado que 0)( jUE . Desarrollando la matriz de varianzas y covarianzas )( jUV

  • 7/24/2019 Modlin General Iz 1

    22/28

    ''00')( UUEUUEUEUUEUEUV

    ppp

    p

    p

    p UUUU

    UU

    UUUUUU

    EUUU

    U

    U

    U

    EUUE

    1

    12

    12111

    21

    2

    1

    '

    JJUUE

    UUEUUE

    UUE

    UUEUUEUUE

    jkkj

    ppp

    p

    )(

    )()(

    )(

    )()()(

    1

    12

    12111

    De este modo

    )()( kjjk UUEUVJJ

    Siendo jkJ son los trminos de la matriz informacin J

    N

    i

    ki

    i

    i

    i

    iiN

    i

    ij

    i

    i

    i

    iikjjk x

    YV

    yx

    YV

    yEUUEJ

    11 )(.

    )()(

    Ntese que por la independencia de loss

    iY' para todo ji 0 iiii yyE

    Adems, que )(2

    iii YVyE , por lo que

    2

    12

    2

    )( i

    i

    N

    i

    kiij

    i

    iijk xx

    YVyEJ

    2

    12

    2

    )(

    i

    iN

    i

    kiij

    i

    ii xxYV

    yE

    2

    12)(

    )(

    i

    iN

    i

    kiij

    i

    i xxYV

    YV

    2

    12)(

    i

    iN

    i i

    kiij

    jkYV

    xxJ

    ------------------------------ (14)

    Recordando que jkJ son los trminos de la matriz informacin J

    4.4.4 Ecuacin de estimacin

  • 7/24/2019 Modlin General Iz 1

    23/28

    El vector)()(

    2

    )(

    1

    )( ,,, m

    p

    mmm bbb b de estimadores de los parmetros de ,,,, 21 p se

    calcula (se aproxima) con la ecuacin de estimacin

    )1(1)1()1()( mmmm UJbb ------------------------------------ (15)

    )1( mJ matriz informacin con elementos jkJ

    )1( mU vector px1 de elementos dej

    j

    lU

    evaluados en )1( mb

    4.4.5 Ecuaciones normales

    Multiplicando la ecuacin (15) por)1( mJ

    )1(1)1()1()1()1()()1( mmmmmmm UJJJJ bb

    )1()1()1()()1( mmmmm UJJ bb

    kiii

    N

    i

    ijki

    i

    i

    i

    N

    i

    ij

    i

    iN

    i i

    kiij

    jk xwxxYV

    xYV

    xxJ

    1

    2

    21

    2

    12

    )(

    1

    )(

    kiii

    N

    i

    ji xwx

    1

    ipii

    N

    i

    ipiii

    N

    i

    ip

    iii

    N

    i

    i

    ipii

    N

    i

    iiii

    N

    i

    iiii

    N

    i

    i

    ppp

    p

    jk

    xwxxwx

    xwx

    xwxxwxxwx

    JJ

    J

    JJJ

    JJ

    1

    1

    1

    1

    1

    2

    1

    12

    1

    11

    1

    1

    1

    21

    11211

    Np

    p

    p

    NN

    p

    p

    p

    Np

    N

    N

    pp x

    x

    x

    x

    x

    x

    x

    x

    x

    YV

    YV

    x

    x

    x

    x

    x

    x

    x

    x

    x

    2

    1

    2

    22

    12

    1

    21

    11

    2

    2

    2

    1

    1

    2

    1

    2

    1

    2

    22

    21

    1

    12

    11

    )(

    10

    0

    00)(

    1

  • 7/24/2019 Modlin General Iz 1

    24/28

    Np

    p

    p

    NNppNp

    N

    N

    pp x

    x

    x

    x

    x

    x

    x

    x

    x

    w

    w

    w

    x

    x

    x

    x

    x

    x

    x

    x

    x

    2

    1

    2

    22

    12

    1

    21

    11

    22

    11

    2

    1

    2

    22

    21

    1

    12

    11

    0

    0

    00

    X

    w

    w

    w

    X

    pp

    0

    0

    00

    ' 22

    11

    XWX'

    )1()1()( '' mmm UXWXXWX bb

    Luego, se conoce que

    N

    i

    ij

    i

    i

    i

    i

    i

    iiN

    i

    ij

    i

    i

    i

    iij x

    YVyx

    YVyU

    1

    2

    1 )()(

    Reordenando

    N

    i i

    iii

    i

    i

    i

    ij yYV

    x1

    2

    )(

    1

    i

    iiiyWX

    '

    aWX'

    Donde

    i

    iiiNx y

    1a

    Nota:

    N

    i

    ij

    i

    i

    i

    i

    i

    iiN

    i

    ij

    i

    i

    i

    iij x

    YV

    yx

    YV

    yU

    1

    2

    1 )()(

    N

    i i

    iiiij

    i

    i

    i

    yxYV1

    2

    )(1

    N

    i i

    iiiijii yxw

    1

    1

    '

    Ni

    iiiyWX

  • 7/24/2019 Modlin General Iz 1

    25/28

    1' NWX aAs

    )1()1()1()()1( mmmmm UJJ bb )1()1()( '' mmm UXWXXWX bb abb WXXWXXWX

    mm ''' )1()( abb )1()( '' mm XWXXWX

    11 NppN 1N

    Las Ecuaciones Normales para MLG

    zb WXXWX m '' )( --------------------------------------- (16)

    Es la forma de las Ecuaciones Norm ales para MLG, similar a las ecuaciones normales obtenidas paraobtener los estimadores por el mtodo de Mnimo Cuadrados Ordinarios. La diferencia en los MLG, es quedebe ser resuelto iterativamente. Este mtodo para hallar los estimadores mximo verosmiles se denominaprocedimiento Mnim o Cuadrado s Pond erados Iterativos.

    5 INFERENCIA

    Para realizar pruebas de intervalos de confianza, son necesarias las distribuciones muestrales de losestadsticos. Antes un repaso de distribucin asinttica, necesaria en este caso.

    5.1 Distribuciones asintticas

    Si hubiese un solo parmetro, el score es un escalar, por lo que dado que 0)(

    UE Y JUV )(

    1,0~J

    U y

    )1(2

    2

    ~J

    U

    Si hay un vector de parmetros,

  • 7/24/2019 Modlin General Iz 1

    26/28

    p

    2

    1

    ),(~2

    1

    JN

    U

    U

    U

    U

    p

    0

    Es decir, para muestras grandes el vector score U tiene distribucin normal multivariada (asintticamente):

    JU ,~ 0

    2~' pUJU

    Para los estimadores de los parmetros, las distribuciones muestrales asintticas son:

    Para un solo parmetro 1,~ J

    Para el vector de parmetros 1,~ J

    El estadstico de Wald:

    2~)(' pJ

    5.2 Estadstico de razn log-verosimilitud

    );( ymxL verosimilitud evaluada en el estadstico mximo verosmil bajo el modelo general

    );( yLverosimilitud evaluada en el estadstico mximo verosmil bajo el modelo ms simple

    Estadstico razn de verosimilitud );(

    );(

    y

    y

    L

    L mx

    Estadstico razn log-verosmil );(log);(log

    );(

    );(lnlog yy

    y

    yLL

    L

    Lmx

    mx

    Valores grandes de log implica ajuste pobre o dbil del modelo de inters al compararlo con el modelo

    saturado.

    5.3 Devianza

    Se puede demostrar que

    );(log);(log2log2 yy LLD mx ~ 2

    ),( vpm

    v parmetro de no centralidadm nmero de parmetros del modelo saturado

  • 7/24/2019 Modlin General Iz 1

    27/28

    p nmero de parmetros del modelo general

    5.4 Bondad de Ajuste

    En Modelos Lineales Generalizados, se orienta a comparar el ajuste de dos modelos ajustados a los datos.

    Caso extremo:

    :0H Modelo ms simple, con un slo parmetro que es el promedio de las variables.

    :AH Modelo llamado saturado, que tiene N parmetros, uno por cada observacin y la media derivada de este

    modelo coincide con la media de las observaciones.

    Caso general:

    :0H Modelo lo ms simple posible

    :AH Modelo lo ms general

    5.5 Prueba de hiptesis

    Est orientado a comparar cual de dos modelos ajusta mejor la data.

    Condiciones: Para la comparacin en Modelos Lineales Generalizados se tiene

    Ambos modelos tienen la misma distribucin de probabilidad Ambos modelos tienen la misma funcin link Un modelo puede tener puede tener ms parmetros que el otro

    La hiptesis nula corresponde al modelo ms simple La hiptesis alterna corresponde al modelo ms general

    Las comparaciones realizan a travs de estadsticos para describir qu tan bien los modelos ajustan losdatos (estadsticos de Bondad de Ajuste).

    Hiptesis:

    :0H

    q

    2

    1

    0

    :AH

    p

    2

    1

    1

    Npq

    p nmero de parmetros del modelo generalq nmero de parmetros del modelo restringido

  • 7/24/2019 Modlin General Iz 1

    28/28

    Estadstico de prueba:

    );(log);(log2log2 00 yy LLD mx

    );(log);(log2log2 11 yy LLD mx

    );(log);(log);(log);(log2 1010 yyyy LLLLDD mxmx

    );();(2);(log);(log2 010110 yyyy llLLDD ~ 2

    )( qp

    10 DDD ~ 2

    )( qp

    Regla de decisin:

    Si %100 D Rechazar :0H 0

    Si %100 D Aceptar :AH 1

    5.6 Intervalo de confianza

    Es la medida de precisin llamadas estimaciones de intervalo.

    J

    kIC 1

    %95;

    Donde

    Jsd 1)(