Modelos y Aplicaciones - CIMAT · Modelos y Aplicaciones G enesis Epidemiolog a. Mapeo del riesgo...
Transcript of Modelos y Aplicaciones - CIMAT · Modelos y Aplicaciones G enesis Epidemiolog a. Mapeo del riesgo...
Modelos y Aplicaciones
Modelos y Aplicaciones
Graciela Gonzalez FarıasVerano de Probabilidad y Estadıstica
CIMAT, Unidad [email protected]
Guanajuato, GTO, a 18 de julio de 2011
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Epidemiologıa.Mapeo del riesgo de una enfermedad. Tasas de incidencia de SIDAen 2005
Fuente: Ministerio de Salud del Peru. Direccion General de Epidemiologıa
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Epidemiologıa.Numero de casos dengue agrupados en clusters por marginacion yaltitud
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Geoestadıstica. Acuıfero
Estrato o formacion geologica permeable que permite la circulacion y el almacenamiento del agua subterranea porsus poros o grietas. Acuıferos de aguas profundas un tema de relevancia nacional para nuestro paıs
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Procesamiento de Imagenes: Texturas
Textura de piso quebrado
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Texturas en Agronomıa
Food scientist William Windham analyzes texture data for rice
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Agronomıa
Agave Tequilana WeberAgave Tequilana Weber
harvest method
ProductProduct
Fungus FusariumFungus Fusarium Level 3Level 3
Patron de enfermedad del agave azul
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Agronomıa0
510
1520
25 time 0
05
1015
2025 time 1
05
1015
2025 time 2
0 20 40 60 80 100
05
1015
2025 time 3
( Patron de enfermedad del agave azul )
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Temas solo por la superficie
Planteamiento del problema
Construccion de Modelos
para dar respuesta al problema
Inferencia estadıstica plausible a traves del modelo y con lacapacidad de
Interpretaciones en el contexto del problema: patron deenfermedad del agave
Conclusiones
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Temas solo por la superficie
Planteamiento del problema
Construccion de Modelos para dar respuesta al problema
Inferencia estadıstica plausible a traves del modelo y con lacapacidad de
Interpretaciones en el contexto del problema: patron deenfermedad del agave
Conclusiones
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Temas solo por la superficie
Planteamiento del problema
Construccion de Modelos para dar respuesta al problema
Inferencia estadıstica
plausible a traves del modelo y con lacapacidad de
Interpretaciones en el contexto del problema: patron deenfermedad del agave
Conclusiones
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Temas solo por la superficie
Planteamiento del problema
Construccion de Modelos para dar respuesta al problema
Inferencia estadıstica plausible a traves del modelo y con lacapacidad de
Interpretaciones en el contexto del problema: patron deenfermedad del agave
Conclusiones
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Temas solo por la superficie
Planteamiento del problema
Construccion de Modelos para dar respuesta al problema
Inferencia estadıstica plausible a traves del modelo y con lacapacidad de
Interpretaciones en el contexto del problema: patron deenfermedad del agave
Conclusiones
CIMAT GGF_RRQ
Modelos y Aplicaciones
Genesis
Temas solo por la superficie
Planteamiento del problema
Construccion de Modelos para dar respuesta al problema
Inferencia estadıstica plausible a traves del modelo y con lacapacidad de
Interpretaciones en el contexto del problema: patron deenfermedad del agave
Conclusiones
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Dependencias
Es claro de los ejemplos anteriores que datos con estructuras dedependencias espacio temporales son frecuentes en muchassituaciones asociadas a problemas tanto en agronomıa, medioambiente o la industria en general.
Pondremos como ejemplo especıfico el problema del agave porlas razones expuestas.
Como se construyen modelos que tomen en cuenta, porejemplo, dependencias espacio temporales y cuya variablerespuesta no es contınua, nos lleva a revisar nuestrosconceptos basicos de al menos, probabilidad y regresion.......
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Dependencias
La evidencia empırica parece indicar que existe unaesparcimiento de la enfermedad con un patron espacial quecambia con el tiempo.
Lo que nos interesa es probar si tal afirmacion tiene sustento.
En otras palabras, quiseramos ver si podemos establecer almenos, la existencia de un proceso latente de tipo markoviano(uups, otro vocabulario) que determina el desarrollo de laenfermedad de acuerdo al estado de las plantas vecinas.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Dependencias
La evidencia empırica parece indicar que existe unaesparcimiento de la enfermedad con un patron espacial quecambia con el tiempo.
Lo que nos interesa es probar si tal afirmacion tiene sustento.
En otras palabras, quiseramos ver si podemos establecer almenos, la existencia de un proceso latente de tipo markoviano(uups, otro vocabulario) que determina el desarrollo de laenfermedad de acuerdo al estado de las plantas vecinas.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Dependencias
La evidencia empırica parece indicar que existe unaesparcimiento de la enfermedad con un patron espacial quecambia con el tiempo.
Lo que nos interesa es probar si tal afirmacion tiene sustento.
En otras palabras, quiseramos ver si podemos establecer almenos, la existencia de un proceso latente de tipo markoviano(uups, otro vocabulario) que determina el desarrollo de laenfermedad de acuerdo al estado de las plantas vecinas.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Dependencias
Descripcion preliminar del problema
Plantas de agave de cuatro anos de antiguedadUn total de 2731 plantasSe presume que el contagio es por el contacto de las raıces
ContactoPracticas de operacion
Se podrıa hablar de tratamientos, por ejemplo
Dos dosis de fungicidas comerciales(10× 1000 y 5× 1000): T1 y T2
Un lote de control: Tc
Para simplificar el planteamiento solo consideraremos un lotebajo practicas normales de operacion
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Datos Espaciales {Zs : s ∈ D}
Datos Georeferenciados. Matheron (60’s). Modelacion de lavariabilidad. Correlacion espacial en terminos de distancias.
Gran escala (Tendencia espacial, Estructura para la media)Pequena escala (Correlacion espacial)
Patrones Puntuales. Ocurrencia espacial de eventos
Patrones: aleatorios, regulares, en clusters.
Datos en Latices. Modelacion espacial en terminos devecinos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Datos Espaciales {Zs : s ∈ D}
Datos Georeferenciados. Matheron (60’s). Modelacion de lavariabilidad. Correlacion espacial en terminos de distancias.
Gran escala (Tendencia espacial, Estructura para la media)Pequena escala (Correlacion espacial)
Patrones Puntuales. Ocurrencia espacial de eventos
Patrones: aleatorios, regulares, en clusters.
Datos en Latices. Modelacion espacial en terminos devecinos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Datos Espaciales {Zs : s ∈ D}
Datos Georeferenciados. Matheron (60’s). Modelacion de lavariabilidad. Correlacion espacial en terminos de distancias.
Gran escala (Tendencia espacial, Estructura para la media)Pequena escala (Correlacion espacial)
Patrones Puntuales. Ocurrencia espacial de eventos
Patrones: aleatorios, regulares, en clusters.
Datos en Latices. Modelacion espacial en terminos devecinos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Datos Espaciales {Zs : s ∈ D}
Datos Georeferenciados. Matheron (60’s). Modelacion de lavariabilidad. Correlacion espacial en terminos de distancias.
Gran escala (Tendencia espacial, Estructura para la media)Pequena escala (Correlacion espacial)
Patrones Puntuales. Ocurrencia espacial de eventos
Patrones: aleatorios, regulares, en clusters.
Datos en Latices. Modelacion espacial en terminos devecinos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Planteamiento del problema
Patrones del esparcimiento de la enfermedad
Datos en Latices
( Patron de enfermedad del agave azul )
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Datos en Latices
Sea yijt sea una variable aleatoria definida por el estatus de laplanta en el i − esimo renglon, j − esima columna, al tiempot, (i = 1, · · · , I , j = 1, · · · , J, t = 0, 1, · · · ,T )
Tenemos plantas en un latice de dimension I × J el cual semantiene bajo observacion en los tiempos 0, 1, · · · ,TEl nivel del dano observado en cada planta representa unavariable ordinal con niveles 1, 2, · · · , S donde el nivel 1 serefiere a plantas sanas, y S al maximo nivel de dano.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Datos en Latices
Sea yijt sea una variable aleatoria definida por el estatus de laplanta en el i − esimo renglon, j − esima columna, al tiempot, (i = 1, · · · , I , j = 1, · · · , J, t = 0, 1, · · · ,T )
Tenemos plantas en un latice de dimension I × J el cual semantiene bajo observacion en los tiempos 0, 1, · · · ,T
El nivel del dano observado en cada planta representa unavariable ordinal con niveles 1, 2, · · · , S donde el nivel 1 serefiere a plantas sanas, y S al maximo nivel de dano.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Datos en Latices
Sea yijt sea una variable aleatoria definida por el estatus de laplanta en el i − esimo renglon, j − esima columna, al tiempot, (i = 1, · · · , I , j = 1, · · · , J, t = 0, 1, · · · ,T )
Tenemos plantas en un latice de dimension I × J el cual semantiene bajo observacion en los tiempos 0, 1, · · · ,TEl nivel del dano observado en cada planta representa unavariable ordinal con niveles 1, 2, · · · , S donde el nivel 1 serefiere a plantas sanas, y S al maximo nivel de dano.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta
Podemos incluir covariables para tratar de explicar el nivel dedano tales como : el promedio del estatus de dano de lasplantas aledanas, el tiempo al que hacemos la observacion, elnivel del tratamiento si se considera alguno; esto es,
Podrıamos entonces considerar modelos para la distribuciondel dano condicionada a estas covariables, ası, modelar yijt
dado el conjunto de valores yi ′j ′t′ donde los ındices se refierena algunos vecinos de (i , j , t).
El concepto de vecino de un sitio se refiere a los otros sitiosque rodean a un punto dado y se le llama “vecino cercano”
Esto define un campo Markoviano aleatorio sobre lo que sedenomina un ensamble tiempo × localidad.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta
Podemos incluir covariables para tratar de explicar el nivel dedano tales como : el promedio del estatus de dano de lasplantas aledanas, el tiempo al que hacemos la observacion, elnivel del tratamiento si se considera alguno; esto es,
Podrıamos entonces considerar modelos para la distribuciondel dano condicionada a estas covariables, ası, modelar yijt
dado el conjunto de valores yi ′j ′t′ donde los ındices se refierena algunos vecinos de (i , j , t).
El concepto de vecino de un sitio se refiere a los otros sitiosque rodean a un punto dado y se le llama “vecino cercano”
Esto define un campo Markoviano aleatorio sobre lo que sedenomina un ensamble tiempo × localidad.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta
Podemos incluir covariables para tratar de explicar el nivel dedano tales como : el promedio del estatus de dano de lasplantas aledanas, el tiempo al que hacemos la observacion, elnivel del tratamiento si se considera alguno; esto es,
Podrıamos entonces considerar modelos para la distribuciondel dano condicionada a estas covariables, ası, modelar yijt
dado el conjunto de valores yi ′j ′t′ donde los ındices se refierena algunos vecinos de (i , j , t).
El concepto de vecino de un sitio se refiere a los otros sitiosque rodean a un punto dado y se le llama “vecino cercano”
Esto define un campo Markoviano aleatorio sobre lo que sedenomina un ensamble tiempo × localidad.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta
Podemos incluir covariables para tratar de explicar el nivel dedano tales como : el promedio del estatus de dano de lasplantas aledanas, el tiempo al que hacemos la observacion, elnivel del tratamiento si se considera alguno; esto es,
Podrıamos entonces considerar modelos para la distribuciondel dano condicionada a estas covariables, ası, modelar yijt
dado el conjunto de valores yi ′j ′t′ donde los ındices se refierena algunos vecinos de (i , j , t).
El concepto de vecino de un sitio se refiere a los otros sitiosque rodean a un punto dado y se le llama “vecino cercano”
Esto define un campo Markoviano aleatorio sobre lo que sedenomina un ensamble tiempo × localidad.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el problema del agave
En una estructura de latice los vecinos cercanos de primerorden se definen como aquellos que estan formados por loscuatro puntos del cuadrante adjunto, dos en el mismo renglony dos en la misma columna ; los vecinos de segundo orden sedefinen como aquellos que incluye a los de primer orden y alos que corresponden a los puntos de la diagonal.
Vecindad de Primer Orden Vecindad de Segundo Orden
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el problema del agave
En una estructura de latice los vecinos cercanos de primerorden se definen como aquellos que estan formados por loscuatro puntos del cuadrante adjunto, dos en el mismo renglony dos en la misma columna ; los vecinos de segundo orden sedefinen como aquellos que incluye a los de primer orden y alos que corresponden a los puntos de la diagonal.
Vecindad de Primer Orden Vecindad de Segundo Orden
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el modelo de agave
Para un sitio dado (i , j , t) usaremos vecinos de primer ordenaumentados por un elemento mas definido como (i , j , t − 1).
Considerando sistemas alterna.vos de vecinos
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el modelo de agave
Para un sitio dado (i , j , t) usaremos vecinos de primer ordenaumentados por un elemento mas definido como (i , j , t − 1).
Considerando sistemas alterna.vos de vecinos
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el modelo de agave
Para un sitio dado (i , j , t) usaremos vecinos de primer ordenaumentados por un elemento mas definido como (i , j , t − 1).
Considerando sistemas alterna.vos de vecinos
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el modelo de agave
Esto es, si y representa la respuesta en una planta, y siγd(x) = P(y ≤ d | x), d = 1, · · · , S − 1, es la probabilidadacumulada del dano hasta el nivel d , entonces el modelo demomios proporcional postula que
logit[γd(x)] = θd − xTβ, d = 1, · · · , S − 1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el modelo de agave
Donde x es un vector de covariables asociado con la plantadada, los θ’s son llamados parametros de “puntos de corte”para los niveles de dano dados (θ1 ≤ θ2 ≤ · · · θS−1).
Entonces, la distribucion de probabilidad (condicional) de yesta dada por
πd(x) ≡ P(y = d | x) =
γ1(x) d = 1
γd(x)− γd−1(x) d = 2, · · · ,S − 1
1− γS−1(x) d = S
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta para el modelo de agave
Donde x es un vector de covariables asociado con la plantadada, los θ’s son llamados parametros de “puntos de corte”para los niveles de dano dados (θ1 ≤ θ2 ≤ · · · θS−1).
Entonces, la distribucion de probabilidad (condicional) de yesta dada por
πd(x) ≡ P(y = d | x) =
γ1(x) d = 1
γd(x)− γd−1(x) d = 2, · · · ,S − 1
1− γS−1(x) d = S
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta natural?
Surgen un par de problemas al especificar una conjuntamediante condicionales:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
• Consistencia, existencia de la distribucion conjunta paratodas las localidades.
P(y) = P(z)n∏
i=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
• Calculo de la constante de normalizacion (tambien llamadaFuncion de Particion)
P(z) =
0@Xy1
· · ·Xyn
nYi=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
1A−1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta natural?
Surgen un par de problemas al especificar una conjuntamediante condicionales:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
• Consistencia, existencia de la distribucion conjunta paratodas las localidades.
P(y) = P(z)n∏
i=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
• Calculo de la constante de normalizacion (tambien llamadaFuncion de Particion)
P(z) =
0@Xy1
· · ·Xyn
nYi=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
1A−1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta natural?
Surgen un par de problemas al especificar una conjuntamediante condicionales:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
• Consistencia, existencia de la distribucion conjunta paratodas las localidades.
P(y) = P(z)n∏
i=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
• Calculo de la constante de normalizacion (tambien llamadaFuncion de Particion)
P(z) =
0@Xy1
· · ·Xyn
nYi=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
1A−1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta natural?
Surgen un par de problemas al especificar una conjuntamediante condicionales:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
• Consistencia, existencia de la distribucion conjunta paratodas las localidades.
P(y) = P(z)n∏
i=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
• Calculo de la constante de normalizacion (tambien llamadaFuncion de Particion)
P(z) =
0@Xy1
· · ·Xyn
nYi=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
1A−1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Propuesta natural?
Surgen un par de problemas al especificar una conjuntamediante condicionales:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
• Consistencia, existencia de la distribucion conjunta paratodas las localidades.
P(y) = P(z)n∏
i=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
• Calculo de la constante de normalizacion (tambien llamadaFuncion de Particion)
P(z) =
0@Xy1
· · ·Xyn
nYi=1
P(yi | y1, · · · , yi−1, zi+1, · · · zn)
P(zi | y1, · · · , yi−1, zi+1, · · · zn)
1A−1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Para asegurar consistencia, la distribucion conjunta debe obedecerel Teorema de Hammersley–Clifford, el cual pide que lascondicionales completas sean de naturaleza local y entonces
P(y) =1
C(θ)exp
8<:Xi
yi Gi (·) +Xi<j
yi yjGij (·) +X
i<j<k
yi yj ykGijk (·) + · · · + y1 · · · ynG1···n(·)
9=;
donde las funciones G son tales que Gi1,··· ,is depende solamente de
yi1 , · · · , yis , y pueden ser no nulas solo si i1, · · · , is forman un clique.
Se dice que el sitio j es vecino del sitio i si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
depende de yj . Sea Ni el conjunto de vecinos de i , una distribucion es unCampo Aleatorio Markoviano si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn) = P(yi | Ni ), i = 1, · · · , n
Un clique es un conjunto de sitios en los que todos sus elementos son
vecinos entre sı.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Para asegurar consistencia, la distribucion conjunta debe obedecerel Teorema de Hammersley–Clifford, el cual pide que lascondicionales completas sean de naturaleza local y entonces
P(y) =1
C(θ)exp
8<:Xi
yi Gi (·) +Xi<j
yi yjGij (·) +X
i<j<k
yi yj ykGijk (·) + · · · + y1 · · · ynG1···n(·)
9=;
donde las funciones G son tales que Gi1,··· ,is depende solamente de
yi1 , · · · , yis , y pueden ser no nulas solo si i1, · · · , is forman un clique.Se dice que el sitio j es vecino del sitio i si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
depende de yj . Sea Ni el conjunto de vecinos de i , una distribucion es unCampo Aleatorio Markoviano si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn) = P(yi | Ni ), i = 1, · · · , n
Un clique es un conjunto de sitios en los que todos sus elementos son
vecinos entre sı.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Para asegurar consistencia, la distribucion conjunta debe obedecerel Teorema de Hammersley–Clifford, el cual pide que lascondicionales completas sean de naturaleza local y entonces
P(y) =1
C(θ)exp
8<:Xi
yi Gi (·) +Xi<j
yi yjGij (·) +X
i<j<k
yi yj ykGijk (·) + · · · + y1 · · · ynG1···n(·)
9=;
donde las funciones G son tales que Gi1,··· ,is depende solamente de
yi1 , · · · , yis , y pueden ser no nulas solo si i1, · · · , is forman un clique.Se dice que el sitio j es vecino del sitio i si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
depende de yj . Sea Ni el conjunto de vecinos de i , una distribucion es unCampo Aleatorio Markoviano si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn) = P(yi | Ni ), i = 1, · · · , n
Un clique es un conjunto de sitios en los que todos sus elementos son
vecinos entre sı.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Construccion del Modelo
Para asegurar consistencia, la distribucion conjunta debe obedecerel Teorema de Hammersley–Clifford, el cual pide que lascondicionales completas sean de naturaleza local y entonces
P(y) =1
C(θ)exp
8<:Xi
yi Gi (·) +Xi<j
yi yjGij (·) +X
i<j<k
yi yj ykGijk (·) + · · · + y1 · · · ynG1···n(·)
9=;
donde las funciones G son tales que Gi1,··· ,is depende solamente de
yi1 , · · · , yis , y pueden ser no nulas solo si i1, · · · , is forman un clique.Se dice que el sitio j es vecino del sitio i si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn)
depende de yj . Sea Ni el conjunto de vecinos de i , una distribucion es unCampo Aleatorio Markoviano si:
P(yi | y1, · · · , yi−1, yi+1, · · · , yn) = P(yi | Ni ), i = 1, · · · , n
Un clique es un conjunto de sitios en los que todos sus elementos son
vecinos entre sı.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
?Que sabemos hacer en general?
Siempre trabajamos con regresiones en donde las variables Yson
independientes
continuas
tıpicamente se asumen normales
si hay covariables, no tiene dependencias, sino que se asumendadas ( no aleatorias)
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
¿Cual es el entorno del problema planteado?
En nuestro modelo natural, estamos modelando imponiendocondiciones para construir las condiconales que permitan
incluir las dependencias
la respuesta de tipo ordinal
no podemos asumir normalidad y esto tiene variasconsecuencias importantes
las covariables, son al menos los vecinos que tieneninformacion sobre el valor de Y
y no porque construyamos las condicionales, podemosnecesariamente reconstruir la distribucion conjunta, que nospermitira construir inferencias de manera natural....
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Concepto de Regresion
La distribucion normal multivariada la cual tuvo suscomienzos con estudios de la distribucion normal bivariada, secree iniciaron a mediados del siglo XIX, y a partir de allı, huboun desarrollo dramatico, fundamentalmente cuando Galton(1888) publico su trabajo sobre los usos del analisis de lacorrelacion en genetica.
Como Pearson noto, en 1885 Galton habıa terminado la teorıade la correlacion normal bivariada pero, dada su personalidad,(era muy modesto y a traves de su vida subestimo sus propiascapacidades matematicas), no se percato en forma inmediatala importancia de la funcion de densidad normal bivariada ypor ende, todas las consecuencias que esto tendrıa en eldesarrollo de los modelos estadısticos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Concepto de Regresion
La distribucion normal multivariada la cual tuvo suscomienzos con estudios de la distribucion normal bivariada, secree iniciaron a mediados del siglo XIX, y a partir de allı, huboun desarrollo dramatico, fundamentalmente cuando Galton(1888) publico su trabajo sobre los usos del analisis de lacorrelacion en genetica.
Como Pearson noto, en 1885 Galton habıa terminado la teorıade la correlacion normal bivariada pero, dada su personalidad,(era muy modesto y a traves de su vida subestimo sus propiascapacidades matematicas), no se percato en forma inmediatala importancia de la funcion de densidad normal bivariada ypor ende, todas las consecuencias que esto tendrıa en eldesarrollo de los modelos estadısticos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Concepto de Regresion
Consecuentemente, fue Pearson (1896) quien dio la formulamatematica definitiva de la distribucion normal bivariada.
El desarrollo de la teorıa de la distribucion normal multivariadase origino principalmente de los estudios del analisis deregresion y del analisis de correlacion multiple y parcial.
Veamos con software moderno, cual fue el problema queestudio Galton.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Concepto de Regresion
Consecuentemente, fue Pearson (1896) quien dio la formulamatematica definitiva de la distribucion normal bivariada.
El desarrollo de la teorıa de la distribucion normal multivariadase origino principalmente de los estudios del analisis deregresion y del analisis de correlacion multiple y parcial.
Veamos con software moderno, cual fue el problema queestudio Galton.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Concepto de Regresion
Consecuentemente, fue Pearson (1896) quien dio la formulamatematica definitiva de la distribucion normal bivariada.
El desarrollo de la teorıa de la distribucion normal multivariadase origino principalmente de los estudios del analisis deregresion y del analisis de correlacion multiple y parcial.
Veamos con software moderno, cual fue el problema queestudio Galton.
CIMAT GGF_RRQ
child ht By parent ht
71.00
73.00
75.00
f(y|x)
65.00
67.00
69.00
f(y|x)
child ht By parent ht
74.00
75.00
61.00
63.00
63.00 65.00 67.00 69.00 71.00 73.00parent ht
.1 .2 .3 .4 .5 .6 .7 .8 .9 Quantile Density Contours70 00
71.00
72.00
73.00
Nonparametr ic Biv ariate Density
Variableparent htchild ht
Kernel Std0.7222631.028281
Slider0.7222631.028281
Apply
Dens ity
f( )67.00
68.00
69.00
70.00
f(x,y)
63.00
64.00
65.00
66.00
child ht
61.00
62.00
63.00 64.00 65.00 66.00 67.00 68.00 69.00 70.00 71.00 72.00 73.00 74.00parent ht
Mean Fit
0parent ht
Linear Fit
CIMAT
GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
Sea (X ,Y ) una variable aleatoria continua, bidimensional quetoma todos los valores en el plano euclidiano esto es,−∞ ≤ x ≤ +∞,−∞ ≤ y ≤ +∞ Decimos que (X ,Y ) tieneuna distribucion normal bivariada si su fdp conjunta esta dadapor la siguiente expresion:
f (x , y) =1
2πσxσy
√1− ρ2
×
exp{− 1
2(1−ρ2)
[(x−µx
σx
)− 2ρ
(x−µx )(y−µy )σxσy
+(
y−µy
σy
)]}Notemos que se tienen las siguientes restricciones para losparametros: −∞ ≤ µx ≤ +∞, −∞ ≤ µy ≤ +∞; σx > 0;σy > 0; −1 ≤ ρ ≤ 1
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
El parametro ρ es el coeficiente de correlacion entre X y Y ;
Se puede observar que si ρ = 0, la fdp conjunta de (X ,Y )puede factorizarse y, por tanto, X y Y son independientes.
Entonces en el caso de la distribucion normal bivariada, sepuede ver que:
correlacion cero sı y solo sı son independientes
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
El parametro ρ es el coeficiente de correlacion entre X y Y ;
Se puede observar que si ρ = 0, la fdp conjunta de (X ,Y )puede factorizarse y, por tanto, X y Y son independientes.
Entonces en el caso de la distribucion normal bivariada, sepuede ver que:
correlacion cero sı y solo sı son independientes
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
El parametro ρ es el coeficiente de correlacion entre X y Y ;
Se puede observar que si ρ = 0, la fdp conjunta de (X ,Y )puede factorizarse y, por tanto, X y Y son independientes.
Entonces en el caso de la distribucion normal bivariada, sepuede ver que:
correlacion cero sı y solo sı son independientes
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
Si la variable aleatoria (X ,Y ) sigue una distribucion normalbivariada, los momentos de la funcion de distribucioncondicional de Y , dado X = x , son normal con media
µy + ρσy
σx(x − µx)
y varianzaσ2
y (1− ρ2)
Notemos que la media condicional puede escribirse comoβ0 + β1x
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
Esto demuestra que las medias son funciones lineales en lavariable que condiciona
Tambien demuestra que la varianza de la distribucioncondicional se reduce en proporcion a (1− ρ2).
Esto es, si ρ esta proxima a cero, la varianza condicional esesencialmente la misma que la varianza incondicional,mientras que si ρ esta proximo a ±1, la varianza condicionalesta proxima a cero.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
Esto demuestra que las medias son funciones lineales en lavariable que condiciona
Tambien demuestra que la varianza de la distribucioncondicional se reduce en proporcion a (1− ρ2)
.
Esto es, si ρ esta proxima a cero, la varianza condicional esesencialmente la misma que la varianza incondicional,mientras que si ρ esta proximo a ±1, la varianza condicionalesta proxima a cero.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
Esto demuestra que las medias son funciones lineales en lavariable que condiciona
Tambien demuestra que la varianza de la distribucioncondicional se reduce en proporcion a (1− ρ2).
Esto es, si ρ esta proxima a cero, la varianza condicional esesencialmente la misma que la varianza incondicional,mientras que si ρ esta proximo a ±1, la varianza condicionalesta proxima a cero.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
Esto demuestra que las medias son funciones lineales en lavariable que condiciona
Tambien demuestra que la varianza de la distribucioncondicional se reduce en proporcion a (1− ρ2).
Esto es, si ρ esta proxima a cero, la varianza condicional esesencialmente la misma que la varianza incondicional,mientras que si ρ esta proximo a ±1, la varianza condicionalesta proxima a cero.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
LA UNICA FORMA DE DEPENDENCIA POSIBLE ESLINEAL
fy |x(y | x) =1√
2πσ2y (1− ρ2)
×
exp
{− 1
2σ2y (1− ρ2)
[y − µy −
ρσy
σx(x − µx)
]2}
Se inicia con la distribucion conjunta y se derivan estosresultados. Esto se puede generalizar para la normalmultivariada en forma directa.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Distribucion bivariada
LA UNICA FORMA DE DEPENDENCIA POSIBLE ESLINEAL
fy |x(y | x) =1√
2πσ2y (1− ρ2)
×
exp
{− 1
2σ2y (1− ρ2)
[y − µy −
ρσy
σx(x − µx)
]2}
Se inicia con la distribucion conjunta y se derivan estosresultados. Esto se puede generalizar para la normalmultivariada en forma directa.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Normal Multivariada
Para el caso general
Si Σ22 > 0, entonces la distribucion condicional de Y1 dadoY2 es
Y1|Y2 ∼ Nn(µ1 + Σ12Σ−122 (Y2 − µ2),Σ11 − Σ12Σ−1
22 Σ21)
Los objetos de estudio:
µ1 + Σ12Σ−122 (Y2 − µ2)
Σ11 − Σ12Σ−122 Σ21
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
El caso general de Regresion
Como se planteo el problema general de regresion?
La cuestion era:
Encontrar una funcion de las Y2 que fuese el mejor predictorde Y1, sin imponer la restriccion de normalidad multivariada,pero (Y1,Y2) si deben tener una distribucion conjunta.
Cuando se dice mejor, es siempre bajo algun criterio deoptimalidad, en nuestro caso siempre se refiere a minimizar elerror cuadratico medio
minf (y2)
E ( y1 − f (y2) )2
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
El caso general de Regresion
Como se planteo el problema general de regresion?
La cuestion era:
Encontrar una funcion de las Y2 que fuese el mejor predictorde Y1, sin imponer la restriccion de normalidad multivariada,pero (Y1,Y2) si deben tener una distribucion conjunta.Cuando se dice mejor, es siempre bajo algun criterio deoptimalidad, en nuestro caso siempre se refiere a minimizar elerror cuadratico medio
minf (y2)
E ( y1 − f (y2) )2
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
El caso general de Regresion
Como se planteo el problema general de regresion?
La cuestion era:
Encontrar una funcion de las Y2 que fuese el mejor predictorde Y1, sin imponer la restriccion de normalidad multivariada,pero (Y1,Y2) si deben tener una distribucion conjunta.Cuando se dice mejor, es siempre bajo algun criterio deoptimalidad, en nuestro caso siempre se refiere a minimizar elerror cuadratico medio
minf (y2)
E ( y1 − f (y2) )2
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
La respuesta a este problema fue :El mejor predictor es la esperanza condicional de Y1 dadoY2
Este predictor puede ser lineal o no.
Solo si sabemos que las variables tienen una distribucionnormal multivariada, podemos asegurar que es lineal.
El problema entonces es conocer estas distribucionesconjuntas, cosa que en la practica resulta bastante difıcil
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
La respuesta a este problema fue :El mejor predictor es la esperanza condicional de Y1 dadoY2
Este predictor puede ser lineal o no.
Solo si sabemos que las variables tienen una distribucionnormal multivariada, podemos asegurar que es lineal.
El problema entonces es conocer estas distribucionesconjuntas, cosa que en la practica resulta bastante difıcil
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
La respuesta a este problema fue :El mejor predictor es la esperanza condicional de Y1 dadoY2
Este predictor puede ser lineal o no.
Solo si sabemos que las variables tienen una distribucionnormal multivariada, podemos asegurar que es lineal.
El problema entonces es conocer estas distribucionesconjuntas, cosa que en la practica resulta bastante difıcil
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
La respuesta a este problema fue :El mejor predictor es la esperanza condicional de Y1 dadoY2
Este predictor puede ser lineal o no.
Solo si sabemos que las variables tienen una distribucionnormal multivariada, podemos asegurar que es lineal.
El problema entonces es conocer estas distribucionesconjuntas, cosa que en la practica resulta bastante difıcil
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
El problema se replanto de la siguiente forma:
Encontrar una funcion lineal de las Y2 que fuese el mejorpredictor de Y1, sin imponer la restriccon de normalidadmultivariada, pero (Y1,Y2) deben tener una distribucionconjunta.
minf (y2)lineal
E ( y1 − f (y2) )2
La respuesta bajo esta restriccion de buscar solo entre lasfunciones lineales, sorprendentemente nos da la mismasolucion que en el caso normal multivariado, esto es:
µ1 + Σ12Σ−122 (Y2 − µ2)
La media es lineal
Σ11 − Σ12Σ−122 Σ21
La misma estructura del error de prediccion
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
El problema se replanto de la siguiente forma:
Encontrar una funcion lineal de las Y2 que fuese el mejorpredictor de Y1, sin imponer la restriccon de normalidadmultivariada, pero (Y1,Y2) deben tener una distribucionconjunta.
minf (y2)lineal
E ( y1 − f (y2) )2
La respuesta bajo esta restriccion de buscar solo entre lasfunciones lineales, sorprendentemente nos da la mismasolucion que en el caso normal multivariado, esto es:
µ1 + Σ12Σ−122 (Y2 − µ2)
La media es lineal
Σ11 − Σ12Σ−122 Σ21
La misma estructura del error de prediccion
CIMAT GGF_RRQ
Modelos y Aplicaciones
Concepto necesarios en la Construccion
Regresion
El problema se replanto de la siguiente forma:
Encontrar una funcion lineal de las Y2 que fuese el mejorpredictor de Y1, sin imponer la restriccon de normalidadmultivariada, pero (Y1,Y2) deben tener una distribucionconjunta.
minf (y2)lineal
E ( y1 − f (y2) )2
La respuesta bajo esta restriccion de buscar solo entre lasfunciones lineales, sorprendentemente nos da la mismasolucion que en el caso normal multivariado, esto es:
µ1 + Σ12Σ−122 (Y2 − µ2)
La media es lineal
Σ11 − Σ12Σ−122 Σ21
La misma estructura del error de prediccion
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Pero nuestro modelo...es otro
Nuestro modelo para agaves y sus infecciones recordemos, nose ajusta a un modelo lineal bajo distribuciones gaussianas.
Nuestro modelo tiene que ver con procesos markovianos almenos de primer orden y la relacion de estos con covariables(dependencias espacio temporales) y una respuesta de tipoordinal.
Se han desarrollado diversos modelos, dependiendo de lossupuestos que sea factible asumir, y no se tiene unamodelacion unica.
Dependiendo del grado de flexibilidad que se requiera paratener respuestas que manifiesten las dinamicas y evolucionesde la enfermedad, nos sentiremos satisfechos, esto es,respuestas claras en el contexto del problema y validadasmediante un modelo correctamente establecido no solomatematica o estadısticamente.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Pero nuestro modelo...es otro
Nuestro modelo para agaves y sus infecciones recordemos, nose ajusta a un modelo lineal bajo distribuciones gaussianas.
Nuestro modelo tiene que ver con procesos markovianos almenos de primer orden y la relacion de estos con covariables(dependencias espacio temporales) y una respuesta de tipoordinal.
Se han desarrollado diversos modelos, dependiendo de lossupuestos que sea factible asumir, y no se tiene unamodelacion unica.
Dependiendo del grado de flexibilidad que se requiera paratener respuestas que manifiesten las dinamicas y evolucionesde la enfermedad, nos sentiremos satisfechos, esto es,respuestas claras en el contexto del problema y validadasmediante un modelo correctamente establecido no solomatematica o estadısticamente.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Pero nuestro modelo...es otro
Nuestro modelo para agaves y sus infecciones recordemos, nose ajusta a un modelo lineal bajo distribuciones gaussianas.
Nuestro modelo tiene que ver con procesos markovianos almenos de primer orden y la relacion de estos con covariables(dependencias espacio temporales) y una respuesta de tipoordinal.
Se han desarrollado diversos modelos, dependiendo de lossupuestos que sea factible asumir, y no se tiene unamodelacion unica.
Dependiendo del grado de flexibilidad que se requiera paratener respuestas que manifiesten las dinamicas y evolucionesde la enfermedad, nos sentiremos satisfechos, esto es,respuestas claras en el contexto del problema y validadasmediante un modelo correctamente establecido no solomatematica o estadısticamente.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Pero nuestro modelo...es otro
Nuestro modelo para agaves y sus infecciones recordemos, nose ajusta a un modelo lineal bajo distribuciones gaussianas.
Nuestro modelo tiene que ver con procesos markovianos almenos de primer orden y la relacion de estos con covariables(dependencias espacio temporales) y una respuesta de tipoordinal.
Se han desarrollado diversos modelos, dependiendo de lossupuestos que sea factible asumir, y no se tiene unamodelacion unica.
Dependiendo del grado de flexibilidad que se requiera paratener respuestas que manifiesten las dinamicas y evolucionesde la enfermedad, nos sentiremos satisfechos, esto es,respuestas claras en el contexto del problema y validadasmediante un modelo correctamente establecido no solomatematica o estadısticamente.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Maxima Pseudoverosimilitud
Inferencia basada en la verosimilitud para
P(y) =1
C (θ)exp
∑i
yiG (yi ) +∑i<j
yiyjG (yi , yj)
implica el calculo de la constante normalizadora C (θ), lo cual, paraun problema pequeno con un latice 10× 10 con 3 posibles estadosen cada localidad, requerirıa la suma de 3100 .
= 5× 1047 terminos.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Maxima Pseudoverosimilitud
Besag (1974) introdujo los metodos de estimacion basados en lapseudoverosimilitud, los cuales maximizan la pseudoverosimilitud(evitando con ello calcular C (θ))
PL(θ) =n∑
i=1
log P(yi | Ni )
(Nota: Besag se ha pronunciado activamente por el uso de metodos de estimacion mas modernos.)Resultados sobre consistencia y normalidad asintotica para elEMPV pueden encontrarse en Guyon (1995).
CIMAT GGF_RRQ
Modelos y Aplicaciones
Inferencia
Maxima Pseudoverosimilitud
Data
MPL
Estimaciones MPV bα1 = −5,36bα2 = 6,03bα3 = −11,7bβ11 = 9,33bβ12 = 0,60bβ21 = −0,39bβ22 = −0,60
Distribuciones marginales0 1 2
Datos 0,702 0,293 0,005MPV 0,740 0,256 0,004
CIMAT GGF_RRQ
Modelos y Aplicaciones
Conclusiones
Una aplicacion de los procesos de inferencia y prediccion
0 20 40 60 80 100
05
1015
2025
Observed at t=4
0 20 40 60 80 100
05
1015
2025
Predicted at t=4
Al tiempo 4 donde aun es comparable se ve una prediccionbastante razonable a ojo y cuantificable.
CIMAT GGF_RRQ
Modelos y Aplicaciones
Conclusiones
Una aplicacion de los procesos de inferencia y prediccion
ü Se puede mostrar que los tratamientos no dieron el resultado esperado
ü Se manifiesta un patrón de daño espacial ü Se pueden determinar dis5ntos modelos, y formas de es5mación correspondientes ü A cada uno de estos modelos se le puede complementar con una metodología de Predicción adecuada
0 20 40 60 80 100
05
10
15
20
25 Cambio en % total
Al 5empo t = 4 el daño observado es de un 33.3 % . Al 5empo t=5 el daño predicho fue de un 36 %
CIMAT GGF_RRQ