Download - U4_SIE

UNIVERSIDAD PRIVADA TELESUP


Introduccin

a) Presentacin y contextualizacin:

Las redes Bayesianas son modelos grficos probabilsticos utilizados en la toma

de Decisiones. Una red Bayesiana representa una funcin de distribucin conjunta

Sobre un conjunto finito de variables. Muchas de las actividades en la ingeniera

del software, como por ejemplo, la estimacin de costes o esfuerzo, evaluacin de

riesgos o fiabilidad tratan con valores inciertos o probabilsticas. Por tanto, diversas

tcnicas estadsticas y la teora de la probabilidad han sido aplicadas a la

ingeniera del software desde sus inicios.

b) Competencia:

Explica la importancia del anlisis y estudio de la propagacin exacta en

diversas redes probabilsticas.

c) Capacidades: 1. Comprende las generalidades y aplicacin de la propagacin de evidencias.

2. Conoce los principales mtodos de propagacin aproximada, identificando las

caractersticas que la representan.

3. Reconoce la importancia de la propagacin simblica de evidencia respecto al

desarrollo de redes.

4. Aplica las diversas teoras de aprendizaje sobre las redes bayesianas en

diversos sistemas expertos.

d) Actitudes:

Muestra inters por el anlisis sobre la propagacin exacta en diversas redes

probabilsticas.

Muestra entusiasmo en los diversos desarrollos de las teoras respecto a la

propagacin en redes.

e) Presentacin de Ideas bsicas y contenidos esenciales de la Unidad: La Unidad de Aprendizaje 04: Propagacin Exacta en Redes Probabilsticas,

comprende el desarrollo de los siguientes temas:

TEMA 01:Propagacin de Evidencia.

TEMA 02:Mtodos de Propagacin Aproximada.

TEMA 03: Propagacin Simblica de Evidencia.

TEMA 04:Aprendizaje en Redes Bayesianas.


TEMA 1

Competencia:

Propagacin de Evidencia

Comprender las generalidades y aplicacin de la propagacin de evidencias.


Desarrollo de los Temas

Tema 01: Propagacin de Evidencia

La propagacin de evidencia es una de las tareas ms importantes de un sistema

experto, pues permite obtener conclusiones cuando se dispone de nueva informacin

(sntomas, etc.). Supngase un conjunto de variables discretas X = {X1 ,..., Xn } y una

funcinde probabilidad p(x), en X. Cuando no se dispone de ninguna informacin, es

decir, cuando no existe evidencia, el proceso de propagacinconsiste en calcular las

probabilidades marginales p(Xi = xi), tambin denotadas por p(xi ),para cada Xi X .

Estas probabilidades proporcionan informacin a priori sobre los distintos valores

que pueden tomar las variables.

Cuando se dispone de cierta evidencia, es decir, cuando se

conoce un conjunto de variables E X que tienen asociadas los

valores Xi = ei, para Xi E, el proceso de propagacin debe

tener en cuenta estos valores para calcular las nuevas

probabilidades de los nodos.

Evidencia. Un subconjuntode variables E X cuyos valores son conocidos, E = e, en

una situacindada, se conoce como conjunto de evidencia,o simplemente evidencia.

En esta situacin, la propagacin de evidencia consiste en

calcular las funciones de probabilidad condicionada p(xi

|e)para cada variable Xi E, dada la evidencia E= e.

Estasfunciones de probabilidad condicionada miden el efecto

producido por la evidencia en cada variable. Cuando no se

dispone de evidencia (E= ),las funciones condicionadas p(xi |e)son simplemente las

funciones de probabilidad marginal p(xi).Un forma de calcular las probabilidades p(xi

|e)consiste en utilizar la frmula queimplicap(xi |e) =p(xi ,e)p(e) p(xi , e), donde

1/p(e) es una constante de proporcionalidad. Por tanto, se puede obtener p(xi

|e),calculando y normalizando las probabilidades marginales p(xi , e).


De esta forma se tienep(xi , e) = x\{xi ,e} pe (x1 ,..., xn ), donde pe (x1 ,..., xn ) es la

funcin de probabilidad obtenida sustituyendo en p(x1 ,..., xn ) las variables con

evidencia, E, por sus valores e. Por tanto, para calcular p(xi , e), ha de sumarse pe

(x1 ,..., xn) para todas las posibles combinacionesde valores de las variables que no

estncontenidas en E, excepto la variable Xi .

Debido al elevado nmerode combinacionesde valores que involucra, este mtodo de

fuerza bruta resulta altamente ineciente, incluso en redes con un nmero reducido

de variables. Por ejemplo, en el caso de variables binarias, la ecuacin requiere la

suma de 2n1 probabilidades distintas. En la Figura 8.1 se muestra el tiempo de

computacin necesario para calcular p(xi )en un ordenador personal. Estagura

muestra que el tiempo de computacincrece de forma exponencial con el nmero de

variables del modelo, n. Puede observarse que este mtodo es ineciente incluso

para modelos con solo unas decenas de variables.

PROPAGACIN EN POLIRBOLES

El poliarbol es uno de los modelos grcos mssimples para construir redes

Bayesianas. La caracterstica principal de este algoritmo es que su complejidad es

lineal en el tamao de la red (es decir en el nmero de nodos y aristas que la

componen), a diferencia del mtodo de fuerza bruta que requiere un

numeroexponencial de operaciones para realizar la propagacin.

Por ejemplo, el nodo D divide al polirbol en dos

poliarboles inconexos, el primero de los cuales, {A, B,

C}, incluye a sus padres y a los nodos que son

accesibles desde D a travs de sus padres, y el

segundo, {E, F, G}, que incluye a sus hijos y a los

nodos que son accesibles desde D a travs de sus hijos. en la cual tambin puede

comprobarse que el nodo D separa a estos dos conjuntos, es decir, que severica

gracamente la relacinde independencia I ({A, B, C }, {E, F, G}|D).


Figura 8.1. El nodo D divide al polirbol en dos polirboles inconexos.

El proceso de propagacin puede realizarse en este tipo de grafos de un modo

eciente combinando la informacinprocedente de los distintos subgrafos mediante el

envo de mensajes (clculos locales) de un subgrafo a otro.

Valores numricosde los mensajes y funciones calculados por el algoritmo de

propagacin en polirboles cuando no se dispone de evidencia.


PROPAGACIN EN REDES MLTIPLEMENTE CONEXAS

El mtodo de propagacin en polirboles descrito en la seccin anterior es vlido

solamente para redes de estructura simple (polirboles), en las cuales existe un

nicocamino entre cada par de nodos. Por tanto, este tipo de redes carecen de

generalidad y no son aplicables en numerosas situaciones prcticas. En estos casos

es necesario trabajarcon grafos mltiplemente conexos (grafos que contienen bucles)

en los que pueden existir varios caminos entre dos nodos. Dos de los mtodos de

propagacin ms importantes para este tipo de redes son los denominados mtodos

de condicionamiento y mtodode agrupamiento.

La idea fundamental del mtodo de propagacin por condicionamiento es cortar los

mltiples caminos entre los nodos mediante la asignacin de valores a un conjunto

reducido de variables contenidas en los bucles. De esta forma se tendr un polirbol

en el cual se podr aplicar el algoritmo de propagacin para poliarboles descrito en la

seccin anterior. Por otra parte, el mtodode agrupamiento construye

representaciones auxiliares, de estructura ms simple, uniendo conjuntos de nodos

del grafo original (por ejemplo, un rbol de unin). De esta forma se puede obtener

un grafo con estructura de polirbolen el que pueden aplicarse las mismas ideas

descritas en la seccinanterior para propagar evidencia.

Probabilidades marginales (iniciales) de los nodos (a) y probabilidades

condicionadas (actualizadas), dada la evidencia D = 0 (b).


MTODO DE CONDICIONAMIENTO

En el caso de redes Bayesianas mltiplementeconexas ya no se cumple la propiedad

de que un nodo cualquiera separa el grafo en dos partes inconexas. Por

tanto,algunas de las propiedades de independencia aplicadas en el algoritmo de

propagacin en polirbolesno pueden ser aplicadas en esta situacin.

FIGURA 8.16. Grafo mltiplemente conexo

La idea bsica del algoritmo de condicionamientoes cortar estas vias alternativas de

comunicacin contenidas en los bucles asignando un valor arbitrario a un conjunto de

nodos. Esteconjunto de nodos se suele denominar conjuntode corte (en

ingles,cutset).Por ejemplo, el nodo Dno separa al grafo de la Figura en dos partes

inconexas, pero si se considera el conjunto de corte formado por el nodo C,

entonces, el conjunto {C, D} separa a {A, B} de {E, F, G},los subgrafos que contienen

a los padres e hijos de D,respectivamente. Por tanto, se puede cortarel

buclecontenido en el grafo considerando el nodo C como un nodo evidencial, es

decir, asignndole un valor arbitrario.

Esta idea de cortar los bucles para obtener un grafo de estructura ms simple puede

ser llevada a la prctica utilizando el mtododenominado absorcin de evidencia.

Este mtodo muestra que la evidencia puede ser absorbida por el grafo cambiando

su topologa. De forma ms precisa, si Xi es un nodo evidenciar, se pueden eliminar

del grafo todas las aristas de la forma Xi Xjsustituyendo la funcin de probabilidad

condicionada del nodo Xj , p(xj |j ), por una funcin denida sobre un conjunto ms

reducido de variables:

p1 (xj |j\ xi) = p(xj |j\ xi , Xi = ei ).


Esta operacin deja inalterado el modelo probabilstico,

mientras que implica la topologa del grafo al eliminar un

conjunto de aristas. Obsrvese que el conjunto j\ Xi es el

nuevo conjunto de padres del nodo Xj en el grafo modicado.

Por ejemplo, si se asigna un valor arbitrario, C = c, al nodo C,

es decir, si se convierte Cen un nodo evidencial en el grafo de la Figura 8.16,

entonces se puede absorber esta evidencia eliminando del grafo la arista C F,

obteniendo as un nuevo grafo con estructura de poliarbol (ver Figura 8.17).

Para mantener inalterada la funcin de probabilidad condicionada del conjunto de

variables no evidnciales, p(y|C = c), se reemplaza la funcin de probabilidad p(f |c,

d) por p1 (f |d) = p(f |C = c, d), lo cual elimina la dependencia del nodo Frespecto de

la evidencia C.

p1(f | d) = p(f | C=c, d)

Absorcin de la evidencia C = c mediante la arista C F.

Por tanto, utilizando el mtodode absorcin de evidencia se puede reducir un grafo

mltiplemente conexo a un polirbol, asignando un valor arbitrario a los nodos de un

conjunto de corte C = {C1 ,..., Cm }.

MTODOS DE AGRUPAMIENTO

El algoritmo de propagacin en polirboles y el algoritmo de

condicionamiento introducidos en las secciones anteriores

aprovechan la estructura particular de los grafos dirigidos para

propagar la evidencia. Por tanto, estos algoritmos son slo

aplicables a redes Bayesianas. En esta seccin se presenta un mtodode

propagacin distinto, el mtodode agrupamiento que, a partir de las estructuras

locales contenidas en el grafo, produce representaciones alternativas para propagar

la evidencia. Por tanto, estos mtodosno dependen del tipo de grafo y son aplicables

tanto a redes de Markov, como a redes Bayesianas.


El mtodode agrupamiento, inicialmente desarrollado por Lauritzen y Spiegelhalter

(1988), se basa en la construccin de subconjuntos de nodos (aglomerados) que

capturen las estructuras locales del modelo probabilstico asociado al grafo. De esta

forma, el proceso de propagacin de evidencia puede ser realizado calculando

probabilidades locales (que dependen de un nmero reducido de variables), evitando

as calcular probabilidades globales (que dependen de todas las variables), los

conglomerados de un grafo son los subconjuntos que representan sus estructuras

locales.

Por tanto, en primer lugar, el algoritmo de agrupamiento calcula los conglomerados

del grafo; a continuacin obtiene las funciones de probabilidad condicionada de cada

conglomerado calculando de forma iterativa varias funciones de probabilidad locales.

Por ltimo, se obtiene la funcin de probabilidad condicionada de cada nodo

marginalizando la funcin de probabilidad de cualquier conglomerado en el que est

contenido. En esta seccin se presentan dos versiones de este algoritmo, una para

redes de Markov y otra para redes Bayesianas.

Eliminar de X los nodos evidenciales.Este proceso tambin implica modicar el

conjunto de conglomerados y la representacin potencial. La nueva representacin

potencial, (C , ), est denida en X , donde X = X \ E, C es el nuevoconjunto

de conglomerados y son los nuevos potenciales, que contienen la evidencia, y

que han sido obtenidos de la forma siguiente: Para cada conglomerado Cicontenido

en Ctal que Ci E= , se incluye el conjunto Ci\ Een C y se dene Para el resto de

los conglomerados que no contienen nodos evidenciales, no es necesario realizar

ninguna medicacin en las representaciones potenciales correspondientes. Con ello,

se tiene p(x|e) (ci ).i=1

Por tanto, en ambos casos, se puede aplicar el mtodo anterior para obtener la

funcinde probabilidad condicionada de los nodos, dada la evidencia E= e. En el

primer caso se continuacon la misma estructurautilizan ms recursos de los

necesarios. En el segundo caso, no se utilizan ms recursos de los necesarios, pero

se necesita modicar la estructura. Por tanto, se requiere un consenso entre ambas

opciones con objeto de elegir la ms adecuada en cada caso.


Algoritmo de Agrupamiento en Redes Bayesianas

En la seccin anterior se present el mtodo de agrupamiento para propagar

evidencia en redes de Markov. En esta seccin se presenta una adaptacin

FIGURA 8.26. Grafo dirigido acclico mltiplemente conexo.

PROPAGACIN EN ARBOLES DE CONGLOMERADOS

El algoritmo de agrupamientoagrupa conjuntos de nodos con cierta estructura local

creando una cadena de conglomerados para propagar evidencia. Algunas

modicaciones de este mtodo utilizan una representacin grca de la cadena de

conglomerados(por ejemplo, un rbol de unin) para propagar la evidencia de forma

ms eciente. El mtodo de los universosde conocimiento desarrollado por Jensen,

Olesen y Andersen Transforma el grafo mltiplemente conexo en un rbol de

conglomerados asociado al grafo original.


TEMA 2

Competencia:

Mtodos de Propagacin Aproximada

Conocer los principales mtodos de propagacin aproximada, identificando las caractersticas que la representan.


Tema 02: Mtodos de Propagacin Aproximada

BASE INTUITIVA DE LOS MTODOS DE SIMULACIN

En esta seccinse ilustra un esquema general de simulacin mediante un sencillo

ejemplo. Considrese una urna que contiene seis bolas numeradas{1,...,

6}.Supngaseque se quiere realizar el siguiente experimento. Se selecciona una bola

al azar de la urna, se apunta su nmero, se devuelve a la urna, y se mezclan las

bolas antes de proceder a extraer la bola siguiente. Esteesquema de muestreo se

denomina muestreoconreemplazamiento. Cada seleccin de una bola se llama una

extraccino un experimento. En este caso cada extraccin tiene seis posibles

resultados, {1,..., 6}.

Sea Xiel resultado (el nmerode la bola) de la extraccin i-sima.

Puesto que el muestreo se hace con reemplazamiento, las

extracciones son independientes (el resultado de una

extraccinno inuye en el resultado de las

dems).Claramente, Xies una variable uniformecon funcinde

probabilidad p(Xi= xi ) = 1/6,para xi = 1,..., 6 y i = 1,...,N ,

donde Nes el nmero de extracciones (el tamao de la muestra).Utilizando esta

funcinde probabilidad conjunta, se pueden calcular las probabilidades exactas de

ciertos sucesos tales como p(X1= 1,..., Xn =1)

p (nmero de pares= nmero de impares), etc.

Estos clculos son fciles en este caso puesto que la

distribucines uniforme (hay exacta- mente una bola para cada

uno de los nmeros {1,..., 6}), las extracciones son idnticas(se

usa la misma urna), y el resultado de cada extraccin es

independiente de los resultados de los dems (muestreamos con reemplazamiento).

Los clculos de las probabilidades exactas son complicados y costosos cuando la

distribucin no es uniforme (por ejemplo, se tiene distinto nmero de bolas de

diferentes tipos), las extracciones no son idnticos (por ejemplo, se realiza un

muestreo con diferentes nmerosde bolas), y/oextracciones que no son

independientes(por ejemplo, muestreo sin reemplazamiento).


En estas situaciones complicadas, se pueden calcular las probabilidades de ciertos

sucesos de forma aproximada mediante tcnicasde simulacin. Se puede, por

ejemplo, repetir un experimento N veces. Se obtiene lo que se llama una muestra de

tamao N.Entonces, la probabilidad de un suceso puede aproximarse por el cociente

entre el nmerode veces que ocurre dicho suceso y el nmerototalde

simulacionesN.Claramente, cuanto mayor es el tamao de la muestra ms

aproximada ser la aproximacin.

Simulando la extraccin de bolas con reemplazamiento de la Urna y mediante un dado.

Que es ms fcil lanzar el dado que extraer la bola de una urna, devolverla y mezclar

las bolas antes de la extraccinsiguiente. Enotras palabras, si no es fcilobtener

muestras de la distribucinde la poblacinse debe elegir otra distribucinque resulte

ms sencilla para la simulacin. se puede utilizar un dado para simular la extraccin

de bolas de urnas con diferentes nmerosde bolas? La respuesta, afortunadamente,

es positiva. Por ejemplo, supngase que la urna contiene solo cinco bolas numeradas

{1,..., 5} (Urna 2). Sea X el nmerode bolas con el nmeroi sacadas al azar con

reemplazamientode la Urna 2.

Entonces X es una variable aleatoria cuya funcin de probabilidad, p(x), se muestra

en la Figura 9.2 (Urna 2). En este caso, la distribucin simulada (el dado) no es la

misma que la distribucinde la poblacin(Urna 2),es decir, p(x) = h(x) (las columnas

etiquetadas s(x) se explicaranen breve). A pesar del hecho de que la Urna 2 y el

dado no tienen la misma distribucin, se puede todava utilizar el dado para simular la

extraccinde bolas de la Urna 2, pero se tiene que corregir por el hecho de que las

distribuciones de la poblacin y la simulada no coinciden.


Una forma de tener en cuenta esta diferencia es la siguiente: cuando en el dado sale

un 6, se ignora la tirada y se repite de nuevo hasta que salga un valor menor que 6,

en cuyo caso se hace y igual al nmeroque salga y se toma y como valor generado

de la poblacin p(x). Este ejemplo es en realidad un caso especial del mtodo

conocido como mtodo de aceptacin- rechazo.

El mtodo de aceptacin - rechazo.Sea X una variable aleatoriacon funcinde

probabilidad p(x). Supngaseque p(x) puede ser expresada como

p(x) = c g(x) h(x),(9.2)

dondec 1, 0 g(x) 1 y h(x) es unafuncinde probabilidad. Sea U una variable

aleatoria uniformeU (0, 1) y sea Yuna variable aleatoria confuncinde probabilidad

h(y)independiente de U. Entonces, la funcinde probabilidad condicionalde Ydado

que u g(y)coincidecon la funcin de probabilidad de X. Por otra parte, la

probabilidad de aceptar la muestra (eciencia) es 1/c.

Una ilustracin de un esquema general de simulacin.

Por ejemplo, en el caso de la Urna 2 que se muestra en la Figura 9.2, se puede

escribir p(x) = cg(x)h(x), donde p(x) y h(x) se muestran en la Figura 9.2, c = 6/5 y 0, si

x = 6, g(x) =

Por ello, utilizando el teorema anterior, se puede obtener una muestra de p(x) (Urna

2) usando h(x) (el dado) y comprobando la condicin u g(x) para todo valor x que se

simule de h(x), donde u es un nmero obtenido de la distribucin uniforme U (0, 1).

Por tanto, en este caso, el suceso x = 6 siempre se rechaza, ya que g(6)= 0, y los

restantes sucesos se aceptan siempre.


TEMA 3

Competencia:

Propagacin Simblica

deEvidencia

Reconocerla importancia de la propagacin simblica de evidencia respecto al desarrollo de redes.


Tema 03: Propagacin Simblica de Evidencia

NOTACIN Y CONCEPTOS PRELIMINARES

Se ha visto que la funcin de probabilidad conjunta asociada a las redes

probabilsticasde Markov descomponibles y Bayesianas puede darse mediante una

factorizacin como producto de probabilidades condicionales

En el caso de redes Bayesianas, los conjuntos condicionantes son los padres del

nodo, i ,i= 1,..., n.Enel caso de redes de Markov descomponibles, estos conjuntos

se obtienen aplicando la regla de la cadena a la factorizacin obtenida a partir de la

cadena de conglomerados. Por tanto, aunque algunos de los mtodos introducidos

en este captulo pueden ser facialmente extendidos para tratar una representacin

potencial de la de probabilidad conjunta, por simplicidad, pero sin prdida de

generalidad, se utiliza el conjunto de probabilidades condicionales en como

representacinparamtricabsica de la funcin de probabilidad conjunta.

Sea X = {X1 ,..., Xn } un conjunto de n variables

discretas, cada una de las cuales puede tomar valores

en el conjunto {0, 1,..., ri }, y sea B= (D, P ) una red

Bayesiana denida sobre X , donde el grafo dirigido

acclico D determina la estructura del conjunto de

probabilidades condicionales, y P = {p(x1 |1 ),..., p(xn |n )} es el conjunto de

probabilidades condicionales que se necesitan para especicar la funcin de

probabilidad conjunta.Algunas de las probabilidadescondicionales en (10.1)pueden

darse en forma numricay otras en forma simblica, es decir, p(xi |i ) pueden ser

familias paramtricas o probabilidades totalmente especicadas numricamente.


Nodo Simblico.Cuandop(xi |i ) es una familia paramtrica simblica (es decir,

depende de al menosun parmetro en forma simblica),el nodo Xi se denominaun

nodo simblico, y se utiliza ipara denotarsus correspondientes

parmetrossimblicos.Cuando p(xi |i ) es una familia paramtrica, es decir, cuando

Xi es un nodo simblico, una eleccin conveniente de los parmetros es la siguiente

Donde es cualquier posible realizacin de los padres, i , de Xi . Por ello, el primer

subndice de ij se reere al nmero del nodo, el segundo subndice se riere al

estado del nodo, y los restantes subndices se rieren a las realizaciones de sus

padres. Puesto que

No todos los parmetros son libres, es decir, uno cualquiera de ellos puede ser

escrito como la unidad menos la suma del resto. Por ejemplo, el primer parmetro

puede escribirse como

Para implicar la notacin en los casos en los que la variable Xi no tiene padres, se

utiliza ijpara denotar pi (Xi = j), j {0,..., ri }. Se ilustra esta notacin usando el

ejemplo siguiente.

Ejemplo de Nodos simblicos. Considrese una red Bayesiana discreta consistente

en las variables X = {X1 ,..., X8 }, La estructura del grafo implica que la probabilidad

conjunta del conjunto de nodos puede escribirse en la forma

p(x) = p(x1 )p(x2 |x1 )p(x3 |x1 )p(x4 |x2 , x3 )p(x5 |x3 )p(x6 |x4 )p(x7 |x4 )p(x8 |x5 ).

Porsimplicidad, y sin prdidade generalidad, supngaseque todos los nodos

representan variables binarias con valores en el conjunto { 0, 1}. Esto y la estructura

de la distribucinde probabilidad implica que la funcin de probabilidad conjunta de

las ocho variables depende de 34 parmetros = {ij }.


Ntese,sin embargo, que solamente 17 de ellos son libres (puesto que las

probabilidades en cada una de las probabilidades condicionales deben sumar la

unidad). Estos 17 parmetros se dan en la Tabla.

Un grafo dirigido acclico.

TABLA de El conjunto de parmetros libres asociados a las distribuciones

condicionales.


En este ejemplo, sololos nodos X3y X6son nodos simblicospuesto que sus

correspondientes funciones de probabilidad condicionada contienen al menos un

parmetro simblico.Se tienen los conjuntos de parmetros 3= {300 , 310 } y 6=

{600 , 610 }. Ntese que estos conjuntos incluyen todos los parmetros simblicos,

no slo los parmetros libres. Por ello, el conjunto de parmetrossimblicosasociados

a la red Bayesiana es = {3, 6}.

GENERACIN AUTOMTICA DE CDIGO SIMBLICO

El tratamiento con parmetros simblicos es

idntico al tratamiento con valores numricos,

con la nica diferencia de que las operaciones

requeridas deben realizarse con un programa

capaz de manipular smbolos en vez de

nmeros. Los clculos simblicos, sin

embargo, son mucho ms lentos que los

numricos y requieren ms memoria.

Sin embargo, este mtodode resolver el problema es muy costoso

computacionalmente, y resulta ineciente incluso con nmeros reducidos de variables

Una alternativa a este mtodoconsiste en adaptar algunos de los algoritmos de

propagacin numrica muestran que la adaptacin simblica de estos mtodos

requiere solo pequeas modicaciones. Por ejemplo, el algoritmo de propagacin

por agrupamiento puede adaptarse fcilmente a la propagacin simblica utilizando

una herramienta informtica simblica, tal como Matemtica.


TEMA 4

Competencia:

Aprendizaje enRedes

Bayesianas

Aplicar las diversas teoras de aprendizaje sobre las redes bayesianas en diversos sistemas expertos.


Tema 04:Aprendizaje en Redes Bayesianas

MIDIENDO LA CALIDAD DE UNA RED BAYESIANA

Una medida de calidad, Q(B|S, ), es un criterio mediante el cual se puede ordenar el

conjunto de todas las redes Bayesianas posibles por su calidad, donde Bes una red

Bayesiana, la informacina priori, y Sun conjunto de datos. Por ello, dada la

informacin a priori y/o un conjunto de datos S,nuestro objetivo consiste en

obtener una red Bayesiana de alta calidad. Una medida de calidad debe satisfacer

algunas propiedades deseables. Por ejemplo, debe asignarse la misma calidad a las

redes que conduzcan a la misma estructura de independencia.

A continuacin se dene esta importante propiedad.

Equivalencia en Peso:

Dado un conjuntode datos S, una medida de calidad Q(B|S, ) se dice que es

equivalente en peso si asigna el mismovalor a todopar de

redesBayesianasequivalentesB1y B2 , es decir, si Q(B1 |S, ) = Q(B2 |S, ).

Otras propiedades de las medidas de calidad son:

A las redes recomendadas por los expertos se les debe asignar calidades ms

altas que a las rechazadas por ellos.

Las representaciones perfectas deben recibir calidades mayores que las

imperfectas.

Las I -representaciones mnimas deben recibir calidades mayores que las no

mnimas.

Las redes con reducido nmero de parmetros a igualdad del

resto de propiedades deben recibir calidades mayores que las

de elevado nmero de parmetros.

A las redes que conrmen la informacin contenida en los

datos debe asignrsele una calidad mayor que a aquellas que

contradigan a estos.

Para ampliar conocimientos sobre estasy otras propiedades se remite al lector a

consultar el trabajo de Bouckaert (1995).


Las medidas de calidad dependen de la incertidumbre de la informacin disponible.

Dos posibles situaciones son:

1. Una situacin en la que las estructuras probabilsticas y grcas estn ambas

sometidas a incertidumbre. En este caso, se dispone de la informacin a priori

y el conjunto de datos S, y el objetivo consiste en encontrar la mejor red

Bayesiana B() = (D, P ()) usando algn criterio de calidad. Ntese que

contiene informacin a priori referente a ambas estructuras, la grca y la

paramtrica. Dados y S, la calidad de una red Bayesiana B() depende de la

calidad de sus subcomponentes, D y P (). Se usa:

Q (B()|S, ) o Q(D, P ()|S, ).

Para denotar la medida de calidad de la red Bayesiana

en su totalidad y para indicar que la medida depende de

S y . Sin embargo, en algunos casos se puede estar

interesado slo en el aprendizaje estructural. En tales

casos, se puede obtener una medida de la calidad de la

estructura grca maximizando la calidad de sus redes

Bayesianas Q(B()|S, ) con respecto a , es decir,

Q(D|S, ) = Q(D, P ()|S, ),Donde es el valor de que maximiza Q(D, P

()|S, ). Alternativamente, se puede usar cualquier otra estimacinde , tal como

la estimacinde mxima verosimilitud, una estimacinBayesiana,etc.

2. Una situacin en la que la estructura grcaDes

conocida y slo la estructura

probabilsticaestsometida a incertidumbre. En

este caso, se est interesado slo en el

aprendizaje paramtrico, y el objetivo consiste

en encontrar la mejor estructura probabilstica P (), utilizando algncriterio de

calidad. Dados S,Dy , la calidad de P () depende de la calidad de los

parmetros estimados. Se usaQ(P ()|D, S, ) para denotar la medida de calidad

de la estructura probabilstica de la red Bayesiana y para enfatizar que esta

condicionada a D, S, y . Ntese que slo contiene informacin a priori sobre

la estructura paramtrica ya que se conoce con certeza la estructura traco.


Algunas medidas de calidad se denen como la suma de tres trminos o

componentes:Q = f (informacin a priori) + g(datos disponibles) +

h(complejidad), donde f (.), g(.)yh(.)Son funciones conocidas. El signicado de

estos trminos se explica a continuacin:

1. La informacin a priori: La funcin f (informacin a priori) a- signa una

probabilidad alta a las redes que han sido indicadas como altamente probables

por la informacin a priori y una probabilidad baja a las que han sido indicadas

como poco probables. Cuanto mayor sea la contribucin de este trmino a la

medida de calidad, mayor ser el peso del conocimiento a priori frente al

aportado por los datos. Este trmino contribuye decisivamente a la calidad de la

red en estudio cuando no existen datos disponibles o son muy reducidos, pero

es despreciable cuando los datos disponibles son abundantes.

Una eleccin tpica para este trmino es log p(B),

donde p(B) = p(D, ) es la probabilidad a priori

asignada a la red B, donde se usa en vez de P

para mostrar la dependencia explicita de P del

parmetro . Si no hay conocimiento a priori

disponible, este trmino se sustituye por cero, lo que es equivalente a suponer

que p(B) es una distribucin uniforme.

2. Los datos disponibles: La funcin g(datos disponibles) es un trmino de

bondad de ajuste que mide lo bien o mal que una red Bayesiana reproduce los

datos S. Da una alta calidad a las redes que estn de acuerdo con los datos y

una baja calidad a las que los contradicen. La contribucin de este trmino

aumenta cuando se aaden aristas a la red. En tal caso se tienen ms

parmetros o grados de libertad y, normalmente, se puede obtener un mejor

ajuste a los datos.

Algunas elecciones tpicas para este trmino son las siguientes:

(a)El logaritmo de la verosimilitud de los datos: log p(S|D, ).

(b)Ellogaritmo de laprobabilidad aposteriori de dada la estructura D y los

datos S: log p(|S, D).


3. La complejidad:La funcin h(complejidad) penaliza las redes con estructura

compleja (por ejemplo, redes con un gran nmero de aristas y/o un nmero

alto de parmetros). Por ello, la funcinh() conduce a una calidad alta para las

redes simples con un nmero reducido de aristas y parmetros, y a una baja

calidad para las redes con muchas aristas y/o parmetros.

Para medir la complejidad de una red Bayesiana es importante conocer su

dimensin. Dimensin de una red Bayesiana. Sea X un conjunto de variables

y B = (D, P) una red Bayesiana denida sobre X. La dimensin de esta red

Bayesiana, Dim(B), se dene como el nmero de parmetros necesarios para

especican su funcin de probabilidad conjunta asociada.

Chickering (1995a) muestra que las redes Bayesianas

independientemente equivalentes tienen la misma

dimensin.

En la literatura existente se han propuesto varias medidas

de calidad para redes Bayesianas. Estas se han clasicado

en los tipos siguientes:

Medidas de calidad Bayesianas.

Medidas de mnima longitud de descripcin.

Medidas de informacin.

Estos tipos de medidas de calidad se discuten en las secciones siguientes.

Medidas de Calidad Bayesianas. Enla teoraestadsticaBayesiana, se supone

inicialmente que la distribucin a priori p(B) = p(D, ) la dan los expertos. Esta

distribucin reeja la opinin de los expertos sobre la frecuencia relativa de

ocurrencia de diferentes redes Bayesianas B= (D, P ()).Para mejorar el

conocimiento, se obtienen unos datos Sy, mediante el teorema de Bayes, la

distribucin a posteriori p(B, |S) como sigue: