UNIVERSIDAD PRIVADA TELESUP
UNIVERSIDAD PRIVADA TELESUP
Introduccin
a) Presentacin y contextualizacin:
Las redes Bayesianas son modelos grficos probabilsticos utilizados en la toma
de Decisiones. Una red Bayesiana representa una funcin de distribucin conjunta
Sobre un conjunto finito de variables. Muchas de las actividades en la ingeniera
del software, como por ejemplo, la estimacin de costes o esfuerzo, evaluacin de
riesgos o fiabilidad tratan con valores inciertos o probabilsticas. Por tanto, diversas
tcnicas estadsticas y la teora de la probabilidad han sido aplicadas a la
ingeniera del software desde sus inicios.
b) Competencia:
Explica la importancia del anlisis y estudio de la propagacin exacta en
diversas redes probabilsticas.
c) Capacidades: 1. Comprende las generalidades y aplicacin de la propagacin de evidencias.
2. Conoce los principales mtodos de propagacin aproximada, identificando las
caractersticas que la representan.
3. Reconoce la importancia de la propagacin simblica de evidencia respecto al
desarrollo de redes.
4. Aplica las diversas teoras de aprendizaje sobre las redes bayesianas en
diversos sistemas expertos.
d) Actitudes:
Muestra inters por el anlisis sobre la propagacin exacta en diversas redes
probabilsticas.
Muestra entusiasmo en los diversos desarrollos de las teoras respecto a la
propagacin en redes.
e) Presentacin de Ideas bsicas y contenidos esenciales de la Unidad: La Unidad de Aprendizaje 04: Propagacin Exacta en Redes Probabilsticas,
comprende el desarrollo de los siguientes temas:
TEMA 01:Propagacin de Evidencia.
TEMA 02:Mtodos de Propagacin Aproximada.
TEMA 03: Propagacin Simblica de Evidencia.
TEMA 04:Aprendizaje en Redes Bayesianas.
UNIVERSIDAD PRIVADA TELESUP
TEMA 1
Competencia:
Propagacin de Evidencia
Comprender las generalidades y aplicacin de la propagacin de evidencias.
UNIVERSIDAD PRIVADA TELESUP
Desarrollo de los Temas
Tema 01: Propagacin de Evidencia
La propagacin de evidencia es una de las tareas ms importantes de un sistema
experto, pues permite obtener conclusiones cuando se dispone de nueva informacin
(sntomas, etc.). Supngase un conjunto de variables discretas X = {X1 ,..., Xn } y una
funcinde probabilidad p(x), en X. Cuando no se dispone de ninguna informacin, es
decir, cuando no existe evidencia, el proceso de propagacinconsiste en calcular las
probabilidades marginales p(Xi = xi), tambin denotadas por p(xi ),para cada Xi X .
Estas probabilidades proporcionan informacin a priori sobre los distintos valores
que pueden tomar las variables.
Cuando se dispone de cierta evidencia, es decir, cuando se
conoce un conjunto de variables E X que tienen asociadas los
valores Xi = ei, para Xi E, el proceso de propagacin debe
tener en cuenta estos valores para calcular las nuevas
probabilidades de los nodos.
Evidencia. Un subconjuntode variables E X cuyos valores son conocidos, E = e, en
una situacindada, se conoce como conjunto de evidencia,o simplemente evidencia.
En esta situacin, la propagacin de evidencia consiste en
calcular las funciones de probabilidad condicionada p(xi
|e)para cada variable Xi E, dada la evidencia E= e.
Estasfunciones de probabilidad condicionada miden el efecto
producido por la evidencia en cada variable. Cuando no se
dispone de evidencia (E= ),las funciones condicionadas p(xi |e)son simplemente las
funciones de probabilidad marginal p(xi).Un forma de calcular las probabilidades p(xi
|e)consiste en utilizar la frmula queimplicap(xi |e) =p(xi ,e)p(e) p(xi , e), donde
1/p(e) es una constante de proporcionalidad. Por tanto, se puede obtener p(xi
|e),calculando y normalizando las probabilidades marginales p(xi , e).
UNIVERSIDAD PRIVADA TELESUP
De esta forma se tienep(xi , e) = x\{xi ,e} pe (x1 ,..., xn ), donde pe (x1 ,..., xn ) es la
funcin de probabilidad obtenida sustituyendo en p(x1 ,..., xn ) las variables con
evidencia, E, por sus valores e. Por tanto, para calcular p(xi , e), ha de sumarse pe
(x1 ,..., xn) para todas las posibles combinacionesde valores de las variables que no
estncontenidas en E, excepto la variable Xi .
Debido al elevado nmerode combinacionesde valores que involucra, este mtodo de
fuerza bruta resulta altamente ineciente, incluso en redes con un nmero reducido
de variables. Por ejemplo, en el caso de variables binarias, la ecuacin requiere la
suma de 2n1 probabilidades distintas. En la Figura 8.1 se muestra el tiempo de
computacin necesario para calcular p(xi )en un ordenador personal. Estagura
muestra que el tiempo de computacincrece de forma exponencial con el nmero de
variables del modelo, n. Puede observarse que este mtodo es ineciente incluso
para modelos con solo unas decenas de variables.
PROPAGACIN EN POLIRBOLES
El poliarbol es uno de los modelos grcos mssimples para construir redes
Bayesianas. La caracterstica principal de este algoritmo es que su complejidad es
lineal en el tamao de la red (es decir en el nmero de nodos y aristas que la
componen), a diferencia del mtodo de fuerza bruta que requiere un
numeroexponencial de operaciones para realizar la propagacin.
Por ejemplo, el nodo D divide al polirbol en dos
poliarboles inconexos, el primero de los cuales, {A, B,
C}, incluye a sus padres y a los nodos que son
accesibles desde D a travs de sus padres, y el
segundo, {E, F, G}, que incluye a sus hijos y a los
nodos que son accesibles desde D a travs de sus hijos. en la cual tambin puede
comprobarse que el nodo D separa a estos dos conjuntos, es decir, que severica
gracamente la relacinde independencia I ({A, B, C }, {E, F, G}|D).
UNIVERSIDAD PRIVADA TELESUP
Figura 8.1. El nodo D divide al polirbol en dos polirboles inconexos.
El proceso de propagacin puede realizarse en este tipo de grafos de un modo
eciente combinando la informacinprocedente de los distintos subgrafos mediante el
envo de mensajes (clculos locales) de un subgrafo a otro.
Valores numricosde los mensajes y funciones calculados por el algoritmo de
propagacin en polirboles cuando no se dispone de evidencia.
UNIVERSIDAD PRIVADA TELESUP
PROPAGACIN EN REDES MLTIPLEMENTE CONEXAS
El mtodo de propagacin en polirboles descrito en la seccin anterior es vlido
solamente para redes de estructura simple (polirboles), en las cuales existe un
nicocamino entre cada par de nodos. Por tanto, este tipo de redes carecen de
generalidad y no son aplicables en numerosas situaciones prcticas. En estos casos
es necesario trabajarcon grafos mltiplemente conexos (grafos que contienen bucles)
en los que pueden existir varios caminos entre dos nodos. Dos de los mtodos de
propagacin ms importantes para este tipo de redes son los denominados mtodos
de condicionamiento y mtodode agrupamiento.
La idea fundamental del mtodo de propagacin por condicionamiento es cortar los
mltiples caminos entre los nodos mediante la asignacin de valores a un conjunto
reducido de variables contenidas en los bucles. De esta forma se tendr un polirbol
en el cual se podr aplicar el algoritmo de propagacin para poliarboles descrito en la
seccin anterior. Por otra parte, el mtodode agrupamiento construye
representaciones auxiliares, de estructura ms simple, uniendo conjuntos de nodos
del grafo original (por ejemplo, un rbol de unin). De esta forma se puede obtener
un grafo con estructura de polirbolen el que pueden aplicarse las mismas ideas
descritas en la seccinanterior para propagar evidencia.
Probabilidades marginales (iniciales) de los nodos (a) y probabilidades
condicionadas (actualizadas), dada la evidencia D = 0 (b).
UNIVERSIDAD PRIVADA TELESUP
MTODO DE CONDICIONAMIENTO
En el caso de redes Bayesianas mltiplementeconexas ya no se cumple la propiedad
de que un nodo cualquiera separa el grafo en dos partes inconexas. Por
tanto,algunas de las propiedades de independencia aplicadas en el algoritmo de
propagacin en polirbolesno pueden ser aplicadas en esta situacin.
FIGURA 8.16. Grafo mltiplemente conexo
La idea bsica del algoritmo de condicionamientoes cortar estas vias alternativas de
comunicacin contenidas en los bucles asignando un valor arbitrario a un conjunto de
nodos. Esteconjunto de nodos se suele denominar conjuntode corte (en
ingles,cutset).Por ejemplo, el nodo Dno separa al grafo de la Figura en dos partes
inconexas, pero si se considera el conjunto de corte formado por el nodo C,
entonces, el conjunto {C, D} separa a {A, B} de {E, F, G},los subgrafos que contienen
a los padres e hijos de D,respectivamente. Por tanto, se puede cortarel
buclecontenido en el grafo considerando el nodo C como un nodo evidencial, es
decir, asignndole un valor arbitrario.
Esta idea de cortar los bucles para obtener un grafo de estructura ms simple puede
ser llevada a la prctica utilizando el mtododenominado absorcin de evidencia.
Este mtodo muestra que la evidencia puede ser absorbida por el grafo cambiando
su topologa. De forma ms precisa, si Xi es un nodo evidenciar, se pueden eliminar
del grafo todas las aristas de la forma Xi Xjsustituyendo la funcin de probabilidad
condicionada del nodo Xj , p(xj |j ), por una funcin denida sobre un conjunto ms
reducido de variables:
p1 (xj |j\ xi) = p(xj |j\ xi , Xi = ei ).
UNIVERSIDAD PRIVADA TELESUP
Esta operacin deja inalterado el modelo probabilstico,
mientras que implica la topologa del grafo al eliminar un
conjunto de aristas. Obsrvese que el conjunto j\ Xi es el
nuevo conjunto de padres del nodo Xj en el grafo modicado.
Por ejemplo, si se asigna un valor arbitrario, C = c, al nodo C,
es decir, si se convierte Cen un nodo evidencial en el grafo de la Figura 8.16,
entonces se puede absorber esta evidencia eliminando del grafo la arista C F,
obteniendo as un nuevo grafo con estructura de poliarbol (ver Figura 8.17).
Para mantener inalterada la funcin de probabilidad condicionada del conjunto de
variables no evidnciales, p(y|C = c), se reemplaza la funcin de probabilidad p(f |c,
d) por p1 (f |d) = p(f |C = c, d), lo cual elimina la dependencia del nodo Frespecto de
la evidencia C.
p1(f | d) = p(f | C=c, d)
Absorcin de la evidencia C = c mediante la arista C F.
Por tanto, utilizando el mtodode absorcin de evidencia se puede reducir un grafo
mltiplemente conexo a un polirbol, asignando un valor arbitrario a los nodos de un
conjunto de corte C = {C1 ,..., Cm }.
MTODOS DE AGRUPAMIENTO
El algoritmo de propagacin en polirboles y el algoritmo de
condicionamiento introducidos en las secciones anteriores
aprovechan la estructura particular de los grafos dirigidos para
propagar la evidencia. Por tanto, estos algoritmos son slo
aplicables a redes Bayesianas. En esta seccin se presenta un mtodode
propagacin distinto, el mtodode agrupamiento que, a partir de las estructuras
locales contenidas en el grafo, produce representaciones alternativas para propagar
la evidencia. Por tanto, estos mtodosno dependen del tipo de grafo y son aplicables
tanto a redes de Markov, como a redes Bayesianas.
UNIVERSIDAD PRIVADA TELESUP
El mtodode agrupamiento, inicialmente desarrollado por Lauritzen y Spiegelhalter
(1988), se basa en la construccin de subconjuntos de nodos (aglomerados) que
capturen las estructuras locales del modelo probabilstico asociado al grafo. De esta
forma, el proceso de propagacin de evidencia puede ser realizado calculando
probabilidades locales (que dependen de un nmero reducido de variables), evitando
as calcular probabilidades globales (que dependen de todas las variables), los
conglomerados de un grafo son los subconjuntos que representan sus estructuras
locales.
Por tanto, en primer lugar, el algoritmo de agrupamiento calcula los conglomerados
del grafo; a continuacin obtiene las funciones de probabilidad condicionada de cada
conglomerado calculando de forma iterativa varias funciones de probabilidad locales.
Por ltimo, se obtiene la funcin de probabilidad condicionada de cada nodo
marginalizando la funcin de probabilidad de cualquier conglomerado en el que est
contenido. En esta seccin se presentan dos versiones de este algoritmo, una para
redes de Markov y otra para redes Bayesianas.
Eliminar de X los nodos evidenciales.Este proceso tambin implica modicar el
conjunto de conglomerados y la representacin potencial. La nueva representacin
potencial, (C , ), est denida en X , donde X = X \ E, C es el nuevoconjunto
de conglomerados y son los nuevos potenciales, que contienen la evidencia, y
que han sido obtenidos de la forma siguiente: Para cada conglomerado Cicontenido
en Ctal que Ci E= , se incluye el conjunto Ci\ Een C y se dene Para el resto de
los conglomerados que no contienen nodos evidenciales, no es necesario realizar
ninguna medicacin en las representaciones potenciales correspondientes. Con ello,
se tiene p(x|e) (ci ).i=1
Por tanto, en ambos casos, se puede aplicar el mtodo anterior para obtener la
funcinde probabilidad condicionada de los nodos, dada la evidencia E= e. En el
primer caso se continuacon la misma estructurautilizan ms recursos de los
necesarios. En el segundo caso, no se utilizan ms recursos de los necesarios, pero
se necesita modicar la estructura. Por tanto, se requiere un consenso entre ambas
opciones con objeto de elegir la ms adecuada en cada caso.
UNIVERSIDAD PRIVADA TELESUP
Algoritmo de Agrupamiento en Redes Bayesianas
En la seccin anterior se present el mtodo de agrupamiento para propagar
evidencia en redes de Markov. En esta seccin se presenta una adaptacin
FIGURA 8.26. Grafo dirigido acclico mltiplemente conexo.
PROPAGACIN EN ARBOLES DE CONGLOMERADOS
El algoritmo de agrupamientoagrupa conjuntos de nodos con cierta estructura local
creando una cadena de conglomerados para propagar evidencia. Algunas
modicaciones de este mtodo utilizan una representacin grca de la cadena de
conglomerados(por ejemplo, un rbol de unin) para propagar la evidencia de forma
ms eciente. El mtodo de los universosde conocimiento desarrollado por Jensen,
Olesen y Andersen Transforma el grafo mltiplemente conexo en un rbol de
conglomerados asociado al grafo original.
UNIVERSIDAD PRIVADA TELESUP
TEMA 2
Competencia:
Mtodos de Propagacin Aproximada
Conocer los principales mtodos de propagacin aproximada, identificando las caractersticas que la representan.
UNIVERSIDAD PRIVADA TELESUP
Tema 02: Mtodos de Propagacin Aproximada
BASE INTUITIVA DE LOS MTODOS DE SIMULACIN
En esta seccinse ilustra un esquema general de simulacin mediante un sencillo
ejemplo. Considrese una urna que contiene seis bolas numeradas{1,...,
6}.Supngaseque se quiere realizar el siguiente experimento. Se selecciona una bola
al azar de la urna, se apunta su nmero, se devuelve a la urna, y se mezclan las
bolas antes de proceder a extraer la bola siguiente. Esteesquema de muestreo se
denomina muestreoconreemplazamiento. Cada seleccin de una bola se llama una
extraccino un experimento. En este caso cada extraccin tiene seis posibles
resultados, {1,..., 6}.
Sea Xiel resultado (el nmerode la bola) de la extraccin i-sima.
Puesto que el muestreo se hace con reemplazamiento, las
extracciones son independientes (el resultado de una
extraccinno inuye en el resultado de las
dems).Claramente, Xies una variable uniformecon funcinde
probabilidad p(Xi= xi ) = 1/6,para xi = 1,..., 6 y i = 1,...,N ,
donde Nes el nmero de extracciones (el tamao de la muestra).Utilizando esta
funcinde probabilidad conjunta, se pueden calcular las probabilidades exactas de
ciertos sucesos tales como p(X1= 1,..., Xn =1)
p (nmero de pares= nmero de impares), etc.
Estos clculos son fciles en este caso puesto que la
distribucines uniforme (hay exacta- mente una bola para cada
uno de los nmeros {1,..., 6}), las extracciones son idnticas(se
usa la misma urna), y el resultado de cada extraccin es
independiente de los resultados de los dems (muestreamos con reemplazamiento).
Los clculos de las probabilidades exactas son complicados y costosos cuando la
distribucin no es uniforme (por ejemplo, se tiene distinto nmero de bolas de
diferentes tipos), las extracciones no son idnticos (por ejemplo, se realiza un
muestreo con diferentes nmerosde bolas), y/oextracciones que no son
independientes(por ejemplo, muestreo sin reemplazamiento).
UNIVERSIDAD PRIVADA TELESUP
En estas situaciones complicadas, se pueden calcular las probabilidades de ciertos
sucesos de forma aproximada mediante tcnicasde simulacin. Se puede, por
ejemplo, repetir un experimento N veces. Se obtiene lo que se llama una muestra de
tamao N.Entonces, la probabilidad de un suceso puede aproximarse por el cociente
entre el nmerode veces que ocurre dicho suceso y el nmerototalde
simulacionesN.Claramente, cuanto mayor es el tamao de la muestra ms
aproximada ser la aproximacin.
Simulando la extraccin de bolas con reemplazamiento de la Urna y mediante un dado.
Que es ms fcil lanzar el dado que extraer la bola de una urna, devolverla y mezclar
las bolas antes de la extraccinsiguiente. Enotras palabras, si no es fcilobtener
muestras de la distribucinde la poblacinse debe elegir otra distribucinque resulte
ms sencilla para la simulacin. se puede utilizar un dado para simular la extraccin
de bolas de urnas con diferentes nmerosde bolas? La respuesta, afortunadamente,
es positiva. Por ejemplo, supngase que la urna contiene solo cinco bolas numeradas
{1,..., 5} (Urna 2). Sea X el nmerode bolas con el nmeroi sacadas al azar con
reemplazamientode la Urna 2.
Entonces X es una variable aleatoria cuya funcin de probabilidad, p(x), se muestra
en la Figura 9.2 (Urna 2). En este caso, la distribucin simulada (el dado) no es la
misma que la distribucinde la poblacin(Urna 2),es decir, p(x) = h(x) (las columnas
etiquetadas s(x) se explicaranen breve). A pesar del hecho de que la Urna 2 y el
dado no tienen la misma distribucin, se puede todava utilizar el dado para simular la
extraccinde bolas de la Urna 2, pero se tiene que corregir por el hecho de que las
distribuciones de la poblacin y la simulada no coinciden.
UNIVERSIDAD PRIVADA TELESUP
Una forma de tener en cuenta esta diferencia es la siguiente: cuando en el dado sale
un 6, se ignora la tirada y se repite de nuevo hasta que salga un valor menor que 6,
en cuyo caso se hace y igual al nmeroque salga y se toma y como valor generado
de la poblacin p(x). Este ejemplo es en realidad un caso especial del mtodo
conocido como mtodo de aceptacin- rechazo.
El mtodo de aceptacin - rechazo.Sea X una variable aleatoriacon funcinde
probabilidad p(x). Supngaseque p(x) puede ser expresada como
p(x) = c g(x) h(x),(9.2)
dondec 1, 0 g(x) 1 y h(x) es unafuncinde probabilidad. Sea U una variable
aleatoria uniformeU (0, 1) y sea Yuna variable aleatoria confuncinde probabilidad
h(y)independiente de U. Entonces, la funcinde probabilidad condicionalde Ydado
que u g(y)coincidecon la funcin de probabilidad de X. Por otra parte, la
probabilidad de aceptar la muestra (eciencia) es 1/c.
Una ilustracin de un esquema general de simulacin.
Por ejemplo, en el caso de la Urna 2 que se muestra en la Figura 9.2, se puede
escribir p(x) = cg(x)h(x), donde p(x) y h(x) se muestran en la Figura 9.2, c = 6/5 y 0, si
x = 6, g(x) =
Por ello, utilizando el teorema anterior, se puede obtener una muestra de p(x) (Urna
2) usando h(x) (el dado) y comprobando la condicin u g(x) para todo valor x que se
simule de h(x), donde u es un nmero obtenido de la distribucin uniforme U (0, 1).
Por tanto, en este caso, el suceso x = 6 siempre se rechaza, ya que g(6)= 0, y los
restantes sucesos se aceptan siempre.
UNIVERSIDAD PRIVADA TELESUP
TEMA 3
Competencia:
Propagacin Simblica
deEvidencia
Reconocerla importancia de la propagacin simblica de evidencia respecto al desarrollo de redes.
UNIVERSIDAD PRIVADA TELESUP
Tema 03: Propagacin Simblica de Evidencia
NOTACIN Y CONCEPTOS PRELIMINARES
Se ha visto que la funcin de probabilidad conjunta asociada a las redes
probabilsticasde Markov descomponibles y Bayesianas puede darse mediante una
factorizacin como producto de probabilidades condicionales
En el caso de redes Bayesianas, los conjuntos condicionantes son los padres del
nodo, i ,i= 1,..., n.Enel caso de redes de Markov descomponibles, estos conjuntos
se obtienen aplicando la regla de la cadena a la factorizacin obtenida a partir de la
cadena de conglomerados. Por tanto, aunque algunos de los mtodos introducidos
en este captulo pueden ser facialmente extendidos para tratar una representacin
potencial de la de probabilidad conjunta, por simplicidad, pero sin prdida de
generalidad, se utiliza el conjunto de probabilidades condicionales en como
representacinparamtricabsica de la funcin de probabilidad conjunta.
Sea X = {X1 ,..., Xn } un conjunto de n variables
discretas, cada una de las cuales puede tomar valores
en el conjunto {0, 1,..., ri }, y sea B= (D, P ) una red
Bayesiana denida sobre X , donde el grafo dirigido
acclico D determina la estructura del conjunto de
probabilidades condicionales, y P = {p(x1 |1 ),..., p(xn |n )} es el conjunto de
probabilidades condicionales que se necesitan para especicar la funcin de
probabilidad conjunta.Algunas de las probabilidadescondicionales en (10.1)pueden
darse en forma numricay otras en forma simblica, es decir, p(xi |i ) pueden ser
familias paramtricas o probabilidades totalmente especicadas numricamente.
UNIVERSIDAD PRIVADA TELESUP
Nodo Simblico.Cuandop(xi |i ) es una familia paramtrica simblica (es decir,
depende de al menosun parmetro en forma simblica),el nodo Xi se denominaun
nodo simblico, y se utiliza ipara denotarsus correspondientes
parmetrossimblicos.Cuando p(xi |i ) es una familia paramtrica, es decir, cuando
Xi es un nodo simblico, una eleccin conveniente de los parmetros es la siguiente
Donde es cualquier posible realizacin de los padres, i , de Xi . Por ello, el primer
subndice de ij se reere al nmero del nodo, el segundo subndice se riere al
estado del nodo, y los restantes subndices se rieren a las realizaciones de sus
padres. Puesto que
No todos los parmetros son libres, es decir, uno cualquiera de ellos puede ser
escrito como la unidad menos la suma del resto. Por ejemplo, el primer parmetro
puede escribirse como
Para implicar la notacin en los casos en los que la variable Xi no tiene padres, se
utiliza ijpara denotar pi (Xi = j), j {0,..., ri }. Se ilustra esta notacin usando el
ejemplo siguiente.
Ejemplo de Nodos simblicos. Considrese una red Bayesiana discreta consistente
en las variables X = {X1 ,..., X8 }, La estructura del grafo implica que la probabilidad
conjunta del conjunto de nodos puede escribirse en la forma
p(x) = p(x1 )p(x2 |x1 )p(x3 |x1 )p(x4 |x2 , x3 )p(x5 |x3 )p(x6 |x4 )p(x7 |x4 )p(x8 |x5 ).
Porsimplicidad, y sin prdidade generalidad, supngaseque todos los nodos
representan variables binarias con valores en el conjunto { 0, 1}. Esto y la estructura
de la distribucinde probabilidad implica que la funcin de probabilidad conjunta de
las ocho variables depende de 34 parmetros = {ij }.
UNIVERSIDAD PRIVADA TELESUP
Ntese,sin embargo, que solamente 17 de ellos son libres (puesto que las
probabilidades en cada una de las probabilidades condicionales deben sumar la
unidad). Estos 17 parmetros se dan en la Tabla.
Un grafo dirigido acclico.
TABLA de El conjunto de parmetros libres asociados a las distribuciones
condicionales.
UNIVERSIDAD PRIVADA TELESUP
En este ejemplo, sololos nodos X3y X6son nodos simblicospuesto que sus
correspondientes funciones de probabilidad condicionada contienen al menos un
parmetro simblico.Se tienen los conjuntos de parmetros 3= {300 , 310 } y 6=
{600 , 610 }. Ntese que estos conjuntos incluyen todos los parmetros simblicos,
no slo los parmetros libres. Por ello, el conjunto de parmetrossimblicosasociados
a la red Bayesiana es = {3, 6}.
GENERACIN AUTOMTICA DE CDIGO SIMBLICO
El tratamiento con parmetros simblicos es
idntico al tratamiento con valores numricos,
con la nica diferencia de que las operaciones
requeridas deben realizarse con un programa
capaz de manipular smbolos en vez de
nmeros. Los clculos simblicos, sin
embargo, son mucho ms lentos que los
numricos y requieren ms memoria.
Sin embargo, este mtodode resolver el problema es muy costoso
computacionalmente, y resulta ineciente incluso con nmeros reducidos de variables
Una alternativa a este mtodoconsiste en adaptar algunos de los algoritmos de
propagacin numrica muestran que la adaptacin simblica de estos mtodos
requiere solo pequeas modicaciones. Por ejemplo, el algoritmo de propagacin
por agrupamiento puede adaptarse fcilmente a la propagacin simblica utilizando
una herramienta informtica simblica, tal como Matemtica.
UNIVERSIDAD PRIVADA TELESUP
TEMA 4
Competencia:
Aprendizaje enRedes
Bayesianas
Aplicar las diversas teoras de aprendizaje sobre las redes bayesianas en diversos sistemas expertos.
UNIVERSIDAD PRIVADA TELESUP
Tema 04:Aprendizaje en Redes Bayesianas
MIDIENDO LA CALIDAD DE UNA RED BAYESIANA
Una medida de calidad, Q(B|S, ), es un criterio mediante el cual se puede ordenar el
conjunto de todas las redes Bayesianas posibles por su calidad, donde Bes una red
Bayesiana, la informacina priori, y Sun conjunto de datos. Por ello, dada la
informacin a priori y/o un conjunto de datos S,nuestro objetivo consiste en
obtener una red Bayesiana de alta calidad. Una medida de calidad debe satisfacer
algunas propiedades deseables. Por ejemplo, debe asignarse la misma calidad a las
redes que conduzcan a la misma estructura de independencia.
A continuacin se dene esta importante propiedad.
Equivalencia en Peso:
Dado un conjuntode datos S, una medida de calidad Q(B|S, ) se dice que es
equivalente en peso si asigna el mismovalor a todopar de
redesBayesianasequivalentesB1y B2 , es decir, si Q(B1 |S, ) = Q(B2 |S, ).
Otras propiedades de las medidas de calidad son:
A las redes recomendadas por los expertos se les debe asignar calidades ms
altas que a las rechazadas por ellos.
Las representaciones perfectas deben recibir calidades mayores que las
imperfectas.
Las I -representaciones mnimas deben recibir calidades mayores que las no
mnimas.
Las redes con reducido nmero de parmetros a igualdad del
resto de propiedades deben recibir calidades mayores que las
de elevado nmero de parmetros.
A las redes que conrmen la informacin contenida en los
datos debe asignrsele una calidad mayor que a aquellas que
contradigan a estos.
Para ampliar conocimientos sobre estasy otras propiedades se remite al lector a
consultar el trabajo de Bouckaert (1995).
UNIVERSIDAD PRIVADA TELESUP
Las medidas de calidad dependen de la incertidumbre de la informacin disponible.
Dos posibles situaciones son:
1. Una situacin en la que las estructuras probabilsticas y grcas estn ambas
sometidas a incertidumbre. En este caso, se dispone de la informacin a priori
y el conjunto de datos S, y el objetivo consiste en encontrar la mejor red
Bayesiana B() = (D, P ()) usando algn criterio de calidad. Ntese que
contiene informacin a priori referente a ambas estructuras, la grca y la
paramtrica. Dados y S, la calidad de una red Bayesiana B() depende de la
calidad de sus subcomponentes, D y P (). Se usa:
Q (B()|S, ) o Q(D, P ()|S, ).
Para denotar la medida de calidad de la red Bayesiana
en su totalidad y para indicar que la medida depende de
S y . Sin embargo, en algunos casos se puede estar
interesado slo en el aprendizaje estructural. En tales
casos, se puede obtener una medida de la calidad de la
estructura grca maximizando la calidad de sus redes
Bayesianas Q(B()|S, ) con respecto a , es decir,
Q(D|S, ) = Q(D, P ()|S, ),Donde es el valor de que maximiza Q(D, P
()|S, ). Alternativamente, se puede usar cualquier otra estimacinde , tal como
la estimacinde mxima verosimilitud, una estimacinBayesiana,etc.
2. Una situacin en la que la estructura grcaDes
conocida y slo la estructura
probabilsticaestsometida a incertidumbre. En
este caso, se est interesado slo en el
aprendizaje paramtrico, y el objetivo consiste
en encontrar la mejor estructura probabilstica P (), utilizando algncriterio de
calidad. Dados S,Dy , la calidad de P () depende de la calidad de los
parmetros estimados. Se usaQ(P ()|D, S, ) para denotar la medida de calidad
de la estructura probabilstica de la red Bayesiana y para enfatizar que esta
condicionada a D, S, y . Ntese que slo contiene informacin a priori sobre
la estructura paramtrica ya que se conoce con certeza la estructura traco.
UNIVERSIDAD PRIVADA TELESUP
Algunas medidas de calidad se denen como la suma de tres trminos o
componentes:Q = f (informacin a priori) + g(datos disponibles) +
h(complejidad), donde f (.), g(.)yh(.)Son funciones conocidas. El signicado de
estos trminos se explica a continuacin:
1. La informacin a priori: La funcin f (informacin a priori) a- signa una
probabilidad alta a las redes que han sido indicadas como altamente probables
por la informacin a priori y una probabilidad baja a las que han sido indicadas
como poco probables. Cuanto mayor sea la contribucin de este trmino a la
medida de calidad, mayor ser el peso del conocimiento a priori frente al
aportado por los datos. Este trmino contribuye decisivamente a la calidad de la
red en estudio cuando no existen datos disponibles o son muy reducidos, pero
es despreciable cuando los datos disponibles son abundantes.
Una eleccin tpica para este trmino es log p(B),
donde p(B) = p(D, ) es la probabilidad a priori
asignada a la red B, donde se usa en vez de P
para mostrar la dependencia explicita de P del
parmetro . Si no hay conocimiento a priori
disponible, este trmino se sustituye por cero, lo que es equivalente a suponer
que p(B) es una distribucin uniforme.
2. Los datos disponibles: La funcin g(datos disponibles) es un trmino de
bondad de ajuste que mide lo bien o mal que una red Bayesiana reproduce los
datos S. Da una alta calidad a las redes que estn de acuerdo con los datos y
una baja calidad a las que los contradicen. La contribucin de este trmino
aumenta cuando se aaden aristas a la red. En tal caso se tienen ms
parmetros o grados de libertad y, normalmente, se puede obtener un mejor
ajuste a los datos.
Algunas elecciones tpicas para este trmino son las siguientes:
(a)El logaritmo de la verosimilitud de los datos: log p(S|D, ).
(b)Ellogaritmo de laprobabilidad aposteriori de dada la estructura D y los
datos S: log p(|S, D).
UNIVERSIDAD PRIVADA TELESUP
3. La complejidad:La funcin h(complejidad) penaliza las redes con estructura
compleja (por ejemplo, redes con un gran nmero de aristas y/o un nmero
alto de parmetros). Por ello, la funcinh() conduce a una calidad alta para las
redes simples con un nmero reducido de aristas y parmetros, y a una baja
calidad para las redes con muchas aristas y/o parmetros.
Para medir la complejidad de una red Bayesiana es importante conocer su
dimensin. Dimensin de una red Bayesiana. Sea X un conjunto de variables
y B = (D, P) una red Bayesiana denida sobre X. La dimensin de esta red
Bayesiana, Dim(B), se dene como el nmero de parmetros necesarios para
especican su funcin de probabilidad conjunta asociada.
Chickering (1995a) muestra que las redes Bayesianas
independientemente equivalentes tienen la misma
dimensin.
En la literatura existente se han propuesto varias medidas
de calidad para redes Bayesianas. Estas se han clasicado
en los tipos siguientes:
Medidas de calidad Bayesianas.
Medidas de mnima longitud de descripcin.
Medidas de informacin.
Estos tipos de medidas de calidad se discuten en las secciones siguientes.
Medidas de Calidad Bayesianas. Enla teoraestadsticaBayesiana, se supone
inicialmente que la distribucin a priori p(B) = p(D, ) la dan los expertos. Esta
distribucin reeja la opinin de los expertos sobre la frecuencia relativa de
ocurrencia de diferentes redes Bayesianas B= (D, P ()).Para mejorar el
conocimiento, se obtienen unos datos Sy, mediante el teorema de Bayes, la
distribucin a posteriori p(B, |S) como sigue: