Teoria da Decis~ao Bayesiana 1 Abordagem Bayesianafatc/AM/Teoria-Decisao-Bayesiana-1.pdf · 2013....

Teoria da Decisao Bayesiana 1

Abordagem BayesianaI Quantificacao do balano entre varias

decisoes (classificacao) usando

probabilidade e custo

I A tomada de decisao e formulada em

termos probabilsticos

I Supoe-se conhecidos todos os valores de

probabilidade

1Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


ExemploI Classificar duas especies de peixes :

salmao e badejo

I A priori no se sabe de qual das duas

especies e o peixe, mas sabe-se que e uma

das duas



EstadoI ω : tipo de peixes

I ω1 = badejo

I ω2 = salmao

I ω1 e ω2 sao estados (categorias, classes)

I ω: varivel aleatoria



Probabilidade a prioriI Se a quantidade de salmao e a mesma do

badejo diremos que e igualmente

verossımil observar um ou outro

I P(ω1): probabilidade a priori de observar

badejo

I P(ω2): probabilidade a priori de observar

salmao

I P(ω1) + P(ω2) = 14Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Probabilidade a prioriI A probabilidade a priori reflete o quao

verossımil e observar uma das duas

especies de peixes

Regra de DecisaoI Suposicao: qualquer classificacao

incorreta tem o mesmo custo

I Informacao disponvel: as probabilidades a

priori5Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Regra de Decisao

I Decisao =

{ω1 se P(ω1) > P(ω2)

ω2 senao

I Se P(ω1) >> P(ω2) a decisao em favor

de ω1 estara correta a maior parte do

tempo

I Se P(ω1) = P(ω2), essa decisao tem

apenas 50% de chance de estar certa



Regra de DecisaoI Probabilidade de erro:

P(erro) =

P(ω1), se a decisao

e em favor de ω2

P(ω2), se a decisao

e em favor de ω1

I P(erro) = min[P(ω1),P(ω2)]



Probabilidade CondicionalI Cada peixe tem um brilho x diferente

I x : varivel aleatoria contınua cuja

distribuicao depende de um dos estados

I p(x |ωj): funcao de densidade de

probabilidade condicional de x dado que a

classe e ωj



Probabilidade CondicionalI Suponha conhecidas:

I as probabilidades a priori P(ωj)I as densidades condicionais p(x |ωj), j = 1, 2.

I Suponha que o valor observado do brilho

foi x

I Como isso deve influenciar a nossa decisao

em relacao a que classe pertence o peixe?

I p(ωj , x): densidade de probabilidade

conjunta10Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


PosterioriI Teorema de Bayes:

I observando-se x pode-se passar daprobabilidade a priori P(ωj) para aprobabilidade a posteriori P(ωj |x)

I P(ωj |x): probabilidade da classe ser ωj

dado que observou-se x



VerossimilhancaI p(x |ωj):

I verossimilhanca de ωj em relao a xI a classe ωj cujo p(x |ωj) e o maior e a mais

verossımil de ser a verdadeira classe

EvidenciaI p(x): fator de escala que garante que a

soma das probabilidades a posteriori e 1



Regra de Decisao Bayesiana

I Decisao =

{ω1 se P(ω1|x) > P(ω2|x)

ω2 se P(ω2|x) > P(ω1|x)I Decisao ={

ω1 se p(x |ω1|x)P(ω1) > p(x |ω2|x)P(ω2)

ω2 se p(x |ω2|x)P(ω2) > p(x |ω1|x)P(ω1)I Casos particulares

I P(ω1) = P(ω2)I p(x |ω1|x)P(ω1) = p(x |ω2|x)P(ω2)



Regra de Decisao BayesianaI Justificativa: observado x , a

probabilidade de erro e

P(erro|x) =

P(ω1|x) decidindo-se

em favor de ω2

P(ω2|x) decidindo-se

em favor de ω1

I P(erro|x) = min[P(ω1|x),P(ω2|x)]



Regra de Decisao BayesianaI Para um dado x , a probabilidade de erro e

minimizada decidindo-se ω1, se

P(ω1|x) > P(ω2|x) e ω2, senao

I Caso geral:

P(erro) =∫ +∞−∞ P(erro, x)dx =∫ +∞

−∞ P(erro|x)p(x)dx

I Garantindo-se que P(erro|x) seja o menor

possıvel (para todo x) garante-se que a

integral e a menor possıvel17Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Espao de AtributosI x ∈ <d : vetor de atributos

I <d : Espaco de Atributos; espaco

euclidiano d-dimensional

Funcao de CustoI Funcoes de custo permitem tratar

situacoes em que alguns erros de

classificao sao mais importantes do que

outros18Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


FormalizacaoI {ω1, . . . , ωc}: conjunto de c estados

(categorias, classes)

I {α1, . . . , αa}: conjunto de a possıveis

acoesI λ(αi |ωj): funcao de custo

I fornece o custo (perda) de realizar a acao αiquando o verdadeiro estado e ωj



FormalizacaoI p(x|ωj): funcao de densidade de

probabilidade de x condicionada a ωj ser

o verdadeiro estado, classe

I P(ωj): probabilidade a priori da classe ωj

I Probabilidade a Posteriori:

P(ωj |x) =p(x|ωj)P(ωj)

p(x)I Evidencia: p(x) =

∑cj=1 p(x|ωj)P(ωj)



RiscoI suponha que observou-se x e que

realizou-se αi

I se o verdadeiro estado e ωj , o custo e

λ(αi |ωj)

I O custo esperado, associado com a

decisao de acao αi e:

R(αi |x) =∑c

j=1 λ(αi |ωj)P(ωj |x)



RiscoI Risco: perda esperada

I R(αi |x): risco condicional

I observado x pode-se minimizar a perda

esperada selecionando-se a acao que

minimiza o risco condicional



Risco GlobalI Uma regra de decisao e uma funcao α(x)

que assume um dos a valores α1, . . . , αa

I O risco global R e a perda esperada

associada a uma dada funcao de decisao:

R =∫R(α(x)|x)p(x)dx

I Se α(x) e escolhido tal que R(αi |x) e

mınimo para todo x, entao o risco global

serminimizado23Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Regra de Decisao BayesianaI Para minimizar o risco global, calcule o

risco condicional

R(αi |x) =∑c

j=1 λ(αi |ωj)P(ωj |x)

I para i = 1, . . . , a, selecione a acao αi

para o qual R(αi |x) e mınimo

I R∗: risco de Bayes (risco global mınimo)



Classificacao em duas categoriasI α1 e a acao que corresponde a decisao de

que a verdadeira classe e ω1

I α2 e a acao que corresponde a decisao de

que a verdadeira classe e ω2

I λij = λ(αi |ωj) e a perda (custo) ao

decidir-se pela classe ωi quando a

verdadeira classe e ωj



Classificacao em duas categoriasI Nesse caso:

R(α1|x) = λ11P(ω1|x) + λ12P(ω2|x)

R(α2|x) = λ21P(ω1|x) + λ22P(ω2|x)

Regra de Decisao de Risco Mınimo

I Decisao =

{ω1 se R(α1|x) < R(α2|x)

ω2 se R(α2|x) < R(α1|x)



Regra de Decisao de Risco MınimoI Decisao

=

{ω1 se (λ21 − λ11)P(ω1|x) > (λ12 − λ22)P(ω2|x)ω2 se (λ21 − λ11)P(ω1|x) < (λ12 − λ22)P(ω2|x)

I Decisao ={ω1 se (λ21 − λ11)p(x|ω1)P(ω1) > (λ12 − λ22)p(x|ω2)P(ω2)ω2 se (λ21 − λ11)p(x|ω1)P(ω1) < (λ12 − λ22)p(x|ω2)P(ω2)



Razao de VerossimilhancaI

p(x|ω1)p(x|ω1): razao de verossimilhanca

p(x|ω1)

p(x|ω1)=

(λ12 − λ22)P(ω2)

(λ21 − λ11)P(ω1)

Regra de Decisao de BayesI decidir por ω1 se a razao de

verossimilhanca excede um limiar que e

independente da observacao x



Custo zero-umI Acao αi e associada com a classe ωi

I Se a acao realizada e αi e a verdadeira

classe e ωj , a decisao e correta se i = j e

e incorreta se i 6= j

I Funcao de custo zero-um:

λ(αi |ωj) =

{0, se i = j

1, se i 6= ji , j = 1, . . . , c



Custo zero-umI Associa custo zero a uma decisao correta

e custo unitario a uma decisao incorreta:

I todos os erros tem o mesmo custo

I Risco condicional

R(αi |x) =∑c

j=1 λ(αi |ωj)P(ωj |x) =∑j 6=i P(ωj |x) = 1− P(ωi |x)

I P(ωi |x): probabilidade condicional que a

acao αi e correta31Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Classificacao com taxa de erromınima

I Regra de Deciso Bayesiana paraminimizar o risco

I selecionar a acao que minimiza o riscocondicional

I Para minimizar o risco condicional,

deve-se selecionar a acao αi que maximiza

a probabilidade a posteriori P(ωi |x)

I Decida em favor de ωi se

P(ωi |x) > P(ωj |x),∀j 6= i32Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Caso multi-classeI Diferentes maneiras de representar

classificadores

I Funcoes discriminantes gi(x), i = 1, . . . , c

I O classificador atribui o vetor de atributos

x a classe ωi se gi(x) > gj(x),∀j 6= i

I Ele e visto como uma rede que computa o

valor das funcoes discriminantes e

seleciona a classe que corresponde a

funcao discriminante de maior valor33Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Caso multi-classeI No caso geral que leva em conta os riscos

gi(x) = −R(αi |x)

I O discriminante maximo corresponde ao

risco condicional mınimo

I No caso da classificacao com taxa de erro

mnima gi(x) = P(ωi |x)

I O discriminante maximo corresponde a

maxima probabilidade a posteriori35Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho


Caso multi-classeI A escolha da funcao discriminante nao e

unica

I Trocando-se gi(x) por f (gi(x)), com f

monotonicamente crescente, o resultado

da classificacao nao muda



Caso multi-classeI No caso da classificacao com taxa de erro

mınima

gi(x) = P(ωi |x) =p(x|ωi)P(ωi)∑cj=1 p(x|ωj)P(ωj)

gi(x) = p(x|ωi)P(ωi)

gi(x) = ln{p(x|ωi)} + ln{P(ωi)}



Regioes de DecisaoI As funcoes de decisao podem ser

expressas de diferentes formas, mas as

regras de decisao sao equivalentes

I O efeito das regras de decisao e dividir o

espaco de atributos em c regioes de

decisao R1, . . . ,Rc



Regioes de DecisaoI Se gi(x) > gj(x),∀j 6= i , entao x esta em

Ri e a regra de decisao associa x a ωi

I As regioes sao separadas por fronteiras de

decisao, superfıcies no espaco de

atributos onde ocorrem igualdades entre

os discriminantes maximo



Caso de duas classesI Em vez de duas funoes discriminantes,

uma unica

Decisao =

{ω1 se g(x) > 0

ω2 se g(x) < 0g(x) = g1(x)− g2(x)



Caso de duas classesI No caso de classificacao com taxa de erro

mınima

g(x) = g1(x)− g2(x)

g(x) = P(ω1|x)− P(ω2|x)

g(x) = ln{p(x|ω1)

p(x|ω2)} + ln{P(ω1)

P(ω2)


Teoria da Decis~ao Bayesiana 1 Abordagem Bayesianafatc/AM/Teoria-Decisao-Bayesiana-1.pdf · 2013....

Documents

Transcript of Teoria da Decis~ao Bayesiana 1 Abordagem Bayesianafatc/AM/Teoria-Decisao-Bayesiana-1.pdf · 2013....