Teoria da Decis~ao Bayesiana 1 Abordagem Bayesianafatc/AM/Teoria-Decisao-Bayesiana-1.pdf · 2013....
Transcript of Teoria da Decis~ao Bayesiana 1 Abordagem Bayesianafatc/AM/Teoria-Decisao-Bayesiana-1.pdf · 2013....
Teoria da Decisao Bayesiana 1
Abordagem BayesianaI Quantificacao do balano entre varias
decisoes (classificacao) usando
probabilidade e custo
I A tomada de decisao e formulada em
termos probabilsticos
I Supoe-se conhecidos todos os valores de
probabilidade
1Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 2
ExemploI Classificar duas especies de peixes :
salmao e badejo
I A priori no se sabe de qual das duas
especies e o peixe, mas sabe-se que e uma
das duas
2Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 3
EstadoI ω : tipo de peixes
I ω1 = badejo
I ω2 = salmao
I ω1 e ω2 sao estados (categorias, classes)
I ω: varivel aleatoria
3Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 4
Probabilidade a prioriI Se a quantidade de salmao e a mesma do
badejo diremos que e igualmente
verossımil observar um ou outro
I P(ω1): probabilidade a priori de observar
badejo
I P(ω2): probabilidade a priori de observar
salmao
I P(ω1) + P(ω2) = 14Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 5
Probabilidade a prioriI A probabilidade a priori reflete o quao
verossımil e observar uma das duas
especies de peixes
Regra de DecisaoI Suposicao: qualquer classificacao
incorreta tem o mesmo custo
I Informacao disponvel: as probabilidades a
priori5Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 6
Regra de Decisao
I Decisao =
{ω1 se P(ω1) > P(ω2)
ω2 senao
I Se P(ω1) >> P(ω2) a decisao em favor
de ω1 estara correta a maior parte do
tempo
I Se P(ω1) = P(ω2), essa decisao tem
apenas 50% de chance de estar certa
6Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 7
Regra de DecisaoI Probabilidade de erro:
P(erro) =
P(ω1), se a decisao
e em favor de ω2
P(ω2), se a decisao
e em favor de ω1
I P(erro) = min[P(ω1),P(ω2)]
7Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 8
Probabilidade CondicionalI Cada peixe tem um brilho x diferente
I x : varivel aleatoria contınua cuja
distribuicao depende de um dos estados
I p(x |ωj): funcao de densidade de
probabilidade condicional de x dado que a
classe e ωj
8Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 9
9Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 10
Probabilidade CondicionalI Suponha conhecidas:
I as probabilidades a priori P(ωj)I as densidades condicionais p(x |ωj), j = 1, 2.
I Suponha que o valor observado do brilho
foi x
I Como isso deve influenciar a nossa decisao
em relacao a que classe pertence o peixe?
I p(ωj , x): densidade de probabilidade
conjunta10Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 11
Teorema de BayesI p(ωj , x) = P(ωj |x) p(x) = p(x |ωj)P(ωj)
I P(ωj |x) =p(x |ωj)P(ωj)
p(x)I No caso de duas categorias (classes)
p(x) =∑2
j=1 p(x |ωj)P(ωj)
I Teorema de Bayes em palavras:
posteriori =verosimilhanca × priori
evidencia
11Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 12
PosterioriI Teorema de Bayes:
I observando-se x pode-se passar daprobabilidade a priori P(ωj) para aprobabilidade a posteriori P(ωj |x)
I P(ωj |x): probabilidade da classe ser ωj
dado que observou-se x
12Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 13
VerossimilhancaI p(x |ωj):
I verossimilhanca de ωj em relao a xI a classe ωj cujo p(x |ωj) e o maior e a mais
verossımil de ser a verdadeira classe
EvidenciaI p(x): fator de escala que garante que a
soma das probabilidades a posteriori e 1
13Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 14
14Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 15
Regra de Decisao Bayesiana
I Decisao =
{ω1 se P(ω1|x) > P(ω2|x)
ω2 se P(ω2|x) > P(ω1|x)I Decisao ={
ω1 se p(x |ω1|x)P(ω1) > p(x |ω2|x)P(ω2)
ω2 se p(x |ω2|x)P(ω2) > p(x |ω1|x)P(ω1)I Casos particulares
I P(ω1) = P(ω2)I p(x |ω1|x)P(ω1) = p(x |ω2|x)P(ω2)
15Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 16
Regra de Decisao BayesianaI Justificativa: observado x , a
probabilidade de erro e
P(erro|x) =
P(ω1|x) decidindo-se
em favor de ω2
P(ω2|x) decidindo-se
em favor de ω1
I P(erro|x) = min[P(ω1|x),P(ω2|x)]
16Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 17
Regra de Decisao BayesianaI Para um dado x , a probabilidade de erro e
minimizada decidindo-se ω1, se
P(ω1|x) > P(ω2|x) e ω2, senao
I Caso geral:
P(erro) =∫ +∞−∞ P(erro, x)dx =∫ +∞
−∞ P(erro|x)p(x)dx
I Garantindo-se que P(erro|x) seja o menor
possıvel (para todo x) garante-se que a
integral e a menor possıvel17Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 18
Espao de AtributosI x ∈ <d : vetor de atributos
I <d : Espaco de Atributos; espaco
euclidiano d-dimensional
Funcao de CustoI Funcoes de custo permitem tratar
situacoes em que alguns erros de
classificao sao mais importantes do que
outros18Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 19
FormalizacaoI {ω1, . . . , ωc}: conjunto de c estados
(categorias, classes)
I {α1, . . . , αa}: conjunto de a possıveis
acoesI λ(αi |ωj): funcao de custo
I fornece o custo (perda) de realizar a acao αiquando o verdadeiro estado e ωj
19Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 20
FormalizacaoI p(x|ωj): funcao de densidade de
probabilidade de x condicionada a ωj ser
o verdadeiro estado, classe
I P(ωj): probabilidade a priori da classe ωj
I Probabilidade a Posteriori:
P(ωj |x) =p(x|ωj)P(ωj)
p(x)I Evidencia: p(x) =
∑cj=1 p(x|ωj)P(ωj)
20Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 21
RiscoI suponha que observou-se x e que
realizou-se αi
I se o verdadeiro estado e ωj , o custo e
λ(αi |ωj)
I O custo esperado, associado com a
decisao de acao αi e:
R(αi |x) =∑c
j=1 λ(αi |ωj)P(ωj |x)
21Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 22
RiscoI Risco: perda esperada
I R(αi |x): risco condicional
I observado x pode-se minimizar a perda
esperada selecionando-se a acao que
minimiza o risco condicional
22Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 23
Risco GlobalI Uma regra de decisao e uma funcao α(x)
que assume um dos a valores α1, . . . , αa
I O risco global R e a perda esperada
associada a uma dada funcao de decisao:
R =∫R(α(x)|x)p(x)dx
I Se α(x) e escolhido tal que R(αi |x) e
mınimo para todo x, entao o risco global
serminimizado23Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 24
Regra de Decisao BayesianaI Para minimizar o risco global, calcule o
risco condicional
R(αi |x) =∑c
j=1 λ(αi |ωj)P(ωj |x)
I para i = 1, . . . , a, selecione a acao αi
para o qual R(αi |x) e mınimo
I R∗: risco de Bayes (risco global mınimo)
24Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 25
Classificacao em duas categoriasI α1 e a acao que corresponde a decisao de
que a verdadeira classe e ω1
I α2 e a acao que corresponde a decisao de
que a verdadeira classe e ω2
I λij = λ(αi |ωj) e a perda (custo) ao
decidir-se pela classe ωi quando a
verdadeira classe e ωj
25Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 26
Classificacao em duas categoriasI Nesse caso:
R(α1|x) = λ11P(ω1|x) + λ12P(ω2|x)
R(α2|x) = λ21P(ω1|x) + λ22P(ω2|x)
Regra de Decisao de Risco Mınimo
I Decisao =
{ω1 se R(α1|x) < R(α2|x)
ω2 se R(α2|x) < R(α1|x)
26Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 27
Regra de Decisao de Risco MınimoI Decisao
=
{ω1 se (λ21 − λ11)P(ω1|x) > (λ12 − λ22)P(ω2|x)ω2 se (λ21 − λ11)P(ω1|x) < (λ12 − λ22)P(ω2|x)
I Decisao ={ω1 se (λ21 − λ11)p(x|ω1)P(ω1) > (λ12 − λ22)p(x|ω2)P(ω2)ω2 se (λ21 − λ11)p(x|ω1)P(ω1) < (λ12 − λ22)p(x|ω2)P(ω2)
27Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 28
Razao de VerossimilhancaI
p(x|ω1)p(x|ω1): razao de verossimilhanca
p(x|ω1)
p(x|ω1)=
(λ12 − λ22)P(ω2)
(λ21 − λ11)P(ω1)
Regra de Decisao de BayesI decidir por ω1 se a razao de
verossimilhanca excede um limiar que e
independente da observacao x
28Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 29
29Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 30
Custo zero-umI Acao αi e associada com a classe ωi
I Se a acao realizada e αi e a verdadeira
classe e ωj , a decisao e correta se i = j e
e incorreta se i 6= j
I Funcao de custo zero-um:
λ(αi |ωj) =
{0, se i = j
1, se i 6= ji , j = 1, . . . , c
30Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 31
Custo zero-umI Associa custo zero a uma decisao correta
e custo unitario a uma decisao incorreta:
I todos os erros tem o mesmo custo
I Risco condicional
R(αi |x) =∑c
j=1 λ(αi |ωj)P(ωj |x) =∑j 6=i P(ωj |x) = 1− P(ωi |x)
I P(ωi |x): probabilidade condicional que a
acao αi e correta31Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 32
Classificacao com taxa de erromınima
I Regra de Deciso Bayesiana paraminimizar o risco
I selecionar a acao que minimiza o riscocondicional
I Para minimizar o risco condicional,
deve-se selecionar a acao αi que maximiza
a probabilidade a posteriori P(ωi |x)
I Decida em favor de ωi se
P(ωi |x) > P(ωj |x),∀j 6= i32Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 33
Caso multi-classeI Diferentes maneiras de representar
classificadores
I Funcoes discriminantes gi(x), i = 1, . . . , c
I O classificador atribui o vetor de atributos
x a classe ωi se gi(x) > gj(x),∀j 6= i
I Ele e visto como uma rede que computa o
valor das funcoes discriminantes e
seleciona a classe que corresponde a
funcao discriminante de maior valor33Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 34
34Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 35
Caso multi-classeI No caso geral que leva em conta os riscos
gi(x) = −R(αi |x)
I O discriminante maximo corresponde ao
risco condicional mınimo
I No caso da classificacao com taxa de erro
mnima gi(x) = P(ωi |x)
I O discriminante maximo corresponde a
maxima probabilidade a posteriori35Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 36
Caso multi-classeI A escolha da funcao discriminante nao e
unica
I Trocando-se gi(x) por f (gi(x)), com f
monotonicamente crescente, o resultado
da classificacao nao muda
36Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 37
Caso multi-classeI No caso da classificacao com taxa de erro
mınima
gi(x) = P(ωi |x) =p(x|ωi)P(ωi)∑cj=1 p(x|ωj)P(ωj)
gi(x) = p(x|ωi)P(ωi)
gi(x) = ln{p(x|ωi)} + ln{P(ωi)}
37Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 38
Regioes de DecisaoI As funcoes de decisao podem ser
expressas de diferentes formas, mas as
regras de decisao sao equivalentes
I O efeito das regras de decisao e dividir o
espaco de atributos em c regioes de
decisao R1, . . . ,Rc
38Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 39
Regioes de DecisaoI Se gi(x) > gj(x),∀j 6= i , entao x esta em
Ri e a regra de decisao associa x a ωi
I As regioes sao separadas por fronteiras de
decisao, superfıcies no espaco de
atributos onde ocorrem igualdades entre
os discriminantes maximo
39Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 40
40Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 41
Caso de duas classesI Em vez de duas funoes discriminantes,
uma unica
Decisao =
{ω1 se g(x) > 0
ω2 se g(x) < 0g(x) = g1(x)− g2(x)
41Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho
Teoria da Decisao Bayesiana 42
Caso de duas classesI No caso de classificacao com taxa de erro
mınima
g(x) = g1(x)− g2(x)
g(x) = P(ω1|x)− P(ω2|x)
g(x) = ln{p(x|ω1)
p(x|ω2)} + ln{P(ω1)
P(ω2)
42Aprendizagem de Maquina, CIn/UFPE, Prof. Francisco de A.T. de Carvalho