Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3...

83
Reconocimiento de Formas Reconocimiento de Formas Técnicas Técnicas Paramétricas Paramétricas . . José Martínez Sotoca

Transcript of Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3...

Page 1: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

Reconocimiento de FormasReconocimiento de Formas

Técnicas Técnicas ParamétricasParamétricas..

José Martínez Sotoca

Page 2: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

2

Índice

1. Introducción a la probabilidad.2. Teoría de la decisión de Bayes.3. Estimación del error.4. Funciones discriminantes.5. La función de densidad de probabilidad normal.6. Estimadores de densidad de probabilidad.

Page 3: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

3

Introducción a la Probabilidad• Espacio Muestral: Sea Ω el conjunto de todos los posibles resultados ω.• Suceso E: de un espacio muestral Ω es un subconjunto de Ω.

E = φ, suceso vacio, E = Ω, suceso completo• Definimos el conjunto F = E1,E2,....., tal que Ei ∈ F, Ei

C ∈ F.• Medida de probabilidad: es una aplicación tal que

P : F → R+ / i) P(Ω) = 1

ii) Si E1, E2,... son mutuamente disjuntos P(E1∪ E2 ∪...) = Σ P(Ei)(axiomas de probabilidad)

• Modelo de probabilidad: consiste ena) Ωb) Fc) P : F → R+

Page 4: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

4

• Asignación de probabilidad: elección de P1. Aproximación empírica P(A) ≅ limn->∞ nA/n2. Aproximación clásica P(A) ≅ NA/N

• Axiomas:1. P(φ) = 02. P(A) ≤ 1 ∀ A ∈ Ω3. P(AC) = 1 – P(A)4. P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2) 5. Si A ⊂ B → P(A) ⊂ P(B)

• Espacios Muestrales1. Finitos: Ω = ω1, ω2,....., ωn, se conocen todos los resultados.2. Contables: Se conocen al menos todas las probabilidades Pi, es decir las

probabilidades son discretas.3. No contables: las probabilidades son continuas y vienen determinadas por

variables continuas.Cuando todas las Pi = 1/N, son iguales decimos que las probabilidades son

equiprobables.

Page 5: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

5

• Probabilidad condicionada:

análogamente con P(E1|E2).

• Extensión a n sucesos:

• Independencia estadística:

)()()|(

1

2112 EP

EEPEEP ∩=

)()|()()()|()(

22121

11221

EPEEPEEPEPEEPEEP

=∩=∩

)....|(....)|()|()(....)|...()|()(

)|...()()...(

121123121

1243121

132121

EEEEPEEEPEEPEPEEEEEPEEPEP

EEEEPEPEEEP

nn

n

nn

−⋅⋅⋅⋅==∩∩∩⋅⋅

=∩∩∩⋅=∩∩∩

)()()( 2121 EPEPEEP ⋅=∩

Page 6: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

6

• Variable aleatoria (V.A.): Una variable aleatoria es una función numérica de los resultados de un experimento aleatorio.

V.A. X : Ω → R• Probabilidad de una V.A.: Obtener el espacio de suceso asociado a la

variable X.Ex ≅ ω : X(ω) = x

• Distribución de probabilidad: Es la enumeración de probabilidades de todos los resultados posibles de un suceso, es decir, una distribución de probabilidades.

Ejemplo: Número de pasajeros llevados por un avión comercial en un cierto vuelo ( valor entero entre 0 y M). Una lista de probabilidades Pn describe la probabilidad de que el vuelo lleve n pasajeros, donde n varia entre 0 y M. Si durante un periodo de tiempo el avión va casi lleno las probabilidades cercanas a Pm (probabilidad de que sean M pasajeros) serán más altas que el resto. En otros periodos de tiempo donde el avión va medio lleno estas probabilidades irán variando. Así, mediante una distribución de probabilidad podemos hacer una estimación cuantitativa de el número de pasajeros de una línea aérea.

Page 7: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

7

• Definimos la distribución de probabilidad como:Fx(x) ≅ P( X(ω) = x), ∀ x ∈ R

– Fx(-∞) = 0– Fx(+∞) = 1– P(x1< X(ω) ≤ x2) = Fx(x2) - Fx(x1)

• Función de distribución conjunta:X V.A. con valores x1,x2,....,xnY V.A. con valores y1,y2,....,yn

Fx,y (x,y) = P( (X=x) ∩(Y=y))

• Distribución binómial: Dado E, suceso del experimento Ω,F,P. Consideremos que realizamos una serie de muestras con una probabilidad de éxito p y una probabilidad de fracaso 1-p. (procesos de Bernoulli)Espacio muestral: Ω = ω1, ω2,..., ωn. Consideremos que de las nmuestras tenemos k exitos.

– Disponemos de secuencias.

– Cada secuencia tiene una probabilidad de pk (1-p)n-k

)!(!!

knkn

kn

−=⎟⎟

⎞⎜⎜⎝

Page 8: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

8

• Por tanto la distribución de probabilidad será:

• Propiedades

( ) knk ppkn

kXP −−⎟⎟⎠

⎞⎜⎜⎝

⎛== )1()(ω

1)1()1(1 1

=−+=−⎟⎟⎠

⎞⎜⎜⎝

⎛=∑ ∑

= =

− nn

i

n

i

inii pppp

in

P

npesperadovalor1∑=

=>==<n

iiiPn

p)-np(1varianza1

222 ∑=

=><−==n

ii nPiσ

Page 9: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

9

• Distribución de poisson: Consideremos una secuencia de sucesos en el tiempo. Para ello dividiremos el intervalo [0,T] en n subintervalos de longitud ∆T de forma que T = n ∆T .

• Analizando cada subintervalo como un proceso de éxito-fracaso (procesos de Bernoulli) tendremos:

P(1 sucesos en k ∆T , (k+1) ∆T ) = µ ∆T P(φ sucesos en k ∆T , (k+1) ∆T ) = 1- µ ∆T

• Si NT es el número de sucesos en el intervalo, entonces tenemos una V.A binomial con parametros n y p = µ ∆T.

• Si n →∞, ∆T → 0, y np = n µ ∆T = µ T• Luego,

( ) ,.....1,0,!)(

=== − kekTkNP T

k

Tµµ

Tesperadovalor1

µ∑∞

=

=>==<i

iiPn

TTvarianza1

222 )( µµσ ∑∞

=

=−==i

iPi

Page 10: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

10

• Distribución exponencial: Analicemos ahora el tiempo transcurrido entre sucesos de Poisson:

Para t≥0, P(X>t)=P(0 sucesos en [0,t])= (µT)0/0! e -µT = e -µT

• Luego, Fx(t) = 1 - e -µT , para t ≥ 0.

• En este caso Fx(t) debe tratarse como distribucion continua y puede expresarse en función de su densidad de probabilidad fx(t).

• Distribución normal: Esta distribución será tratada más adelante.• Distribución uniforme: fx(x) = constante. ∀ x ∈ [m,M]

∫∫∞−

∞−

==t

tt

xx dtedttftF µµ)()(

⎪⎩

⎪⎨⎧

<<−−

<=

−=→=−=== ∫∫

∞−

MxmmMmx

mxxF

mMctemMctedxctedxctexF

x

M

mx

,

,0)(

11][)(

Page 11: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

11

Base Teórica de Partida

• Suponemos conocidas todas las características estadísticas del problema. En particular, para cada clase, se conocen:

– las probabilidades a priori.

– las funciones densidad de probabilidad o probabilidad condicional.

Page 12: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

12

Clasificador de bayes

• El proceso de decisión de un sistema RF se puede considerar como un proceso competitivo entre la naturaleza y el sistema de reconocimiento.

• La naturaleza puede presentar diferentes estados (clases o patrones) y el sistema de RF toma decisiones acerca de cuál es el estado de la naturaleza.

• Sea ω el conjunto de posibles estados de la naturaleza:– Asumimos que el conjunto de posibles decisiones coincide con ω.– Todas las decisiones del sistema RF tiene un coste asociado L(ωi, ωj) ,

siendo ωi el estado real de la naturaleza y ωj la decisión tomada.

Page 13: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

13

• Desde el punto de vista estadístico, la naturaleza seleccionaun estado ωi según la probabilidad a priori de aparición de ese estado P(ωi ).

• El resultado de la selección de la naturaleza es un objeto.• La tarea del clasificador consiste en decidir, en base a la

muestra u objeto que estado ha seleccionado la naturaleza.

Page 14: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

14

Problema de las Frutas I• Llamaremos ω al estado de naturaleza de cada objeto:

(ω1 : naranja, ω2 : fresa).

• Llamaremos P(ωi) a la probabilidad de que, al coger al azar una fruta, sea de tipo ωi (probabilidad a priori).

• Problema: ¿Qué regla de decisión utilizar si no disponemos de ninguna información adicional?

• Solución: Diremos ω1 si P(ω1) > P(ω2), si no ω2.

Page 15: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

15

Uso de Información Adicional

• Supongamos que sabemos que la fresa tiene, en general, un perímetro más pequeño que la naranja.

• Llamaremos p(x|ωi) a la densidad de probabilidad de que un objeto de la clase ωi tenga un perímetro x.

Page 16: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

16

Problema de las Frutas II

• Supongamos que hemos medido el perímetro (x) de una fruta, ¿cómo la clasificamos?

• Solución:Diremos que es ω1 si la probabilidad de que sea ω1

condicionada a haber medido un perímetro x, P(ω1| x), es mayor que la probabilidad de que sea ω2 condicionada a haber medido un perímetro x:

P(ω1| x) > P(ω2| x)

Page 17: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

17

Teorema de Bayes

• Para calcular esta probabilidades condicionales (es decir, las probabilidades a posteriori), usaremos la regla de Bayes:

)()()|(

)|(xpPxp

xP jjj

ωωω =

donde

∑=

=c

jjj

Pxpxp1

)()|()( ωω

Page 18: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

18

Regla de Decisión de Bayes

• A partir del Teorema de Bayes, se puede definir la Regla de Decisión de Bayes (δ*) como sigue:

δ* ≡ δ(x) = ωi ⇔ P(ωi| x) > P(ωj| x)

∇ j ≠ i, i, j = 1, ..., c

Page 19: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

19

Función de Pérdida

• Un clasificador δ se considerará bueno si proporciona una estimación de clase (ωj) que se aproxime a su verdadero valor (ωi).

• Definamos L(ωi, ωj) como la pérdida o coste de asignar una muestra x a la clase ωj cuando su verdadera clase es ωi (i ≠ j, i, j = 1, ..., c).

Page 20: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

20

Función de Pérdida

• Entonces, el coste medio condicional a posteriori o riesgo condicional para cada clase ωi será:

∑≠=

=c

ijjijii xPLxr

,1)|(),()( ωωω

• Por tanto, dada una regla de clasificación, δ, el riesgo condicional se define como:

∑=

=c

iii xPxLxr

1)|())(,()( ωω δδ

Page 21: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

21

Función de Pérdida

• El riesgo medio se define como el valor esperado del riesgo condicional:

)]([ xE rR δδ =

• La regla de Bayes (δ*) será aquella que minimice el riesgo condicional de cada muestra a clasificar.

Page 22: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

22

Estimación del Error

Conjunto de muestras

Conjunto de entrenamiento

Conjunto de test

Estimación del Error

Page 23: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

23

Estimación del Error• La tasa de error será el cociente entre el número de

muestras mal clasificadas y el número total de muestras disponibles.

• Se utiliza para conocer la “bondad” de un clasificador y para poder compararlo con otros diseños.

• Nunca deberíamos utilizar el mismo conjunto de muestras para diseño y test: independencia estadística.

• En general, se proporciona también la desviación típica (o la varianza) o un intervalo de confianza (95%).

Page 24: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

24

Estimación del Error

• Problema:Normalmente, se tiene un conjunto reducido de muestras para hacer el entrenamiento y el test, ¿cuántas utilizo para cada función?

– Si utilizo muchas para test, dispondré de pocas para entrenamiento y, por tanto, el clasificador no estará bien diseñado.

– Si utilizo muchas para diseño, tendré pocas para test y, en consecuencia, la tasa de error no será significativa.

Page 25: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

25

Estimación del Error

• Resustitución:– Diseño y test del clasificador con la totalidad de las

muestras originales.

– Dependencia estadística: dará lugar a estimaciones demasiado optimistas.

– Las estimaciones obtenidas con este método suponen una cota inferior de las probabilidades de error.

Page 26: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

26

Estimación del Error

• Partición (Holdout):– El conjunto original se divide en dos subconjuntos

mutuamente exclusivos: uno de entrenamiento y uno de test.

– Independencia estadística.– Sin embargo, un clasificador diseñado a partir de la

totalidad de las muestras tendrá, en general, un mejor comportamiento.

– Dependiente de la partición realizada.– Estimaciones relativamente pesimistas.

Page 27: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

27

Estimación del Error• Validación Cruzada (Cross Validation):

– Se realizan diversas particiones aleatorias del conjunto original. Aplicación sucesiva del método de partición, intercambiando las funciones de diseño y test.

– La estimación del error será la media de la estimación calculadasobre cada una de las particiones.

– Suele calcularse también la desviación típica de la estimación media del error: indicativo de la robustez del clasificador.

– Menor dependencia de la partición.– Estimaciones no tan pesimistas como en “holdout”.

Page 28: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

28

Estimación del Error• Leaving-one-out:

– Si disponemos de n muestras, se realizarán n particiones, dejando en cada una de ellas 1 única muestra para test y utilizando las restantes n − 1 para entrenamiento.

– La estimación del error corresponderá a la media de las nestimaciones.

– Supone una cota superior de las probabilidades del error, al igual que con el método “holdout”.

Page 29: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

29

Estimación del Error• Rotación o m-Validación Cruzada (Leaving-k-out):

– Supone un compromiso entre los métodos “holdout” y “leaving-one-out”.

– Se realizarán m = n / k particiones distintas, dejando en cada una de ellas k muestras para test y utilizando las restantes n − kpara diseñar el clasificador.

– La estimación del error corresponderá a la media de las mestimaciones.

– Si k = 1, se reduce al método “leaving-one-out”. Si m = n / 2, esencialmente corresponde al “holdout”, intercambiando las funciones de test y entrenamiento.

Page 30: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

30

Ejemplo de la Regla de Bayes

• La meningitis causa rigidez de cuello en un 50% de los casos:

P(S | M) = 0’5

• Se conoce también la probabilidad a priori de que un paciente tenga meningitis:

P(M) = 1 / 50000

• Se conoce la probabilidad a priori de que un paciente tenga rigidez de cuello:

P(S) = 1 / 20

Page 31: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

31

Ejemplo de la Regla de Bayes

• Por tanto, podemos calcular:

• Obsérvese que, a pesar de que la meningitis causa (con alta probabilidad 0’5) dolor de cuello, la probabilidad de meningitis en el paciente sigue siendo pequeña, debido a que la probabilidad a priori de la rigidez de cuello es mucho mayor que la de la meningitis

0002'0)(

)()|()|( ==SP

MPMSPSMP

Page 32: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

32

Ejemplo de la Regla de Bayes

• El médico podría saber que 1 de cada 5000 pacientes con rigidez de cuello tienen meningitis y, por tanto, no tendría que usar la regla de Bayes: – supongamos que hay una epidemia de meningitis y la

probabilidad a priori P(M) sube.– el médico que computa la probabilidad de meningitis

condicionada a rigidez de cuello basándose en la observación estadística de los pacientes antes de la epidemia no sabe como actualizar el valor.

– el médico que usa la regla de Bayes sabrá que P(M | S) aumenta proporcionalmente a P(M), y que P(S | M) no se ve afectada por la epidemia.

Page 33: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

33

Densidad de Probabilidad• Debemos distinguir entre variables continuas y discretas a la hora de

establecer la función densidad de probabilidad (fdp):

– La distribución de probabilidad acumulada será:

=

+∞

∞−

=

=

n

iixp

dxxp

11)(

1)(

1)(0)()()(

1)(0)()()(

00

===

=+∞=−∞=

=

+∞

∞−

n

n

ii xcyxcconxpxC

cyccondxxpxC

Page 34: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

34

• Dado una variable aleatoria X con un número finito de valores x1,...,xn. Realizamos m experimentos y tomamos ni veces que X(wi)=xi. La media aritmética es:

– Cuando todos los sucesos tienen la misma probabilidad:

– Otro importante parametro es la matriz de covarianza:

dxxxpxE

mnxpdondexxp

m

xni

i

n

iii

n

iii

∑∑

∞−

=

=

==

===

)(

)()(1

1

µ

µ

nxpdondex

nxxp i

n

ii

n

iii

1)(1)(11

=== ∑∑==

µ

Page 35: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

35

⎥⎥⎥

⎢⎢⎢

−−−−

−−−−

=⎪⎭

⎪⎬

⎪⎩

⎪⎨

⎥⎥⎥

⎢⎢⎢

−−−−

−−−−=−−=Σ

))(())((

))(())((

))(())((

))(())(())((

11

111111

11

111111

dddddd

dd

nnnnnn

nnT

xxExxE

xxExxE

xxxx

xxxxExxE

µµµµ

µµµµ

µµµµ

µµµµµµ

L

MM

L

L

MM

L

)()(1

1))((1

jj

n

iiijjiiij xx

nxxE µµµµ −−

−=−−=Σ ∑

=

Cuando todos los sucesos tienen la misma probabilidad se suele usar la siguiente expresión:

Si i=j tenemos valores de varianzas σi2 en cada dimensión. Otra posible matriz

de interés es la matriz de correlación:

ji

ijij σσ

ρΣ

=

Page 36: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

36

Correlación

A) Alta covarianza Σ12=5.9. B) Baja covarianza Σ12=-2.3. En ambos casos, σ1

2=5.7 y σ22=7.1.

Page 37: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

37

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=ΓΓ

⎥⎥⎥⎥

⎢⎢⎢⎢

=

⎥⎥⎥⎥

⎢⎢⎢⎢

22211

2222121

1112122

1

21

221

112

2

1

)(

1

11

00

0000

ddddd

d

dd

dd

d

d

d

R

R

σρσσρσσ

ρσρσσρσσρσσσ

ρρ

ρρρρ

σ

σσ

L

MOMM

L

L

L

MOMM

L

L

L

MOMM

L

L

Relación entre covarianzas y correlaciones: Σ = Γ R Γ:

donde

( )111 ≤≤−≤

ijij

ijjiij

ρρ

ρσσ

Page 38: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

38

Teoría de la decisión• Supongamos un problema de dos clases con densidad condicionada de

clase p(x|y=1) y p(y|x)=0. • Dado un nuevo ejemplo x’, ¿a que clase pertenece?.

La decisión óptima será aquella que minimize el error de clasificación basado en el logaritmo de la probabilidad:

contrariocasoen

si

0

0)0|()1|(log1 '

'

=

>==

=

yyxpyxpy

Page 39: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

39

Teoría de la decisión• Cuando el numero de ejemplos falla más en una clase que en otra, entonces

se incluyen las probabilidades a priori:

• Como caso general, la decisión optima de bayes viene dada por:

Máxima probabilidad a posteriori

contrariocasoen

si

0

0)1()0|()1()1|(log1 '

'

=

>====

=

yxPyxpyPyxpy

1,01,0

)'|(maxarg)()|'(maxarg'==

==yy

xypyPyxpy

Page 40: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

40

Funciones discriminantes• Una representación habitual de los clasificadores son las llamadas funciones

discriminantes, gi(x), i=1,...C, tal que:

x es a la clase wi si gi(x)>gj(x) ∀ i≠j

• El conjunto de estas funciones delimitan regiones de decisión que están separadas por fronteras de decisión.

• Las fronteras de decisión son superficies en el espacio de N dimensiones, donde se produce una igualdad entre funciones discriminantes:

gi(x)=gj(x)

• Los puntos del espacio localizados sobre la frontera de decisión entre dos regiones no tienen una clasificación univocamente definida.

Page 41: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

41

Funciones discriminantesRegiones y Fronteras de decisión

La probabilidad a priori influye en la frontera de decisión.

Page 42: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

42

Funciones discriminantes

Page 43: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

43

Funciones discriminantes• Caso simple: 2 clases con 2 regiones de decisión R1 y R2

• Existen dos causas de error:1. x esta en R2 y el estado de la naturaleza es w1

2. x esta en R1 y el estado de la naturaleza es w2

• Para varias clases c>2, como existen más posibles situaciones de error que de acierto, es más facil evaluar la probabilidad de acierto:

dxwpwxpdxwpwxp

wpwRxpwpwRxpwRxpwRxperrorp

RR∫∫ +

=∈+∈=∈+∈=

12

)()|()()|(

)()|()()|(),(),()(

2211

221112

2112

∑ ∫=

=C

j Rjj dxwpwxpaciertop

j1

)()|()(

Page 44: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

44

Clasificador de Bayes para distribuciones normales

• Función de densidad normal univariante:

• La mayoria de las muestras cumplen: x∈[µ-2σ, µ+2σ]

)σ,µ()(

)(var)()()(

)()(

21)(

2

22

)(2

12

Nxp

ianzadxxpxxE

mediadxxxpxEdonde

expx

−=−=

==

=

∫∫

∞+

∞−

∞+

∞−

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ −

µµσ

µ

σπσµ

Page 45: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

45

Distribuciones normales

Page 46: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

46

Caso multivariante:

•Si aproximamos la matriz de covarianza como una matriz diagonal (hiperelipsoides ortogonales), entonces podemos que las variables son independientes entre si y tratarlo como un producto de probabilidades:

( ) ( )[ ]

))((

][))((

)2(1)(

12

1

212

jjiiij

ijT

xx

d

xxE

xxEdonde

expT

µµσ

σµµ

πµµ

−−=

==−−=Σ

Σ=

−Σ−− −

∏=

⎥⎥

⎢⎢

⎟⎟⎠

⎞⎜⎜⎝

⎛ −−

=d

j

x

j

j

jj

exp1

)(2

12

21)(

σµ

σπ

Page 47: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

47

Distancia de Mahalanobis•Los puntos para los que el valor de la fdp es constante están situados en hiperelipsoides en las que la forma cuadrática (x-µ)T Σ-1 (x-µ) es constante: distancia de Mahalanobis (al cuadrado) de x a µ.

Densidad de probabilidad Diagrama de dispersión

•Los contornos de igual densidad de probabilidad son hiperelipsoides con una distancia de mahalanobis a µconstante.

Page 48: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

48

Distancia de Mahalanobis•Las direcciones de los ejes principales de estos hiperelipsoides están determinadas por los autovectores de Σ y sus longitudes por los autovalores correspondientes•Esta métrica considera la distinta dispersión de las variables en el espacio y por tanto es muy diferente a una métrica euclidea.

Dos distribuciones normales con igual media y diferentes matrices de covarianza.

Page 49: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

49

Fronteras de decisión• Supongamos la siguiente función discriminante:

gi(x)=log p(x|wi)+log p(wi)• Si p(x|wi)=N(µi, Σi), i=1,2,...,m:

gi(x)= -1/2(x- µi)T Σi-1 (x- µi)T –d/2 log(2π) – ½ log | Σi |+log p(wi)

• Podemos analizar tres casos:1. Σi=σ2I matriz diagonal.2. Σi= Σ misma dispersión en todas las dimensiones.3. Σi es arbitraria.

Page 50: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

50

– Σi=σ2I: | Σi |= σ2d y Σi-1 = (1/σ2)I.

– Los términos que no dependen de cada dimensión son irrelevantes:–d/2 log(2π) – ½ log | Σi |

– Por tanto:

)(log2

)(g 2i ii wp

xx +

−−=

σµ

Page 51: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

51

• Si p(wi)=cte, entonces:gi(x)≅-||x- µi||2

• En general:gi(x)= -(1/2σ2)[xTx - 2µi

Tx + µiTµi ] + log p(wi)

Como xTx no depende de i, entonces:gi(x)= ai

Tx +bi

Función linealDonde ai

T=(1/σ2). µiT y bi= -(1/2σ2). µi

Tµi + log p(wi)

• Superficies de decisión gi(x) = gj(x) aT ( x – x0) = 0

donde

( ) ( )jij

i

ji

ji

jiT

wpwpx

a

µµµµ

σµµ

µµ

−−

−+=

−=

)()(log

21

2

2

0

Page 52: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

52

Page 53: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

53

– Σi= Σ : Agrupaciones de hiperelipsoides con igual tamaño y forma.gi(x)= -1/2(x- µi)T Σ-1 (x- µi)T + log p(wi)

Como xT Σ x no depende de i, entonces:gi(x)= ai

Tx +bi

Función linealdonde ai

T= Σ-1. µiT y bi= -(1/2). µi

T Σ-1 µi + log p(wi)

Page 54: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

54

• La orientación de las fronteras de decisión dependen de la orientación de la dispersión.

aT ( x – x0) = 0donde

( ) ( )jiji

Tji

j

i

ji

jiT

wpwp

x

a

µµµµµµ

µµ

µµ

−−Σ−

−+=

−Σ=

)()()()(log

21

)(

10

1

Page 55: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

55

– Σi= arbitraria : Agrupaciones de hiperelipsoides con distinto tamaño y forma.

gi(x)= xT Σi x - 1/2(x- µi)T Σ-1 (x- µi)T + log p(wi)

Como xT Σ x no depende de i, entonces:gi(x)= xT Ki x + ai

Tx +biFunción cuadrática

donde Ki=(-1/2) Σ-1 ;ai

T= Σ-1. µiT ;

bi= -(1/2). µiT Σ-1 µi - (1/2) log | Σi | + log p(wi);

Superficies de decisión -> hipercuádricas (circulos, elipses, parabolas, hyperbolas, pares de planos).

Page 56: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

56

Page 57: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

57

Page 58: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

58

Estimación de parámetros

• En teoría, el error de Bayes decrece conforme la dimensionalidad de los datos se incrementa.

• En la práctica, se usa un número fijo de muestras para construir el clasificador: los estimadores están sesgados por las muestras disponibles.

• Si suponemos distribuciones normales se requiere:– Para el clasificador cuadrático se necesita un número cuadrático de

estimaciones.– Para el clasificador lineal se necesita un número lineal de estimaciones.– Para el clasificador no lineal podemos suponer que el número de

estimaciones será exponencial.

Page 59: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

59

• Fenómeno de Hughes.

• Interpretación: Existe un valor óptimo de dimensionalidad que es función del tamaño del conjunto de entrenamiento.

• Si el número de muestras es insuficiente y la dimensionalidad de los datos es alta el fenómeno de Hughes se manifiesta debido a que los estimadores obtenidos son inestables y sesgados. Este fenómeno es más acusado cuanto mayor sea la dimensionalidad.

Page 60: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

60

Análisis discriminante de Fisher• Consideremos una función de regresión lineal:

f(x,w)=w0+w1x1+w2x2= w0 + xTwSupongamos que proyectamos los puntos sobre esa línea y calculamos la densidad de probabilidad de puntos proyectados talcomo se observa en la figura:

Page 61: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

61

En función de la orientación de la línea, tenemos diferentes grados de separación entre las clases:

Page 62: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

62

Podemos encontrar una dirección w en el espacio de forma que se maximice la separación entre los puntos proyectados de cada clase.

Para ellos utilizaremos el siguiente criterio:

( )( )ww

w-w

var)()w(

21

20

210

2

σσµµ+

==

T

T

fisher clasesdeianzassumasproyectadamediasentreseparaciónJ

Page 63: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

63

Para el caso de muchas clases utilizaremos la siguiente expresión:

( )( )

w)(wwwww)w(

))((

--

1

1

1

Bwt

wt

Bt

fisher

Thh

c

h xw

Thh

c

hhB

SSSSJ

xxS

nS

=

=

==

−−=

=

∑∑

µµ

µµµµ

Page 64: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

64

Clasificador de naive Bayes• El clasificador de naive bayes determina la probabilidad a posteriori

p(wj|x)=p(x|wj)p(wj) considerando que p(x|wj) no esta correlacionado entre características, es decir, que las características son independientes estadísticamente, entonces:

Train(training set)Begin

para cada característica f:para cada clase c:encontrar todos los valores distintos de xi en la clase c dentro de training set y sus frecuencias de aparición f(xi,f,c)

∏=

=d

ijij wxpwxp

1

)|()|(

Page 65: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

65

Clasifica(e):

Begin

para cada clase c:

g[c]= elementos de c / total; // probabilidad a priori

para cada característica f:

encontrar el elemento xi más cercano a e proyectado en f.

g[c]=g[c] * (f(xi,c,f)/elementos de c)=g[c]*probabilidad(e,c,f);

retornar el g[c] mas alto.

Problema: El número de instancias es finito pero el espacio es infinito. Alternativas:

-Interpolar.-Utilizar una función para recubrir el espacio de alrededor (kernels).-Utilizar una mixtura de funciones para cubrir el espacio de probabilidades.

Page 66: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

66

Estimadores de densidad• Las distribuciones pueden adoptar formas muy diferentes. Para

adaptarse a estas formas podemos recubrir el espacio a través de una combinación de modelos más simples:

∑=

Σ=l

iiiij xpwxp

1)|()|( µα

Page 67: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

67

• Podemos utilizar una función gaussiana para suavizar la distribución:

• En la figura el único parámetro es la varianza la cual podemos graduar para simular el problema.

• El modelo consiste en gaussianasesféricas.

∑=

=n

ii Ixxp

nxp

1

22 );|(1)|( σσ

Page 68: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

68

• En el caso unidimensional podemos representar su histograma fijando intervalos con una determinada anchura h:

• Definimos una función ventana w(x):

• Introduciendo el parámetro h, podemos establecer el siguiente estimador de densidad:

intervalo)intervalo(º1)(

anchuraxden

nxp i

n ×=

⎩⎨⎧

≥<

=1||,01||,2/1

)(xx

xw

⎟⎠⎞

⎜⎝⎛ −

= ∑= h

xxwhn

hxp in

in

1

11);(N=50, h=0.02

Page 69: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

69

• Podemos introducir una componente (Ej. Gaussiana) por cada elemento del training:

• A este tipo de funciones le llamamos kernels.

• Epanechnikov kernel: Tiene un comportamiento parecido a la función gaussiana y menos coste computacional.

( )π2

2exp)(

11);(

2

1

zzK

dondeh

xxKhn

hxp in

in

−=

⎟⎠⎞

⎜⎝⎛ −

= ∑=

Problema: No sabemos cual es la anchura adecuada que mejor se adapta a la distribución verdadera. ( )

⎪⎩

⎪⎨⎧

<−= ∏=

1||,0

1||,143

)(1

2

x

xxxKd

ii

Page 70: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

70

• Consideremos pn-i(x;h) un estimador de densidad construido a partir de n-1 elementos del training excluyendo xi (leave-one-out). Una solución para la selección de h es maximizar el logaritmo del estimador:

• ¿Por qué usar este tipo de exprexiones?• Supongamos que no conocemos la identidad de clase de una observación

x, entonces definimos una regla de decision:

• Cuando usamos la regla, tenemos un error de clasificación e(x,c) asociado al evento (x,c):

∑=

=n

iiin hxphCV

1);(log)(

)|(maxarg:)(

,...,1::(.) reglaxwpxcx

ccc

cc θθ

θθ χ=→

Page 71: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

71

e(x,c)=1-δ(cθ(x),c)donde δ(.,.) es la delta de kronecker. • El error del clasificador del modelo Eθe|x puede ser obtenido conociendo la

verdadera distribución de probabilidad a posteriori pr(wc|x):Eθe|x=Σ pr(wc|x).[1-δ(cθ(x),c)] = 1 – pr(cθ(x)|x)

A partir de nuestro modelo podemos tambien obtener una distribución de probabilidad a posteriori del modelo pθ(wc|x).

• Por otro lado, consideremos Ee|x el error de bayes, entonces:Eθe|x - Ee|x ≤ f(x)

donde f(x) cota para el valor x. Así, nuestro objetivo será minimizar estacota. En general para todos los puntos tendremos:

( )

∫∫

−=−

)()(

||)(

xfxprdx

xeExeExprdxeEeE θθ

Page 72: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

72

Si determinamos el cuadrado de la diferencia, tenemos:

Error cuadrático medio• Otra expresión que se puede obtener, es usando la inequalidad de Pinsker para

dos distribuciones de probabilidad pc y qc :

Entonces:

Criterio de Kullback-Leibler

[ ]

[ ]2

222

)|()|()(

)|()|()()()()(

∫ ∑

∫ ∑∫

−≤

⎟⎠

⎞⎜⎝

⎛−≤≤−

ccc

ccc

xwpxwprxprdx

xwpxwprxprdxxfxprdxeEeE

θ

θθ

∑∑ −≤⎟⎠

⎞⎜⎝

⎛−

c c

cc

ccc q

ppqp log21

2

)|()|(log)|()(

)()()( 22

xwprxwpxwprxprdx

xfxprdxeEeE

c

c

cc

θ

θ

∫ ∑∫

−≤

≤−

Page 73: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

73

• Sin embargo, en la práctica no conocemos la distribución de probabilidad verdadera, y solo tenemos un conjunto representativo de muestras etiquetadas xn,cn.

• Así nuestro estimador, sólo puede comparar la distribución de probabilidad estimada por el modelo directamente sobre los datos. Esto implica que en el caso del error cuadrático medio el estimador cumplirá:

• Usando el criterio de Kullback-Leibler, nos encontramos:

• Otra posibilidad, es trabajar con la probabilidad acumulada:– Estimador de Kolmogorov.– Estimador de Kuiper.

[ ]2

1),()|(minarg ∑∑

=

−=n

i cncnc cwxwp δϑ θ

⎭⎬⎫

⎩⎨⎧

=⎭⎬⎫

⎩⎨⎧

=

∑∑

=

=

n

inc

n

i c nc

ncnc

xwp

cwxwpcw

1

1

)|(logmaxarg

),()|(log),(maxarg

θ

θ

δδϑ

Page 74: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

74

Mixturas. Algoritmo EM (Expectation-

Maximization)• Supongamos que recorremos la distribución con una función de

densidad de probabilidad (pdf) gaussiana p(x|µσ2). Podemos observar la distribución de probabilidad de la gaussiana y su acumulada:

• Para un modelo de mixturas de gaussianas tendremos la siguiente expresión:

∑=

Σ=l

jjjj xpxp

1),|()|( µαθ

Page 75: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

75

donde θ=α1,..., α m,µ1,...,µm,Σ1,..., Σm, cuenta todos los parametros del modelo. αj son probabilidades a priori que nos indica el grado de importancia de cada uno de los m modos.

• Supongamos que queremos estimar una mixtura de dos componentes gaussianas:

• Entonces si cada instancia xi del conjunto de entrenamiento de una clase se pudiera etiquetar el modo al que pertenece, tendriamos para el modo 1, (análogo para el 2):

),|(),|()|( 222111 Σ+Σ= µαµαθ xpxpxp

Tii

i

xxn

xn

nnn

)()(1

1

111

1

11

21

11

µµ

µ

α

−−=Σ

=

+=

Page 76: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

76

• Sin embargo, la realidad nos dice que como mucho tenemos las etiquetas de clases (caso supervisado) o ni siquiera eso (caso no supervisado).

• Supongamos que todos los puntos son de la misma clase wj y trabajamos con dos modos. Sea Nj el número de elementos de la clase wj y queremos modelizar mediante una mixtura de dos gaussianas la figura de latransparencia anterior.

• Cada instancia tendrá un grado de pertenencia a cada modo p1(x|wj) y p2(x|wj), asignando grados de pertenencia iguales en el instante inicial.

Podemos obtener la localización óptima de los modos aplicando el de forma iterativa el algoritmo EM.

Page 77: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

77

Algoritmo EM• E-step: Computamos las contribuciones de los prototipos x de la clase wj. La

pdf condicional para el modo i vendrá dado por:

• M-step: Recomputamos los parámetros. Para el modo i vendrá dado por:

∑=

ΣΣ

=

2,1),|(

),|()|(

llll

iiiji xp

xpwxpµα

µα

∑∑

=

=

=

=

=

−−=Σ

==

j

j

j

j

j

N

tjti

N

t

Tititjti

i

N

tjti

N

ttjti

i

N

tjti

ji

wxp

xxwxp

wxp

xwxpwxp

N

1

1

1

1

1

)|(

))()(|(

)|(

)|()|(1

µµ

µα

Page 78: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

78

Page 79: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

79

Page 80: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

80

Page 81: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

81

Algoritmo EM• En cada iteración el algoritmo EM incrementa monotónicamente el

logaritmo de la probabilidad de los Nt ejemplos de la clase wj:

• No hemos entrado en la forma de la función, ni en considerar que tanto x, µy Σ son vectores en un espacio de d dimensiones.

• Así, p(x|wj) es una matriz de nº de modos x nº de puntos.• µ es una matriz de nº de modos x nº de dimensiones.• Σ es la matriz de covarianza nº de dimensiones x nº de dimensiones para

cada uno de los modos.• Esta última puede simplificarse considerando que el modo es esférico igual

varianza en todas las dimensiones, o que es elipsoide pero ortogonal, sólo elementos en la diagonal principal y por tanto su ejes son paralelos a los ejes de coordenadas.

( )∑=

Σ+Σ=jN

jjj xpxpdatap

1222111 ),|(),|(log)|(log µαµαθ

Page 82: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

82

Algoritmo EM

• Sensible a la inicialización: buscamos converger una mixtura. A veces interesa inicializar los modos aplicando técnicas de clustering para luego aplicar EM.

• Número de componentes: Si existen muchas la mixtura puede sobreentrenar los datos, es decir, nuestros datos son incompletos y por tanto con una forma más irregular de lo que se supone teóricamente. Si son pocas, puede que no se encuentre la forma verdadera.

• Finalización: Llega un momento donde el proceso deja de evolucionar por lo que se supone que se alcanza la localización óptima, pero esto no nos asegura la mejor distribución.

Page 83: Reconocimiento Estadístico de Formassotoca/docencia/rfv1-master/tecnicas-parametricas.pdf3 Introducción a la Probabilidad • Espacio Muestral: Sea Ωel conjunto de todos los posibles

83

Referencias

• En estos apuntes se ha utilizado las siguientes fuentes:

• Curso de Reconocimiento y formas de Francisco José Cortijo Bon. http://www-etsi2.ugr.es/depar/ccia/rf/www/

• Curso de Reconocimiento y formas de F. Ferri y J. Albert, U. de Valencia.

• MIT’s OpenCourseWare. Course of Machine Learning from Department of Electrical Engineering and Computer Science.