Query-by-Humming Basado en Modelos Ocultos de Márkov
description
Transcript of Query-by-Humming Basado en Modelos Ocultos de Márkov
Query-by-Humming Basado en Modelos Ocultos de MárkovI v á n L ó p e z E s p e j o
PROYECTO FIN DE CARRERA
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
SUMARIO
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN
¿Por qué Query-by-Humming Basado en Modelos Ocultos de Márkov? Query-by-Humming: Consulta mediante
tarareo HMMs: Técnica de reconocimiento
1. INTRODUCCIÓN Y MOTIVACIÓN
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
¿Por qué Query-by-Humming Basado en Modelos Ocultos de Márkov? Query-by-Humming: Consulta mediante
tarareo HMMs: Técnica de reconocimiento
Necesitamos métodos más naturales de acceso a la información
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN
¿Por qué Query-by-Humming Basado en Modelos Ocultos de Márkov? Query-by-Humming: Consulta mediante
tarareo HMMs: Técnica de reconocimiento
Necesitamos métodos más naturales de acceso a la información
Aplicaciones Búsqueda de piezas musicales Encontrar melodías similares
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN
Comienzan a aparecer los primeros productos comerciales Queryhammer Sloud Midomi
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN
Comienzan a aparecer los primeros productos comerciales Queryhammer Sloud Midomi
Numerosos frentes de investigación basados en la observación del contorno melódico (pitch) Stephen Andel del MIT dice: El contorno melódico es
una de las características más relevantes de la que hace uso el ser humano para la identificación de una pieza musical
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN
Motivación para la realización del proyecto Inexistencia de un sistema robusto y versátil de
reconocimiento de melodías Investigación sobre HMM-based QbH en 2010
(DICC de la Universidad de Ohio): Máxima precisión del 61.6%
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH
Diagrama de bloques de alto nivel del reconocedor
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH
Front-End: Extrae de un tarareo de entrada un conjunto reducido de vectores de características representantes del mismo Pitch: Caracterización del contorno melódico Energía: Caracterización de la dinámica y
modelado implícito del ritmo Coeficientes delta y aceleración
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH
Modelado Estadístico: Los patrones son estimados a partir de una fase previa de entrenamiento y aparecen representados por un modelo estadístico de producción
Supongamos K piezas musicales de una base de datos Cada una de ellas entrena los parámetros
de un HMM mediante la aplicación del algoritmo de Baum-Welch sobre un conjunto de repeticiones de entrenamiento de la melodía que nos disponemos a modelarPFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH
Clasificación de un tarareo de entrada al sistema representado mediante un conjunto de vectores de características
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH
División del desarrollo del sistema en dos etapas Reconocimiento de secuencias melódicas fijas:
Topología de izquierda a derecha
Reconocimiento de secuencias melódicas aleatorias: Topología dependiente de la pieza musical
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Finalidad de este punto: Desarrollo en JAVA de un prototipo para el reconocimiento del tarareo
Programación de las herramientas que componen el front-end
Uso del conjunto de herramientas de HTK para la manipulación de los HMMs (entrenamiento y reconocimiento)
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Detector de pitch basado en el algoritmo SIFT
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Suavizado del contorno de pitch Posibles hechos pueden provocar picos
espurios Afección de los formantes Tramas de ruido de fondo Pseudo-estacionariedad de las tramas
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
VAD: Basado en hangover con un umbral de varianza
Cuantizador Musical: Discretiza el pitch a la escala temperada
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
0 20 40 60 80 100 120 140 1604.3
4.4
4.5
4.6
4.7
4.8
4.9
5
5.1
5.2
5.3
Muestras
Pitc
h
Pitch idealPitch real
0 20 40 60 80 100 120 140 1604.95
5
5.05
5.1
5.15
5.2
5.25
Muestras
Pitc
h
Pitch idealPitch real
0 20 40 60 80 100 120 140 1604.95
5
5.05
5.1
5.15
5.2
5.25
Muestras
Pitc
h
Pitch idealPitch real
Cálculo de la energía
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
0 20 40 60 80 100 120 140 160-10
-8
-6
-4
-2
0
2
4
6
8
10
Muestras
Ene
rgía
(dB
)
One likes to be - lieve in the free -dom of mu - sic
Solución al problema de la transposición en el entorno del reconocimiento de secuencias fijas: sustracción de media a la secuencia de pitch
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
0 50 100 150
5
5.2
5.4
5.6
5.8
6
6.2
Muestras
Pitc
h
U1 en Mi3U2 en La#3U3 en Mi4
0 50 100 150-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
Muestras
Pitc
h
U1 NormalizadaU2 NormalizadaU3 Normalizada
¿Qué ocurre con la energía?
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
0 50 100 150-15
-10
-5
0
5
10
Muestras
Ene
rgía
(dB
)
U1 NormalizadaU2 NormalizadaU3 Normalizada
0 50 100 150-10
-5
0
5
10
15
Muestras
Ene
rgía
(dB
)
U1U2U3
Reconocimiento de fragmentos aleatorios Posibles soluciones al problema de la
transposición Sustracción de la media Pitch diferencial Detector probabilístico de la tonalidad
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Reconocimiento de fragmentos aleatorios Detector de la tonalidad
Mapeo sobre la octava 2 de la melodía transportada a DoM
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Reconocimiento de fragmentos aleatorios Modelado de la matriz de transiciones
Acceso al resultado de aplicar, durante la etapa de alineamiento del entrenamiento, el algoritmo de Viterbi. Así conocemos la distribución de la agrupación de las características por estado
Modificación manual del fichero de definiciones
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Construcción del prototipo Selección de un conjunto de piezas musicales
que entrenan un entorno estadístico haciendo uso de HMMs continuos con una gaussiana por estado para el modelado de la distribución de probabilidad de emisión de símbolo (HTK)
Integración en JAVA de las anteriores herramientas a excepción del reconocimiento, que se implementa como una llamada al módulo de HTK HVite (Algoritmo de Viterbi)
Dos versiones: Con sustracción de media en secuencias fijas y con detección de la tonalidadPFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Construcción del prototipo
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Marco general de la evaluación 20 piezas musicales Entonanción con la sílaba na por defecto 10 repeticiones de cada melodía para
entrenamiento
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Reconocimiento de secuencias fijas (con sustracción de media)
1) Igual al entrenamiento, 2) Combinación aleatoria de sílabas, 3) Haciendo uso de la letra original (salvo el fragmento de Wagner), 4) Tarareados más rápido de lo normal y 5) Tarareados más lento de lo normal
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Reconocimiento de secuencias aleatorias (sin transposición ver el rendimiento del modelado de la matriz de transiciones)
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Reconocimiento de secuencias aleatorias (con transposición sustracción de media)
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Reconocimiento de secuencias aleatorias (con transposición pitch diferencial)
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Reconocimiento de secuencias aleatorias (con transposición detección de tonalidad)
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
5. CONCLUSIONES
El reconocimiento de secuencias melódicas fijas con sustracción de media parece ser una base sólida
El modelado de la matriz de transiciones para el reconocimiento de fragmentos aleatorios es esperanzador
Principal problema: Inmunidad a la transposición tonal para esta última variante
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
5. CONCLUSIONES
Variante con detección de tonalidad: opción más prometedora
Parte del éxito del sistema Modelado mediante tarareos ya que el usuario busca con tarareos
Modelado de la matriz de transiciones de forma subjetiva Puede ser interesante tener realimentación de parte de los usuarios del sistema
Vía abierta de trabajoPFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
5. CONCLUSIONES
Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
6. TRABAJO FUTURO
Existe mucho trabajo a partir del ya desarrollado Optimización del reconocimiento de secuencias
aleatorias Inmunidad a la transposición en el ambiente del
reconocimiento de secuencias aleatorias Revisión del entorno de reconocimiento estadístico Inclusión de nuevas características Ampliación multimodal Entrenamiento colectivo Reconocimiento N-Best
PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
6. TRABAJO FUTURO
Query-by-Humming Basado en Modelos Ocultos de Márkov
GRACIAS