Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola.
-
Upload
camila-feria -
Category
Documents
-
view
228 -
download
0
Transcript of Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola.
Identificación Automática de Señales de Audio
José Antonio Camarena Ibarrola
Aplicaciones:
Acompañamiento automático Monitoreo de anuncios publicitarios Detección de duplicados Llenado automático de meta-datos Filtrado en redes p2p Consulta mediante grabación QBH
Esquema de Identificación de Audio
Características de una Huella de Audio Robustez (Ruido, Ecualización, compresión
con pérdidas, inicio aleatorio, filtrado, escalamiento)
Granularidad Complejidad Escalabilidad Tamaño
Extracción de Huellas de Audio
La Huella de MPEG-7
La Huella de Haitsma & Kalker (Philips’ Research Lab)
Motivación para usar entropía para construir huellas de audio robustas Previo uso de la entropía para reconocimiento de imágenes Previo uso de la entropía para segmentación de voz en
ambientes ruidososos Realizamos experimentos con la ubicación de la máxima
entropía en una canción. Realizamos experimentos relativos a señales de audio alteradas
pero con la misma entropía instantánea “Aoccdrnig to a rsecheearr at an Elingsh uinervtisy, it deosn't
mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is that frist and lsat ltteer is at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit a porbelm”
Determinación de TES (Time-domain Entropy Signature)Firma de Audio basada en la entropía determinada en el dominio del tiempo.
1 nn HH
Por cada marco n de la señal de audio
Determina la entropía de Shannon
(Usando histogramas para estimar la probabilidades de las muestras)
Si
N
iiin ppH
1
)ln(
Agrega “1” a la firma
De lo contrario Agrega “0” a la firma
Las curvas de Entropía. ¡Problemas con la ecualización!
Determinación de MBSES
Entropigrama Huella de audio
Determinación de MBSES
Curvas de Entropía por banda crítica
Entropigramas
Huellas (MBSES) de segmentos de audio degradados
Experimento 1. Degradadas contra Degradadas 38 canciones completas Degradarlas mediante: Ecualización,
Escalamiento, Ruido, Regrabación, Filtrado) Cada canción se tiene en 6 versiones (228
archivos de audio) Compara los 228 archivos de audio entre
ellos (51984 comparaciones) Se utilizó la Distancia de Hamming
Matriz de Confusión MBSES. Experimento 1
Matriz de confusión TES Experimento 1
Matriz de confusión Haitsma-KalkerExperimento 1
Matriz de confusión MPEG-7Experimento 1
Análisis de sensibilidad de un clasificador
TNFPFP
FPR
FNTP
TPTPR
Ejemplo: 40,000 comparaciones, 4,000 entre instancias de una misma canciónY 36,000 entre canciones diferentes
True Positive Rate False Positive Rate
Para el ejemplo: TPR=3900/(3900+100)=0.975=97.5% FPR=50/(50+35950)=0.00125=0.125%
dist<umbral dist>umbral
Misma canción True Positive (TP) False Negative (FN)
Canción distinta False Positive (FP) True Negative (TN)
dist<umbral dist<umbral Totales
Misma canción TP=3900 FN=100 4,000 positivos
Canción distinta FP=50 TN=35,950 36,000 Negativos
Totales 3,950 36,050 40,000
Curvas ROC. Experimento 1
FNTPTP
TPR
TNFPFP
FPR
Porcentajes de precisión usando el valor umbral óptimo
LowPass EQ Loud Noisy LsMic
Original 100 100 100 100 100
LowPass 100 100 97 100
EQ 100 97 100
Loud 100 100
Noisy 95
LowPass EQ Loud Noisy Lsmic
Original 97 100 100 77 95
LowPass 100 100 71 90
EQ 100 76 87
Loud 77 95
Noisy 74
LowPass EQ Loud Noisy LsMic
Original 87 61 100 47 29
LowPass 55 87 32 32
EQ 61 24 21
Loud 45 29
Noisy 18
MBSES MPEG-7
Hatisma-Kalker
LowPass EQ Loud Noisy LsMic
Original 87 52 100 74 85
LowPass 52 87 61 74
EQ 42 26 42
Loud 74 55
Noisy 37
TES
FPTPTP
precision
Precisión. Cantidad de canciones correctamente identificadas entre el numero de consultas realizadas
Experimento 2. Buscar canciones en una colección grande 400 Canciones completas Degradar mediante: Ecualización, Escalamiento,
Ruido, Regrabación, Filtrado y Compresión con pérdidas
Por cada canción se tienen 7 versiones incluyendo a la original (2800 archivos de audio)
Buscar cada uno de los 2800 archivos de audio en una colección de 4000 canciones de géneros diversos usando el criterio del vecino mas cercano
Experimento 2 . (Buscar en una colección grande)
Precisión
Degradación TES MBSES MPEG-7
Ecualización 53.7 100 100
Contaminación por ruido (SNR 3 - 4 dB) 63.2 100 55.3
Regrabado 92.1 100 80
Filtrado pasa bajas (1KHz) 100 100 72.1
Compresión con pérdidas (32kbps) 100 100 100
Escalamiento (50%) 100 100 100
Experimento 3 (Buscar en una colección grande usando segmentos de 5 segundos) De una colección de 4000 canciones de géneros
diversos Degradar 400 de ellas mediante: Ecualización,
Escalamiento, Ruido, Regrabación, Filtrado y Compresión con pérdidas
Por cada archivo de audio degradado, elegir aleatoriamente un segmento de 5 segundos
Extraer la firma del segmento de 5 segundos de audio degradado
Busca secuencialmente la huella de audio al interior de cada una de la huellas de audio de la colección
MBSES de segmentos de audio de 5 seg
Sub-MBSES más parecido
Diferencias entre MBSES de segmentos degradados y el Sub-MBSES mas parecido
Resultados Experimento 3. (Buscar en una colección grande usando segmentos de 5 segundos)
Porcentajes de precisión
Degradación MBSES MPEG-7 Haitsma-Kalker
Inicio Aleatorio (IA) 100 100 100
Ecualizacion e IA 100 100 40
Ruido e IA 100 63 20
Regrabado e IA 100 79 10
Filtro pasa bajas e IA 100 82 70
Compresión con pérdidas e IA 100 100 80
Escalamiento e IA 100 100 90
Polyphonic Audio Matching
Serenata # 13Mozart
El cascanuecesTchaikovsky
MBSES de dos interpretaciones de la serenata #13 de Mozart
Doblado dinámico en tiempo
Levenshtein
Levenshtein en una sola columna y su uso en monitoreo de audio
La sub-secuencia común mas larga (LCS)
Time-warped LCS
Curvas ROC usando MBSES para diferentes técnicas de alineamiento
Curvas ROC usando TES para diferentes técnicas de alineamiento
Curvas ROC usando MPEG-7 para diferentes técnicas de alineamiento
Precisión para todas las combinaciones Técnica de alineamiento/Huella de Audio
Conclusiones respecto a robustez MBSES es mas robusta que la Huella de MPEG-7
respecto a contaminación por ruido, regrabación y filtrado pasa bajas.
MBSES es mas robusta que TES respecto a ecualización, contaminación por ruido y regrabación.
MBSES es mas robusto que la huella de Haitsma y Kalker respecto a todas las degradaciones consideradas excepto inicio aleatorio donde ambas obtienen igual precisión.
Conclusiones
kbps
MBSES 0.13
Haitsma & Kalker 2.6
MPEG-7 0.76 - 4.6
TES 0.001
segs
MBSES 20
Haitsma & Kalker 24.5
MPEG-7 15.5
TES 8.5
Tamaño
Tiempos de extracción de huella para Una canción de duración 4:39 PC pentium 4 1.8 GHz 512 MB RAM
Escalabilidad: No hubo disminución de la precisiónEntre el experimento con 38 canciones y el experimento con 4000 canciones
MBSES resulto ser una huella mas adecuada para identificar una canciónutilizando para ello otra interpretaciónde la misma. Especialmente al combinarse con la distancia de la subsecuencia común mas larga (LCS)
Polyphonic Audio Matching:
Trabajo futuro
Probar con otras formas de estimar la cantidad de información contenida en una señal
N
kkR pH
1
log11
SR HH 1lim
Shannon demostró que la cantidad de información en señales discretas generadas por procesos sin memoria podía ser calculada utilizando la fórmulade la entropía de Boltzman. Sin embargo, las medidas de información han sidorecientemente extendidas a procesos aleatorios mas generales.
Trabajo futuro
Diseño de un índice adecuado para recuperar la canción a la que corresponde un segmento degradado de 5 segundos.
Uso de la entropía espectral multi-banda en reconocimiento de voz
Indice invertido
Locality Sensitivity Hashing (LSH)
Una instancia LSH
Transformada Hough
Modelo de modulación de amplitud (AM)
5c
2.0m
tttx cm cos)cos1()(
5.0m
t=0:.01:50;
Frecuencia de modulación y frecuencia acústica
Frecuencia deModulación
Frecuencia acústica
Entendiendo la degradación por inicio aleatorio