Download - Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO

EN AUDIO FINGERPRINTING

José Serradilla ArellanoMayo 2007

Índice

• Audio Fingerprinting: Generalidades• Uso de Audio Fingerprinting para

Identificación• El sistema de Philips• Mejoras propuestas en preprocesado:

– Filtrado– Algoritmo DDA

Generalidades

• Concepto: Firma compacta basada en el contenido que resume una grabación de audio.

• La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking).

• El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.

Generalidades: Propiedades

• La huella debería ser:

– Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta– Fácilmente computable

Generalidades: Modos de Uso

• Identificación (para lo que se usará en este proyecto)• Verificación de la integridad • Apoyo al “Watermarking” • Recuperación y procesamiento de audio basados

en el contenido

Generalidades: Aplicaciones

• Monitorización y Seguimiento del contenido de audio

• Servicios de valor añadido • Sistemas de verificación de Integridad

La mayoría de ellos son casos particulares del modo de uso de identificación

Generalidades: Watermarking

• La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio.

• Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una:

– “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general

– “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.

Identificación

• 3 procesos principales– Extracción de Huellas – Algoritmo de búsqueda de coincidencias.– Comprobación de Hipótesis

Identificación: Extracción

• Dos partes:– Front-End: Convierte

una señal de audio en una secuencia de características relevantes.

– Bloque de modelado de huellas: define la representación final de la huella

Id.: Extracción: Front-End

• Distintos bloques, no todos obligatorios:

– Preprocesado– Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones

espectrales – Extracción de características – Post-Procesado

Id.: Extracción: Modelado

• Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas

• Varias opciones:

– Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple.

– Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código– Huella como secuencias de índices a un conjunto de clases de

sonidos representativo de una colección de elementos de audio

Id.: Métodos de búsqueda

• Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas

• Fuerza bruta inviable, otras opciones:– Pre-computar distancias offline – Filtrado de candidatos improbables con una

medida de similaridad simple– Indexado de archivos inverso – Reducción de candidatos – Otros enfoques

El Sistema de Philips

• Se usarán características no semánticas• Huella como cadena de unos pocos

miles de bits• Segmentación en tramas, cada trama -

>sub-huella• Bloques de 256 sub-huellas

El Sistema de Philips: Algoritmo

Tramas 0,37 sgOverlap 31/3232 bits en 11,6 ms256x32 en 3 sg.

33 bandas no solapadas300 y 2000 HzLog. espaciadas

01,1,1)1,(,,0

01,1,1)1,(,,1),(

mnEmnEmnEmnE

mnEmnEmnEmnEmnF

El Sistema de Philips: Algoritmo

Esta va a ser la medida de similaridad

Sist. de Philips: Análisis falso positivo

• Falso positivo: BER entre dos trozos distintos < umbral T=0.35

• Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente

• Distribución de la BER:

NORMAL

0.44 0.46 0.48 0.5 0.52 0.54 0.56

0.0010.0030.01 0.02 0.05 0.10

0.25

0.50

0.75

0.90 0.95 0.98 0.99 0.9970.999

Data

Prob

abilit

y

Normal Probability Plot

Sist. de Philips: Análisis falso positivo

• BER distribuida [0,∞) Usamos una lognormal

FPR=3.82612e-30

Sist. de Philips: Análisis de robustez

• BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35

• Las distorsiones las aplicamos con Adobe Audition

Sist. de Philips: Análisis de robustez

• Se ha trabajado con 4 canciones y estos han sido los resultados:

Mejoras propuestas en preprocesado

• En general lo que haremos es:

• Vamos a trabajar con 3 esquemas

distintos

Mejoras preprocesado: Filtrado

• La señal pasa por el filtro:

1

1

98.01

199.0)(

z

zzH

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


• Respecto al falso positivo:

FPR’= 3.80196e-30


• Respecto a la robustez:


Pictures

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Beatles

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Jimmy

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Vangelis

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Mejoras preprocesado: DDA

• DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema.

• Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama

• Y ahora se aplican 2 pasos por separado

Mejoras preprocesado: DDA (1er paso)

• Filtrado paso bajo del espectro logarítmico

• A: espectro filtrado• Resultado x(i):

e.o.c 0

0A(i)-spect(i) si )()()(

iAispectix



FPR’= 8.1111e-27


Pictures

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Beatles

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Jimmy

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Vangelis

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Mejoras preprocesado: DDA (2º paso)

• Se genera un umbral auditivo dependiente de la frecuencia

• thr: umbral auditivo en dB• Resultado x(i):

e.o.c 0

0thr(i)-spect(i) si )()()(

ithrispectix

Mejoras preprocesado: DDA (2º paso)


FPR’= 5.03071e-29


Pictures

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Beatles

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Jimmy

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Vangelis

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Conclusiones

• Se puede decir que los resultados no han sido completamente satisfactorios

• Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales

• ¿Motivos?