Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

34
ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO EN AUDIO FINGERPRINTING José Serradilla Arellano Mayo 2007

Transcript of Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Page 1: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO

EN AUDIO FINGERPRINTING

José Serradilla ArellanoMayo 2007

Page 2: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Índice

• Audio Fingerprinting: Generalidades• Uso de Audio Fingerprinting para

Identificación• El sistema de Philips• Mejoras propuestas en preprocesado:

– Filtrado– Algoritmo DDA

Page 3: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Generalidades

• Concepto: Firma compacta basada en el contenido que resume una grabación de audio.

• La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking).

• El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.

Page 4: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Generalidades: Propiedades

• La huella debería ser:

– Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta– Fácilmente computable

Page 5: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Generalidades: Modos de Uso

• Identificación (para lo que se usará en este proyecto)• Verificación de la integridad • Apoyo al “Watermarking” • Recuperación y procesamiento de audio basados

en el contenido

Page 6: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Generalidades: Aplicaciones

• Monitorización y Seguimiento del contenido de audio

• Servicios de valor añadido • Sistemas de verificación de Integridad

La mayoría de ellos son casos particulares del modo de uso de identificación

Page 7: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Generalidades: Watermarking

• La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio.

• Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una:

– “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general

– “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.

Page 8: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Identificación

• 3 procesos principales– Extracción de Huellas – Algoritmo de búsqueda de coincidencias.– Comprobación de Hipótesis

Page 9: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Identificación: Extracción

• Dos partes:– Front-End: Convierte

una señal de audio en una secuencia de características relevantes.

– Bloque de modelado de huellas: define la representación final de la huella

Page 10: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Id.: Extracción: Front-End

• Distintos bloques, no todos obligatorios:

– Preprocesado– Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones

espectrales – Extracción de características – Post-Procesado

Page 11: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Id.: Extracción: Modelado

• Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas

• Varias opciones:

– Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple.

– Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código– Huella como secuencias de índices a un conjunto de clases de

sonidos representativo de una colección de elementos de audio

Page 12: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Id.: Métodos de búsqueda

• Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas

• Fuerza bruta inviable, otras opciones:– Pre-computar distancias offline – Filtrado de candidatos improbables con una

medida de similaridad simple– Indexado de archivos inverso – Reducción de candidatos – Otros enfoques

Page 13: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

El Sistema de Philips

• Se usarán características no semánticas• Huella como cadena de unos pocos

miles de bits• Segmentación en tramas, cada trama -

>sub-huella• Bloques de 256 sub-huellas

Page 14: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

El Sistema de Philips: Algoritmo

Tramas 0,37 sgOverlap 31/3232 bits en 11,6 ms256x32 en 3 sg.

33 bandas no solapadas300 y 2000 HzLog. espaciadas

01,1,1)1,(,,0

01,1,1)1,(,,1),(

mnEmnEmnEmnE

mnEmnEmnEmnEmnF

Page 15: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

El Sistema de Philips: Algoritmo

Esta va a ser la medida de similaridad

Page 16: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Sist. de Philips: Análisis falso positivo

• Falso positivo: BER entre dos trozos distintos < umbral T=0.35

• Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente

• Distribución de la BER:

NORMAL

0.44 0.46 0.48 0.5 0.52 0.54 0.56

0.0010.0030.01 0.02 0.05 0.10

0.25

0.50

0.75

0.90 0.95 0.98 0.99 0.9970.999

Data

Prob

abilit

y

Normal Probability Plot

Page 17: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Sist. de Philips: Análisis falso positivo

• BER distribuida [0,∞) Usamos una lognormal

FPR=3.82612e-30

Page 18: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Sist. de Philips: Análisis de robustez

• BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35

• Las distorsiones las aplicamos con Adobe Audition

Page 19: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Sist. de Philips: Análisis de robustez

• Se ha trabajado con 4 canciones y estos han sido los resultados:

Page 20: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras propuestas en preprocesado

• En general lo que haremos es:

• Vamos a trabajar con 3 esquemas

distintos

Page 21: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: Filtrado

• La señal pasa por el filtro:

1

1

98.01

199.0)(

z

zzH

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Page 22: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: Filtrado

• Respecto al falso positivo:

FPR’= 3.80196e-30

Page 23: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: Filtrado

• Respecto a la robustez:

Page 24: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: Filtrado

Pictures

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Beatles

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Jimmy

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Vangelis

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Page 25: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA

• DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema.

• Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama

• Y ahora se aplican 2 pasos por separado

Page 26: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (1er paso)

• Filtrado paso bajo del espectro logarítmico

• A: espectro filtrado• Resultado x(i):

e.o.c 0

0A(i)-spect(i) si )()()(

iAispectix

Page 27: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (1er paso)

• Respecto al falso positivo:

FPR’= 8.1111e-27

Page 28: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (1er paso)

• Respecto a la robustez:

Page 29: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (1er paso)

Pictures

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Beatles

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Jimmy

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Vangelis

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.

Page 30: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (2º paso)

• Se genera un umbral auditivo dependiente de la frecuencia

• thr: umbral auditivo en dB• Resultado x(i):

e.o.c 0

0thr(i)-spect(i) si )()()(

ithrispectix

Page 31: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (2º paso)

• Respecto al falso positivo:

FPR’= 5.03071e-29

Page 32: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (1er paso)

• Respecto a la robustez:

Page 33: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Mejoras preprocesado: DDA (1er paso)

Pictures

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Beatles

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Jimmy

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Vangelis

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin preproc

Con preproc.1

Con preproc.2

Page 34: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

Conclusiones

• Se puede decir que los resultados no han sido completamente satisfactorios

• Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales

• ¿Motivos?