procesamiento de señales de voz.pptx

51
CURSO: Procesamiento Digital de Señales I Integrantes: ABIA ARRIETA AUGUSTO CADENILLAS CABANILLAS SEGUNDO REYMUNDO GASPAR MICHAEL 1 Procesamiento de señales de voz

Transcript of procesamiento de señales de voz.pptx

Page 1: procesamiento de señales de voz.pptx

1

CURSO: Procesamiento Digital de Señales I

Integrantes:

ABIA ARRIETA AUGUSTO CADENILLAS CABANILLAS SEGUNDO REYMUNDO GASPAR MICHAEL

Procesamiento de señales de voz

Page 2: procesamiento de señales de voz.pptx

2

La comunicación oral

Page 3: procesamiento de señales de voz.pptx

3

¿Qué es la voz?

• Onda de sonido (onda de presión)• Producida por el aparato fonador• Utilizada para comunicación (para

transmisión de mensajes)

Page 4: procesamiento de señales de voz.pptx

4

Procesamiento de voz

• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de

locutores• Detección de patologías• Diseño de ayudas para la audición

Page 5: procesamiento de señales de voz.pptx

5

Problemas del procesamiento de voz• Variabilidad

– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición

• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz

muy redundante• Multi-interactividad entre niveles:

– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental

• Ruido: perturbación + efecto Lombard

Page 6: procesamiento de señales de voz.pptx

6

• Variabilidad de las señales de voz

• 40 ms correspondientes al fonema /a/

Page 7: procesamiento de señales de voz.pptx

7

Modelo acústico de producción de voz

• Onda acústica: onda de presión en el aire con c = 350 m/s

• Longitud de onda l = c / f– Para 100 Hz, l = 3.5 m– Para 4 kHz, l = 8.75 cm

• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura

Page 8: procesamiento de señales de voz.pptx

8

Formantes

• Formantes: resonancias del tracto vocal

• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz

• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

Page 9: procesamiento de señales de voz.pptx

9

Pérdidas por radiación de onda

• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular

de radio a en plano infinito

• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década

Page 10: procesamiento de señales de voz.pptx

10

u(L,f) / uG(f)

Page 11: procesamiento de señales de voz.pptx

11

Solución numérica para función de área correspondiente a fonema /a/

Page 12: procesamiento de señales de voz.pptx

12

Acoplamiento del tracto nasal

Page 13: procesamiento de señales de voz.pptx

13

Modelo acústico de producción de voz

• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos

• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década

Page 14: procesamiento de señales de voz.pptx

14

Modelo digital de producción de voz

Page 15: procesamiento de señales de voz.pptx

15

Características de la voz• Excitación:

– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

Page 16: procesamiento de señales de voz.pptx

16

Características de la voz• Excitación:

– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

Page 17: procesamiento de señales de voz.pptx

17

Clasificación de los fonemas(desde el punto de vista de la producción)

• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas

• Modo de articulación– Vocales– Consonantes

• Lugar de articulación– Vocales– Consonantes

Page 18: procesamiento de señales de voz.pptx

18

Clasificación de vocales

• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)

• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)

Page 19: procesamiento de señales de voz.pptx

19

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

freq.

2o

form

ante

(Hz)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Page 20: procesamiento de señales de voz.pptx

20

Fonemas del español

Page 21: procesamiento de señales de voz.pptx

21

Análisis de señales de voz

• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas

Page 22: procesamiento de señales de voz.pptx

22

Transformada de Fourier

• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal

compleja:

Re(z)

Im(z)

x

yr

f

Page 23: procesamiento de señales de voz.pptx

23

Espectro de potencia (1)

Page 24: procesamiento de señales de voz.pptx

24

Espectro de potencia (2)

Page 25: procesamiento de señales de voz.pptx

25

Descomposición en componentes freq.

Page 26: procesamiento de señales de voz.pptx

26

Linealidad de la Transformada de Fourier

Page 27: procesamiento de señales de voz.pptx

27

Linealidad de la Transformada de Fourier

Page 28: procesamiento de señales de voz.pptx

28

Filtrado

• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o

respuesta en frecuencia)

filtroexcitación señal filtrada

Page 29: procesamiento de señales de voz.pptx

29

Filtrado en el tiempo: convolución

Page 30: procesamiento de señales de voz.pptx

30

Filtrado en frecuencia: multiplicación

Page 31: procesamiento de señales de voz.pptx

31

Ventanas (multiplicación en tiempo)

Page 32: procesamiento de señales de voz.pptx

32

Ventanas (multiplicación en tiempo)

Page 33: procesamiento de señales de voz.pptx

33

Transformada de un tren de pulsos

Page 34: procesamiento de señales de voz.pptx

34

Transformada de señal periódica

Page 35: procesamiento de señales de voz.pptx

35

Muestreo de señales: T. de muestreo

Page 36: procesamiento de señales de voz.pptx

36

Transformada Fourier: Resumen

Page 37: procesamiento de señales de voz.pptx

37

DFT y FFT

• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)

• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento

digital de señales

Page 38: procesamiento de señales de voz.pptx

38

La señal de voz

/sal/

Page 39: procesamiento de señales de voz.pptx

39

La señal de voz

/s/ /a/ /l/

Page 40: procesamiento de señales de voz.pptx

40

Estacionariedad de la voz

• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-

estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales

– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:

ventanas

Page 41: procesamiento de señales de voz.pptx

41

Análisis con ventanas

Page 42: procesamiento de señales de voz.pptx

42

Análisis con ventanas

Page 43: procesamiento de señales de voz.pptx

43

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 44: procesamiento de señales de voz.pptx

44

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 45: procesamiento de señales de voz.pptx

45

Espectro de consonantes sonoras

/l/

/R/

/y/

/m/

/n/

/ñ/

Page 46: procesamiento de señales de voz.pptx

46

Espectro de consonantes fricativas

/s/

/ss/

/sh/

/z/

/f/

/j/

Page 47: procesamiento de señales de voz.pptx

47

Fonemas no estacionarios

• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/

Page 48: procesamiento de señales de voz.pptx

48

Espectrograma (representación tiempo - frecuencia)

Page 49: procesamiento de señales de voz.pptx

49

Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n

Page 50: procesamiento de señales de voz.pptx

50

Ventana en el espectrograma: 64ms / 8 ms

Page 51: procesamiento de señales de voz.pptx

51

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto• Información complementaria:

– Tono fundamental– Estructura fina del espectro