Metodos Proyecto-segunda Entrega

12
TRABAJO DE INVESTIGACION DE METODOS NUMERICOS SEGUNDA ENTREGA 1. TITULO DEL PROYECTO DE INVESTIGACION Reconocimiento de voz 2. DEFINICION DEL PROBLEMA En muchos casos a nivel mundial se ha visto la dificultad que tienen las personas con ciertas limitaciones especiales a realizar su vida cotidiana con normalidad Aunque este proyecto sea solo un prototipo es lo elemental para poder ayudar en cierta manera a mejorar el ritmo de vida de estas personas, en realidad todas las pueden realizar pero lo primordial es que lo usen las personas con limitaciones motoras y en que consiste en emplear un programa de voz que consiste en mandar a un ordenador a realizar ciertas acciones con comandos de voz, pero para reconocerlas, es entonces en donde entra el programa que nos facilita el reconocimiento de voz. Este programa también puede ser de gran ayuda en sistemas de seguridad por ejemplo para evitar robos de cualquier índole se puede activar alarmas con solo hablar el comando indicado y activándose desde el programa, otro seria que para entrar a tu casa o abrir una caja fuerte o tu móvil solo lo puedas hacer reconociendo tu voz mediante el programa previo instalado en un hardware o software n cada uno de estos casos posibles. Como se puede apreciar este proyecto prototipo tiene una amplia gama de aplicaciones yo tan solo are el prototipo de reconocimiento de voz ya esta se realizara en Matlab los otros complementos son hechos con otros programas como Arduino o java que son complementarios.

description

reconocedor de voz

Transcript of Metodos Proyecto-segunda Entrega

TRABAJO DE INVESTIGACION DE METODOS NUMERICOS

SEGUNDA ENTREGA

1. TITULO DEL PROYECTO DE INVESTIGACIONReconocimiento de voz

2. DEFINICION DEL PROBLEMA En muchos casos a nivel mundial se ha visto la dificultad que tienen las personas con ciertas limitaciones especiales a realizar su vida cotidiana con normalidad Aunque este proyecto sea solo un prototipo es lo elemental para poder ayudar en cierta manera a mejorar el ritmo de vida de estas personas, en realidad todas las pueden realizar pero lo primordial es que lo usen las personas con limitaciones motoras y en que consiste en emplear un programa de voz que consiste en mandar a un ordenador a realizar ciertas acciones con comandos de voz, pero para reconocerlas, es entonces en donde entra el programa que nos facilita el reconocimiento de voz.Este programa tambin puede ser de gran ayuda en sistemas de seguridad por ejemplo para evitar robos de cualquier ndole se puede activar alarmas con solo hablar el comando indicado y activndose desde el programa, otro seria que para entrar a tu casa o abrir una caja fuerte o tu mvil solo lo puedas hacer reconociendo tu voz mediante el programa previo instalado en un hardware o software n cada uno de estos casos posibles.Como se puede apreciar este proyecto prototipo tiene una amplia gama de aplicaciones yo tan solo are el prototipo de reconocimiento de voz ya esta se realizara en Matlab los otros complementos son hechos con otros programas como Arduino o java que son complementarios. 3. DESCRIPCION BREVE DE LA TEORIA INVOLUCRADA EN LA SOLUCION DEL PROBLEMA

FUNDAMENTOS DE LA VOZ

La seal de voz es una onda de presin acstica que se genera voluntariamente a partir de movimientos de la estructura anatmica del sistema fonador humano. La produccin de la voz comienza en el cerebro con la conceptualizacin de la idea que se desea transmitir, la cual se asocia a una estructura lingstica, seleccionando las palabras adecuadas y ordenndolas de acuerdo con unas reglas gramaticales. A continuacin el cerebro produce los comandos nerviosos que mueven los rganos vocales para producir los sonidos. La unidad mnima de una cadena hablada es el fonema, el cual posee un carcter distintivo en la estructura de la lengua. La combinacin de los fonemas da origen a las silabas, las cuales conforman las palabras, y estas a su vez, las oraciones. El tracto vocal empieza a la salida de la laringe y termina a la entrada de los labios. El tracto nasal empieza en el paladar y termina en los orificios nasales. Los parmetros principales del sistema articulatorio son: las cuerdas vocales, el paladar, la lengua, los dientes, los labios y las mandbulas. Los distintos sonidos se producen al pasar el aire emitido por los pulmones, a travs de todo el sistema de produccin, en una determinada posicin del aparato articulatorio. Desde el punto de vista de la ingeniera es lgico pensar que este sistema fsico puede representarse como un filtro, cuya funcin de transferencia depende del sonido articulado y, por tanto, de la posicin de los distintos rganos involucrados en la generacin de la voz.La frecuencia de este sonido depende de varios factores, entre otros del tamao y la masa de las cuerdas vocales, de la tensin de las cuerdas vocales, de la tensin que se les aplique y de la velocidad del flujo del aire proveniente de los pulmones. A mayor tamao, menor frecuencia de vibracin, A mayor tensin la frecuencia aumenta, siendo los sonidos ms agudos. Tambin aumenta la frecuencia al crecer la velocidad del flujo de aire.En resumen, en el habla los formantes se determinan por el proceso de filtrado que se produce en el tracto vocal por la configuracin de los articuladores.

SEAL ACSTICA

Un reconocedor no puede analizar los movimientos en la boca. En su lugar, la fuente de informacin es la seal de voz misma.El habla es una seal analgica, es decir, un flujo continuo de ondas sonoras y silencios.El conocimiento de las ciencias de la acstica se utiliza para identificar y describir los atributos del habla que son necesarios para un reconocimiento de voz efectivo.Algunas caractersticas importantes del anlisis acstico son: Frecuencia y amplitudTodos los sonidos causan movimientos entre las molculas del aire. Algunos sonidos, tales como los que produce una cuerda de guitarra, producen patrones regulares y prolongados de movimiento del aire. Los patrones de sonidos mas simples son los sonidos puros, y se pueden representar grficamente por una onda sinusoidal.Frecuencia: nmero de vibraciones del tono por segundo 1000 por segundo = 100 ciclos/segundo=100HzTonos altos= mayor frecuenciaTonos bajos= menor frecuencia

ResonanciaLa resonancia se define comnmente como la habilidad que tiene una fuente vibrante de sonido de causar que otro objeto vibre gracias a ella.La mayora de los sonidos incluyendo del habla tiene una frecuencia dominante llamada frecuencia fundamental tambin conocida como pitch (tono) que se combina con frecuencias secundarias en el habla, la frecuencia fundamental es la velocidad a la que vibran las cuerdas vocales al producir un fonema sonoro.

PROGRAMA DE RECONOCIMIENTO DE VOZDiagrama de bloques del sistema

El sistema de reconocimiento de voz se puede resumir en el siguiente diagrama esquemtico

Diagrama esquemtico del Sistema de Reconocimiento de Voz

4. POSIBLES MODELO MATEMATICO A SER EMPLEADOS

Muestreo y cuantificacin

Muestreo consiste en el proceso de conversin de seales continuas a seales discretas en el tiempo, es un paso para digitalizar una seal analgica.Este proceso se realiza midiendo la seal en momentos peridicos del tiempo.Teorema de nyquist:Si x[n] es una secuencia de muestras obtenida a partir de una seal continua en el tiempo x(t), por medio de la relacin

Ecuacin

Entonces el teorema de muestreo de nyquist esta definido como: sea x(t)una seal limitada en banda por:

Entonces x(t) esta nicamente determinada por sus muestras x[n] = x(nT), n

La frecuencia N es comnmente referida como la frecuencia de Nyquist, y la frecuencia 2N que tiene que ser excedida por la frecuencia de muestreo es llamada la razn de Nyquist.

Cuantificacin:

En la cuantificacin el valor de cada muestra de la seal se representa como un valor elegido de entre un conjunto finito de posibles valores. Se conoce como error de cuantificacin (o ruido), a la diferencia entre la seal de entrada (sin cuantificar) y la seal de salida (ya cuantificada), interesa que el ruido sea lo ms bajo posible. Para conseguir esto y segn sea la aplicacin a desarrollar, se pueden usar distintas tcnicas de cuantificacin:

Cuantificacin uniforme Cuantificacin logartmica Cuantificacin no uniforme Cuantificacin vectorial

Eliminacin del ruido

La seal digitalizada es escaneada y las zonas de silencio son removidas por medio del clculo de energa en corto tiempo. Segmentos de 10ms se escogieron para este propsito. En un segmento la energa promedio es menor que un valor umbral proporcional a la energa promedio de la seal entera es descartado. Las siguientes frmulas se utilizaron:

Ecuacin

Donde En es la energa promedio de cada segmento y Eavg es la energapromedio de la seal entera. El valor umbral escogido THRES=0.2.

Filtro de Pre-nfasis

Se aplica un filtro digital pasa altas de primer orden a la seal, para enfatizar las frecuencias altas de los formantes por dos razones, primero para que no se pierda informacin durante la segmentacin, ya que la mayora de la informacin est contenida en las frecuencias bajas, en segundo remueve la componente DC de la seal, aplanando espectralmente la seal. Uno de los filtros de pre-nfasis ms utilizados tiene la ecuacin:

Ecuacin

Segmentacin

La segmentacin consiste en cortar la seal en segmentos de anlisis. La seal de voz es asumida como estacionaria en estos segmentos.Durante la segmentacin los segmentos son guardados cada uno como la columna de una matriz, para el posterior procesamiento de la seal de voz.Para el proceso una ventana de Hamming de 30ms es aplicada a la seal de voz, enfatizada previamente con el filtro de pre-nfasis. Con un desplazamiento tpico 10ms entre cada ventaneo.Se realiza el algoritmo en base a las siguientes frmulas:

Ecuacin

Qn es cada nth cuadro de segmentacin.

Ecuacin

En la ecuacin de la ventana de Hamming, N es el largo de cada cuadro o segmento de anlisis.

Extraccin de caractersticasEn el reconocimiento del habla, la seal de voz pre-procesada se ingresa a un nuevo procesamiento para producir una representacin de la voz en forma de secuencia de vectores o agrupaciones de valores que se denominan parmetros, que deben representar la informacin contenida en la envolvente del espectro.Hay que tener en cuenta que el nmero de parmetros debe ser reducido, para no saturar la base de datos, ya que mientras ms parmetros tenga la representacin menos fiables son los resultados y ms costosa la implementacin.Existen distintos mtodos de anlisis para la extraccin de caractersticas, y se concentran en diferentes aspectos representativos. En este caso analizaremos los dos de mayor importancia para el anlisis de la voz:- Anlisis de prediccin lineal (LPC)- Anlisis cepstral

Cepstrum Como se sabe los sonidos de la voz se pueden representar mediante un espectrograma, que indica las componentes frecuenciales de la seal de voz.Es as entonces como el espectro nos proporciona informacin acerca de los parmetros del modelo de produccin de voz, tanto de la excitacin como del filtro que representa el tracto vocal.Desde el principio de la dcada de los 70 los sistemas homo mrficos han tenido una gran importancia en los sistemas de reconocimiento de voz. Estos sistemas homo mrficos son una clase de sistemas no lineales que obedecen a un principio de superposicin. De estos los sistemas lineales son un caso especial.

Modelo Coeficientes Cesptrales

En la salida de este sistema tenemos entonces:

Ecuacin

En cual caso, el valor c(n) se conoce como coeficientes cepstrales derivados de la transformada de Fourier. Ns es el nmero de puntos con que se calcula la transformada. Esta ecuacin puede ser convenientemente simplificada teniendo en cuenta que el espectro logartmico es una funcin real simtrica.

Ecuacin

En los clculos lo habitual es usar solamente los primeros trminos.Por otro lado, I(k) representa una funcin que traduce la posicin de un valor en frecuencia al intervalo donde este contenido.

Medida de distancia

Una caracterstica fundamental de los sistemas de reconocimiento es la forma en que los vectores caractersticos son combinados y comparados con los patrones de referencia.Para poder realizar estas operaciones es necesario definir una medida de distancia entre los vectores caractersticos. Algunas de las medidas de distancia ms utilizadas son las distancias o mtricas inducidas por las normas en espacios Lp.En el algoritmo de reconocimiento en MATLAB se utiliza una distanciaEuclidea, definida del siguiente modo: por ejemplo si fi y fi, con i=0, 1, 2,, D son las componentes de dos vectores caractersticos f y f, puede definirse la siguiente mtrica inducida por la norma Lp:

Ecuacin

En el algoritmo primero se define el tamao del mayor vector, y se calcula con la formula anterior la distancia entre el vector de la palabra a reconocer y cada uno de los vectores de referencia en la base de datos, luego se hacen las condiciones para obtener la menor distancia, con lo cual se encuentra la palabra identificada en la base de datos.

5. POSIBLES METODOS NUMERICOS PARA UTILIZAR EN LA SOLUCION MATEMATICA DEL PROBLEMA TRANSFORMADA RPIDA DE FOURIER

Las series de Fourier son tiles para representar cualquier onda como una sumatoria de senos y cosenos. En este caso se tratar nicamente con el manejo de datos experimentales por medio de la transformada rpida de Fourier.