Biologically motivated pitch detector by using PLLs and ...

10
REVISTA ARGENTINA DE BIOINGENIER ´ IA, VOL 23 (2), 2019 39 Biologically motivated pitch detector by using PLLs and bayesian estimation Patricia A. Pelle and Claudio F. Estienne Instituto de Ingenier´ ıa Biom´ edica, Universidad de Buenos Aires, Buenos Aires, Argentina Abstract— This work proposes a signal processing system based on biological evidence that reflects an aspect of the representation of the speech signals in the peripheral auditory system, namely the pattern of multiple pitch synchronous signals in the inner ear. There are two main characteristics observed in this representation: on one hand the recovery of the pitch envelope using the high frequency portion of the spectrum; on the other hand, synchronous behavior with the fundamental harmonic displayed by these signals. Phase Locked Loops (PLLs) are used to determinate the frequencies present into the signals, obtaining at the same time good noise robustness. The system generates multiple observations of the harmonic frequencies corresponding to high portion of the spectrum, then those observations are fed to a Bayesian statistical detector which finally obtains the pitch using a variation of a Gaussian mixtures model. As a results this system shows pitch estimation quality similar to state-of-the-art systems, resulting in a possible validation of the biological hypothesis included in the model. Keywords— Pitch processing, auditory system processing, phase locked loop, bayesian learning. Resumen— Este trabajo propone un sistema de procesamiento computacional de se˜ nales basado en evidencia biol´ ogica que refleja un aspecto de la representaci´ on de la se˜ nal de habla en el sistema auditivo perif´ erico, esto es, la aparici´ on de se˜ nales sincronizadas a la frecuencia de entonaci´ on en el o´ ıdo interno. La informaci´ on representada muestra dos caracter´ ısticas presentes en la contraparte biol´ ogica: por un lado la recuperaci´ on de la envolvente de la se˜ nal cuya variaci´ on temporal se corresponde a la frecuencia fundamental, asociada a informaci´ on de alta frecuencia del espectro. Por otra parte el sincronismo con fen´ omenos temporales que muestra dicha envolvente. Utilizando Lazos de Enganche de Fase (Phase Locked Loop, PLL) para determinaci´ on de la frecuencias presentes en las se˜ nales, se logran representar los fen´ omenos de sincronismo mencionados y al mismo tiempo buenas caracter´ ısticas de inmunidad al ruido. El sistema genera m ´ ultiples observaciones de las frecuencias de arm´ onicos altos de la se ˜ nal, que luego son alimentadas a un detector estad´ ıstico bayesiano, que determina la frecuencia de entonaci´ on utilizando una variante del modelo de mezclas de Gaussianas. Los resultados obtenidos muestran mediciones de la frecuencia de entonaci´ on comparables a sistemas del estado del arte, lo cual permitir´ ıa validar las hip´ otesis biol´ ogicas incluidas en el modelo. Palabras clave— procesamiento de entonaci´ on, procesamiento en el sistema auditivo. lazo de enganche de fase, aprendizaje bayesiano. I. I NTRODUCCI ´ ON La frecuencia gl´ otica o de entonaci´ on de una se˜ nal de habla (en ingl´ es pitch) es el atributo que tienen las se˜ nales ac´ usticas que producen una sensaci´ on en el sistema auditivo por el cual los sonidos pueden ser ordenados seg´ un una escala musical [1]. La entonaci´ on de la se˜ nal de habla es un atrib- uto importante para la comunicaci´ on, conteniendo importante informaci´ on pros´ odica, aunque en algunos lenguajes como el Mandar´ ın esa informaci´ on tambi´ en puede ser sem´ antica. Su detecci´ on es un problema complejo de dif´ ıcil soluci´ on, debido a diversos factores, entre otros la no-estacionariedad intr´ ınseca de esta se˜ nal, con alternancia entre porciones sono- ras y sordas, la presencia de muchos arm´ onicos de energ´ ıa variable que facilita la aparici´ on de errores groseros (de doble frecuencia o mitad), entre otros factores. Varios algoritmos de detecci´ on han sido implementados en el pasado logrado Contact: Patricia A. Pelle, Instituto de Ingenier´ ıa Biom´ edica, Universidad de Buenos Aires, Paseo Col´ on 850 (1063), Phone +541147665271, Buenos Aires, Argentina, ppelle@fi.uba.ar buenos resultados, entre otros [2]–[5], que han sido utilizados con ´ exito bajo condiciones restringidas. Sin embargo, cuando se presenta deterioro de la se˜ nal de habla, como por ejemplo ruidos, o p´ erdida de arm´ onico fundamental, estos sistemas tambi´ en disminuyen la calidad de sus resultados notablemente. Este tipo de dificultades, m´ as la difusa comprensi´ on de la importancia de la entonaci´ on en la comunicaci´ on humana hacen que la determinaci´ on de la frecuencia de entonaci´ on haya sido un problema que fue relegado a un segundo plano dentro del procesamiento del habla durante mucho tiempo. Este rol secundario no parece corresponderse sin embargo con la preponderancia que tiene la representaci ´ on de este fen ´ omeno en el sistema auditivo humano. Algunos algoritmos hacen uso de valiosa informaci´ on biol´ ogica para formar sistemas mucho as inmunes al ruidos con resultados de detecci´ on de la se˜ nal muy buenos [6]. No obstante, extraen informaci´ on solamente de las bajas frecuencias del espectro de la se˜ nal, descartando la informaci´ on de las frecuencias mayores. En este trabajo presentaremos un sistema computacional de procesamiento de se˜ nales que aborda el problema de plasmar

Transcript of Biologically motivated pitch detector by using PLLs and ...

Page 1: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (2), 2019 39

Biologically motivated pitch detectorby using PLLs and bayesian estimation

Patricia A. Pelle and Claudio F. Estienne

Instituto de Ingenierıa Biomedica, Universidad de Buenos Aires, Buenos Aires, Argentina

Abstract— This work proposes a signal processing system based on biological evidence that reflects an aspect ofthe representation of the speech signals in the peripheral auditory system, namely the pattern of multiple pitchsynchronous signals in the inner ear. There are two main characteristics observed in this representation: on onehand the recovery of the pitch envelope using the high frequency portion of the spectrum; on the other hand,synchronous behavior with the fundamental harmonic displayed by these signals. Phase Locked Loops (PLLs) areused to determinate the frequencies present into the signals, obtaining at the same time good noise robustness. Thesystem generates multiple observations of the harmonic frequencies corresponding to high portion of the spectrum,then those observations are fed to a Bayesian statistical detector which finally obtains the pitch using a variation of aGaussian mixtures model. As a results this system shows pitch estimation quality similar to state-of-the-art systems,resulting in a possible validation of the biological hypothesis included in the model.

Keywords— Pitch processing, auditory system processing, phase locked loop, bayesian learning.

Resumen— Este trabajo propone un sistema de procesamiento computacional de senales basado en evidencia biologicaque refleja un aspecto de la representacion de la senal de habla en el sistema auditivo periferico, esto es, la aparicionde senales sincronizadas a la frecuencia de entonacion en el oıdo interno. La informacion representada muestra doscaracterısticas presentes en la contraparte biologica: por un lado la recuperacion de la envolvente de la senal cuyavariacion temporal se corresponde a la frecuencia fundamental, asociada a informacion de alta frecuencia del espectro.Por otra parte el sincronismo con fenomenos temporales que muestra dicha envolvente. Utilizando Lazos de Enganchede Fase (Phase Locked Loop, PLL) para determinacion de la frecuencias presentes en las senales, se logran representarlos fenomenos de sincronismo mencionados y al mismo tiempo buenas caracterısticas de inmunidad al ruido. El sistemagenera multiples observaciones de las frecuencias de armonicos altos de la senal, que luego son alimentadas a un detectorestadıstico bayesiano, que determina la frecuencia de entonacion utilizando una variante del modelo de mezclas deGaussianas. Los resultados obtenidos muestran mediciones de la frecuencia de entonacion comparables a sistemas delestado del arte, lo cual permitirıa validar las hipotesis biologicas incluidas en el modelo.

Palabras clave— procesamiento de entonacion, procesamiento en el sistema auditivo. lazo de enganche de fase,aprendizaje bayesiano.

I. INTRODUCCION

La frecuencia glotica o de entonacion de una senal dehabla (en ingles pitch) es el atributo que tienen las senalesacusticas que producen una sensacion en el sistema auditivopor el cual los sonidos pueden ser ordenados segun una escalamusical [1]. La entonacion de la senal de habla es un atrib-uto importante para la comunicacion, conteniendo importanteinformacion prosodica, aunque en algunos lenguajes comoel Mandarın esa informacion tambien puede ser semantica.Su deteccion es un problema complejo de difıcil solucion,debido a diversos factores, entre otros la no-estacionariedadintrınseca de esta senal, con alternancia entre porciones sono-ras y sordas, la presencia de muchos armonicos de energıavariable que facilita la aparicion de errores groseros (de doblefrecuencia o mitad), entre otros factores. Varios algoritmosde deteccion han sido implementados en el pasado logrado

Contact: Patricia A. Pelle, Instituto de Ingenierıa Biomedica, Universidad deBuenos Aires, Paseo Colon 850 (1063), Phone +541147665271, Buenos Aires,Argentina, [email protected]

buenos resultados, entre otros [2]–[5], que han sido utilizadoscon exito bajo condiciones restringidas. Sin embargo, cuandose presenta deterioro de la senal de habla, como por ejemploruidos, o perdida de armonico fundamental, estos sistemastambien disminuyen la calidad de sus resultados notablemente.Este tipo de dificultades, mas la difusa comprension de laimportancia de la entonacion en la comunicacion humanahacen que la determinacion de la frecuencia de entonacionhaya sido un problema que fue relegado a un segundo planodentro del procesamiento del habla durante mucho tiempo.Este rol secundario no parece corresponderse sin embargo conla preponderancia que tiene la representacion de este fenomenoen el sistema auditivo humano. Algunos algoritmos hacen usode valiosa informacion biologica para formar sistemas muchomas inmunes al ruidos con resultados de deteccion de la senalmuy buenos [6]. No obstante, extraen informacion solamentede las bajas frecuencias del espectro de la senal, descartandola informacion de las frecuencias mayores.

En este trabajo presentaremos un sistema computacional deprocesamiento de senales que aborda el problema de plasmar

Page 2: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 40

de un modo operativo una posible representacion de la frecuen-cia fundamental en el oıdo interno a partir de las porciones dealta frecuencia del espectro. Sobre este sistema sera posiblerealizar evaluaciones del valor de la frecuencia fundamentaly contrastarlas con valores de referencia mostrando ası lavalidez del modelo. En la siguiente seccion se presentaranlas observaciones biologicas que motivaron la eleccion de loscomponentes del sistema, dejando para las secciones subsigu-ientes una descripcion detallada de la implementacion de losmismos y la eleccion y ajuste de sus parametros. Finalmente,en la seccion de experimentos mostraremos los resultadosde medicion de la frecuencia obtenidos y mediante ellos sepondra constatar la validez de las hipotesis realizadas en dichasimplementaciones.

II. MOTIVACION BIOLOGICA

Los mecanismos neuronales responsables de representar lainformacion de percepcion de entonacion en el sistema audi-tivo para sonidos armonicamente complejos (como las partesvocalicas de la senal de habla por ejemplo) han sido motivo dedebate entre cientıficos por muchos anos (vease por ejemplo[7]–[9]). La tradicional descripcion del funcionamiento deloıdo interno conocida como velocidad-lugar (rate-place) [10]se podrıa considerar una descomposicion espectrografica delas senales, donde la actividad (disparos por unidad de tiempo)de cada fibra del nervio auditivo representa la energıa de unaporcion del espectro de la senal. Dicha teorıa esta basada enmediciones de la respuesta del nervio auditivo ante senalessonoras sinusoidales, y postula que cada fibra del nervioauditivo primario (la salida del oıdo interno), dispara impulsoscon una energıa proporcional a la energıa de la senal deentrada de acuerdo a una frecuencia preferencial, de modoque existe una correspondencia entre la posicion de las fibrasactivas en el nervio y la frecuencia de la senal de entrada.Sin embargo, observaciones sobre las respuestas del nervioauditivo realizadas utilizando estımulos de senales complejasformadas por varias sinusoides sumadas (como es el caso delas partes sonoras de la senal de habla) mostraron que no esposible extrapolar dicha teorıa de un modo lineal para esecaso. Las diferencias que se encuentran son por una parte,disparos que se producen en las fibras cercanas en posicion ala frecuencia de cada armonico, pero donde la cantidad de esosdisparos no se relaciona con la energıa del armonico sino consu frecuencia, ya que los disparos son sincronicos con dichafrecuencia. Por otra parte, se observa que esta sincronıa dedisparos con armonicos individuales se muestra solo para laspartes de baja y media frecuencia del espectro de la senal,ya que los armonicos correspondientes a frecuencias masaltas no aparecen representados en los disparos de las fibrasde sus correspondientes posiciones, sino que en su lugar semuestran disparos sincronicos con la frecuencia fundamental,una frecuencia mucho mas baja que la que corresponderıa a esazona. Estas divergencias con respecto al funcionamiento conestımulos senoidales simples, muestra a su vez dos aspectosdiferentes pero relacionados que dan informacion sobre lafrecuencia fundamental: por un lado se observa una multitudde fibras disparando en patrones armonicos de la fundamentalpara las bajas y medias frecuencias de la senal, y al mismotiempo sincronismo temporal con la fundamental en la zonade altas frecuencias.

Muchos metodos han sido propuestos para obtener la infor-macion de entonacion, o al menos de frecuencia fundamental,basandose en el aprovechamiento de estos fenomenos. Porejemplo la busqueda de un patron central [11], o la cor-relacion cruzada de porciones pasabanda de espectro de lasenal mostrada en [12], son ejemplos de la utilizacion delconjunto las frecuencias individuales de armonicos. Tambienexisten trabajos que plantean aproximaciones basados en ladiscriminacion individual de armonicos de baja y mediafrecuencia, mediante un esquema que utiliza dispositivos deLazo de Enganche de Fase (Phase Locked Loops, PLLs)como detector de sincronismo [6]. La ventaja del uso deestos dispositivos se pone en evidencia en especial cuandosu funcionamiento se somete a condiciones adversas de ruido,ya que estos dispositivos PLLs son intrınsecamente inmunesa dichos fenomenos [13], caracterıstica que tambien es propiadel sistema auditivo.

El sistema que proponemos en este trabajo consta de dosetapas: la primera etapa es de motivacion biologica, de lacual se obtendran versiones aproximadas de la envolventereconstruida a partir de la informacion de frecuencias altas.Las senales generadas por combinacion de varios armonicosde la senal, contendran una frecuencia menor que la decualquiera de ellos, e igual a la frecuencia fundamental, otambien a la envolvente de la senal. Luego, estas senales seranalimentadas a una segunda etapa donde se tomaran muestrasde todas las frecuencias que las componen, y mediante unaestimacion estadıstica final, se obtendra la frecuencia funda-mental mas probable en dicho conjunto de observaciones paraintervalos de tiempo consecutivos. En la siguiente seccion seexplican los fenomenos biologicos que suponemos podrıanser responsables de la generacion de las envolventes a partirde los armonicos de mas alta frecuencia del espectro, y sucorrelato con la primera etapa de nuestro sistema. Luego enlas siguientes secciones se detalla la etapa posterior donde serealiza una descomposicion de las senales de la etapa primeraen sinusoides elementales, y la posterior determinacion de lafrecuencia fundamental por metodos estadısticos, completandode este modo la descripcion del sistema.

III. ETAPA 1 OBTENCION DE ENVOLVENTE

La primera etapa de este sistema se compone de varioselementos que tienen su correlato con el funcionamiento delsistema auditivo. En la Fig. 1 se puede ver en la parte superiorun dibujo esquematico del funcionamiento del sistema auditivoperiferico, y en la parte inferior el equivalente usado en nuestrosistema. En el dibujo esquematico superior se muestra elprocesamiento de las ondas de presion sonora en el sistemaauditivo periferico. En la parte (a) se representa la entradade las ondas de presion al atravesar el oıdo externo, que sontransmitidas por el oıdo medio y convertidas en ondas depresion estacionarias en el oıdo interno. Las ondas sonorasque se transmiten en aire no pierden practicamente energıaal ser transferidas al medio lıquido de las estructuras deloıdo interno gracias a la interfase de los huesitos del oıdomedio. En el oıdo interno, las ondas de presion se transmitenpor el interior de la estructura osea denominada coclea. Estatiene una forma de tubo enrollado, de seccion transversal nouniforme a lo largo de su extension, por donde las ondasse propagan, reflejandose y formando ondas estacionarias.

Page 3: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 41

0 10000f(Hz)

rectificador

rectificador

sfr1 (t)

s (t)frK

...s(t)

Fig. 1. Diagrama de bloques Etapa 1 y su relacion al sistema auditivoperiferico

Debido a la estructura no uniforme de la coclea, ondas dediferentes frecuencias tienen picos estacionarios en diferentesporciones de su longitud: las ondas de mayor frecuenciaprovocan oscilaciones en la parte mas cercana al oıdo medio,mientras que las ondas de menor frecuencia producen picosde actividad en el extremo opuesto de su longitud, como semuestra en la Fig. 1 (a). Esos movimientos transversales en lamembrana interna de la coclea (membrana basilar) provocanque las neuronas especiales adosadas a ellas se “inclinen”,curvando los pequenos filamentos que las unen a su superficie(cilias), como se muestra en la parte (b). El movimiento delas cilias producen en el interior de las neuronas reaccionesquımicas que luego son propagadas hacia sus axones quecomponen las fibras del nervio auditivo como “disparos”de potencial (spikes). El sistema equivalente propuesto parareproducir este proceso se muestran en la parte inferior, yconsta de un banco de filtros pasabanda, que descomponela senal en varias senales con mayor energıa en una dadabanda de frecuencia diferente, mas un rectificador a la salidade cada filtro. El banco de filtros pasabanda deriva de laselectividad que muestran las salidas del nervio auditivo (ytambien la coclea) a diferentes porciones del espectro de lasenal. La rectificacion que proponemos a la salida de cadafiltro, equivaldrıa a la rectificacion que producen las celulasciliadas sobre las oscilaciones de la coclea. Por la forma quetienen las cilias, su movimiento no es simetrico, produciendodisparos cada vez que la onda realiza un movimiento en unaunica direccion con respecto a la posicion base. El tipo de

filtros pasabanda utilizado se denomina filtro coclear, y tienenuna forma basada tambien en evidencia biologica: tienen unadistribucion de frecuencias de corte no uniforme (escala mel)y sus anchos de banda aumentan con ellas (Q constante)[14]. Estas caracterısticas son universalmente aceptadas comoventajosas para el procesamiento de senales de habla y lossistemas actuales de codificacion las utilizan tambien [15]. Laforma asimetrica de los filtros tambien deriva de observacionesbiologicas.

El ancho de banda de estos los filtros es un requerimientode diseno importante del sistema, ya que de ello dependeen gran medida la aparicion de una frecuencia fundamentalunificadora de los armonicos individuales. Puede verificarseempıricamente que si en cada filtro seguido de rectificadorhay al menos dos armonicos presentes en su entrada, se re-generaran en su salida una senal poliarmonica cuyo armonicomas bajo es la fundamental, aun cuando esa frecuencia estemuy atenuada o directamente no exista a la entrada del recti-ficador. Es posible demostrar de forma precisa que este efectode “recuperacion de la fundamental” a partir de armonicosde alta frecuencia se produce para el caso ideal de queaparezcan dos armonicos a la salida del filtro que tengan igualamplitud, seguidos de una rectificacion de onda completa: lasuma de dos frecuencias produce un batido de frecuenciaigual a la diferencia entre ellas (que en este caso serıa lafundamental), y la rectificacion de onda completa se puedever como elevar la senal al cuadrado y luego aplicarle raızcuadrada a la amplitud. Eso equivale a la convolucion consigomismo del espectro de las senales sumadas, con un cambioen la amplitud temporal. Esa convolucion genera un armonicoen la frecuencia del batido o envolvente de la senal (que es lafrecuencia fundamental, por ser la resta entre la frecuencia dedos armonicos consecutivos), mas otros armonicos mayores.Si la situacion es diferente al de esta idealizacion, (hay masarmonicos o si estos no tienen la misma amplitud, o si ademasla rectificacion es de media onda), no es posible justificar deun modo matematico la aparicion de frecuencia fundamental,pero se verifica experimentalmente el mismo hecho. Esteesquema constituye por tanto una hipotetica explicacion de laaparicion de disparos a frecuencia fundamental en las zonasde altas frecuencias de las fibras del nervio auditivo, que anteestımulos sinusoidales puros se sincronizarıan a frecuenciasmucho mayores. Ademas, explicarıa por que este efecto seproduce solo a altas frecuencias, ya que si este tipo de filtroestuvieran presentes en todo el espectro del sistema, solo serıaposible observar una envolvente cuando el ancho de los filtrossea suficientemente amplio para abarcar mas de un armonico.Este efecto es mas probable en la parte alta del espectro ya quecomo se menciono anteriormente, la evidencia biologica nosmuestra que los anchos de banda son mayores a frecuenciasmas altas, y viceversa.

En nuestra implementacion hemos usado 30 filtros pasa-banda del estilo de los que se describen en [16]. La frecuenciade corte de los filtros esta linealmente espaciada en escala mel,con un rango entre 2000 y 8000Hz. Los Q de los filtros sonanchos, de modo de asegurar que al menos 2 armonicos de lamaxima frecuencia de entonacion posible (que consideraremos500Hz) puedan estar presentes al mismo tiempo en la salida decualquiera de estos filtros. Los filtros son FIR de orden 2048,para permitir la caıda abrupta en su flanco superior, y son de

Page 4: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 42

fase lineal para no alterar la forma temporal de la senal. Elrectificador es de media onda por los motivos antes expuestos.

IV. ETAPA 2: OBTENCION DE LA FRECUENCIAFUNDAMENTAL

Como se explico en la seccion previa, las senales de salidaobtenidas de la etapa anterior poseen un espectro que incluyeun armonico con frecuencia fundamental mas otros armonicos.En esta etapa cada una de esas senales es alimentada a unsistema cuyo objetivo es el de obtener para cada tiempo indi-cacion del valor de las frecuencias presentes en sus armonicos,como se muestra en la Fig. 2, que luego seran analizadas enconjunto para obtener la frecuencia fundamental mas probable.

sfr(t)

s (t)pb1

s (t)pb2

s (t)pbN

(t)1

lockfrec (t)

1

(t)lock2

frec (t)2

(t)lockN

frec (t)N

Banco

Filtro

Pasabanda

PLL N

1PLL

2PLL

Fig. 2. Etapa 2: Diagrama de bloques de medicion de frecuencias de unade las senales de salida de la Etapa 1 (izquierda). A la derecha ejemplo deespectrograma, y mediciones de frecuencia en lınea contınua, y su validacion(puntos llenos)

El sistema propuesto para obtener lecturas de las frecuen-cias de todos los armonicos presente en estas senales conenvolvente esta basado en el trabajo presentado en [6] y en[17]. Los valores de frecuencia de todos los armonicos detodas las frecuencias de salida de la Etapa 1 (sfrk(t) conk = 1, . . . ,K) seran relevadas en intervalos de tiempo de10mseg, y utilizadas como valores dato para la estimacionde una distribucion de probabilidad, mediante la cual sedeterminara la fundamental mas probable. La informacion defrecuencia de los diferentes armonicos puede ser obtenidacon un banco de filtros pasabanda y un PLL conectado a lasalida de cada filtro, en una disposicion como se muestra enla parte izquierda de la Fig. 2. El objetivo de los filtros esseleccionar el rango de frecuencia a las que cada PLL tiene quesincronizarse. Para este proposito los filtros son tambien filtroscocleares, pero suficientemente angostos como para asegurarque haya un solo armonico de la senal a la entrada del PLL.De este modo, a la salida de cada filtro apareceran senalessinusoidales puras, de energıa que depende de la senal deentrada en el entorno de la banda de paso de cada filtro.

La estimacion de frecuencia es directa para los PLL, ya queestos dispositivos estan disenados para ajustarse a la fase deuna senal sinusoidal de entrada y reproducirla internamentemediante un generador de senal sinusoidal. Un diagramaesquematico de un PLL es mostrado en la Fig. 3. La medicionde diferencia de fases se realiza mediante la multiplicacionde la entrada y la salida del generador sinusoidal interno(Oscilador Controlado por Tension, OCT), que es filtrada conun filtro angosto (Filtro de Lazo), en una disposicion querefleja los filtros sintonizados. Ese filtro controla la dinamicadel PLL, y por lo tanto la dinamica de las posibles variaciones

de frecuencia de entrada que pueden ser confiablemente deter-minadas por el PLL. El filtro de lazo ademas es en gran medidaresponsable de la robustez del sistema, ya que la frecuencialeıda en el PLL es solamente afectada por un ancho de bandaangosto alrededor de la frecuencia objetivo. La diferenciade frecuencias que se obtiene a la salida del filtro de lazo,alimenta a su vez al Oscilador Controlado por Tension, quegenerara una senal de frecuencia ω0, mas una frecuencia quesera proporcional a la diferencia de fases leıda. De este modo,si la frecuencia de senal de entrada aumenta su frecuencia yla diferencia de fases se agranda, el oscilador generara unasenal de frecuencia mayor hasta estabilizarse en la mismafase de la senal de entrada. Este lazo se esquematiza en lafigura como bloque principal. La lectura de la frecuencia dela senal de entrada puede calcularse de la salida del oscilador,si consideramos que la mayor parte del tiempo el generadorinterno y la senal de entrada estaran enganchadas en fase.Una senal adicional se genera en el PLL, mediante el bloquedenominado bloque lockin. Esta senal es un indicador de si elPLL esta efectivamente enganchado a la fase de la senal deentrada, es decir es un indicador de enganche (lock-indicator,lockin). Esta senal sera utilizada como seleccionador de lasfrecuencias validas a tener en cuenta en el calculo final.

Esta validacion se encuentra ejemplificada en la partederecha de la Fig. 2. Allı se representa el espectrogramade una senal de salida de la Etapa 1 sfr(t), que comopuede verse contiene el primer armonico de la senal mas susarmonicos. Sobre el espectrograma se muestra las salidas defrecuencia de los PLLs de la Etapa 2, en lınea continua negra.La mayor parte de las frecuencias leıdas coinciden con losvalores de las frecuencias de los armonicos, pero tambien esposible ver muchas mediciones de frecuencias espurias, esdecir frecuencias que no corresponden a ningun armonico.Esto se debe a que la porcion de espectro que constituyo laentrada de algunos de los PLLs no tenıan suficiente energıapara engancharlos. Los puntos negros superpuestos indican lasfrecuencias consideradas validas despues de chequear el valorcorrespondiente de lockin, que mayormente coinciden con lafrecuencia de los armonicos.

Para esta etapa usamos para cada una de las salidas dela etapa 1, 60 filtros en un rango de frecuencias entre 50y 1000Hz. Este rango de frecuencias nos permite asegurarque se registren al menos informacion de 2 armonicos aunpara la frecuencia de entonacion mas alta, lo cual comoveremos en la siguiente seccion es importante para deteccionestadıstica final. La frecuencia de corte de los filtros tambienesta equiespaciada en escala mel, y tambien son FIR deorden 2048. Los parametros de los PLLs fueron ajustadosexperimentalmente en los trabajos mencionados anteriormente(vease [6]). El unico cambio en este caso es un valor de laganancia del lazo (AGC, Automatic Gain Control) del PLLmas alta que en ese trabajo, ya que la parte superior delespectro de las senales pierde mucha energıa con respecto alos primeros armonicos. Mas informacion puede encontrarseen [13], donde se explica el equivalente de tiempo discretoque utilizamos en esta implementacion.

Page 5: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 43

× Filtrode Lazo

OCT +

ω0

bloque principal

A cos(θi(t)) k (θi(t)−θ0(t))

sin(θo(t))

Calculo defrecuencia

freq(t)

Cambio defase 90o

× Filtrolockin

cos(θo(t))

lockin(t)

bloque lockin

Fig. 3. Diagrama de bloques de un PLL

V. DETERMINACION ESTADISTICA DE LA FRECUENCIAFUNDAMENTAL

Una vez que se obtienen mediciones validadas de las fre-cuencias componentes de cada una de las senales de salida dela Etapa 1, todas estas mediciones son analizadas en conjuntopara una determinacion estadıstica de su frecuencia fundamen-tal. Dos ejemplos de histograma de estos valores de frecuen-cias validadas para un cierto instante de tiempo se muestran enla Fig. 4, para dos senales de habla diferentes. Los histogramasson representados con barras azules, y superpuestos a ellospuede verse un posible modelo probabilıstico de distribucionde estas frecuencias correspondiente a cada caso (en lıneascontinuas de colores). El problema de determinar la frecuenciafundamental dadas las frecuencias validadas observadas seplanteara en nuestro enfoque como la estimacion correcta dela funcion de distribucion que deberıa describir al conjunto defrecuencias observadas.

0 100 200 300 400 500 600 700 800 900 10000

100

200

300

400

frec (Hz)

Hombre

0 100 200 300 400 500 600 700 800 900 10000

200

400

600

frec (Hz)

Mujer

Fig. 4. Graficos de posibles distribuciones de valores de frecuencia para dossenales, de un hombre en la parte superior y mujer en la inferior; superpuestacon la distribucion esperada en lınea continua de colores

Dado que la distribucion de las frecuencias validadas seranvalores en torno a las frecuencias de los armonicos de lasenal con una cierta dispersion, es posible postular que unadistribucion de probabilidad verosımil para describir dichasmuestras es una mezcla de gaussianas, es decir

p(x) =

K∑k=1

πkN (x|µk, λ−1k ) (1)

donde x es el valor de una posible frecuencia, N (x|µk, λ−1k )

es una gaussiana de media µk y precision λk = 1/σ2k asociada

a la clase k, y πk el correspondiente peso de la mezcla. Afin de que p(x) corresponda a una funcion de densidad, sedebera cumplir que la suma de todos los pesos sea uno. Estetipo de modelo podrıa asimilarse a un problema de clusteringen el cual cada observacion correspondiente a las salidas delos bancos de PLLs de la etapa anterior se asocia a una claseque corresponde a un armonico de la frecuencia fundamental.De este modo, las salidas validadas de los bancos de PLLs encada instante corresponderıan a un conjunto de observacionesde una mezcla de distribuciones, y el objetivo serıa determinartodo el conjunto de parametros {µk, λk, y πk,∀k} de esamezcla, dadas las muestras de frecuencia validadas de lassalidas de la Etapa 2, D = {xi, i = 1, . . . , n}.

Dos aspectos deberıan ser tenidos en cuenta en la definiciondel modelo probabilıstico esperado que describa las obser-vaciones. Por una parte, si observamos los dos graficos dela Figura 4 puede verse que las variaciones posibles de lafrecuencia fundamental son grandes entre senales diferentes ytambien incluso dentro de la misma senal. El rango posiblede frecuencia de entonacion del habla suele considerarse quees de 50Hz a 500Hz. Esto trae como consecuencia que lacantidad de clases K del modelo no sea un numero fijo, yaque si la frecuencia fundamental es baja podrıa haber hasta 20armonicos en el rango de salida de los PLLs (0 a 1000Hz).En cambio si la frecuencia fuera alta (500Hz) habrıa tan solo2 armonicos en el mismo rango. Es decir que el numero K declases de la mezcla tambien es un parametro desconocido. Elotro problema que aparece es que nuestra funcion de densidadobjetivo definida como en (1), tiene un solo parametro querealmente nos interesa y que es la media del primer armonicoµ1, ya que lo que buscamos es la frecuencia fundamental.Sin embargo, es claro tambien que la armonicidad conjuntade todas las frecuencias observadas aporta informacion validaque no deberıa menospreciarse. Un modelo de densidad quetome en cuenta por igual toda la informacion conjunta de lasfrecuencias de todos los armonicos serıa uno donde las mediasde todas las clases guarden una relacion armonica entre sı:

p(x) =

K∑k=1

πkN (x|k f0, λ−1) (2)

en donde vemos que las medias de las clases son todasmultiplos del mismo parametro f0, y ademas se propone quetodas las gaussianas tengan la misma precision λ. De estemodo el problema se reduce a estimar los parametros f0 ,λ y{πk}, ademas del numero K de mezclas.

La estimacion de mezclas de gaussianas puede ser resueltopor el algoritmo Expectacion-Maximizacion (EM) [18], para elcaso de K conocido. Este algoritmo iterativo genera sucesiva-mente un incremento de la funcion de verosimilitud total de lasmuestras, y es de simple aplicacion. Pero adolece del problemade que no contempla de manera directa el caso cuando el valorde K no es conocido. Este problema suele ser tratado comoproblema de seleccion de modelos, y no existe una solucionunica al respecto. Los llamados modelos no parametricos encambio constituyen una alternativa al problema de seleccionde modelos. En los ultimos anos, sobre todo con el aumentodel poder de computo, se han popularizado los llamados mod-elos bayesianos no parametricos [19], [20]. Dichos modelosproveen un marco bayesiano para el problema de seleccion demodelos usando metodos no parametricos. Basicamente la idea

Page 6: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 44

es definir un espacio de parametros de dimension infinita yluego de acuerdo a los datos que se tengan acotar dicho espacioa un numero finito de parametros los cuales explican los datosdisponibles. Los modelos mas exitosos de este tipo son losprocesos gaussianos y los procesos de Dirichlet [21], [22]. Enlas subsecciones siguientes se describira en primer lugar laestimacion bayesiana del modelo de mezclas de gaussianas conmedias ligadas, y luego su extension bayesiana no parametrica.

A. Modelo bayesiano de mezclas gaussianas general y demedias ligadas

En estadıstica bayesiana rige el principio de que toda formade incerteza debe ser expresada como aleatoria. Dado que losparametros del modelo son desconocidos deberan ser consider-ados variables aleatorias generados por una distribucion en elespacio de los parametros llamada distribucion a priori p(Θ).El objetivo sera encontrar la distribucion de probabilidad delos parametros a posteriori p(Θ|D) de observar el conjuntode datos D = {xi, i = 1, . . . , n}. Una vez halladaesta distribucion de los parametros a posteriori, sera posibleencontrar la distribucion de los datos a posteriori, tambienllamada distribucion de prediccion

p(x|D) =

∫Θ

p(x,Θ|D)dΘ =

∫Θ

p(x|Θ)p(Θ|D)dΘ (3)

donde se asume como hipotesis que dado el parametro,el conocimiento de los datos es irrelevante, es decir,p(x|Θ,D) = p(x|Θ). Una interpretacion posible de laecuacion anterior es que la funcion de densidad de losparametros a posteriori p(Θ|D) es una evaluacion de laincertidumbre de los parametros del modelo dados unos ciertosdatos, y que la funcion de densidad de prediccion de un nuevodato p(x|D) dadas las muestras observadas integra toda esaincertidumbre sobre la forma de la funcion de distribucionplanteada p(x|Θ).

La distribucion a priori deberıa reflejar el conocimientoprevio a cualquier observacion que se tiene sobre el modelo.Por motivos de eficiencia computacional, es deseable ademasque la distribucion a posteriori y la distribucion a priori tenganla misma forma (es decir correspondan al mismo tipo dedistribucion). Ambas se relacionan a traves del teorema deBayes como:

p(Θ|D) =p(D|Θ)p(Θ)

p(D)

Cuando las distribuciones a priori y a posteriori tienen lamisma forma, la verosimilitud de los datos p(D|Θ) y ladistribucion a priori p(Θ) se denominan conjugadas [18]. Enel caso de las distribuciones gaussianas de media y precisiondesconocida la funcion conjugada es una distribucion de tipoNormal-Gamma [18]. En este caso se supone que la densidada priori de los parametros sera

p(µ, λ) = NG(µ, λ|µ0, κ0, α0, β0)

y se puede demostrar que la probabilidad a posteriori vendra

dada por [18], [23]:

p(µ, λ|D) = NG(µ, λ|µn, κn, αn, βn), con

µn =κ0µ0 + nx

κ0 + n, κn = κ0 + n, αn = α0 +

n

2y

βn = β0 +1

2

n∑i+1

(xi − x)2 +κ0 n(x− µ0)2

2(κ0 + n)(4)

donde x es el promedio de los datos observados. En el casode mezclas de gaussianas, expresados como (1) o (2), noes posible utilizar esta actualizacion de parametros, ya queno se sabe a que mezcla (en nuestro caso, a que armonico)corresponde cada una de las muestras de observacion quedisponemos. Para el caso general de mezcla de gaussianascomo en (1), existe una solucion conocida iterativa, utilizandoel algoritmo de Gibbs [24]. Este algoritmo en su formageneral permite encontrar muestras de variables aleatoriasque estan gobernadas por una distribucion conjunta. El al-goritmo propone muestrear secuencialmente cada una de lasprobabilidades condicionales de una de las variables dado elconocimiento de todas las restantes, que puede determinarse apartir de la forma de la funcion de densidad conjunta. En cadamuestreo que se realiza, se utiliza los valores obtenidos de losmuestras de las variables anteriores. Se puede demostrar queluego de algunas iteraciones, las muestras de las funciones dedensidad condicionales individuales, son verdaderas muestrasde la funcion de densidad conjunta. El algoritmo de Gibbses uno de los tantos Modelos de Cadenas de Markov deMontecarlo (Monte Carlo Markov Chains, MCMC) [25].

La utilizacion del algoritmo de Gibbs en el caso de mezclasde gaussianas, implicara ampliar las variables aleatorias queintervienen en el modelo para incluir las variables latentesde pertenencia de una muestra a un armonico (mezcla). Sillamamos Z = {zi, i = 1, . . . , n} al conjunto deetiquetas que indican el numero de mezcla (armonico) al queestan asociadas las observaciones D = {xi, i = 1, . . . , n}, elobjetivo es que el algoritmo de Gibbs nos de un muestreo de ladistribucion P (Z|D). En ese caso habra que plantear la formade las n funciones de densidad condicional P (zi|Z\i,D), coni = 1, . . . , n, donde Z\i = {zj , j = 1, . . . , n, j 6= i} y obtenermuestras de cada zi secuencialmente hasta completar cada unade las etiquetas de cada dato observado xi.

Una vez obtenidos los valores probables de las etiquetasde cada muestra, entonces se podran aplicar las formulasde actualizacion de los parametros de las clases si se deseadeterminar las funciones de probabilidad a posteriori de losdatos dados los parametros. Si se desea obtener la densidadde prediccion de los datos como en (3), para el caso generalde mezclas de gaussianas (1) tendremos,

p(x|D)=

K∑k=1

p(x, z=k|D)=

K∑k=1

p(z=k|D)p(x|z=k,D)(5)

donde hemos llamado z a la etiqueta de la variable x, demodo que p(z = k|D) sera el valor estimado del peso πkde la mezcla k. Y, dado que p(x|z = k,D) corresponde a lamezcla k, solamente habra que considerar como relevantes losdatos Dk = {xi, 1 = 1, . . . , n tal que zi = k}, de modo que

p(x|D) =

K∑k=1

p(z = k|D)p(x|z = k,Dk)

Page 7: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 45

es decir, podremos estimar ahora los parametros de cadagaussiana utilizando solo los datos que correspondan a cadamezcla. La forma resultante de densidad de prediccion sepuede calcular para el caso de las gaussianas usando Bayes

p(x|Dk) =p(x,Dk)

p(Dk)=p(Dk+x)

p(Dk)(6)

donde Dk+x = Dk∪{x}, donde vemos que p(Dk) y p(Dk+x)definen completamente la funcion. A su vez

p(Dk) =p(µk, λk)

P (µk, λk|Dk)p(Dk|µk, λk)

=NG(µk, λk, b0)

NG(µk, λk, bnk)p(Dk|µk, λk), (7)

y analogamente para p(Dk+x), donde b = {µ, κ, α, β} sonlos parametros de la Normal-Gamma. Reemplazando estasexpresiones (7) en (6) y desarrollando se puede demostrar que[18], [23]

p(x|Dk) = t(2αnk )(x|µnk , ψ−1nk

), con ψnk =αnkκnk

βnk(κnk + 1)

donde t es una distribucion t-Student con (2αnk) grados delibertad y los parametros bnk son calculados con los Dk comoen (4). De este modo, la funcion de densidad de prediccionsera

p(x|D) =

K∑k=1

p(z = k|D)t(2αnk )(x|µnk , ψ−1nk

)

donde se utilizaran los datos observados etiquetados medianteGibbs para calcular los parametros de cada t-Student de cadamezcla.

En el caso de que la mezcla de gaussianas tenga lasmedias armonicamente relacionadas como en (2), partiendonuevamente de (5), donde se suponen conocidas las etiquetasZ se demostrara en la subseccion siguiente que

p(x|D) =

K∑k=1

p(z = k|D)t(2αn)(x|kµn, ψ−1n ) (8)

pero donde las formulas de actualizacion de los parametrosson ahora

µn =κ0µ0 +

∑ni=1 zixi

κ0 +∑ni=1 z

2i

, κn = κ0 +

n∑i=1

z2i , αn = α0 +

n

2,

βn = β0 +1

2

n∑i=1

(xi − zix)2 +κ0 (

∑ni=1 zi) (x− µ0)2

2κn(9)

Finalmente el valor estimado de la frecuencia fundamental seraf0 = µn, el valor de la media de la t-Student para z = 1.

1) Demostracion de actualizacion de Probabilidad a Pos-teriori de los parametros: Para demostrar que la funcionde probabilidad de los parametros f0 y λ a posteriori de laobservacion de los datos D y sus etiquetas tiene la formaexpresada en Ec. (9), planteamos la probabilidad conjuntade los datos de entrenamiento D y los parametros f0 y λ,dadas conocidas las etiquetas de cada uno de los datos de

entrenamiento Z , que por Bayes podemos decir que sera

p(D, f0, λ|Z) = p(D|f0, λ,Z) p(f0, λ|Z)

=

n∏i=1

p(xi|f0, λ,Z) p(f0, λ)

=

n∏i=1

N (xi; zif0, λ−1) p(f0, λ) (10)

donde vemos que el primer factor es la verosimilitud delos datos, y el segundo factor es la probabilidad a prioride los parametros, que no depende de las etiquetas de losdatos, porque no depende de los datos. Por otro lado, tambienpodemos ver que

p(D, f0, λ|Z) = p(f0, λ|D,Z) p(D|Z) (11)

donde el primer factor es la probabilidad que buscamos, esdecir la probabilidad de los parametros a posteriori de los datosy las etiquetas, mientras que el segundo factor no depende delos parametros. Por lo tanto, igualando (10) y (11), tendremosla relacion entre la probabilidad a posteriori y la probabilidada priori de los parametros, expresada como

p(f0, λ|D,Z) p(D|Z) =

n∏i=1

N (xi; zif0, λ−1) p(f0, λ)

La funcion Normal-Gamma que postulamos que cumplira lopedido es de la forma:

NG(f0, λ|µ, κ, α, β) = N (f0;µ, (κλ)−1)Ga(λ|α, rate=β)

=1

ZNGλ(α− 1

2 ) e−[βλ+κλ2 (f0−µ)2]

con ZNG(α.β, κ) =Γ(α)

βα

(2π

κ

) 12

Escribiendo el logaritmo del lado izquierdo de la igualdad enla Ec.(12) tendremos

log(p(f0, λ|D,Z) p(D|Z)) =

= − log(ZNG(αn.βn, κn)) +

(αn −

1

2

)log(λ)

−[βnλ+κnλ

2(f0 − µn)2] + log(p(D|Z))

mientras que el logaritmo del lado derecho sera

n∑i=1

log(N (xi; zif0, λ−1) + log(p(f0, λ)) =

=n

2log(λ)− n

2log(2π)− λ

2

n∑i=1

(xi − zif0)2

− log(ZNG(α0.β0, κ0)) +

(α0 −

1

2

)log(λ)

−[β0λ+κ0λ

2(f0 − µ0)2]

Como ambas ecuaciones son iguales, vemos que por un lado:

log(ZNG(αn.βn, κn)) =

= log(p(D|Z)) + log(ZNG(α0.β0, κ0)) +n

2log(2π)

Page 8: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 46

que es la parte que no contiene a los parametros f0 y λ, y quenos permitirıa expresar p(D|Z), mientras que(

αn −1

2

)log(λ) =

(α0 −

1

2

)log(λ) +

n

2log(λ)⇒

αn = α0 +n

2(12)

de donde se obtiene el valor de la actualizacion de αn. Porultimo, es necesario igualar los terminos que contienen f0 yλ,

βnλ+κnλ

2(f0 − µn)2 =

2

n∑i=1

(xi − zif0)2 + β0λ+κ0λ

2(f0 − µ0)2

2

n∑i=1

(x2i − 2zixif0 + z2

i f20 ) + β0λ

+κ0λ

2(f2

0 − 2f0µ0 + µ20)

Los terminos del lado derecho que contengan f0.λ y f20 seran

las que formaran κnλ2 (f0 − µn)2, mientras que los terminos

que contengan cte.λ se agruparan para formar βnλ, de modoque, tomando los terminos que contienen f0, tenemos

λ

2

n∑i=1

(z2i f

20 − 2zixif0) +

κ0λ

2(f2

0 − 2f0µ0)

2

[−2

(κ0µ0 +

n∑i=1

(zixi)

)f0 +

(n∑i=1

z2i + κ0

)f2

0

]=κnλ

2

[−2µnf0 + f2

0

]+κnλ

2µ2n −

κnλ

2µ2n

donde κn =

(n∑i=1

z2i + κ0

), y µn =

κ0µ0 +∑ni=1(zixi)

κn

de donde entonces sera posible agrupar los terminos corres-pondientes a κnλ

2 (f0 − µn)2, lo que genera las formulas deactualizacion de κn y µn. Y por otro lado si se agrupan losterminos que contengan cte.λ para formar βnλ, es decir

βnλ =

(1

2

n∑i=1

x2i + β0 +

κ0

2(µ2

0)− κn2µ2n

que finalmente, reordenando los terminos, tendremos

βn = β0 +1

2

n∑i=1

(xi − zix)2 +κ0

∑ni=1 ziκn

(x− µ0)2

que completarıa la actualizacion.2) Algoritmo de Gibbs: Volviendo al calculo de P (Z|D)

mediante el algoritmo de Gibbs, recordemos que falta encon-trar las funciones condicionales P (zi|Z\i,D,a,b), donde seha puesto en evidencia los hiperparametros a, que controlanla forma de las variables z y b = (µ0, κ0, α0, β0), queson los hiperparametros de las Normal-Gamma. Para ello,se calcula cada una de las probabilidades de que el valorde zi sea un valor k definido entre los posibles, es decir,P (zi = k|Z\i,D,a,b), para k = 1, . . . ,K. Utilizando Bayes,(salteando algunos pasos intermedios, para mas detalles ver

[23]), se tiene que

P (zi = k|Z\i,D,a,b) =P (zi = k,Z\i,D|a,b)

p(D,Z\i|a,b)

=P (zi = k|Z\i,a,b) p(D|zi = k,Z\i,a,b)

p(D|Z\i,a,b)

=P (zi = k|Z\i,a) p(xi|zi = k,D\i,Z\i,b)

p(xi|D\i,Z\i,b)

Esta probabilidad es entonces el producto de dos factores(salvo normalizacion): por un lado P (zi = k|Z\i,a), ypor otro lado p(xi|zi = k,D\i,Z\i,b). El primer factorcorresponde a la estimacion de una multinomial por lo cual sepuede expresar a partir de la distribucion de Dirichlet como[23]:

P (zi = k|Z\i,a) =nk\i + a/K

n+ a− 1(13)

donde nk\i es la cantidad de observaciones xi que fueronetiquetadas como mezcla k excepto la muestra xi. El segundofactor es la verosimilitud predictiva de la observacion xi dehaber sido generada por la mezcla k. Aquı, si el modelo deprobabilidad es de mezclas con medias enlazadas como en(2), segun lo visto anteriormente esta sera una t-Student comoen (8). Luego, el algoritmo evalua para cada zi cual sera laprobabilidad de obtener un valor k, con k = 1, . . . ,K, yluego se muestrea obteniendose el valor de zi que deberıaser utilizado para calcular la siguiente etiqueta.

En este punto es importante mantener presente que los valo-res de etiquetas obtenidos son simplemente etiquetas posiblesde la distribucion P (Z|D), y estas podrıan variar de acuerdoa esta probabilidad de iteracion en iteracion. Entonces deberıapensarse que en realidad la densidad predictiva que estamosencontrando con este metodo es realmente

p(x|D) =∑∀K

p(x,Z = K|D)

=∑∀K

p(x|Z = K,D)P (Z = K|D)

donde la suma se realiza sobre todos los posibles etique-tamientos, o sea todas las posibles n-uplas K. Dicha sumaes imposible de evaluar de manera practica, sin embargo sidisponemos de muestras Z(t) ∼ P (Z|D) mediante Gibbspodremos aproximar mediante Montecarlo y hallar [26]

p(x|D) ≈ 1

T

T∑t=1

p(x|Z = Z(t),D)

Es logico esperar sin embargo que si las observaciones formanclusters bien definidos, las sucesivas Z(t) sean similares entresı, con lo cual no sera necesaria la suma y se podra usarla ultima muestra como el “verdadero” etiquetamiento de losdatos. Tambien es posible considerar que si se tienen muchasobservaciones, y las etiquetas varıan marginalmente en al-gunos pocos valores cada vez, los parametros de actualizaciontendran valores muy similares a pesar de que cambien unaspocas etiquetas, por lo cual despues de una cierta cantidad deiteraciones la funcion de prediccion se vuelve “estable”.

Page 9: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 47

B. Modelo bayesiano no parametrico de mezclas gaussianas

No es difıcil hacer una extension no parametrica del modelodesarrollado hasta el momento. La variante principal consisteen asumir que la distribucion a priori de los parametros delas etiquetas P (π) no esta limitado aunque sı sigue siendodiscreto. La extension surge de cambiar la distribucion deDirichlet por un proceso de Dirichlet con parametro de con-centracion a. [27], [28]. Siguiendo un desarrollo analogo alvisto hasta el momento, se encuentra que la unica variantese produce en la estimacion de la Ec. (13) la cual adopta laforma:

p(zi = k|Z\i, a) =

{ nk\in+a−1 si nk\i > 0

an+a−1 si k = K + 1

}Es decir, el modelo admite que una probabilidad proporcionala a de que una nueva clase sea creada. Notese tambien quelas clases que contengan mas elementos tendran mas chancesde ser elegidas nuevamente. Este tipo de proceso se conocecomo Proceso Restaurante Chino (CRP, Chinese RestaurantProcess), para mayores detalles ver [27] y [29].

VI. RESULTADOS EXPERIMENTALES

A. Descripcion de los datos y los experimentos

El desempeno es evaluado usando dos bases de datosdisponibles libremente, con senal laringografica simultaneaque permite el calculo de una referencia. La primera sedenomina “Keele pitch extraction reference database” [30], ycontiene senales de habla de 5 hombres y 5 mujeres que leenuna historia corta, de alrededor de 35 segundos de duracion.La segunda, producida por P. Bagshaw [3], esta compuesta de50 frases emitidas cada una de ellas por un hablante hombre yuno mujer, el mismo hablante para las 50 frases, produciendouna duracion total de senales de unos 7 minutos. Ambasbases de datos son calidad estudio, muestreadas a 20KHz.La referencia en ambas bases de datos es calculada por losautores utilizando la senal laringografica, que es evaluadacada 10mseg. Se realizan los experimentos de medicion defrecuencia de entonacion para las condiciones originales delas senales y tambien para ruido sumado en varios nivelesde relacion de senal a ruido (Signal to Noise Ratio, SNR).Para los experimentos con ruido se adicionan senales ejemplode la base de datos NOISEX1. Los resultados obtenidos conel sistema propuesto son comparados con los obtenidos conel algoritmo RAPT [31], que es uno de los algoritmos masconocidos para extraccion de frecuencia de entonacion. Losresultados para este algoritmo son generados utilizado eltoolkit Wavesurfer2, tambien disponible libremente. Todoslos parametros del algoritmo son utilizados en sus valores pordefecto, salvo los rangos de frecuencia de entonacion seteadosentre 50 to 500Hz.

Las mediciones de error son evaluadas en terminos delporcentaje de error grosero (Gross Error Rate, GER), el cual esmedido como el porcentaje de valores de frecuencia estimadaque tienen un error absoluto mayor que un cierto porcentaje(20% en este caso) con respecto a la referencia. Los erroresdel algoritmo de referencia pueden ser de dos tipos: por un

1<http://spib.linse.ufsc.br/noise.html>2<http://www.speech.kth.se/wavesurfer/>

lado un error debido a una estimacion erronea, y por el otrolado que el algoritmo interprete que ciertas muestras de lasenal sonora son sordas, en cuyo caso da frecuencia cero.Como no es posible deshabilitar la deteccion sonoro/sordopara el algoritmo RAPT, tomaremos las mediciones del errorgrosero sobre dos conjuntos diferentes de muestras como en[4]: se miden porcentaje de errores groseros sobre el Totalde muestras sonoras (Total), y se mediran tambien los erroressobre el subconjunto de las muestras sonoras de senal dondeRAPT da una estimacion distinta de cero (Restringido).

B. Discusion y resultados

Las tablas I y II muestran los porcentajes de errores groserospara el sistema presentado y para RAPT, para varios nivelesde ruido blanco, desde limpio a 0dB de relacion senal a ruido.

TABLE IPORCENTAJE DE ERRORES GROSEROS PARA BASE DE DATOS BAGSHAW

SNR(db)

TotalPLL(%)

RestringidoPLL(%)

TotalRAPT(%)

restringidoRAPT(%)

limpio 3.14 2.00 5.71 1.98

30 3.09 1.91 5.79 1.88

20 3.38 1.93 6.81 1.73

10 3.92 1.45 14.55 1.19

0 12.56 1.49 56.67 0.43

TABLE IIPORCENTAJE DE ERRORES GROSEROS PARA BASE DE DATOS KEELE

SNR(db)

TotalPLL(%)

RestringidoPLL(%)

TotalRAPT(%)

restringidoRAPT(%)

limpio 4.35 3.66 6.28 2.06

30 4.30 3.52 6.63 2.01

20 4.92 3.65 9.01 1.66

10 6.28 3.27 21.10 1.18

0 15.77 1.80 64.49 0.13

De los resultados obtenidos primeramente podemos ver quemediante el diseno que se propuso es posible sin dudas obtenermedicion de frecuencia de entonacion, ya que si observamoslos resultados en senal limpia, los errores son mejores queel algoritmo RAPT sobre el total de las muestras sonoras, ycomparables dentro de la zona restringida donde RAPT daalguna medicion, siendo un poco mejor los resultados sobrela base de datos Bagshaw que la de Keele. La ventaja de usarla implementacion que se basa en el fenomeno de sincronıautilizando PLLs, se puede ver cuando adicionamos ruido ala senal. En este caso se puede observar que los errores en eltotal de la senal sonora no se modifica practicamente, variandoentre 1 y 2% con respecto a senal limpia hasta ruidos deuna intensidad de hasta 10 dB de SNR, y solo aumenta alorden del 12-15% para igual nivel de ruido que de senal(0dB de SNR). Bajo estas condiciones, el algoritmo RAPTdeja directamente de ser conveniente, ya que los errores nosmuestran que mas de la mitad de las muestras sonoras sonincorrectamente detectadas en ambas bases de datos comosordas.

Page 10: Biologically motivated pitch detector by using PLLs and ...

REVISTA ARGENTINA DE BIOINGENIERIA, VOL 23 (1), 2019 48

VII. CONCLUSION

Podemos argumentar que los buenos resultados obtenidos demedicion de valores de frecuencia fundamental utilizando estesistema son una evidencia de que los fenomenos biologicosrepresentados en el mismo dan informacion suficiente sobreel fenomeno de la frecuencia fundamental. Esto podrıa con-siderarse como una validacion de la eleccion de los sistemasequivalentes a la contraparte biologica. Debe notarse ademasque el sistema es capaz de determinar valores de entonacionde entre 50 y 500Hz a partir solamente de la informacion defrecuencias del espectro de mas de 2000Hz, como se explicoen las secciones que describen la primera etapa del sistema.Esto podrıa tomarse como un indicativo de la variada infor-macion que existe en todo el espectro sobre este fenomeno dela entonacion.

Tambien es posible plantear que si existe evidencia sufi-ciente sobre la frecuencia fundamental en la zona alta delespectro, esta informacion podrıa ser combinada de algunaforma con metodos que produzcan la lectura de la fundamentalutilizando la parte de baja frecuencia del espectro como porejemplo [6]. Es posible entonces que ambos sistemas puedancombinarse apropiadamente para producir resultados mejoresque los obtenidos con cada uno de ellos individualmente.

Por ultimo es necesario enfatizar que si nuestra sistemaauditivo periferico abunda en informacion sobre la frecuenciade entonacion, es muy posible que esta informacion tenga unrol mas central en el procesamiento de la senal de habla queserıa bueno investigar.

REFERENCIAS

[1] ASA, Acoustical Terminology SI, New York: American StandardsAssociation, vol. 1, 1960.

[2] W. Hess, Pitch determination of speech signals. Springer-Verlag, 1983.[3] P. C. Bagshaw, S. M. Hiller, and M. A. Jack, “Enhanced pitch tracking

and the processing of f0 contours for computer and intonation teaching,”in Eurospeech 1993, 1993, pp. 1003–1006.

[4] C. Wang and S. Seneff, “Robust pitch tracking for prosodic modelingin telephone speech,” in International Conference on Acoustics, Speech,and Signal Processing, ICASSP’00., vol. 3, 2000, pp. 1343–1346 vol.3.

[5] A. de Cheveigne and H. Kawahara, “Yin, a fundamental frequencyestimator for speech and music,” The Journal of the Acoustical Societyof America, vol. 111, no. 4, pp. 1917–1930, 2002.

[6] P. A. Pelle and C. F. Estienne, “A pitch extraction system basedon phase locked loops and consensus decision,” in InternationalConference on Speech communication and technology (INTERSPEECH2007), Antwerp, Belgica, Ago 27-31 2007, ISSN 1990-9772.

[7] L. Cedolin and B. Delgutte, “Pitch of complex tones: Rate-place andinterspike interval representations in the auditory nerve,” Journal ofNeurophysiology, vol. 94, no. 1, pp. 347–362, 2005.

[8] S. Shamma and D. Klein, “The case of the missing pitch templates:How harmonic templates emerge in the early auditory system,” TheJournal of the Acoustical Society of America, vol. 107, no. 5, pp.2631–2644, 2000.

[9] R. Meddis and L. O’Mard, “A unitary model of pitch perception,”The Journal of the Acoustical Society of America, vol. 102, no. 3, pp.1811–1820, 1997.

[10] O. Ghitza, “Auditory models and human performance in tasks related tospeech coding and speech recognition,” Speech and Audio Processing,IEEE Transactions on, vol. 2, no. 1, pp. 115–132, Jan 1994.

[11] J. L. Goldstein, “An optimum processor theory for the central formationof the pitch of complex tones,” The Journal of the Acoustical Societyof America, vol. 54, no. 6, pp. 1496–1516, 1973.

[12] J.-W. Xu and J. Principe, “A pitch detector based on a generalizedcorrelation function,” Audio, Speech, and Language Processing, IEEETransactions on, vol. 16, no. 8, pp. 1420–1432, Nov. 2008.

[13] F. M. Gardner, Phaselock Techniques. John Wiley and Sons, 1979.[14] S. A. Shamma, “Speech processing in the auditory system I: The

representation of speech sounds in the responses of the auditory nerve,”The Journal of the Acoustical Society of America, vol. 78, no. 5, pp.1612–1621, 1985.

[15] J. Baker, L. Deng, J. Glass, S. Khudanpur, N. C. Hui Lee, Morgan, andD. O’Shaughnessy, “Developments and directions in speech recognitionand understanding, part 1,” Signal Processing Magazine, IEEE, vol. 26,no. 3, pp. 75–80, May 2009.

[16] K. Wang and S. Shamma, “Auditory analysis of spectro-temporalinformation in acoustic signals,” Engineering in Medicine and BiologyMagazine, IEEE, vol. 14, no. 2, pp. 186–194, Mar/Apr 1995.

[17] P. Pelle, C. Estienne, and H. Franco, “Robust speech representation ofvoiced sounds based on synchrony determination with PLLs,” in IEEEInternational Conference on Acoustics, Speech and Signal Processing,2011. (ICASSP 2011) Proceedings., Prague, Czech Republic, May 22–27 2011, pp. 5424–5427.

[18] C. Bishop, Pattern Recognition and Machine Learning. Springer, 2006.[19] P. Orbanz and Y. W. Teh, “Bayesian nonparametric models.” Encyclo-

pedia of Machine Learning, 2010.[20] S. J. Gershmana and D. M. Blei, “A tutorial on bayesian nonparametric

models,” Journal of Mathematical Psychology, vol. 56, 2012.[21] Z. Ghahramani, “Bayesian nonparametrics and the probabilistic ap-

proach to modelling,” Philosophical Transactions of the Royal SocietyA, 2013.

[22] N. L. Hjort, C. Holmes, P. Muller, M. D. Anderson, and S. G.Walker, Bayesian Nonparametrics, Cambridge Series in Statistical andProbabilistic Mathematics. Cambridge University Press, 2010.

[23] K. P. Murphy, Machine Learning: a Probabilistic Perspective. MIT,2012.

[24] G. Casella and E. I. George, “Explaining the Gibbs sampler,” TheAmerican Statistician, vol. 46, no. 3, pp. 167–174, August 1992.

[25] C. Andrieu, N. D. Freitas, A. Doucet, and M. I. Jordan, “An introductionto MCMC for machine learning,” Machine Learning, vol. 50, pp. 5–43,2003.

[26] M. D. Escobar and M. West, “Bayesian density estimation and inferenceusing mixtures,” Journal of the American Statistical Association, vol. 90,no. 430, pp. 577–588, 1995.

[27] Y. W. Teh, “Dirichlet process,” Encyclopedia of Machine Learning,2010.

[28] T. Ferguson, “A bayesian analysis of some nonparametric problems,”The Annals of Statistics, vol. 1, no. 2, pp. 209–230, 1973.

[29] E. B. Sudderth, “Graphical models for visual object recognition andtracking,” Ph.D. dissertation, Massachusetts Institute of Technology,2006.

[30] F. Plante, G. Meyer, and W. A. Ainsworth, “A pitch extraction referencedatabase,” in Eurospeech 1995, 1995, pp. 837–840.

[31] D. Talkin, Speech Coding and Synthesis. Elsevier Science Inc., 1995,ch. A Robust Algorithm for Pitch Tracking (RAPT), pp. 495–518.

Patricia Pelle es Ingeniera Electronica y Doctorade la Universidad de Buenos Aires (2010). Se de-sempena como profesora adjunta de la Facultad deIngenierıa de la misma Universidad. Sus areas deinteres son Procesamiento del Habla, Aprendizajede Sistemas Artificiales y Sistemas Biomedicos. Esdocente de la carrera de Ingenierıa Electronica, In-formatica y Biomedica, y es miembro del Instituto deIngenierıa Biomedica de la Universidad de BuenosAires.

Claudio Estienne es Ingeniero Electronico y Doc-tor de la Universidad de Buenos Aires (2010). Sedesempena como profesor asociado de la Facultadde Ingenierıa de la misma Universidad. Sus areasde interes son Procesamiento del Habla, Aprendizajede Sistemas Artificiales y Estadıstico. Es docente dela carrera de Ingenierıa Electronica, Informatica yBiomedica, y es miembro del Instituto de IngenierıaBiomedica de la Universidad de Buenos Aires.