VAD Approche Statistique

7/24/2019 VAD Approche Statistique

1/46

Table des matires

Introduction gnrale 4

1 Prsentation de ltablissement daccueil 7

1.1 Prsentation de ltablissement . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 organisation du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Gnralits sur la dtection dactivit vocale 10

2.1 Notions lmentaires sur le signal de parole . . . . . . . . . . . . . . . . . 10

2.2 La detection dactivit vocale VAD . . . . . . . . . . . . . . . . . . . . . 15

2.3 Les mthodes de base de la VAD . . . . . . . . . . . . . . . . . . . . . . 17

3 Elaboration dun VAD bas sur une approche statistique 18

3.1 Modle statistique du signal de parole . . . . . . . . . . . . . . . . . . . . 19

3.2 Dtermination de la rgle de dcision par le GLRT . . . . . . . . . . . . . 21

3.2.1 Le rapport de vraisemblance gnralis : . . . . . . . . . . . . . . 233.2.2 La rgle de dcision : . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Dtermination du seuil adaptatif . . . . . . . . . . . . . . . . . . . . . . 24

3.3.1 Simulation de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . 25

3.4 Estimation des paramtres du bruit . . . . . . . . . . . . . . . . . . . . . 26

4 Analyse des performances du VAD propos 29

4.1 Etude des performances pour diffrents types de signaux de parole . . . . 29

4.2 tude des performances lies au temps dexcution . . . . . . . . . . . . 334.3 tude de linfluence des diffrents paramtres . . . . . . . . . . . . . . . 34

4.3.1 La longueur de la trame . . . . . . . . . . . . . . . . . . . . . . . 34

4.3.2 Le paramtre de lissage . . . . . . . . . . . . . . . . . . . . . . 34

4.3.3 la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 Conclusion gnrale 38

Annexes 39

A La variable alatoire gaussienne complexe 41

1


2/46

B Simulation de Monte Carlo 42

C Code Matlab de lalgorithme VAD 43

Bibliographie 46

2


3/46

Table des figures

1.1 organigramme du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . 9

2.1 Appareil phonatoire humain . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Modle mcanique de production de la parole . . . . . . . . . . . . . . . 12

2.3 Modle numrique de production de la parole . . . . . . . . . . . . . . . 14

3.1 schma qui rsume le fonctionnement du VAD . . . . . . . . . . . . . . . 183.2 les rgions de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3 les variations des 2 priodogrammes au cours du temps pour lchantillon

spectral k=25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 lorganigramme du lalgorithme VAD propos . . . . . . . . . . . . . . . 28

4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du

seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptation

du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation du

seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms - c)Tw=30ms

- d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 -

d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.6 courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3


4/46

Liste des abrviations

VA Variable Alatoire.

DFT Discret Fourier Transformation.

PDF Probability Density Function.

SNR Signal to Noise Ratio.

LUT Look Up Table.

VAD Voice Activity Detection.FFT Fast Fourier Transformation.

LR Likelihood Ratio.

LRT Likelihood Ratio Test.

GLRT Generalized Likelihood Ratio Test.

DSP Digital Signal Processing.

FPGA Field Programmable Gate Array.

4


5/46

Introduction gnrale

Dans le but de mettre en application nos connaissances scientifiques et techniques,

acquises au cours de notre formation, On nous a donn la chance de faire un stage pratique

qui sest droul du 27 dcembre 2015 au 21 janvier 2016 au sein du CRDT/1re RM.

larrive notre tablissement daccueil, le CRD/Transmission, on nous a propos

comme problmatique le dveloppement dun dtecteur dactivit vocal (VAD :Voice Ac-

tivity Detector). On sait bien que le traitement, lamlioration et la reconnaissance de

la parole constituent lune des proccupation centrales de lingnieur spcialis dans les

communications et la transmission, donc ce travail aura pour objectif de nous donner un

avant got sur les dfis rencontrs dans ces domaines. De plus ,comme notre projet de fin

dtude porte sur le traitement statistique du signal et la thorie de dtection, on a opt

pour la ralisation dun VAD bas sur une approche statistique.

Le traitement numrique de la parole est une des disciplines qui a profit pleinement

du progrs technologique des dernires dcennies. Des algorithmes autrefois utopiques

cause du volume de calcul sont maintenant utiliss dans des applications complexes

telles que le codage, le rehaussement ou la reconnaissance de la parole. Plusieurs de

ces applications utilisent un module de dtection dactivit vocale pour augmenter les

performances et rduire le cot du traitement numrique.

Un algorithme de dtection d activit vocale est une solution la question"Pourquoi

traiter la parole alors quil ny a pas de parole ? !" , en effet le VAD a comme but de

discriminer entre les rgions o la parole est prsente et les rgions o la parole est absente

dans le signal vocal analys.

Pour une prsentation claire et comprhensible, ce rapport est organis comme suit :

Dans le premier chapitre, on commence par la prsentation de ltablissement dac-cueil le CRDT/1 RM, ainsi que la description des diffrentes structures qui le constituent.

5


6/46

EMP

Dans le second chapitre, on va faire un rappel de quelques notions sur le signal de parole

suivi dune tude thorique et gnrale de la dtection dactivit vocale VAD. Le troi-

sime chapitre consiste en une prsentation dtaille du VAD propos. Cette prsentation

comprend le choix du modle statistique du bruit, ltablissement de la rgle de dcision

ainsi que la description de la mthode destimation des paramtres du bruit. Une analyse

des performances du VAD propos, ainsi que les rsultats des simulations sur Matlab,sont prsents dans le dernier chapitre. Une conclusion gnrale clture ce rapport.

6


7/46

Chapitre 1

Prsentation de ltablissement

daccueil

1.1 Prsentation de ltablissement

Le Centre de recherche et de dveloppement des transmissions de la premire rgion

militaire est une entit scientifique et technique dont la vocation est lexcution des tra-vaux dtudes, de recherche-dveloppement, dessais et dvaluation technique du matriel

des Transmissions et autres composantes lectroniques des systmes darmes. Le CRDT

est charg de :

Dapporter son soutien scientifique et technique ncessaire la rnovation des ma-

triels de transmission ;

De participer aux tudes de faisabilit(les projets relevant de son domaine et int-

ressant le commandement) ;

Dassurer la maitrise duvre des projets ou des programmes dont la responsabilit

lui est confie;

Dvelopper les techniques et les applications du domaine de tlcommunication et

les rseaux de commutation ;

De favoriser lacquisition, la maitrise et la diffusion des connaissances scientifiques,

techniques des quipements de transmission ncessaire la dfense nationale.

7


8/46

EMP CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL

1.2 organisation du CRDT/1 RM

Pour lexcution de ses missions, le CRDT est organis comme suit :

Une Direction,

Un Dpartement Administration, Finances et Services Communs (DAFSC) ; Un Dpartement Tlcommunications (DT) ;

Un Dpartement Systmes dInformation et Gnie Logiciel (DSIGL) ;

Un Dpartement Guerre Electronique (DGE) ;

Un Dpartement Conversion et Conditionnement dEnergie (DCCE) ;

Un Dpartement Evaluation et Exprimentation (DEE).

Le Dpartement Administration, Finances et Services Communs est compos de :

Secrtariat;

Service Approvisionnement (magasin PDR) ; Service Technique ;

Bureau Archives + bibliothque.

Le Dpartement Tlcommunications est compos de :

Laboratoire Radio;

Laboratoire Commutation ;

Laboratoire Antennes et Propagation des Ondes.

Le Dpartement Systme dInformation et Gnie Logiciel est compos de :

Laboratoire Rseaux Informatiques et Applications Spcifiques ;

Laboratoire Systme dInformation et de Communication;

Laboratoire Systme dInformation Gographique et Algorithmes Dcisionnels.

Le Dpartement Guerre Electronique est compos de :

Laboratoire Reconnaissance Radio Electronique ;

Laboratoire Electronique des Systmes dArmes et Systmes Embarqus ;

Laboratoire Brouillage Radio Electronique.

Le Dpartement Conversion et Conditionnement dEnergie est compos de :

Laboratoire Energies Renouvelables ;

Laboratoire Conditionnement et Stockage dEnergie ; Laboratoire Electronique de Puissance.

Le Dpartement Evaluation et Exprimentation est compos de :

Atelier dEssais Mcaniques;

Atelier dEssais Environnement ;

Atelier dEssais Electromagntiques.

8


9/46

EMP CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL

Figure1.1 organigramme du CRDT/1RM

9


10/46

Chapitre 2

Gnralits sur la dtection dactivit

vocale

2.1 Notions lmentaires sur le signal de parole

Si lon tente une dfinition, la parole est la capacit de ltre humain de communiquer

la pense par lintermdiaire de sons articuls . D son importance, la parole a proccupdepuis toujours les scientifiques. Ainsi quelques-unes des sciences qui se proccupent de

ltude de la parole ont dj des centaines dannes. Dautres sont plus rcentes, comme

le traitement numrique de la parole, qui ne compte pas plus de quarante ans.

La production de la parole commence avec la formulation de la pense tre commu-

nique. La personne qui parle, suite des processus neurologiques et musculaires, produit

les fluctuations de la pression de lair qui constituent le signal vocal. Celui-ci se propage

dans le milieu, qui dhabitude est lair, jusquaux oreilles de lcouteur o il est reu et,

aprs une certaine analyse, il est envoy vers le cerveau qui linterprte. Donc le signal

vocal a une nature duale. Il peut tre analys de point de vue objectif comme tant une

ralit physique ou de point de vue subjectif si on regarde la sensation psycho-acoustique

produite au niveau du cerveau .

Comme on vient de voir, la production de la parole est un processus complexe, qui im-

plique des phnomnes neurologiques, physiologiques et physiques. Dans un tel contexte

ltude de la parole est une science multidisciplinaire. Pour une meilleure comprhension,

lingnieur qui travaille dans ce domaine devrait connatre les notions de base caractris-tiques chacune de ces disciplines quil rencontre dans son travail.

10


11/46

EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE

Figure2.1 Appareil phonatoire humain

Techniquement parlant, la parole est une onde sonore produite par action volontaire

et coordonne des structures anatomiques qui forment lappareil phonatoire humain. Ce

processus est coordonn par le systme nerveux central. Les sons produits sont analyss

par rtroaction auditive pour assurer la qualit acoustique de la parole.

Les muscles abdominaux actionnant sur le diaphragme, en poussant lair des poumons

vers la trache artre. Au bout suprieur de celle-ci se trouve le larynx qui module le

courant dair sous la forme dimpulsions priodiques appliques au conduit vocal. Celui

est form dun ensemble de cavits : la cavit pharyngienne suivie de la cavit buccale et

en drivation la cavit nasale. La luette, qui prolonge le bord postrieur du voile du palais,

contribue la fermeture des fosses nasales. Comme rsultat, pendant la production de

la parole, la cavit nasale peut tre couple soit totalement, soit partiellement, o mme

dcouple de la cavit buccale. Autres organes anatomiques importants qui participent

la production des sons sont : la langue et les dents dans la cavit buccale, les narines

dans la cavit nasale et les lvres , comme montr dans la figure 2.1.

Le larynx a un rle extrmement important dans la production de la parole.Il est

11


12/46


Figure2.2 Modle mcanique de production de la parole

form dun ensemble de muscles et cartilages mobiles entourant une cavit situe la

partie suprieure de la trache. Les cordes vocales, partie intgrale du larynx, peuvent le

fermer ou peuvent former une ouverture variable appele glotte. La fonction du larynx estde fournir une excitation priodique au reste du systme sous la forme dune suite dim-

pulsions priodiques de pression dair pendant la phonation du son vois. Au contraire,

il laisse passer librement lair pendant la voix chuchote et la phonation des sons sourds

ou non voiss. Ainsi le conduit vocal peut tre vu comme une suite de tubes acoustiques

dont la section peut varier avec le temps. Son diagramme est reprsent dans la figure 2.2

Les paramtres qui dcrivent le signal vocal rel changent avec le temps car le systme

physique qui les produit change rapidement avec le on dit que le signal parole est non

stationnaire . Nanmoins le signal vocal peut tre divis en segments temporels (trames

ou fentres) de longueurs comprises entre 10 et 30 ms dont les proprits acoustiques

demeurent quasi stationnaire (stationnaire par morceaux). ltude de la forme donde de

la parole rvle des caractristiques telles que lintensit , le comportement priodique ,les

limites et la dure de chaque son qui forme le signal .La DFT est un outils trs puissant

qui donne la possibilit dtudier le signal parole numrique dans le domaine frquentiel

discret ,Ce signal peut rvler un comportement priodique ou non et ventuellement les

frquences les plus importantes qui dcrivent la parole.

Lune des plus importantes caractristiques du signal vocal est la nature de lexcita-

12


13/46


tion. Il existe deux types lmentaires dexcitation qui produisent les sons voiss et non

voiss.

Les sons voiss sont produits partir dune excitation qui agit sur le conduit vocal et

qui consiste en une suite dimpulsions priodiques dair fournies par le larynx. Les cordes

vocales au dbut sont fermes. Sous la pression continue de lair qui vient des poumons

elles souvrent graduellement dlivrant cette nergie potentielle. Pendant cette ouverture

la vitesse de lair et lnergie cintique augmentent jusqu ce que la tension lastique

des cordes vocales gale la force de sparation du courant dair. A ce point louverture de

la glotte est maximale. Lnergie cintique qui a t accumule comme tension lastique

dans les cordes vocales va acclrer la fermeture abrupte de la glotte . Ce processus

priodique est caractris par une frquence propre chaque personne, connue sous le

nom de frquence du fondamentalF0 ou pitchet il donne la hauteur normale de la voix.

La frquence fondamentale peut varier de 80 200 Hz pour une voix masculine, de 150 450 Hz pour une voix fminine et de 200 600 Hz pour une voix denfant .

Cette frquence fondamentale peut varier suite des facteurs lis au stress, intona-

tion et motions. Le timbre de la voix est dtermin par les amplitudes relatives des

harmoniques du fondamental.

Les sons non voiss sont gnrs par le passage de lair dans une constriction troite

situ en un point du conduit vocal. ils sont gnrs sans lapport du larynx et ne prsententpas de structure priodique.

Une modlisation exhaustive pour la production de la parole est trs difficile et pour

des raisons pratiques, inefficace. Lide de base dans la modlisation numrique est dar-

river un modle linaire qui produit en sortie un signal quivalent au signal vocal. Le

modle est correct dans la mesure ou sa sortie sapproche du signal vocal sans modli-

ser les phnomnes physiques intrinsques la production du signal vocal . La figure 3

prsente un tel modle gnral qui est utilis dans le traitement numrique de la parole.

Dans ce modle gnral (figure 2.3) on utilise deux sources dexcitation. Pour les sons

non voiss la source dexcitation est un bruit blanc. Pour la production des sons voiss la

source dexcitation est un train priodique dimpulsions qui traverse un filtre passe bas

dordre 2. Ce filtre, qui modlise le fonctionnement du larynx, a une frquence de coupure

denviron 100 Hz.

G(z) = A

(1 + az1)(1 + bz1)

13


14/46


Figure2.3 Modle numrique de production de la parole

Un modle mcanique simplifi du conduit vocal le reprsente sous la forme dune

succession de tubes acoustiques lmentaires. Chaque tube o rsonateur mcanique est

assimil un filtre numrique dordre deux. La transmittance globale du modle est de

la forme :

H(z) = B

Kk=1(1 + b1kz

1

+ b2kz2

)

La frquence centrale de chaque rsonateur correspond un formant et est donne

par :

Fk= 1

2fscos

1

b1k/2b2k

Au bout du conduit vocal le son passe travers louverture des lvres. Celles-ci sont vues

comme une composante qui transforme le dbit volumique dans une onde de pression

une certaine distance. Dans le domaine spectral le rayonnement des lvres a leffet dun

filtrage passe haut. Le plus simple filtre numrique qui a cette proprit est :

R(z) =C(1 z1)

Pour des raisons de stabilit numrique et encore certaines dtails physiques le zro

introduit par R(z) est dplac lintrieur du cercle unit :

R(z) =C(1 z0z1) , z0 1, z0 < 1

14


15/46


La prsence dun numrateur diffrent dune constante rend difficile lestimation des

paramtres du systme. Pour liminer cet inconvnient on spcule sur lidentit :

1

z0z

1 = 1Kk=0 zk0zk

o K est thoriquement infinie mais pratiquement finie car z0


16/46


absente dans le signal vocal analys. Un algorithme de VAD fonctionne selon une logique

binaire. Il produit les valeurs logiques 1 ou 0 pour chaque segment ou trame de signal

analys, indiquant respectivement la prsence ou labsence de la parole.

Le VAD est un module important dans une large gamme dapplications concernant le

traitement de la parole soit la reconnaissance, la transmission ou le rehaussement de la

parole.On le trouve gnralement dans le bloc du pr-traitement .

Dans le domaine de reconnaissance de la parole le VAD est utilis pour localiser le

dbut et la fin des rgions reconnatre. La prcision du VAD utilis se matrialise dans

une amlioration du taux de reconnaissance.

Pour les systmes de transmission de la parole tels que la tlphonie cellulaire, le

VAD est utilis pour contrler la transmission discontinue qui active la transmission

uniquement pendant les priodes dactivit vocale. La transmission discontinue permet

daugmenter la capacit du systme pour loprateur tandis que pour labonn prolonge

lautonomie du mobile . Dans le cas du rehaussement de la parole les priodes de silence

dtectes par le VAD peuvent servir actualiser le paramtre du bruit.

Autres aspects importants dont il faut tenir compte quand on apprcie un algorithme

de VAD sont la prcision, le dlai introduit dans la rponse, la robustesse par rapport au

bruit et le cot du traitement numrique.

Ainsi il existe des algorithmes de VAD qui sont conus pour rpondre aux exigences

du travail en temps rel et utiliss spcialement dans les applications de transmission de

la parole telles que la tlphonie. Un tel algorithme doit fournir la dcision pour la trame

courante avant quune nouvelle trame soit rceptionne et donc disponible.Dans dautres

applications telles que la reconnaissance de la parole, la condition de fonctionnement en

temps rel nest pas exige ; ce quon impose est plutt une meilleure prcision.

La tche dun algorithme de dtection dactivit vocale est loin dtre facile sauf pour

le cas dun rapport entre le signal vocal et le bruit SNR trs lev, condition qui est loin

dtre ralisable dans des applications relles de traitement de la parole. La nature non

stationnaire et la grande varit des bruits de fond et du signal vocal auquel un SNR

inconnu au concepteur et parfois variable rendent le problme de dtection dactivit vo-

cale difficile. videmment, ce quon cherche est un algorithme prcis, robuste par rapport

au bruit et qui demande un minimum de calculs .

16


17/46


2.3 Les mthodes de base de la VAD

Parmi les mthodes de base de la dtection dactivit vocale on site :

Le VAD bas sur la distance LPC (Lineaire Predictive Coding),lide

principale de cette mthode est de dterminer une caractrisation spectrale de troisdiffrentes classes de sons , savoir la parole voise,la parole non voise et le si-

lence.Les distances LPC mesures par un filtre de prdiction linaire vont servir a

faire la classification.

Le VAD bas sur le seuillage de lnergie consiste calculer lnergie court

terme de chaque trame du signal par la formule E =L1i=0 x

2[i], en suite on la

compare avec un seuil dpendant du niveau de bruit.Si lnergie est suprieure

cette limite, la trame est dite active, dans le cas contraire ,on considre quelle ne

contient pas de parole. Le VAD bas sur le taux de passage par zro qui repose sur lhypothse

que contrairement la parole,le bruit fluctue rapidement autour du zero et que le

nombre de fois que cela se produit est alatoire.Ainsi,il est possible de dterminer

un intervalle pour le nombre habituel de passages par zro dune trame de parole

en fonction de sa longueur.ensuite en dduire une rgle de classification base sur

le nombre de passage par zro.

Les mthodes numres sont pratiques et efficaces ,cependant elles sont toutes basessur des approches heuristique.En 1998,Jongseo Sohn et Wonyong Sung [1] ont propos

une approche statistique pour dterminer un VAD optimal ,cest lobjet de notre travail

durant le stage.En effet nous avons suivi cette approche afin dlaborer notre VAD.

17


18/46

Chapitre 3

Elaboration dun VAD bas sur une

approche statistique

Afin de raliser notre VAD, on a organis notre travail selon le plan suivant :

1. Le choix dun modle statistique adquat pour dcrire le signal parole [1],[3].

2. Trouver la rgle de dcision base sur le GLRT, en supposant que les statistiques

du bruit sont connues priori [1].3. Estimation des paramtres du bruit par la mthode des statistiques minimum [2].

Le schma bloc suivant reprsente les partie principales du VAD propos :

Figure3.1 schma qui rsume le fonctionnement du VAD

18


19/46

EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE

3.1 Modle statistique du signal de parole

Comme il a t mentionn dans le chapitre prcdant, la parole et mme le bruit sont

des processus alatoires qui ne sont ni stationnaires ni ergodiques, Cette ralit exclus

la possibilit davoir un modle statistique en examinant le signal vocal dans le domainetemporelle car les fonctions de densit de probabilit PDF (probability density Function)

sont variantes dans le temps a cause de la non stationnarit du processus.

Pour les raisons prcdentes, Ephraim et Malah [3] ont propos un modle statistique

utilisant les proprits asymptotique de la transform de Fourier.

La transformation de Fourier discrte (DFT :Discret Fourier Transformation) de Fou-

rier est un outil mathmatique de traitement du signal numrique, qui est lquivalentdiscret n DFT de la transformation de Fourier continue qui est utilise pour le traite-

ment du signal analogique. Il ne faut pas confondre avec la transformation de Fourier

rapide (Fast Fourier Transformation) FFT qui est un algorithme particulier de calcul de

la transformation de Fourier discrte.

Gnralement, le signal parole est subdivise en trames temporelles de longueur ty-

pique variante de 10 ms 40 ms afin dobtenir une quasi-stationnarit. En supposant quil

ny a pas de corrlation entre ces trames chacune delles est traite indpendamment desautres.

La DFT dune trame x[n + nfL] n= 0, 1 , L 1:

X[k] =L1n=0

x[n]exp(2jk nL

) (3.1)

Ok est lindice de la frquence discrte, L le nombre dchantillons temporels dans une

trame et nflindice de la trame.

A partir de lquation 1.1 on voit bien quun chantillon de la DFT X[k]nest aprs

tout quune somme pondre de plusieurs variables alatoires VA x[n].De plus dire que

les VA x[n] sont indpendant est quivalent dire que les coefficients de la DFT X[k]

sont dcorrls[3]. Ceci nest vrai que si on a un signal de dure infini L .Or a causedes longueur des trames limites pour des raisons de quasi-stationnarit,les X[k]ont un

certains degr de corrlation,Nanmoins lhypothse de lindpendance entre les x[n]est

utilise dans la suite pour simplifier lalgorithme.

19


20/46


En vertu du thorme centrale limite,La somme de plusieurs VA x[n] indpendantes

tends vers une VA gaussienne.En dautre termes,la partie relle et imaginaire de X[k]sont

des VA gaussiennes de moyennes nulles (car le signal de parole est un processus alatoire

centr) et de variance variable dans le temps a cause de la non stationnarit de la parole.

Tous a nous amne a choisir le modle statistique dune VA gaussienne complexe

(Annexe A) pour X[k]dont la PDF est :

P(X[k]) = 1

[k]exp

|X[k]|

2

[k]

(3.2)

O (k)est la variance de lchantillon de la DFT X[k]qui est variable dans le temps.

Les PDF des variables alatoires du spectre du signal parole S[k] et du bruit W[k]

sont respectivement dduites partir de (1.2) :

P(S[k]) = 1

s[k]exp

|S[k]|

2

s[k]

(3.3)

P(W[k]) = 1

w[k]exp

|W[k]|

2

w[k]

(3.4)

O s[k] et w[k] sont respectivement les variances de la parole et du bruit durant la

tramenfet elle sont donnes thoriquement par [1] :

s[k] = Ss(2k/L)

w[k] = Sw(2k/L)avec Swet Sssont respectivement les densits spectrales de puissance durant la trame nf.

20


21/46


3.2 Dtermination de la rgle de dcision par le GLRT

La rgle de dcision dun VAD peut tre formule par deux termes :

Une statistique de dcisionT(x),qui est une grandeur qui mesure la diffrence entre

le bruit et les statistiques du signal observ. un seuil de dcision , qui est souvent dtermin de faon empirique.

Dans cette section, nous drivons une statistique de dcision partir du test du

rapport de vraisemblance gnralis (Generalized Likelihood Ratio Test) GLRT,tout en

supposant que les statistiques du bruit sont connues a priori.

Dans le contexte de la VAD, On veut gnralement distinguer entre deux hypothses

(test dhypothses binaire) :

H0 : x[n] =w[n] abscense de la parole

H1 : x[n] =s[n] + w[n] prsence de la parole (3.5)

o s[n], w[n] et x[n] sont respectivement les chantillons de la parole, du bruit et de

la parole bruite linstant n. En introduisant la DFT sur (3.3) le problme de dcision

dans le domaine frquentiel est :

H0:X[k] =W[k] abscense de la paroleH1:X[k] =S[k] + W[k] prsence de la parole

(3.6)

X[K],S[K] et W[k] sont donns par la relation (3.1).Les PDF des variables alatoires

S[k]et W[k]sont respectivement donnes par (3.3) et (3.4) :

P(S[k]) = 1

s[k]exp

|S[k]|

2

s[k]

P(W[k]) = 1

w[k]exp

|W[k]|

2

w[k]

En utilisant la stabilit de la loi Gaussienne, les PDF sous les deux hypothses sont

donnes par :

P(X[k]|H0) = 1w[k]

exp

|X[k]|

2

w[k]

(3.7)

P(X[k]|H1) = 1(w[k] + s[k])

exp

|X[k]|2(w[k] + s[k])

(3.8)

21


22/46


la dtection dactivit vocale est galement effectue pour chaque trame de Lchan-

tillons sur laquelle la parole est suppos tre stationnaire.Donc on aura a dcider entre :

H0:X=W abscense de la parole

H1:X=X+ W prsence de la parole (3.9)

O S= [S[0]S[1] S[L1]]t, W = [W[0]W[1] W[L1]]t, X= [X[0]X[1] X[L1]]t et sont les vecteurs des chantillons spectraux L-dimensionnels de la parole, du bruit

et de la parole bruite.

En supposant que les chantillons spectraux sont des VA indpendantes [1],les PDF

conjointes sous les hypothsesH0 et H1 sont :

P(X|H0) =L1k=0

1

w[k]exp

|X[k]|

2

w[k]

(3.10)

P(X|H1) =L1k=0

1

(w[k] + s[k])exp

|X[k]|

2

(w[k] + s[k])

(3.11)

Si on suppose que la variance du bruitw[k]est connue priori (estimer par une mthode

quon prsentera dans ce qui suit), H0 devient une hypothse simple et H1 devient une

hypothse compose avecLparamtres inconnus dterministes :

= {S(k) : k = 0, , L 1}

Pour tablir la rgle de dcision,On fait appel au test de rapport de vraisemblance

gnralis (Generelized Likelihood Ratio) GLRT , qui est lune des mthodes les plus

puissantes dans le cas des tests dhypothse composs avec dterministe.

Dans le GLRT le paramtre inconnus est remplac par son estim MLobtenu parle mthode du maximum de vraisemblance (Maximum Likelihood Estimator) MLE.

22


23/46


Lestimation du paramtre :

on dveloppe le MLE pour dterminer :

P(Xk|, H1) = 1

(N(k) + S(k))exp |Xk|

2

(N(k) + S(k))

ln P(Xk|, H1) = ln 1(N(k) + S(k))

|Xk|2

(N(k) + S(k))

ln P(Xk|, H1)S(k)

= 1N(k) + S(k)

+ |Xk|2

(N(k) + S(k))2

ln P(Xk|, H1)S(k)

= 0 |Xk|2 =N(k) + S(k)

MLES (k) = |Xk|2 N(k) (3.12)

3.2.1 Le rapport de vraisemblance gnralis :

g(x) =P(X|, H1)

P(X|H0) =L1k=0

1(N(k)+S(k))

exp |Xk|2

(N(k)+S(k))

L1k=0

1N(k)

exp |Xk|2N(k)

en remplaant S(k)par son estim MLE

S (k)(1.12), on obtient :

g(x) =L1k=0

N(k)

|X(k)|2exp |X(k)|2

N(k) 1

3.2.2 La rgle de dcision :

g(x) =L1k=0

N(k)

|X(k)|2exp |X(k)|2

N(k) 1

H1>

] =B/B.

Pour lestimation du seuilon suivra le chemin inverse, autrement dit, on doit cher-

cher le seuil qui garantit un PFA =P[T > |H0] =B/B =. Voici la procdure quona suivit :

1. Gnrer T(X) =L1k=0

|Xk|

2

N(k) log |Xk|2

N(k) 1

B fois sous H0 (bruit uniquement),

ensuite stocker les ralisations dans un vecteur Vde tailleB . Le nombre ditration

B est donn par la formule empirique B = 100PFA

2. Calculer B=PFA B3. Trier le vecteur Vpar ordre dcroissant

4. Le seuil est pris comme tant la composante a la position Bdu vecteur V tri

En supposant que les statistique du bruit fluctuent moins rapidement que celle du

signal, ladaptation du seuil se fait chaque fois que la variance du bruit est mise jour

car le calcul du seuil ne dpend que de ce paramtre.

Le seuil obtenu par cette mthode est un seuil adaptatif, il change selon le niveau du

bruit, ce qui va rendre notre VAD robuste, de plus comme on a fixer notre PFA une

valeur on peut considrer que notre VAD possde le comportement dun CFAR.

25


26/46


3.4 Estimation des paramtres du bruit

Lors due ltablissement de la rgle de dcision par le moyen du GLRT, nous avons

suppos que la variances des chantillons spectraux du bruitw[k]est connu priori. Dans

cette section on va prsenter une mthode destimation de la puissance du bruit w[k]introduite par Rainer Martin, en 2001 [2],et qui est base sur un lissage du priodogramme

et une statistique minimale[1].

Sachant que thoriquement w[k] = Sw(2k/L), nous somme dans lobligation desti-mer la densit spectrale de puissance du bruit, puisque la DFT du signal est disponible,

on a opt pour le priodogramme.

Le lissage du priodogramme

le priodogramme est une mthode paramtrique destimation de la densit spectrale

de puissance, qui ncessite pour tre calcul, la mise au carr de la Transforme de

Fourier (DFT) du signal numrique x[n] sur L points.Il est, depuis la mise au point de

lalgorithme de Transformation de Fourier Rapide FFT par J. Cooley et J. Tuckey en

1965, lestimateur le plus employ. lexpression de lestimateur :

P[k] = 1

L

L1n=0

x[n]exp

j2 kn

L

2

= |Xk|2 (3.15)

Le priodogramme P[k], obtenu par lquation (1.14), est estim partir des chan-

tillons de la trame en cours danalyse. Cependant lexistence dun certain degr de cor-

rlation entre les diffrentes trames due a la nature du signal parole va engendrer des

fluctuations brusques du priodogramme (figure 1.3) qui vont influencer ngativement les

performances du VAD. Pour palier ce problme on propose un priodogramme liss,qui

est obtenu par :

P[k, nf] =P[k, nf 1] + (1 )|Xk|2 (3.16)Onfest lindice de la trame en cours danalyse et un paramtre de lissage (ou doubli)

qui est obtenu exprimentalement.En effet au cours des simulations de fonctionnement

que nous avons effectu, il sest avr que les meilleurs performances sont obtenues pour

= 0.05.

La mthode destimation de la variance du bruit est base sur le principe que mme

26


27/46


Figure3.3 les variations des 2 priodogrammes au cours du temps pour lchantillonspectral k=25

durant la prsence de la parole, la densit spectrale de puissance du signal bruit atteint

des minimums qui sont reprsentatives du niveau de puissance du bruit [2].Donc cette

mthode est fond sur le principe que durant les pauses de silences ou pendant les brefs

intervalles entre les mots et les syllabes, lnergie du signal parole non bruit est presque

nulle. Par consquent, on peut suppos que la puissance du bruit est le minimum des

priodogrammes calculer durant un intervalles de temps dans lequel on suppose que le

bruit est le mme ou il a subi de lgres variations.

En gnrale, le bruit prsente une non-stationnarit plus faible que celle de la parole,

par consquent les priodes de mise jour de la variance du bruit sont beaucoup plus

grandes que les trames analys.Typiquement les priode de mise jour de w[k] varie

entre 0.1s et 1s .

Lors des simulations on a trouv quune priode de mise jour T s = 0.7s et une

longueur de trames de T w= 30msdonnaient les meilleures performances.

27


28/46


Figure3.4 lorganigramme du lalgorithme VAD propos

28


29/46

Chapitre 4

Analyse des performances du VAD

propos

4.1 Etude des performances pour diffrents types de

signaux de parole

Afin dvaluer les rsultats du VAD propos, on a essayer de dtecter lactivit vocaledans des signaux obtenus partir de la base de donne Aurora qui est une rfrence dans

le domaine de traitement de la parole, et particulirement la dtection dactivit vocale.

Les niveaux de SNR des signaux de cette base de donne varient de -5 dB 20 dB. Ces

niveaux sont rpartis en trois groupes :

1. Quiet

2. Medium

3. High

Lors des simulations, on a pris un signal de chaque niveau et on les a not : S1 pour le

signal "Quiet", S2 pour le signal "Medium" et S3 pour le signal "High".

En observant les figures 4.2, 4.3 et 4.4 dun point de vue subjectif, on peut constater

que le VAD propos prsente des performances acceptable. Mais une mesure objectives

de ces performances est donne par lensemble des paramtres : PDet PFA.PDest dfinie

par le rapport entre le nombre de trames contenant le signal vocal classifi correctement

et le nombre rel de trames de parole. La PFA est fixe au pralable. La dcision idale

de rfrence est obtenue par un marquage manuel des rgions de silence et de parole pourle signal non bruit.

29


30/46

EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS

Figure4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation duseuil

30


31/46


Figure4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptationdu seuil

31


32/46


Figure4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation duseuil

32


33/46


4.2 tude des performances lies au temps dexcution

Le nombre requis ditrations de Monte Carlo B est inversement proportionnel la

PFA (la relation empirique B = 100PFA ), donc pour avoir un seuil qui garantit PFA = 104

il faut que B = 1000000, sachant que pour B = 100 lexcution de notre algorithmesur Matlab sur un PC portable avec microprocesseur Intel I5 a pris 4.57s, lexcution

de lalgorithme pour B = 1000000prendra approximativement 4.57 10000 = 45700s=12heureset41minutes. Ce qui rend notre algorithme non pratique pour les petites valeurs

de PFA. Cependant dans les applications de traitement de parole une PFA de lordre de

0.01 jusqu 0.1 est largement suffisante [1]. Pour ces valeurs, le temps de traitement pour

un signal dont la dure est de 10 s est variant de 4 s 40s ce qui est appropri pour

un traitement "offline". Lanalyse dune seule trame de 30 ms prend 0.270 ms pour une

PFA= 0.1.

Pour amliorer le temps de calcul on peut construire au pralable une Look Up Table

(LUT) qui fait la correspondance entre le seuil et la variance du bruit estim. Ceci nous

permet dviter de faire des simulations de Monte Carlo chaque excution du pro-

gramme.

33


34/46


35/46


Figure 4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms -c)Tw=30ms - d)signal non bruit

35


36/46


Figure 4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 -d)signal non bruit

36


37/46


38/46

Chapitre 5

Conclusion gnrale

Llaboration de ce travail dans le cadre du stage de troisime anne ingnieur, nous

a permis dapprofondir nos connaissances thoriques dans le domaine de la dtection et

dacqurir des nouvelles mthodes de travail.

Le stage consistait dvelopper un algorithme de la dtection dactivit vocale pour

loptimisation de traitement de signal de parole lors des communications mobiles.

Lalgorithme propos lors de cette tude na t test que sur des signaux de la commu-

nication mobile noys dans diffrents types de bruits acoustiques pour diffrents niveaux

de SNR.

La dtermination de la densit de probabilit de la statistique du test a t difficile,

donc nous avons opt pour lapplication de la mthode de Monte Carlo.

Les valeurs qui ont t affectes aux diffrents paramtres sont :

Tw = 30 msqui est la largeur de la trame.

a= 0.05qui est le coefficient de lissage.

Tms= 0.7qui reprsente la largeur de la fentre de lissage.

Ces paramtres ont t choisis exprimentalement de telle sorte avoir un compromis

entre la probabilit de dtection et la probabilit de fausse alarme, cest--dire, pour

amliorer les performance de notre dtecteur dactivit vocale.

Par contraintes de temps de calcul lies aux simulations de Monte Carlo, nous tions

obligs de prendre des valeurs de PFA mdiocres, cependant, pour amliorer les perfor-mances, nous avons propos une solution base sur lutilisation dune LUT (Look Up

38


39/46

EMP CHAPITRE 5. CONCLUSION GNRALE

Table) construite au pralable.

Comme perspective, on propose de faire limplmentation de notre algorithme sur un

processeur des signaux (un DSP ou un FPGA).

Nous avons russi atteindre lobjectif demand qui est llaboration dun algorithme

de la dtection dactivit vocale, bas sur une approche statistique.

Ce stage concide avec notre thme de projet de fin dtude, il nous a permis dappli-

quer nos connaissances thoriques dans le domaine du traitement du signal de la parole.

En conclusion, ce stage nous a permis dapprendre travailler en autonomie, ainsi qu

synthtiser une mthodologie de travail pour rsoudre les problmes que peut rencontrer

un ingnieur.

39


40/46

Annexes

40


41/46

Annexe A

La variable alatoire gaussienne

complexe

On appelle une variable alatoireZ=X+jYune VA gaussienne complexe si sa partie

relle et sa partie imaginaire sont toutes les deux des VA gaussiennes indpendantes qui

ont la mme variance.

Si on suppose que les VA sont centres c--d : E[X] = E[Y] = 0 et de variance

2X=2Y = 2

2,la VA Z sera centre et aura comme variance 2Z=

2X+

2Y =

2

On sait que la PDF dune VA gaussienne 2 dimensions X= [XY]centr est donne

par :

fX(X, Y) = 1

2

det(C)exp

XtC1X

AvecCla matrice de covariance de la VA X. En remplaant C=

2

2 0

0 2

2

On trouve :

f(X,Y)(x, y) = 1

24

4

exp

(x

2 + y2)

2

On peut crire :

fZ(z) = 1

2exp

|z|

2

2

Cest la PDF quon a utilis pour modliser le signal parole.

41


42/46

Annexe B

Simulation de Monte Carlo

Lorsque nous nous somme pas en mesure de determiner la probabilit quune variable

alatoire dpasse une valeur donne par des mthodes analytiques ou des valuation

numriques dune forme dexpression proche ,on fait appel aux simulation de Monte

Carlo.

Dans les problmes de dtection on cherche la probabilit quune VA ou une statis-

tique Tdpasse un seuil en dautre termes :P[T > ].Lexemple suivant illustre les

tapes suivre pour faire une simulation de Monte Carlo. Soit T(x) =Nk=1 x[k] o

X N(0, 2I)

Gnration des donnes

1. Gnrer une vecteur colonne de VA,cela se fait facilement sur Matlabpar

x=sqrt(var)*randn(N,1)o varest la variance du BBG 2

2. Calculer T(x) =Nk=1 x[k]et cela se fait sur Matlab par T=sum(x)

3. Rpter la procdure Mfois pour obtenir Mralisations de Ti{T1, T2, , TN} onprend gnralement M= 100/PFA [1]

Estimation de la probabilit

1. Compter Mle nombre de Ti qui dpasse le seuil

2. Estimer la probabilit P[T > ] =M/M

42


43/46

Annexe C

Code Matlab de lalgorithme VAD

clc

clear

close all

[s,Fs]=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.1.wav);%lowSNR

S1=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.0.wav);

Ts=1/Fs;

a=0.05;

Tms=0.7;

Tw=30*10^-3;%largeur de la fenetre

LL=round(Tms/Tw);

L=Tw/Ts+1;%nbr dechentillons par fenetre

ch=round(L/2);%chauvauchement entre les trames

%%% estimation de la variance des echantillons spectraux du bruit

%%% Initialisation

ss=s(1:L);

FF=fft(ss);lambdan=abs(FF).^2;

Pf=0.1;

B=100;

x=zeros(1,B);

y=zeros(1,B);

z=zeros(1,B);

for j=1:B

Z0=0;for k=1:L

43


44/46

EMP

x(k)=sqrt(lambdan(k)/2)*randn(1,1);

y(k)=sqrt(lambdan(k)/2)*randn(1,1);

z(k)=norm(x(k)+1i*y(k));

Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;

end

T0(j)=Z0;

end

gammapos=ceil((B+1)*(1-Pf));

T0=sort(T0);

gammaamp=T0(gammapos);

gammaampv=gammaamp;

%%% analyse de trames

D=0;P=lambdan;

PP=[P];

for i=1+L-ch:L-ch:length(s)-L

ss=s(i:i+L-1);

nf=(i-1)/(L-ch);

FF=abs(fft(ss)).^2;

P=a*P+(1-a)*FF;%%

PP=[PP P];%% Adaptation

if mod(nf,LL)==0

PPP=PP(:,(nf-LL+1):nf);

lambdan=min(PPP);

for j=1:B

Z0=0;

for k=1:L

x(k)=sqrt(lambdan(k)/2)*randn(1,1);

y(k)=sqrt(lambdan(k)/2)*randn(1,1);

z(k)=norm(x(k)+1i*y(k));

Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;

end

T0(j)=Z0;

end

gammapos=ceil((B+1)*(1-Pf));

T0=sort(T0);

gammaamp=T0(gammapos);

gammaampv=[gammaampv gammaamp];

44


45/46

EMP

end

%%%

Z=0;

for k=1:L

Z=Z+FF(k)/lambdan(k)-log(FF(k)/lambdan(k))-1;

end

if Z>=gammaamp

D=[D 1];

else

D=[D 0];

end

end

%%% trac des resultat

DD=D(1)*ones(1,L-ch);for k=2:length(D)

DD=[DD D(k)*ones(1,L-ch)];

end

G=gammaampv(1)*ones(1,LL*(L-ch));

long=length(gammaampv);

for k=2:long

G=[G gammaampv(k)*ones(1,LL*(L-ch))];

endamp=max(s);

t=0:Ts:(length(s)-1)*Ts;

subplot(3,1,1)

plot(t,s)

title(signal bruit);

hold on

t=0:Ts:(length(DD)-1)*Ts;

plot(t,(amp)*DD,r)

hold off

subplot(3,1,2)

t=0:Ts:(length(S1)-1)*Ts;

plot(t,S1)

title(signal parole non bruit);

subplot (3,1,3)

t=0:Ts:(length(G)-1)*Ts;

plot(t,G)

xlabel(le temps (s))

title(adaptation du seuil);

45


46/46

Bibliographie

[1] J. Sohn and W. Sung, "A voice activity detector employing soft decision based

noise spectrum adaptation",in Proc. Int. Conf. Acoustics, Speech, and Signal Processing,

1998, pp. 365368.

[2] R. Martin,"Noise Power Spectral Density Estimation Based on Optimal Smoothing

and Minimum Statistics", IEEE Trans. Acoust., Speech, Signal Processing , VOL. 9, NO.

5, JULY 2001.

[3] Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square

error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Pro-

cessing, vol. ASSP-32, pp. 11091121, Dec. 1984.

VAD Approche Statistique

Documents

Transcript of VAD Approche Statistique

TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

hydrologie statistique

STATISTIQUE ET PROSPECTIVE QUELLES RELATIONS...OFS: Formation Statistique JSS 2017 30.11.2017 20 PLACE ET STATUT DE LA STATISTIQUE • La statistique omme sour e d’évaluation des

Approche statistique du rayonnement dans les …Approche statistique du rayonnement dans les milieux gazeux h et erog enes : de l’ echantillonnage des transitions mol eculaires au

Approche objectif approche compétence

Statistique Descriptive

Approche communicative et approche actionnelle

STATISTIQUE POUR LA LOGISTIQUE Chapitre 2 : Statistique ......•Statistique descriptive Cas des données groupées. A. AIT EL CADI 3 Introduction Lors d’une analyse statistique

APPROCHE CHIMIOMETRIQUE DES RESULTATS …- Le résultat d’une analyse doit être considéré comme une variable aléatoire continue - Description statistique d’une distribution

Probabilités et statistique - media.eduscol.education.frmedia.eduscol.education.fr/file/Mathematiques/11/5/LyceeGT_res... · Probabilités et statistique ... statistique » donne

Affi xes transitivisants en français. Approche statistique ...

TECHNIQUES QUANTITATIVES DE GESTION IIIIyassinesegc.e-monsite.com/medias/files/tqg-1-000.pdf3 2009/2010 5 Contexte Gestion Statistique Mathématique Approche quantitativeInformatique

Tâche 4: Approche statistique du roulis extrême · Etat de l’art 5 3.2. Hypothèses contraignantes 6 3.2.1 Excitation non blanche 6 3.2.2 Amortissement non linéaire 6 4. Méthode

Stanford Hospital & Clinics Pre-VAD Education VAD team Lisa Guertin, NP VAD Coordinator.

Estimation indirecte de l'âge : modèles probabilistes et approche statistique Isabelle SÉGUY 1,2 Luc BUCHET 2,1 Henri CAUSSINUS 3, Daniel COURGEAU 1 1.

Workshop ISC – Overstromingen Détermination des lignes deau extrêmes par une approche statistique de courbes enveloppes Exemple de lestuaire de la Loire.

Quelques enjeux (plus ou moins) contemporains · 2017-02-13 · Lazega et Snijders : approche SNA, statistique du multi-niveaux rst method consists of identifying levels of in uence

Apprentissage Statistique - univ-rennes2.fr · 2017-04-20 · Plan du cours 1 Statistique, data mining et apprentissage statistique 2 Apprentissage statistique supervisé 3 Algorithmes

1Philippe Ciuciu SHFJ/CEAESIEA 28/11/05 Approche statistique semi- paramétrique du recalage iconique dimages Philippe Ciuciu (CEA/SHFJ) ciuciu@shfj.cea.fr.

Approche statistique tenant compte de la variabilité ...