Post on 23-Feb-2018
7/24/2019 VAD Approche Statistique
1/46
Table des matires
Introduction gnrale 4
1 Prsentation de ltablissement daccueil 7
1.1 Prsentation de ltablissement . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 organisation du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Gnralits sur la dtection dactivit vocale 10
2.1 Notions lmentaires sur le signal de parole . . . . . . . . . . . . . . . . . 10
2.2 La detection dactivit vocale VAD . . . . . . . . . . . . . . . . . . . . . 15
2.3 Les mthodes de base de la VAD . . . . . . . . . . . . . . . . . . . . . . 17
3 Elaboration dun VAD bas sur une approche statistique 18
3.1 Modle statistique du signal de parole . . . . . . . . . . . . . . . . . . . . 19
3.2 Dtermination de la rgle de dcision par le GLRT . . . . . . . . . . . . . 21
3.2.1 Le rapport de vraisemblance gnralis : . . . . . . . . . . . . . . 233.2.2 La rgle de dcision : . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Dtermination du seuil adaptatif . . . . . . . . . . . . . . . . . . . . . . 24
3.3.1 Simulation de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Estimation des paramtres du bruit . . . . . . . . . . . . . . . . . . . . . 26
4 Analyse des performances du VAD propos 29
4.1 Etude des performances pour diffrents types de signaux de parole . . . . 29
4.2 tude des performances lies au temps dexcution . . . . . . . . . . . . 334.3 tude de linfluence des diffrents paramtres . . . . . . . . . . . . . . . 34
4.3.1 La longueur de la trame . . . . . . . . . . . . . . . . . . . . . . . 34
4.3.2 Le paramtre de lissage . . . . . . . . . . . . . . . . . . . . . . 34
4.3.3 la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Conclusion gnrale 38
Annexes 39
A La variable alatoire gaussienne complexe 41
1
7/24/2019 VAD Approche Statistique
2/46
B Simulation de Monte Carlo 42
C Code Matlab de lalgorithme VAD 43
Bibliographie 46
2
7/24/2019 VAD Approche Statistique
3/46
Table des figures
1.1 organigramme du CRDT/1 RM . . . . . . . . . . . . . . . . . . . . . . . 9
2.1 Appareil phonatoire humain . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Modle mcanique de production de la parole . . . . . . . . . . . . . . . 12
2.3 Modle numrique de production de la parole . . . . . . . . . . . . . . . 14
3.1 schma qui rsume le fonctionnement du VAD . . . . . . . . . . . . . . . 183.2 les rgions de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 les variations des 2 priodogrammes au cours du temps pour lchantillon
spectral k=25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 lorganigramme du lalgorithme VAD propos . . . . . . . . . . . . . . . 28
4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptation
du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation du
seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms - c)Tw=30ms
- d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 -
d)signal non bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.6 courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3
7/24/2019 VAD Approche Statistique
4/46
Liste des abrviations
VA Variable Alatoire.
DFT Discret Fourier Transformation.
PDF Probability Density Function.
SNR Signal to Noise Ratio.
LUT Look Up Table.
VAD Voice Activity Detection.FFT Fast Fourier Transformation.
LR Likelihood Ratio.
LRT Likelihood Ratio Test.
GLRT Generalized Likelihood Ratio Test.
DSP Digital Signal Processing.
FPGA Field Programmable Gate Array.
4
7/24/2019 VAD Approche Statistique
5/46
Introduction gnrale
Dans le but de mettre en application nos connaissances scientifiques et techniques,
acquises au cours de notre formation, On nous a donn la chance de faire un stage pratique
qui sest droul du 27 dcembre 2015 au 21 janvier 2016 au sein du CRDT/1re RM.
larrive notre tablissement daccueil, le CRD/Transmission, on nous a propos
comme problmatique le dveloppement dun dtecteur dactivit vocal (VAD :Voice Ac-
tivity Detector). On sait bien que le traitement, lamlioration et la reconnaissance de
la parole constituent lune des proccupation centrales de lingnieur spcialis dans les
communications et la transmission, donc ce travail aura pour objectif de nous donner un
avant got sur les dfis rencontrs dans ces domaines. De plus ,comme notre projet de fin
dtude porte sur le traitement statistique du signal et la thorie de dtection, on a opt
pour la ralisation dun VAD bas sur une approche statistique.
Le traitement numrique de la parole est une des disciplines qui a profit pleinement
du progrs technologique des dernires dcennies. Des algorithmes autrefois utopiques
cause du volume de calcul sont maintenant utiliss dans des applications complexes
telles que le codage, le rehaussement ou la reconnaissance de la parole. Plusieurs de
ces applications utilisent un module de dtection dactivit vocale pour augmenter les
performances et rduire le cot du traitement numrique.
Un algorithme de dtection d activit vocale est une solution la question"Pourquoi
traiter la parole alors quil ny a pas de parole ? !" , en effet le VAD a comme but de
discriminer entre les rgions o la parole est prsente et les rgions o la parole est absente
dans le signal vocal analys.
Pour une prsentation claire et comprhensible, ce rapport est organis comme suit :
Dans le premier chapitre, on commence par la prsentation de ltablissement dac-cueil le CRDT/1 RM, ainsi que la description des diffrentes structures qui le constituent.
5
7/24/2019 VAD Approche Statistique
6/46
EMP
Dans le second chapitre, on va faire un rappel de quelques notions sur le signal de parole
suivi dune tude thorique et gnrale de la dtection dactivit vocale VAD. Le troi-
sime chapitre consiste en une prsentation dtaille du VAD propos. Cette prsentation
comprend le choix du modle statistique du bruit, ltablissement de la rgle de dcision
ainsi que la description de la mthode destimation des paramtres du bruit. Une analyse
des performances du VAD propos, ainsi que les rsultats des simulations sur Matlab,sont prsents dans le dernier chapitre. Une conclusion gnrale clture ce rapport.
6
7/24/2019 VAD Approche Statistique
7/46
Chapitre 1
Prsentation de ltablissement
daccueil
1.1 Prsentation de ltablissement
Le Centre de recherche et de dveloppement des transmissions de la premire rgion
militaire est une entit scientifique et technique dont la vocation est lexcution des tra-vaux dtudes, de recherche-dveloppement, dessais et dvaluation technique du matriel
des Transmissions et autres composantes lectroniques des systmes darmes. Le CRDT
est charg de :
Dapporter son soutien scientifique et technique ncessaire la rnovation des ma-
triels de transmission ;
De participer aux tudes de faisabilit(les projets relevant de son domaine et int-
ressant le commandement) ;
Dassurer la maitrise duvre des projets ou des programmes dont la responsabilit
lui est confie;
Dvelopper les techniques et les applications du domaine de tlcommunication et
les rseaux de commutation ;
De favoriser lacquisition, la maitrise et la diffusion des connaissances scientifiques,
techniques des quipements de transmission ncessaire la dfense nationale.
7
7/24/2019 VAD Approche Statistique
8/46
EMP CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL
1.2 organisation du CRDT/1 RM
Pour lexcution de ses missions, le CRDT est organis comme suit :
Une Direction,
Un Dpartement Administration, Finances et Services Communs (DAFSC) ; Un Dpartement Tlcommunications (DT) ;
Un Dpartement Systmes dInformation et Gnie Logiciel (DSIGL) ;
Un Dpartement Guerre Electronique (DGE) ;
Un Dpartement Conversion et Conditionnement dEnergie (DCCE) ;
Un Dpartement Evaluation et Exprimentation (DEE).
Le Dpartement Administration, Finances et Services Communs est compos de :
Secrtariat;
Service Approvisionnement (magasin PDR) ; Service Technique ;
Bureau Archives + bibliothque.
Le Dpartement Tlcommunications est compos de :
Laboratoire Radio;
Laboratoire Commutation ;
Laboratoire Antennes et Propagation des Ondes.
Le Dpartement Systme dInformation et Gnie Logiciel est compos de :
Laboratoire Rseaux Informatiques et Applications Spcifiques ;
Laboratoire Systme dInformation et de Communication;
Laboratoire Systme dInformation Gographique et Algorithmes Dcisionnels.
Le Dpartement Guerre Electronique est compos de :
Laboratoire Reconnaissance Radio Electronique ;
Laboratoire Electronique des Systmes dArmes et Systmes Embarqus ;
Laboratoire Brouillage Radio Electronique.
Le Dpartement Conversion et Conditionnement dEnergie est compos de :
Laboratoire Energies Renouvelables ;
Laboratoire Conditionnement et Stockage dEnergie ; Laboratoire Electronique de Puissance.
Le Dpartement Evaluation et Exprimentation est compos de :
Atelier dEssais Mcaniques;
Atelier dEssais Environnement ;
Atelier dEssais Electromagntiques.
8
7/24/2019 VAD Approche Statistique
9/46
EMP CHAPITRE 1. PRSENTATION DE LTABLISSEMENT DACCUEIL
Figure1.1 organigramme du CRDT/1RM
9
7/24/2019 VAD Approche Statistique
10/46
Chapitre 2
Gnralits sur la dtection dactivit
vocale
2.1 Notions lmentaires sur le signal de parole
Si lon tente une dfinition, la parole est la capacit de ltre humain de communiquer
la pense par lintermdiaire de sons articuls . D son importance, la parole a proccupdepuis toujours les scientifiques. Ainsi quelques-unes des sciences qui se proccupent de
ltude de la parole ont dj des centaines dannes. Dautres sont plus rcentes, comme
le traitement numrique de la parole, qui ne compte pas plus de quarante ans.
La production de la parole commence avec la formulation de la pense tre commu-
nique. La personne qui parle, suite des processus neurologiques et musculaires, produit
les fluctuations de la pression de lair qui constituent le signal vocal. Celui-ci se propage
dans le milieu, qui dhabitude est lair, jusquaux oreilles de lcouteur o il est reu et,
aprs une certaine analyse, il est envoy vers le cerveau qui linterprte. Donc le signal
vocal a une nature duale. Il peut tre analys de point de vue objectif comme tant une
ralit physique ou de point de vue subjectif si on regarde la sensation psycho-acoustique
produite au niveau du cerveau .
Comme on vient de voir, la production de la parole est un processus complexe, qui im-
plique des phnomnes neurologiques, physiologiques et physiques. Dans un tel contexte
ltude de la parole est une science multidisciplinaire. Pour une meilleure comprhension,
lingnieur qui travaille dans ce domaine devrait connatre les notions de base caractris-tiques chacune de ces disciplines quil rencontre dans son travail.
10
7/24/2019 VAD Approche Statistique
11/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
Figure2.1 Appareil phonatoire humain
Techniquement parlant, la parole est une onde sonore produite par action volontaire
et coordonne des structures anatomiques qui forment lappareil phonatoire humain. Ce
processus est coordonn par le systme nerveux central. Les sons produits sont analyss
par rtroaction auditive pour assurer la qualit acoustique de la parole.
Les muscles abdominaux actionnant sur le diaphragme, en poussant lair des poumons
vers la trache artre. Au bout suprieur de celle-ci se trouve le larynx qui module le
courant dair sous la forme dimpulsions priodiques appliques au conduit vocal. Celui
est form dun ensemble de cavits : la cavit pharyngienne suivie de la cavit buccale et
en drivation la cavit nasale. La luette, qui prolonge le bord postrieur du voile du palais,
contribue la fermeture des fosses nasales. Comme rsultat, pendant la production de
la parole, la cavit nasale peut tre couple soit totalement, soit partiellement, o mme
dcouple de la cavit buccale. Autres organes anatomiques importants qui participent
la production des sons sont : la langue et les dents dans la cavit buccale, les narines
dans la cavit nasale et les lvres , comme montr dans la figure 2.1.
Le larynx a un rle extrmement important dans la production de la parole.Il est
11
7/24/2019 VAD Approche Statistique
12/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
Figure2.2 Modle mcanique de production de la parole
form dun ensemble de muscles et cartilages mobiles entourant une cavit situe la
partie suprieure de la trache. Les cordes vocales, partie intgrale du larynx, peuvent le
fermer ou peuvent former une ouverture variable appele glotte. La fonction du larynx estde fournir une excitation priodique au reste du systme sous la forme dune suite dim-
pulsions priodiques de pression dair pendant la phonation du son vois. Au contraire,
il laisse passer librement lair pendant la voix chuchote et la phonation des sons sourds
ou non voiss. Ainsi le conduit vocal peut tre vu comme une suite de tubes acoustiques
dont la section peut varier avec le temps. Son diagramme est reprsent dans la figure 2.2
Les paramtres qui dcrivent le signal vocal rel changent avec le temps car le systme
physique qui les produit change rapidement avec le on dit que le signal parole est non
stationnaire . Nanmoins le signal vocal peut tre divis en segments temporels (trames
ou fentres) de longueurs comprises entre 10 et 30 ms dont les proprits acoustiques
demeurent quasi stationnaire (stationnaire par morceaux). ltude de la forme donde de
la parole rvle des caractristiques telles que lintensit , le comportement priodique ,les
limites et la dure de chaque son qui forme le signal .La DFT est un outils trs puissant
qui donne la possibilit dtudier le signal parole numrique dans le domaine frquentiel
discret ,Ce signal peut rvler un comportement priodique ou non et ventuellement les
frquences les plus importantes qui dcrivent la parole.
Lune des plus importantes caractristiques du signal vocal est la nature de lexcita-
12
7/24/2019 VAD Approche Statistique
13/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
tion. Il existe deux types lmentaires dexcitation qui produisent les sons voiss et non
voiss.
Les sons voiss sont produits partir dune excitation qui agit sur le conduit vocal et
qui consiste en une suite dimpulsions priodiques dair fournies par le larynx. Les cordes
vocales au dbut sont fermes. Sous la pression continue de lair qui vient des poumons
elles souvrent graduellement dlivrant cette nergie potentielle. Pendant cette ouverture
la vitesse de lair et lnergie cintique augmentent jusqu ce que la tension lastique
des cordes vocales gale la force de sparation du courant dair. A ce point louverture de
la glotte est maximale. Lnergie cintique qui a t accumule comme tension lastique
dans les cordes vocales va acclrer la fermeture abrupte de la glotte . Ce processus
priodique est caractris par une frquence propre chaque personne, connue sous le
nom de frquence du fondamentalF0 ou pitchet il donne la hauteur normale de la voix.
La frquence fondamentale peut varier de 80 200 Hz pour une voix masculine, de 150 450 Hz pour une voix fminine et de 200 600 Hz pour une voix denfant .
Cette frquence fondamentale peut varier suite des facteurs lis au stress, intona-
tion et motions. Le timbre de la voix est dtermin par les amplitudes relatives des
harmoniques du fondamental.
Les sons non voiss sont gnrs par le passage de lair dans une constriction troite
situ en un point du conduit vocal. ils sont gnrs sans lapport du larynx et ne prsententpas de structure priodique.
Une modlisation exhaustive pour la production de la parole est trs difficile et pour
des raisons pratiques, inefficace. Lide de base dans la modlisation numrique est dar-
river un modle linaire qui produit en sortie un signal quivalent au signal vocal. Le
modle est correct dans la mesure ou sa sortie sapproche du signal vocal sans modli-
ser les phnomnes physiques intrinsques la production du signal vocal . La figure 3
prsente un tel modle gnral qui est utilis dans le traitement numrique de la parole.
Dans ce modle gnral (figure 2.3) on utilise deux sources dexcitation. Pour les sons
non voiss la source dexcitation est un bruit blanc. Pour la production des sons voiss la
source dexcitation est un train priodique dimpulsions qui traverse un filtre passe bas
dordre 2. Ce filtre, qui modlise le fonctionnement du larynx, a une frquence de coupure
denviron 100 Hz.
G(z) = A
(1 + az1)(1 + bz1)
13
7/24/2019 VAD Approche Statistique
14/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
Figure2.3 Modle numrique de production de la parole
Un modle mcanique simplifi du conduit vocal le reprsente sous la forme dune
succession de tubes acoustiques lmentaires. Chaque tube o rsonateur mcanique est
assimil un filtre numrique dordre deux. La transmittance globale du modle est de
la forme :
H(z) = B
Kk=1(1 + b1kz
1
+ b2kz2
)
La frquence centrale de chaque rsonateur correspond un formant et est donne
par :
Fk= 1
2fscos
1
b1k/2b2k
Au bout du conduit vocal le son passe travers louverture des lvres. Celles-ci sont vues
comme une composante qui transforme le dbit volumique dans une onde de pression
une certaine distance. Dans le domaine spectral le rayonnement des lvres a leffet dun
filtrage passe haut. Le plus simple filtre numrique qui a cette proprit est :
R(z) =C(1 z1)
Pour des raisons de stabilit numrique et encore certaines dtails physiques le zro
introduit par R(z) est dplac lintrieur du cercle unit :
R(z) =C(1 z0z1) , z0 1, z0 < 1
14
7/24/2019 VAD Approche Statistique
15/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
La prsence dun numrateur diffrent dune constante rend difficile lestimation des
paramtres du systme. Pour liminer cet inconvnient on spcule sur lidentit :
1
z0z
1 = 1Kk=0 zk0zk
o K est thoriquement infinie mais pratiquement finie car z0
7/24/2019 VAD Approche Statistique
16/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
absente dans le signal vocal analys. Un algorithme de VAD fonctionne selon une logique
binaire. Il produit les valeurs logiques 1 ou 0 pour chaque segment ou trame de signal
analys, indiquant respectivement la prsence ou labsence de la parole.
Le VAD est un module important dans une large gamme dapplications concernant le
traitement de la parole soit la reconnaissance, la transmission ou le rehaussement de la
parole.On le trouve gnralement dans le bloc du pr-traitement .
Dans le domaine de reconnaissance de la parole le VAD est utilis pour localiser le
dbut et la fin des rgions reconnatre. La prcision du VAD utilis se matrialise dans
une amlioration du taux de reconnaissance.
Pour les systmes de transmission de la parole tels que la tlphonie cellulaire, le
VAD est utilis pour contrler la transmission discontinue qui active la transmission
uniquement pendant les priodes dactivit vocale. La transmission discontinue permet
daugmenter la capacit du systme pour loprateur tandis que pour labonn prolonge
lautonomie du mobile . Dans le cas du rehaussement de la parole les priodes de silence
dtectes par le VAD peuvent servir actualiser le paramtre du bruit.
Autres aspects importants dont il faut tenir compte quand on apprcie un algorithme
de VAD sont la prcision, le dlai introduit dans la rponse, la robustesse par rapport au
bruit et le cot du traitement numrique.
Ainsi il existe des algorithmes de VAD qui sont conus pour rpondre aux exigences
du travail en temps rel et utiliss spcialement dans les applications de transmission de
la parole telles que la tlphonie. Un tel algorithme doit fournir la dcision pour la trame
courante avant quune nouvelle trame soit rceptionne et donc disponible.Dans dautres
applications telles que la reconnaissance de la parole, la condition de fonctionnement en
temps rel nest pas exige ; ce quon impose est plutt une meilleure prcision.
La tche dun algorithme de dtection dactivit vocale est loin dtre facile sauf pour
le cas dun rapport entre le signal vocal et le bruit SNR trs lev, condition qui est loin
dtre ralisable dans des applications relles de traitement de la parole. La nature non
stationnaire et la grande varit des bruits de fond et du signal vocal auquel un SNR
inconnu au concepteur et parfois variable rendent le problme de dtection dactivit vo-
cale difficile. videmment, ce quon cherche est un algorithme prcis, robuste par rapport
au bruit et qui demande un minimum de calculs .
16
7/24/2019 VAD Approche Statistique
17/46
EMP CHAPITRE 2. GNRALITS SUR LA DTECTION DACTIVIT VOCALE
2.3 Les mthodes de base de la VAD
Parmi les mthodes de base de la dtection dactivit vocale on site :
Le VAD bas sur la distance LPC (Lineaire Predictive Coding),lide
principale de cette mthode est de dterminer une caractrisation spectrale de troisdiffrentes classes de sons , savoir la parole voise,la parole non voise et le si-
lence.Les distances LPC mesures par un filtre de prdiction linaire vont servir a
faire la classification.
Le VAD bas sur le seuillage de lnergie consiste calculer lnergie court
terme de chaque trame du signal par la formule E =L1i=0 x
2[i], en suite on la
compare avec un seuil dpendant du niveau de bruit.Si lnergie est suprieure
cette limite, la trame est dite active, dans le cas contraire ,on considre quelle ne
contient pas de parole. Le VAD bas sur le taux de passage par zro qui repose sur lhypothse
que contrairement la parole,le bruit fluctue rapidement autour du zero et que le
nombre de fois que cela se produit est alatoire.Ainsi,il est possible de dterminer
un intervalle pour le nombre habituel de passages par zro dune trame de parole
en fonction de sa longueur.ensuite en dduire une rgle de classification base sur
le nombre de passage par zro.
Les mthodes numres sont pratiques et efficaces ,cependant elles sont toutes basessur des approches heuristique.En 1998,Jongseo Sohn et Wonyong Sung [1] ont propos
une approche statistique pour dterminer un VAD optimal ,cest lobjet de notre travail
durant le stage.En effet nous avons suivi cette approche afin dlaborer notre VAD.
17
7/24/2019 VAD Approche Statistique
18/46
Chapitre 3
Elaboration dun VAD bas sur une
approche statistique
Afin de raliser notre VAD, on a organis notre travail selon le plan suivant :
1. Le choix dun modle statistique adquat pour dcrire le signal parole [1],[3].
2. Trouver la rgle de dcision base sur le GLRT, en supposant que les statistiques
du bruit sont connues priori [1].3. Estimation des paramtres du bruit par la mthode des statistiques minimum [2].
Le schma bloc suivant reprsente les partie principales du VAD propos :
Figure3.1 schma qui rsume le fonctionnement du VAD
18
7/24/2019 VAD Approche Statistique
19/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
3.1 Modle statistique du signal de parole
Comme il a t mentionn dans le chapitre prcdant, la parole et mme le bruit sont
des processus alatoires qui ne sont ni stationnaires ni ergodiques, Cette ralit exclus
la possibilit davoir un modle statistique en examinant le signal vocal dans le domainetemporelle car les fonctions de densit de probabilit PDF (probability density Function)
sont variantes dans le temps a cause de la non stationnarit du processus.
Pour les raisons prcdentes, Ephraim et Malah [3] ont propos un modle statistique
utilisant les proprits asymptotique de la transform de Fourier.
La transformation de Fourier discrte (DFT :Discret Fourier Transformation) de Fou-
rier est un outil mathmatique de traitement du signal numrique, qui est lquivalentdiscret n DFT de la transformation de Fourier continue qui est utilise pour le traite-
ment du signal analogique. Il ne faut pas confondre avec la transformation de Fourier
rapide (Fast Fourier Transformation) FFT qui est un algorithme particulier de calcul de
la transformation de Fourier discrte.
Gnralement, le signal parole est subdivise en trames temporelles de longueur ty-
pique variante de 10 ms 40 ms afin dobtenir une quasi-stationnarit. En supposant quil
ny a pas de corrlation entre ces trames chacune delles est traite indpendamment desautres.
La DFT dune trame x[n + nfL] n= 0, 1 , L 1:
X[k] =L1n=0
x[n]exp(2jk nL
) (3.1)
Ok est lindice de la frquence discrte, L le nombre dchantillons temporels dans une
trame et nflindice de la trame.
A partir de lquation 1.1 on voit bien quun chantillon de la DFT X[k]nest aprs
tout quune somme pondre de plusieurs variables alatoires VA x[n].De plus dire que
les VA x[n] sont indpendant est quivalent dire que les coefficients de la DFT X[k]
sont dcorrls[3]. Ceci nest vrai que si on a un signal de dure infini L .Or a causedes longueur des trames limites pour des raisons de quasi-stationnarit,les X[k]ont un
certains degr de corrlation,Nanmoins lhypothse de lindpendance entre les x[n]est
utilise dans la suite pour simplifier lalgorithme.
19
7/24/2019 VAD Approche Statistique
20/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
En vertu du thorme centrale limite,La somme de plusieurs VA x[n] indpendantes
tends vers une VA gaussienne.En dautre termes,la partie relle et imaginaire de X[k]sont
des VA gaussiennes de moyennes nulles (car le signal de parole est un processus alatoire
centr) et de variance variable dans le temps a cause de la non stationnarit de la parole.
Tous a nous amne a choisir le modle statistique dune VA gaussienne complexe
(Annexe A) pour X[k]dont la PDF est :
P(X[k]) = 1
[k]exp
|X[k]|
2
[k]
(3.2)
O (k)est la variance de lchantillon de la DFT X[k]qui est variable dans le temps.
Les PDF des variables alatoires du spectre du signal parole S[k] et du bruit W[k]
sont respectivement dduites partir de (1.2) :
P(S[k]) = 1
s[k]exp
|S[k]|
2
s[k]
(3.3)
P(W[k]) = 1
w[k]exp
|W[k]|
2
w[k]
(3.4)
O s[k] et w[k] sont respectivement les variances de la parole et du bruit durant la
tramenfet elle sont donnes thoriquement par [1] :
s[k] = Ss(2k/L)
w[k] = Sw(2k/L)avec Swet Sssont respectivement les densits spectrales de puissance durant la trame nf.
20
7/24/2019 VAD Approche Statistique
21/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
3.2 Dtermination de la rgle de dcision par le GLRT
La rgle de dcision dun VAD peut tre formule par deux termes :
Une statistique de dcisionT(x),qui est une grandeur qui mesure la diffrence entre
le bruit et les statistiques du signal observ. un seuil de dcision , qui est souvent dtermin de faon empirique.
Dans cette section, nous drivons une statistique de dcision partir du test du
rapport de vraisemblance gnralis (Generalized Likelihood Ratio Test) GLRT,tout en
supposant que les statistiques du bruit sont connues a priori.
Dans le contexte de la VAD, On veut gnralement distinguer entre deux hypothses
(test dhypothses binaire) :
H0 : x[n] =w[n] abscense de la parole
H1 : x[n] =s[n] + w[n] prsence de la parole (3.5)
o s[n], w[n] et x[n] sont respectivement les chantillons de la parole, du bruit et de
la parole bruite linstant n. En introduisant la DFT sur (3.3) le problme de dcision
dans le domaine frquentiel est :
H0:X[k] =W[k] abscense de la paroleH1:X[k] =S[k] + W[k] prsence de la parole
(3.6)
X[K],S[K] et W[k] sont donns par la relation (3.1).Les PDF des variables alatoires
S[k]et W[k]sont respectivement donnes par (3.3) et (3.4) :
P(S[k]) = 1
s[k]exp
|S[k]|
2
s[k]
P(W[k]) = 1
w[k]exp
|W[k]|
2
w[k]
En utilisant la stabilit de la loi Gaussienne, les PDF sous les deux hypothses sont
donnes par :
P(X[k]|H0) = 1w[k]
exp
|X[k]|
2
w[k]
(3.7)
P(X[k]|H1) = 1(w[k] + s[k])
exp
|X[k]|2(w[k] + s[k])
(3.8)
21
7/24/2019 VAD Approche Statistique
22/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
la dtection dactivit vocale est galement effectue pour chaque trame de Lchan-
tillons sur laquelle la parole est suppos tre stationnaire.Donc on aura a dcider entre :
H0:X=W abscense de la parole
H1:X=X+ W prsence de la parole (3.9)
O S= [S[0]S[1] S[L1]]t, W = [W[0]W[1] W[L1]]t, X= [X[0]X[1] X[L1]]t et sont les vecteurs des chantillons spectraux L-dimensionnels de la parole, du bruit
et de la parole bruite.
En supposant que les chantillons spectraux sont des VA indpendantes [1],les PDF
conjointes sous les hypothsesH0 et H1 sont :
P(X|H0) =L1k=0
1
w[k]exp
|X[k]|
2
w[k]
(3.10)
P(X|H1) =L1k=0
1
(w[k] + s[k])exp
|X[k]|
2
(w[k] + s[k])
(3.11)
Si on suppose que la variance du bruitw[k]est connue priori (estimer par une mthode
quon prsentera dans ce qui suit), H0 devient une hypothse simple et H1 devient une
hypothse compose avecLparamtres inconnus dterministes :
= {S(k) : k = 0, , L 1}
Pour tablir la rgle de dcision,On fait appel au test de rapport de vraisemblance
gnralis (Generelized Likelihood Ratio) GLRT , qui est lune des mthodes les plus
puissantes dans le cas des tests dhypothse composs avec dterministe.
Dans le GLRT le paramtre inconnus est remplac par son estim MLobtenu parle mthode du maximum de vraisemblance (Maximum Likelihood Estimator) MLE.
22
7/24/2019 VAD Approche Statistique
23/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
Lestimation du paramtre :
on dveloppe le MLE pour dterminer :
P(Xk|, H1) = 1
(N(k) + S(k))exp |Xk|
2
(N(k) + S(k))
ln P(Xk|, H1) = ln 1(N(k) + S(k))
|Xk|2
(N(k) + S(k))
ln P(Xk|, H1)S(k)
= 1N(k) + S(k)
+ |Xk|2
(N(k) + S(k))2
ln P(Xk|, H1)S(k)
= 0 |Xk|2 =N(k) + S(k)
MLES (k) = |Xk|2 N(k) (3.12)
3.2.1 Le rapport de vraisemblance gnralis :
g(x) =P(X|, H1)
P(X|H0) =L1k=0
1(N(k)+S(k))
exp |Xk|2
(N(k)+S(k))
L1k=0
1N(k)
exp |Xk|2N(k)
en remplaant S(k)par son estim MLE
S (k)(1.12), on obtient :
g(x) =L1k=0
N(k)
|X(k)|2exp |X(k)|2
N(k) 1
3.2.2 La rgle de dcision :
g(x) =L1k=0
N(k)
|X(k)|2exp |X(k)|2
N(k) 1
H1>
] =B/B.
Pour lestimation du seuilon suivra le chemin inverse, autrement dit, on doit cher-
cher le seuil qui garantit un PFA =P[T > |H0] =B/B =. Voici la procdure quona suivit :
1. Gnrer T(X) =L1k=0
|Xk|
2
N(k) log |Xk|2
N(k) 1
B fois sous H0 (bruit uniquement),
ensuite stocker les ralisations dans un vecteur Vde tailleB . Le nombre ditration
B est donn par la formule empirique B = 100PFA
2. Calculer B=PFA B3. Trier le vecteur Vpar ordre dcroissant
4. Le seuil est pris comme tant la composante a la position Bdu vecteur V tri
En supposant que les statistique du bruit fluctuent moins rapidement que celle du
signal, ladaptation du seuil se fait chaque fois que la variance du bruit est mise jour
car le calcul du seuil ne dpend que de ce paramtre.
Le seuil obtenu par cette mthode est un seuil adaptatif, il change selon le niveau du
bruit, ce qui va rendre notre VAD robuste, de plus comme on a fixer notre PFA une
valeur on peut considrer que notre VAD possde le comportement dun CFAR.
25
7/24/2019 VAD Approche Statistique
26/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
3.4 Estimation des paramtres du bruit
Lors due ltablissement de la rgle de dcision par le moyen du GLRT, nous avons
suppos que la variances des chantillons spectraux du bruitw[k]est connu priori. Dans
cette section on va prsenter une mthode destimation de la puissance du bruit w[k]introduite par Rainer Martin, en 2001 [2],et qui est base sur un lissage du priodogramme
et une statistique minimale[1].
Sachant que thoriquement w[k] = Sw(2k/L), nous somme dans lobligation desti-mer la densit spectrale de puissance du bruit, puisque la DFT du signal est disponible,
on a opt pour le priodogramme.
Le lissage du priodogramme
le priodogramme est une mthode paramtrique destimation de la densit spectrale
de puissance, qui ncessite pour tre calcul, la mise au carr de la Transforme de
Fourier (DFT) du signal numrique x[n] sur L points.Il est, depuis la mise au point de
lalgorithme de Transformation de Fourier Rapide FFT par J. Cooley et J. Tuckey en
1965, lestimateur le plus employ. lexpression de lestimateur :
P[k] = 1
L
L1n=0
x[n]exp
j2 kn
L
2
= |Xk|2 (3.15)
Le priodogramme P[k], obtenu par lquation (1.14), est estim partir des chan-
tillons de la trame en cours danalyse. Cependant lexistence dun certain degr de cor-
rlation entre les diffrentes trames due a la nature du signal parole va engendrer des
fluctuations brusques du priodogramme (figure 1.3) qui vont influencer ngativement les
performances du VAD. Pour palier ce problme on propose un priodogramme liss,qui
est obtenu par :
P[k, nf] =P[k, nf 1] + (1 )|Xk|2 (3.16)Onfest lindice de la trame en cours danalyse et un paramtre de lissage (ou doubli)
qui est obtenu exprimentalement.En effet au cours des simulations de fonctionnement
que nous avons effectu, il sest avr que les meilleurs performances sont obtenues pour
= 0.05.
La mthode destimation de la variance du bruit est base sur le principe que mme
26
7/24/2019 VAD Approche Statistique
27/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
Figure3.3 les variations des 2 priodogrammes au cours du temps pour lchantillonspectral k=25
durant la prsence de la parole, la densit spectrale de puissance du signal bruit atteint
des minimums qui sont reprsentatives du niveau de puissance du bruit [2].Donc cette
mthode est fond sur le principe que durant les pauses de silences ou pendant les brefs
intervalles entre les mots et les syllabes, lnergie du signal parole non bruit est presque
nulle. Par consquent, on peut suppos que la puissance du bruit est le minimum des
priodogrammes calculer durant un intervalles de temps dans lequel on suppose que le
bruit est le mme ou il a subi de lgres variations.
En gnrale, le bruit prsente une non-stationnarit plus faible que celle de la parole,
par consquent les priodes de mise jour de la variance du bruit sont beaucoup plus
grandes que les trames analys.Typiquement les priode de mise jour de w[k] varie
entre 0.1s et 1s .
Lors des simulations on a trouv quune priode de mise jour T s = 0.7s et une
longueur de trames de T w= 30msdonnaient les meilleures performances.
27
7/24/2019 VAD Approche Statistique
28/46
EMP CHAPITRE 3. ELABORATION DUN VAD BAS SUR UNE APPROCHE STATISTIQUE
Figure3.4 lorganigramme du lalgorithme VAD propos
28
7/24/2019 VAD Approche Statistique
29/46
Chapitre 4
Analyse des performances du VAD
propos
4.1 Etude des performances pour diffrents types de
signaux de parole
Afin dvaluer les rsultats du VAD propos, on a essayer de dtecter lactivit vocaledans des signaux obtenus partir de la base de donne Aurora qui est une rfrence dans
le domaine de traitement de la parole, et particulirement la dtection dactivit vocale.
Les niveaux de SNR des signaux de cette base de donne varient de -5 dB 20 dB. Ces
niveaux sont rpartis en trois groupes :
1. Quiet
2. Medium
3. High
Lors des simulations, on a pris un signal de chaque niveau et on les a not : S1 pour le
signal "Quiet", S2 pour le signal "Medium" et S3 pour le signal "High".
En observant les figures 4.2, 4.3 et 4.4 dun point de vue subjectif, on peut constater
que le VAD propos prsente des performances acceptable. Mais une mesure objectives
de ces performances est donne par lensemble des paramtres : PDet PFA.PDest dfinie
par le rapport entre le nombre de trames contenant le signal vocal classifi correctement
et le nombre rel de trames de parole. La PFA est fixe au pralable. La dcision idale
de rfrence est obtenue par un marquage manuel des rgions de silence et de parole pourle signal non bruit.
29
7/24/2019 VAD Approche Statistique
30/46
EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
Figure4.1 signal S1 "Quiet" : a)signal bruit - b)signal non bruit - c)adaptation duseuil
30
7/24/2019 VAD Approche Statistique
31/46
EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
Figure4.2 signal S2 "Medium" : a)signal bruit - b)signal non bruit - c)adaptationdu seuil
31
7/24/2019 VAD Approche Statistique
32/46
EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
Figure4.3 signal S3 "High" : a)signal bruit - b)signal non bruit - c)adaptation duseuil
32
7/24/2019 VAD Approche Statistique
33/46
EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
4.2 tude des performances lies au temps dexcution
Le nombre requis ditrations de Monte Carlo B est inversement proportionnel la
PFA (la relation empirique B = 100PFA ), donc pour avoir un seuil qui garantit PFA = 104
il faut que B = 1000000, sachant que pour B = 100 lexcution de notre algorithmesur Matlab sur un PC portable avec microprocesseur Intel I5 a pris 4.57s, lexcution
de lalgorithme pour B = 1000000prendra approximativement 4.57 10000 = 45700s=12heureset41minutes. Ce qui rend notre algorithme non pratique pour les petites valeurs
de PFA. Cependant dans les applications de traitement de parole une PFA de lordre de
0.01 jusqu 0.1 est largement suffisante [1]. Pour ces valeurs, le temps de traitement pour
un signal dont la dure est de 10 s est variant de 4 s 40s ce qui est appropri pour
un traitement "offline". Lanalyse dune seule trame de 30 ms prend 0.270 ms pour une
PFA= 0.1.
Pour amliorer le temps de calcul on peut construire au pralable une Look Up Table
(LUT) qui fait la correspondance entre le seuil et la variance du bruit estim. Ceci nous
permet dviter de faire des simulations de Monte Carlo chaque excution du pro-
gramme.
33
7/24/2019 VAD Approche Statistique
34/46
7/24/2019 VAD Approche Statistique
35/46
EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
Figure 4.4 influence de la longueur de la trame :a)Tw=40ms - b)Tw=15ms -c)Tw=30ms - d)signal non bruit
35
7/24/2019 VAD Approche Statistique
36/46
EMP CHAPITRE 4. ANALYSE DES PERFORMANCES DU VAD PROPOS
Figure 4.5 influence du paramtre alpha :a) = 0.005 - b) = 0.85 - c) = 0.05 -d)signal non bruit
36
7/24/2019 VAD Approche Statistique
37/46
7/24/2019 VAD Approche Statistique
38/46
Chapitre 5
Conclusion gnrale
Llaboration de ce travail dans le cadre du stage de troisime anne ingnieur, nous
a permis dapprofondir nos connaissances thoriques dans le domaine de la dtection et
dacqurir des nouvelles mthodes de travail.
Le stage consistait dvelopper un algorithme de la dtection dactivit vocale pour
loptimisation de traitement de signal de parole lors des communications mobiles.
Lalgorithme propos lors de cette tude na t test que sur des signaux de la commu-
nication mobile noys dans diffrents types de bruits acoustiques pour diffrents niveaux
de SNR.
La dtermination de la densit de probabilit de la statistique du test a t difficile,
donc nous avons opt pour lapplication de la mthode de Monte Carlo.
Les valeurs qui ont t affectes aux diffrents paramtres sont :
Tw = 30 msqui est la largeur de la trame.
a= 0.05qui est le coefficient de lissage.
Tms= 0.7qui reprsente la largeur de la fentre de lissage.
Ces paramtres ont t choisis exprimentalement de telle sorte avoir un compromis
entre la probabilit de dtection et la probabilit de fausse alarme, cest--dire, pour
amliorer les performance de notre dtecteur dactivit vocale.
Par contraintes de temps de calcul lies aux simulations de Monte Carlo, nous tions
obligs de prendre des valeurs de PFA mdiocres, cependant, pour amliorer les perfor-mances, nous avons propos une solution base sur lutilisation dune LUT (Look Up
38
7/24/2019 VAD Approche Statistique
39/46
EMP CHAPITRE 5. CONCLUSION GNRALE
Table) construite au pralable.
Comme perspective, on propose de faire limplmentation de notre algorithme sur un
processeur des signaux (un DSP ou un FPGA).
Nous avons russi atteindre lobjectif demand qui est llaboration dun algorithme
de la dtection dactivit vocale, bas sur une approche statistique.
Ce stage concide avec notre thme de projet de fin dtude, il nous a permis dappli-
quer nos connaissances thoriques dans le domaine du traitement du signal de la parole.
En conclusion, ce stage nous a permis dapprendre travailler en autonomie, ainsi qu
synthtiser une mthodologie de travail pour rsoudre les problmes que peut rencontrer
un ingnieur.
39
7/24/2019 VAD Approche Statistique
40/46
Annexes
40
7/24/2019 VAD Approche Statistique
41/46
Annexe A
La variable alatoire gaussienne
complexe
On appelle une variable alatoireZ=X+jYune VA gaussienne complexe si sa partie
relle et sa partie imaginaire sont toutes les deux des VA gaussiennes indpendantes qui
ont la mme variance.
Si on suppose que les VA sont centres c--d : E[X] = E[Y] = 0 et de variance
2X=2Y = 2
2,la VA Z sera centre et aura comme variance 2Z=
2X+
2Y =
2
On sait que la PDF dune VA gaussienne 2 dimensions X= [XY]centr est donne
par :
fX(X, Y) = 1
2
det(C)exp
XtC1X
AvecCla matrice de covariance de la VA X. En remplaant C=
2
2 0
0 2
2
On trouve :
f(X,Y)(x, y) = 1
24
4
exp
(x
2 + y2)
2
On peut crire :
fZ(z) = 1
2exp
|z|
2
2
Cest la PDF quon a utilis pour modliser le signal parole.
41
7/24/2019 VAD Approche Statistique
42/46
Annexe B
Simulation de Monte Carlo
Lorsque nous nous somme pas en mesure de determiner la probabilit quune variable
alatoire dpasse une valeur donne par des mthodes analytiques ou des valuation
numriques dune forme dexpression proche ,on fait appel aux simulation de Monte
Carlo.
Dans les problmes de dtection on cherche la probabilit quune VA ou une statis-
tique Tdpasse un seuil en dautre termes :P[T > ].Lexemple suivant illustre les
tapes suivre pour faire une simulation de Monte Carlo. Soit T(x) =Nk=1 x[k] o
X N(0, 2I)
Gnration des donnes
1. Gnrer une vecteur colonne de VA,cela se fait facilement sur Matlabpar
x=sqrt(var)*randn(N,1)o varest la variance du BBG 2
2. Calculer T(x) =Nk=1 x[k]et cela se fait sur Matlab par T=sum(x)
3. Rpter la procdure Mfois pour obtenir Mralisations de Ti{T1, T2, , TN} onprend gnralement M= 100/PFA [1]
Estimation de la probabilit
1. Compter Mle nombre de Ti qui dpasse le seuil
2. Estimer la probabilit P[T > ] =M/M
42
7/24/2019 VAD Approche Statistique
43/46
Annexe C
Code Matlab de lalgorithme VAD
clc
clear
close all
[s,Fs]=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.1.wav);%lowSNR
S1=audioread(C:\Users\Zakari\Desktop\Aurora00\w10180c3.0.wav);
Ts=1/Fs;
a=0.05;
Tms=0.7;
Tw=30*10^-3;%largeur de la fenetre
LL=round(Tms/Tw);
L=Tw/Ts+1;%nbr dechentillons par fenetre
ch=round(L/2);%chauvauchement entre les trames
%%% estimation de la variance des echantillons spectraux du bruit
%%% Initialisation
ss=s(1:L);
FF=fft(ss);lambdan=abs(FF).^2;
Pf=0.1;
B=100;
x=zeros(1,B);
y=zeros(1,B);
z=zeros(1,B);
for j=1:B
Z0=0;for k=1:L
43
7/24/2019 VAD Approche Statistique
44/46
EMP
x(k)=sqrt(lambdan(k)/2)*randn(1,1);
y(k)=sqrt(lambdan(k)/2)*randn(1,1);
z(k)=norm(x(k)+1i*y(k));
Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;
end
T0(j)=Z0;
end
gammapos=ceil((B+1)*(1-Pf));
T0=sort(T0);
gammaamp=T0(gammapos);
gammaampv=gammaamp;
%%% analyse de trames
D=0;P=lambdan;
PP=[P];
for i=1+L-ch:L-ch:length(s)-L
ss=s(i:i+L-1);
nf=(i-1)/(L-ch);
FF=abs(fft(ss)).^2;
P=a*P+(1-a)*FF;%%
PP=[PP P];%% Adaptation
if mod(nf,LL)==0
PPP=PP(:,(nf-LL+1):nf);
lambdan=min(PPP);
for j=1:B
Z0=0;
for k=1:L
x(k)=sqrt(lambdan(k)/2)*randn(1,1);
y(k)=sqrt(lambdan(k)/2)*randn(1,1);
z(k)=norm(x(k)+1i*y(k));
Z0=Z0+z(k)/lambdan(k)-log(z(k)/lambdan(k))-1;
end
T0(j)=Z0;
end
gammapos=ceil((B+1)*(1-Pf));
T0=sort(T0);
gammaamp=T0(gammapos);
gammaampv=[gammaampv gammaamp];
44
7/24/2019 VAD Approche Statistique
45/46
EMP
end
%%%
Z=0;
for k=1:L
Z=Z+FF(k)/lambdan(k)-log(FF(k)/lambdan(k))-1;
end
if Z>=gammaamp
D=[D 1];
else
D=[D 0];
end
end
%%% trac des resultat
DD=D(1)*ones(1,L-ch);for k=2:length(D)
DD=[DD D(k)*ones(1,L-ch)];
end
G=gammaampv(1)*ones(1,LL*(L-ch));
long=length(gammaampv);
for k=2:long
G=[G gammaampv(k)*ones(1,LL*(L-ch))];
endamp=max(s);
t=0:Ts:(length(s)-1)*Ts;
subplot(3,1,1)
plot(t,s)
title(signal bruit);
hold on
t=0:Ts:(length(DD)-1)*Ts;
plot(t,(amp)*DD,r)
hold off
subplot(3,1,2)
t=0:Ts:(length(S1)-1)*Ts;
plot(t,S1)
title(signal parole non bruit);
subplot (3,1,3)
t=0:Ts:(length(G)-1)*Ts;
plot(t,G)
xlabel(le temps (s))
title(adaptation du seuil);
45
7/24/2019 VAD Approche Statistique
46/46
Bibliographie
[1] J. Sohn and W. Sung, "A voice activity detector employing soft decision based
noise spectrum adaptation",in Proc. Int. Conf. Acoustics, Speech, and Signal Processing,
1998, pp. 365368.
[2] R. Martin,"Noise Power Spectral Density Estimation Based on Optimal Smoothing
and Minimum Statistics", IEEE Trans. Acoust., Speech, Signal Processing , VOL. 9, NO.
5, JULY 2001.
[3] Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square
error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Signal Pro-
cessing, vol. ASSP-32, pp. 11091121, Dec. 1984.