Zpracování digitalizovaného signálu

81
Zpracování digitalizovaného signálu Metody krátkodobé analýzy. - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí.

description

Zpracování digitalizovaného signálu. Metody krátkodobé analýzy . - v časové oblasti - ve frekvenční oblasti Modelování funkce Cortiho ústrojí. krátkodobá analýza. zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám. - PowerPoint PPT Presentation

Transcript of Zpracování digitalizovaného signálu

Page 1: Zpracování digitalizovaného signálu

Zpracování digitalizovaného signálu

Metody krátkodobé analýzy.

- v časové oblasti

- ve frekvenční oblasti

Modelování funkce Cortiho ústrojí.

Page 2: Zpracování digitalizovaného signálu

krátkodobá analýza

• zpracování signálu na časovém intervalu, o němž se předpokládá, že na něm nedochází k výraznějším dynamickým změnám.

• Tento interval se nazývá mikrosegment (někdy také stručneji segment) a jeho velikost se obvykle od 10 do 40 ms.

Page 3: Zpracování digitalizovaného signálu

Váhové okénko

• Tím, že se rozhodneme pro určitou velikost mikrosegmentu, implicitně předpokládáme, že zvukový signál je v okolí okénka periodický s periodou okénka. Chyba, která vzniká nesouladem s tímto předpokladem, může být do jisté míry kompenzována použitím tzv. okénka. Okénko je posloupnost vah pro prvky mikrosegmentu.

Page 4: Zpracování digitalizovaného signálu

Hammingovo okénko

• w(n) = 0.54 - 0.46cos(2n/(N-1))

• pro n = 0,...,N-1

• w(n) = 0 pro ostatní n (mimo mikrosegment)

Page 5: Zpracování digitalizovaného signálu

Hammingovo okénko - graf

Page 6: Zpracování digitalizovaného signálu

Pravoúhlé okénko

• přiřadí každému prvku mikrosegmentu jednotkovou váhu, tj. je definováno vztahem

• w(n) = 1 pro n = 0,...,N-1

• w(n) = 0 pro ostatní n (mimo mikrosegment)

Page 7: Zpracování digitalizovaného signálu

Analýza digitalizovaného signálu v časové oblasti

- vychází se přímo z hodnot vzorku,

nikoliv z hodnot spektra

Page 8: Zpracování digitalizovaného signálu

Funkce krátkodobé energie

E(n) = (s(k)w(n-k))2

k = -

Page 9: Zpracování digitalizovaného signálu

Krátkodobá intenzita

I(n) = |s(k)|w(n - k)

k = -

použití - např. detekce ticha

Page 10: Zpracování digitalizovaného signálu

Krátkodobá funkce středního počtu průchodu

nulou

• se dostane jako součet všech průchodů digitalizovaného signálu nulou

Page 11: Zpracování digitalizovaného signálu

Počet lokálních extrémů

• Je v podstatě modifikací krátkodobé funkce středního počtu průchodů nulou.

• Jak funkce středního počtu průchodů nulou, tak funkce počtu lokálních extrémů mohou být při analýze řečového signálu negativně ovlivněny šumem zvukového pozadí.

Page 12: Zpracování digitalizovaného signálu

Diferenčí klasifikátory

D = |s(k)-s(k-1)|w(n-k)

k = -

(diference prvního řádu)

Page 13: Zpracování digitalizovaného signálu

Krátkodobá autokorelační funkce

R(n,m) = (s(k)w(n-k))(s(k+m)w(n-k+m))

k = -

Page 14: Zpracování digitalizovaného signálu

Krátkodobá autokorelační funkce

• Této funkce se používá často při zjišťování periodicity signálu a základního tónu řeči.

• Je-li vstupní signál periodický s periodou P, nabývá tato funkce maximálních hodnot pro

m = 0, P, 2P, ... .

• Předpokládá se, že mikrosegment je dlouhý aspoň dvě periody signálu.

Page 15: Zpracování digitalizovaného signálu

Zpracování signálu ve frekvenční oblasti

– Krátkodobá Fourierova transformace

• Kepstrální analýza

• Lineární predikce

Page 16: Zpracování digitalizovaného signálu

Krátkodobá Fourierova transformace

S(, n) = s(k)w(n-k)e-ik ,

k = - Fixujeme-li čas n, pak S(, n) představuje

obyčejnou Fourierovu transformaci posloupnosti {s(k)w(n-k)} a |S(, n)| vyjadřuje amplitudu složky akustického spektra odpovídající frekvenci

Page 17: Zpracování digitalizovaného signálu

Krátkodobá Fourierova transformace

• Výpočet se provádí obvykle pomocí algoritmu rychlé Fourierivy transformace (FFT = Fast Fourier Transform) (FFT je speciálním případem diskrétní Fourierovy transformace (DFT) aplikovatelným pro případy, kdy délka mikrosegmentu je mocninou 2.)

Page 18: Zpracování digitalizovaného signálu

FFT - vliv okénka pravoúhlé okénko Hammingovo okénko

Page 19: Zpracování digitalizovaného signálu

Kepstrální analýza• Vychází z modelu činnosti hlasového ústrojí,

který předpokládá vznik řečového signálu konvolucí budicí funkce rezonančních dutin hlasového ústrojí. Kepstrum je definováno jako zpětná Fourierova transformace logaritmu Fourierova obrazu vstupního signálu x(k) Kepstrum se často používá při stanovení základního hlasivkového tónu a pro klasifikaci řeči na znělé a neznělé segmenty.

Page 20: Zpracování digitalizovaného signálu

Lineární predikce

• Lineární predikce je metoda analýzy akustického signálu, založená na předpokladu, že k-tý vzorek signálu lze popsat lineání kombinací n předchozích vzorků a buzení u(k).

Page 21: Zpracování digitalizovaného signálu

Lineární predikce

n

s(k) = - ai s(k - i) + Gu(k) ,

i=1

• n je řád modelu a G koeficient zesílení. Při určování ai a G se používá metody nejmenších čtverců.

Page 22: Zpracování digitalizovaného signálu

Lineární predikce

• Lineární predikce bývá zařazována mezi metody zpracování signálu ve frekvenční oblasti. Používá se pro určení základního hlasivkového tónu, frekvence formantů apod.. Řád modelu n se volí obvykle v rozmezí 6 - 14.

Page 23: Zpracování digitalizovaného signálu

Rozpoznávání izolovaných slov

• povely, nebo uživatel musí po vyřčení slova udělat pausu

• odpadá problém stanovení rozhraní dvou slov v souvislé promluvě

• obvykle jde o systémy závislé na uživateli (nutné natrénování) s omezenou kapacitou rozpoznávaných slov

Page 24: Zpracování digitalizovaného signálu
Page 25: Zpracování digitalizovaného signálu

Akustický vektor

• Vektor příznaků, vztahující se obvykle k mikrosegmentu, který se typicky obdrží některou z metod krátkodobé analýzy,

Page 26: Zpracování digitalizovaného signálu

Typy klasifikátorů Klasifikátory využívající porovnání slov

metodou DTW Klasifikátory založené na statistických metodách

(modelování pomocí skrytých Markovových modelů)

Klasifikátory zpracovávající rozpoznávané slovo na dvou úrovních; v první úrovni se provede segmentace a fonetické dekódování jednotlivých segmentů, ve druhé úrovni probíhá rozpoznávání slova na základě dekódovaných segmentů.

Page 27: Zpracování digitalizovaného signálu

SW pro analýzu signálu

• Např.:

• ESPS• Entropic Cambridge Research Laboratory

Page 28: Zpracování digitalizovaného signálu

Metoda DTW (Dynamic Time Warping)

• Metoda DTW (česky: metoda borcení časové osy) se používá pro porovnání dvou úseků promluv (v našem případě dvou slov), vyjádřených posloupností akustických vektorů, vzniklých rozdělením slov do mikrosegmentů a jejich klasifikací souborem krátkodobých charakteristik.

Page 29: Zpracování digitalizovaného signálu

Postup:• Pro množinu rozpoznávaných slov vytvoříme soubor

referenčních posloupností akustických vektorů (obvykle pro každé slovo několik posloupností odpovídajících několika způsobům vyřčení slova).

• Vytvoříme posloupnost akustických vektorů pro rozpoznávané slovo.

• Metodou DTW porovnáváme postupně tuto posloupnost s referenčními, a za rozpoznané slovo vezmeme to, které odpovídá největší shodě.

Page 30: Zpracování digitalizovaného signálu

• A-rozpoznávané, B-referenční slovo

A = {a(1), a(2), ... , a(n)}

B = {b(1), b(2), ... , b(m)}.

a(1), a(2), ... , a(n),

b(1), b(2), ... , b(m), - posloupnosti akustických vektorů pro A, B

Page 31: Zpracování digitalizovaného signálu
Page 32: Zpracování digitalizovaného signálu
Page 33: Zpracování digitalizovaného signálu

DTW-formalizace

• Algoritmus DTW hledá parametrizaci f, g: i = f(k), j=g(k), k=1 ,…, K

• minimalizující výraz KD(A, B) = d(a(f(k)), b(g( k))),

k=1• kde d je vzdálenost mezi akustickými

vektory (např. Eukl. metrika)

Page 34: Zpracování digitalizovaného signálu

DTW-omezující podmínky

• Možnosti:

• f(1)=1; f(K)=n;g(1)=1; g(K)=m;

• K m

• K n

• K max(m, n)

• K min(m, n)

Page 35: Zpracování digitalizovaného signálu
Page 36: Zpracování digitalizovaného signálu
Page 37: Zpracování digitalizovaného signálu
Page 38: Zpracování digitalizovaného signálu

DTW-omezující podmínky

• f, g - neklesající funkce

• omezení na lokální souvislost:

• 0 f(k) - f(k-1) konst_1

• 0 g(k) - g(k-1) konst_2

• Globální omezení

Page 39: Zpracování digitalizovaného signálu
Page 40: Zpracování digitalizovaného signálu
Page 41: Zpracování digitalizovaného signálu
Page 42: Zpracování digitalizovaného signálu

DTW-realizace

• Heuristické metody

• Metody lineárního a dynamického programování

• O(N3V )

Page 43: Zpracování digitalizovaného signálu

Vektorová kvantizace

• Akustický vektor = vektor příznaků

• použití kvantizace:

- komprese

- vokodéry

- předzpracování pro HMM

- urychlení DTW

Page 44: Zpracování digitalizovaného signálu

Kódová kniha• Podprostor X n-dimensionálního vektorového

prostoru rozdělíme na L disjunktních podmnožin X(i) pokrývajících podprostor X. V každé podmnožině X(i) vybereme reprezentanta v(i).

• Vektorový kvantizér přiřazuje vektoru x X(i) vektor v(i).

• Množina všech vektorů v(i) tvoří kódovou knihu.

Page 45: Zpracování digitalizovaného signálu

Kvantizace

• Kvantizační chyba

• optimalita kvantizéru

• centroid - minimalizuje d(x,v)dx

X(i)

Page 46: Zpracování digitalizovaného signálu

vyhledávání v kódové knize

• Dělení na shluky a subshluky

• prohledávací stromy

• binární, ternární

• (MacQuennův algoritmus pro dělení shluku na dva subshluky)

Page 47: Zpracování digitalizovaného signálu

Skryté Markovovy modely

• Model představy: hlasové ústrojí je během krátkého časového intervalu (např. odpovídající době trvání mikrosegmentu) v jednom z konečně mnoha stavů artikulačních konfigurací, generuje hlasový signál, a přejde do následujícího stavu hlasového ústrojí.

• Tato činnost je chápána statisticky.

Page 48: Zpracování digitalizovaného signálu

HMM

• Kvantizací akustických vektorů (vytvořením kódové knihy) lze dosáhnout konečnosti všech parametrů odpovídajícího modelu.

• HMM = Hidden Markov Model

• Vintsyuk, Jelinek

• IBM - Tangora

Page 49: Zpracování digitalizovaného signálu

Markovův proces se skrytým Markovovým modelem je pětice

• G = (Q, V, N, M, ) kde:

• Q = {qi, ,..., qk} je množina stavù

• V = {v1, ... , vm}je abeceda výst. symbolů

Page 50: Zpracování digitalizovaného signálu

• N = {nij} je matice přechodu, jejíž prvky určují, s jakou pravděpodobností přechází systém ze stavu qi (v čase t) do stavu qj (v čase t+1),

Page 51: Zpracování digitalizovaného signálu

• M = {mij} je matice přechodu, jejíž

prvky určují, s jakou pravděpodobností je v kterémkoliv čase t ve stavu qi generován akustický vektor vj,

= {i} je vektor pravděpodobností počátečního stavu (i-tá složka vektoru udává pravděpodobnost, že i-tý stav bude stavem počátečním).

Page 52: Zpracování digitalizovaného signálu

Parametry HMM

• Soubor parametrů Markovova modelu je trojice = (N, M, ).

• Soubor parametrů vytváří model řečového segmentu, např. slova.

Page 53: Zpracování digitalizovaného signálu

• Př. - původní Vintsjukův Model pro slovo

• počet stavů 40-50, - odvozeno od průměrného počtu mikrosegmentů ve slově (při délce mikrosegmentu 10 msec).

Page 54: Zpracování digitalizovaného signálu

Určení pravděpodobnosti promluvy (P(O | ))

• O = {o1, ... , on}

t(i) pravděpodobnost toho, že při generování posloupnosti {o1, ... , ot} se dostaneme do stavu qi

Page 55: Zpracování digitalizovaného signálu

• výpočet t(i) lze provést rekurzivně:

1(i) = i mi(o1) (kde mi(o1) znamená prvek M určující pravděpodobnost generování o1 za stavu qi )

nt+1(j) = (t(i)nij ) mi(ot+1).

i=1

Page 56: Zpracování digitalizovaného signálu

• Konečné vyčíslení P(O | ):

N

P(O | ) = T(i)

i=1

(Forward-backward algorithm)

Page 57: Zpracování digitalizovaného signálu

Alternativa výpočtu P(O | ) :

• Výpočet maximálně pravděpodobné posl.

Q(1), q(2), … , q(T) (za předp. O, )

Lze určit použitím Viterbiova algoritmu

(používá dynamické programování).

Page 58: Zpracování digitalizovaného signálu

Trénování parametrů modelu = (N, M, ).

• O = {O(1), O(2), …, O(S)}

• máme najít maximalizující

P(O | ) = P(O(1), O(2), …, O(S)| )

Nejužívanější postup je Baumův-Welchův algoritmus.

Page 59: Zpracování digitalizovaného signálu

Rozhodovací pravidlo - rozpoznávání slova

• Princip maximální věrohodnosti:

• Pro neznámé slovo O jsou určeny pravděpodobnosti P(O | ) pro všechna ,

maximální odpovídá třídě které slovo přiřazujeme.

Page 60: Zpracování digitalizovaného signálu

Implementace• Modelování povelů - nejčastěji modely se

4-7 stavy.

• HTK = Hidden Markov Model ToolKit

spec. SW pro HMM

http://www-white.media.mit.edu/~nuria/HTKV2.0/htk.

Html

Entropic Cambridge Research Laboratory

Page 61: Zpracování digitalizovaného signálu

HMM modelování fonémů

• Obvykle 4-7 stavů

• Modely slov se vytváří zřetězením modelů fonémů

• problémy s výpočtem v reálném čase

• speciální algoritmy na vyhledávání

Page 62: Zpracování digitalizovaného signálu

Př. HMM struktur fonémů

Page 63: Zpracování digitalizovaného signálu

Určení začátku a konce promluvy

Obtíže:

• šum pozadí kontra sykavky

• detekování nahodilého zvukového vzruchu kontra detekce neznělých okluziv (p, t, k), a (c, č), vekterých jsou obsaženy pauzy

• možná přítomnost zvuku o nízkých frekvencích mimo oblast slyšitelnosti

Page 64: Zpracování digitalizovaného signálu

Př. 1. (začátek slova “táta”)

Page 65: Zpracování digitalizovaného signálu

Př.2: “táta”, jiný vzorek, stejný mluvčí

Page 66: Zpracování digitalizovaného signálu

Př.3 - pozadí, nízké frekvence

Page 67: Zpracování digitalizovaného signálu

Př.4 - pozadí

Page 68: Zpracování digitalizovaného signálu

Rozpoznávání souvislé řeči

Hlaví rozdíly oproti rozpoznávání slov:

• nelze vytvořit analogii databáze vzorů

• prozodické faktory

• nutnost určování hranice mezi slovy

• výplňkové zvuky a chyby řeči

Page 69: Zpracování digitalizovaného signálu

Statistický přístup - jazykové modely

• Elementární příklad, ilustrující ideu:

• jestliže analyzovaná promluva má vzhledem k HMM modelům stejnou pravděpodobnost pro slova “máma“ i “nána”, je rozumné se rozhodnout pro “máma“, neboť se vyskytuje častěji.

Page 70: Zpracování digitalizovaného signálu

jazykové modely

• W = (w(1)w(2)…w(n)) - posloupnost slov

• O = (o(1)o(2)…o(t)) - posl. akust. vektorů

• Chceme nalézt W* maximalizující P(W| O).

Page 71: Zpracování digitalizovaného signálu

jazykové modely

Dle Bayesova pravidla platí

P(W*|O) = max P(W|O) =

W

= max (P(W)P(O|W))/P(O)

W

Page 72: Zpracování digitalizovaného signálu

jazykové modely

Pro nalezení tohoto maxima tedy potřebujeme znát

• model řečníka, tj. pravděpodobnosti

P(O|W)

• jazykový model, tj. pravděpodobnosti

P(W)

Page 73: Zpracování digitalizovaného signálu

jazykové modely

• model řečníka, tj. pravděpodobnosti

P(O|W)

nahrazujeme pravděpodobností generování W

odpovídajícím Markovovým modelem.

Page 74: Zpracování digitalizovaného signálu

jazykové modely

jazykový model, tj. pravděpodobnosti

P(W)

řešíme z přibližného vztahu

P(W) =P(w(1)).P(w(2)|w(1)).

.P(w(3)|w(1)w(2))… P(w(n)|w(1)…w(a-1))

P(w(n)|w(1)…w(n-1))

P(w(n)|w(n-2)w(n-1))

Page 75: Zpracování digitalizovaného signálu

jazykové modely

Trigramový jazykový model:

P(w(n)|w(1)…w(n-1))

P(w(n)|w(n-2)w(n-1))

Page 76: Zpracování digitalizovaného signálu

Rozpoznávání tématu - topic recognition

• Př. Rozpoznávání burzovních zpráv je daleko přesnější, je-li známo, že se jedná o burzovní zprávy

• mění se stavový prostor a pravděpodobnost trigramů

• (honey - money)

Page 77: Zpracování digitalizovaného signálu

Syntax a sémantika jazyka

• Uplatnění syntaktické struktury

• rozdíly text/řeč - inkrementální modely syntaxe kontra klasické modely (N. Chomsky)

• úzká souvislost prozodie a syntaxe, sémantiky

Page 78: Zpracování digitalizovaného signálu

Korpusy psané a mluvené řečiTextové korpusy

• British National Corpus (Oxford)

• Český národní korpus

• Textový korpus na FI

Korpusy mluvené řeči

• Korpus mluvené řeči na FI

ELRA - European Language Resources Association

Page 79: Zpracování digitalizovaného signálu

Implementace - rozpoznávání slov, ukázka

Page 80: Zpracování digitalizovaného signálu
Page 81: Zpracování digitalizovaného signálu