Multimedijalni sistemi
-
Upload
mirza-aganovic -
Category
Documents
-
view
94 -
download
12
description
Transcript of Multimedijalni sistemi
U N I V E R Z I T E T U T U Z L I
F A K U L T E T E L E K T R O T E H N I K E
K O M U N I K A C I J E
MULTIMEDIJSKI
SISTEMI I KOMUNIKACIJE
LABORATORIJSKA VJEŽBA 1
Kodiranje zvuka, govora i muzike
Mirza Aganović III-22/06
Zadatak 1 .
Potrebno je analizirati govorni signal, uočiti razlike između njegovih zvučnih i bezvučnih
glasova, te odgovoriti na postavljena pitanja.
1. Pokrenuti Spwave aplikaciju.
2. Otvoriti datoteku Seven.wav tako što se iz menija izabere File -> Open .
Nakon što se datoteka učita, aplikacija Spwave će prikazati vremensku analizu govornog
signala (u ovom slučaju radi se o riječi "seven"). Vaš je zadatak otkriti glasove "s" i "n"
unutar izgovorene riječi. Nakon što otkrijete odsječke koji ih predstavljaju, nad navedenim
odsječcima provedite frekventnu analizu.
3. U meniju Edit izaberite Preference for Analysis , zatim Attribute , te markirajte opciju Use
a linear spectrum . Time se amplitude u frekvencijskoj analizi govornog signala prikazuju u
linearnoj ljestvici.
4. Označiti odsječak učitanog govornog signala te pritisniti kombinaciju tipki Shift i N.
5. Kako bi prikaz učinili razumljivijim, označite dio frekvencijskog spektra i
“povećajte"/"smanjite" ga korištenjem kombinacije tipki Alt i I/Alt i O.
Na slici je prikazana frekvencijska analiza glasa „s“. Ovaj glas nema harmoničnu strukturu i
zbog toga je to bezvučni glas. Spektar raste od nulte frekvencije prema gore.
6. Koje sve razlike uočavate u frekvencijskoj analizi glasova "s" i "n"? Objasnite. Precrtajte
frekvencijske spektre glasova "s" i "n" dobivene ovom analizom, te na njima označite
specifičnosti vezane za te glasove.
Na slici je prikazan frekvencijski spektar glasa „n“. Za razliku od glasa „s“ ovaj oglas ima
harmoničnu strukturu. Spektar glasa „n“ kreće od nulte frekvencije i onda naglo raste na više
frekvencije.
7. Identificirajte ( približno ) formante glasa "e" iz riječi "seven". Na kojim se frekvencijama
oni pojavljuju?
Frekvencijski spektar glasa „e“ pojavljuje se na : 134.572[Hz], 150.121 [Hz], 306.879[Hz],
603.030[Hz].
Zadatak 2.
Potrebno je snimiti vlastiti govorni signal i analizirati ga. Cilj je uočiti razlike između
zvučnih i bezvučnih glasova te karakteristične formante pojedinih glasova.
Odgovorite na sljedeća pitanja:
a) Na vremenskom prikazu signala pronađite po jedan zvučni i bezvučni glas (po izboru) te
uočite razlike između odabranih signala. Po potrebi uvećajte prikaz dijela signala opcijom
View->Zoom In. U slučaju pojave šumova u snimljenom govornom signalu, provedite opciju
fitriranja šuma Efect->Noise Removal. Filtriranjem šuma će se jasnije uočiti razlike između
signala zvučnih i bezvučnih glasova. Kopirajte sliku iz aplikacije, na kojoj ste označili
posmatrane signale te opišite uočene razlike.
Rečenica: „Mirza Aganović“. Zvučni glas: „a“; bezvučni: „ć“. Potrebno je bilo provesti
operaciju filtriranja šuma.
Na slici j prikazano uklanjenje šuma
b) Odabrane signale glasova prikažite u frekventnom domenu (opcija Analyze -> Plot
Spectrum). Objasnite prikazane razlike u spektru. Kopirajte sliku sa frekventnim spektrom
koji ste dobili ovom analizom te na njemu označite specifičnosti vezane za te glasove.
Zvučni glas „a“
Bezvučni glas „ć“
c) Identificirajte (približno) formante jednog od sljedećih glasova: "a", "e", "i" koji se
pojavljuju u vašem govornom signalu. Na kojim se frekvencijama pojavljuju formanti?
Kopirajte sliku iz aplikacije sa uočenim formantima i naznačite o kojem je glasu riječ.
Spektar glasa „a“
Zadatak 3.
Vaš je zadatak analizirati neku od ponuđenih izgovorenih fraza mijenjajući broj
koeficijenata LPC kodera. Prvo odaberite izgovorenu frazu, a zatim snimite vlastiti glas
(upustvo u nastavku). Odgovoriti na sljedeća pitanja za oba slučaja.
a) Šta zaključujete, kako broj koeficijenata utječe na kvalitetu zvuka (govornog signala)? Šta
se događa sa frekventnim spektrom u zavisnosti od broja koeficijenata? Obrazložite.
b) Za odabranu frazu (snimljeni glas) odaberite prikaz osnovne frekvencije i pomoću
ponuđenih opcija modificirajte osnovnu frekvenciju. Objasnite uticaj promjena na doživljaj i
kvalitetu zvuka?
Mijenjanjem broja koeficijenata mijenja se i kvalitet zvuka. Veći broj koeficijenata (npr. 12)
zvuk je bolji a sa manje koeficijenata signal se pogoršava i govor postaje nerazumljiv.
c) Odaberite zvučnu datoteku Beethoven (muzika) u padajućem meniju te je analizirajte
(promjenom broja koeficijenata). Postoji li razlika u kvaliteti kodiranja govornog i muzičkog
signala s koderom LPC? Obrazložite.
LPC koder nije pogodan za muzički signal jer je on namijenjen za kodiranje govora (zasnovan
na modelu govoronog trakta)
d)Izračunati brzinu (engl. bitrate ) kodera LPC za slučaj u kojem je linearni filter određen sa
10 koeficijenata.
Frekvencija uzorkovanja: 8kHz
Dužina okvira: 180 uzoraka = 22.5 ms
ukupan broj bita za jedan okvir: 54; 44.444 okvira/s (1000/22.5)
54 x 44.444 = 2.4 kbps
Brzina LPC za 10 koeficijenata je 2.4 kbps.
Zadatak 4.
1. Pokrenite aplikaciju Spwave te učitajte datoteku Fox.aiff.
2. Snimiti kopiju datoteke biranjem opcije Save As unutar menija File, i to tako da odaberete
kodeke Microsoft GSM 6.10 (Fox_gsm.wav), Microsoft ADPCM (Fox_adpcm.wav), te
Microsoft PCM (Fox_pcm.wav) u padajućem meniju Save as type (u zagradama su dani
nazivi koje ćete dodjeliti novonastalim datotekama). Bitno je da svaki put, prije promjene
formata izvorne datoteke Fox.aiff, istu učitate odabirom opcije Open New unutar menija File.
3. Preslušajte sve verzije datoteke Fox pomoću aplikacije Spwave i popunite tabelu 1. Za
ocjenu subjektivne kvalitete koristite mjerila (ocjene) spomenuta na predavanjima. Izračunajte
približnu brzinu za svaku od navedenih datoteka.
4. Uporedite veličine datoteka i ocjene njihove subjektivne kvalitete, što zaključujete?
Tabela 1. Usporedba formata za kodiranje zvuka (muzike)
Naziv datoteke Subjektivna ocjena Veličina [ kB]
Fox.aiff 4 192
Fox_GSM.wav 2 39.2
Fox_ADPCM.wav 3 98.8
Fox_PCM.wav 4 192
Vidimo da Fox_GSM.wav je najlošiju kvalitetu, ali ima dobru kompresiju u odnosu na druge.
Fox_ADPCM.wav i Fox_PCM.wav su veoma dobre kvalitete ali zbog njihove velike brzine
njihovo kodiranje zauzima vise resursa.