Digitalni zvokssljruma5/dokumenti/zapis_informacij/z… ·  · 2010-01-181000 Hz in dobimo...

51
Digitalni zvok Akustika in psihoakustika Vzorčenje in predstavitev digitalnega zvoka Operacije nad digitalnim zvokom Stiskanje digitalnega zvoka Stiskanje govora Stiskanje, temelječe na zaznavanju MP3 Drugi algoritmi in formati stiskanja MIDI Software za urejanje in glasbeno produkcijo

Transcript of Digitalni zvokssljruma5/dokumenti/zapis_informacij/z… ·  · 2010-01-181000 Hz in dobimo...

Digitalni zvok

Akustika in psihoakustikaVzorčenje in predstavitev digitalnega zvokaOperacije nad digitalnim zvokomStiskanje digitalnega zvoka

Stiskanje govoraStiskanje, temelječe na zaznavanjuMP3Drugi algoritmi in formati stiskanja

MIDISoftware za urejanje in glasbeno produkcijo

Akustika

S fizikalno količino zvoka se ukvarja akustika, s subjektivnim zaznavanjem pa psihoakustika. Zvok je mehansko valovanje, ki se širi v dani snovi. V plinih in kapljevinah gre za vzdolžno valovanje, v trdnih snoveh lahko tudi prečno valovanje.

Hitrost zvoka v plinu:Za zrak pribl. czrak = (331,5 + 0,6 T [oC]) m/s κ = adiabatni eksponent (spec. gostota/spec. toplota), R splošna plinska konstanta, M molska masa

MRTc κ

=

Psihoakustika

Frekvenca zvoka – višina (poenostavljeno)Amplituda zvoka – glasnost (poenostavljeno)glasnost = 10 log10(j/j0) [fon]

j = jakost (gostota energijskega toka v W/m2)j0 = najmanjša jakost, ki jo z ušesom zaznamo. Izberemo j0 = 10-12 W/m2, kar ustreza jakosti 0 pri frekvenci 1000 Hz in dobimo glasnost v dB. Le-ta ni odvisna od frekvence zvoka.

Zakaj sploh tako kompliciramo?Občutljivost ušesa na jakost je logaritemska. Glasnost je subjektivni občutek. Dva tona, ki ju slišimo enako glasna, naj bosta tudi opisana z enako vrednostjo.

Psihoakustika

Slišimo frekvence 20 Hz do 20 kHzSlišimo glasnosti od 0 dB do 140 dBUho sliši logaritemsko: med 100 Hz in 200 Hz oktava, a oktava tudi med 1 kHz in 2 kHz.razlika 10 dB pri zveznem šumu pomeni podvojitev glasnosti, spremembo 5 dB jasno zaznamo, 3 dB pa večina ljudi ne.Glasnost pojema z razdaljo.

Psihoakustika

Frekvenca je fizikalna količina, višina tona, ki ga slišimo, pa ne. Odvisna je tudi od amplitude in višjih harmonskih frekvenc.Če predvajamo 200 Hz glasneje, bo večina poslušalcev slišala kot ton z nižjo frekvenco.Na najbolj občutljivem območju med 1 in 5 kHz pa uho ne zazna spremembe tona s spremembo jakosti.Dve visoki frekvenci razlika so moteči udarciDve nizki bližnji frekvenci aritmetična sredina

Psihoakustika

Pri nizkih frekvencah ločimo tone, ki so narazen za nekaj Hz, pri višjih frekvencah pa je za to potrebna razlika nekaj 100 Hz. Kritični pasovi so mnogo ožji pri nizkih frekvencah. Tri četrtine vseh kritičnih pasov je pod 5 kHz. Pri 1kHz je npr. kritični pas širok 160 Hz. Vsak signal oz. šum znotraj kritičnega pasu, katerega amplituda je manjša od osrednjega sinusnega signala, bo neslišen.

Psihoakustika

Minimalni slišni prag = minimalni nivo (glasnost), kjer uho zazna dani ton frekvence. Referenca = 1 dB pri 1 kHz. Dva tona z enako močjo in različnima frekvencama ne zaznamo kot enako glasna.Tudi slišnost šuma upada pri višjih in nižjih frekvencah.Prekrivanje: močnejši ton prekrije šibkejšega. Pojav izkoristimo za maskiranje.

Psihoakustika

Psihoakustika

Glasnosti:0 dB: slušna meja10 dB: človeško dihanje na 3 m20 dB: šumenje listja30 dB: gledališče (občinstvo)40 dB: bivalno naselje ponoči50 dB: mirna restavracija60 dB: pisarna ali restavracija70 dB: promet80 dB: sesalec z 1 m

Psihoakustika

Glasnosti [dB]:90: glasna tovarna, težki tovornjak z 1 m100: pnevmatsko kladivo z 2 m, diskoteka110: pospeševanje motocikla s 5 m120: rock koncert, vzlet letala s 100 m130: prag bolečine150: letalski motor s 30 m180: raketni motor s 30 m

Psihoakustika

ton = zvok z eno samo frekvenco (sinusno valovanje; črtast spekter z eno sinusno sestavino – porazdelitev jakosti po frekvencah)zven = zvok z osnovno in višjimi harmonskimi frekvencami (celimi večkratniki osnovne). Prav tako črtast spekter.šum = zvok, v katerem so v večji ali manjši meri vse sinusne sestavine v nekem intervalu (ima zvezni spekter).

Vzorčenje in predstavitev digitalnega zvoka

Digitalni zvok ustvarimo z vzorčenjem nepretrganega signala, generiranega z izvorom zvoka (A/D pretvornik ADC).Podobno DAC ponovno generira analogni zvok za predvajanje (povezan na ojačevalnik in zvočnike).Frekvenca vzorčenja mora biti vsaj 2x višja od najvišje frekvence v originalnem signalu.

pri CD 44,1 kHz, pri kasetah DAT 48 kHz.

Vzorčenje in predstavitev digitalnega zvoka

Velikost vzorca in kvantizacija. Linearna ali nelinearna (npr. logaritemska).Število kanalov ali sledi (mono, stereo, 4, 16, 32, …)Prepletanje

prednosti: lažja sinhronizacija kanalovslabosti: zapravi prostor, ko niso potrebni vsi kanali; potratnost enokanalnih aplikacij, ki dostopajo do vseh vrednosti in jih potem zavržejo, (začasno) prestavljanje ali razteg kanala v prepletenem načinu zahteva “razpletanje” in ponovno prepletanje; ne dovoljuje spremembe števila kanalov.

Vzorčenje in predstavitev digitalnega zvoka

Vzorčenje in predstavitev digitalnega zvoka

“Dithering” – pred vzorčenjem vnesemo naključni šumDithering razprši šum po spektru. Ni večkoncentriran okrog tona in je manj moteč.

Vzorčenje in predstavitev digitalnega zvoka

Operacije nad digitalnim zvokom

Snemanje in predvajanjeUrejanjeEfektiSinhronizacijaPretvorba

Snemanje in predvajanje

Vgrajeni mikrofoni vs. zunanji mikrofoniIzbira primerne frekvence vzorčenja in velikosti vzorca. Slednja je pomembnejša.Hitrost prenosa [bit/s] = frekvenca [Hz]* velikost vzorca [bit] * št. kanalov (* povpr. faktor stiskanja)CD: 44.100 * 16 * 2 = 1.411.200 bit/s80 min: 1.411.200 * 80 * 60 / 8 = 846.720.000 B(360.000 sektorjev * 2352 B/sektor). Digital Audio Tape (DAT): 32, 44.1 ali 48 kHz, 12 bitov ali 16 bitov na vzorec. 60 ali 170 m dolžine. Različni standardi (15 do 180 minut glasbe). Do 2005 v redni pro-fesionalni in polprofesionalni rabi.

Snemanje in predvajanje

Največkrat snemanje direktno na disk.Hitro nalaganje in predvajanje delov digitalnih avdio zaporedij (segmentov) zahteva naključni dostop.Le tako bo zagotovljen nepretrgan pretok podatkov k DAC.Pri napravah s konstantno hitrostjo prenosa to ni problem (neposredna linearna preslikava). V splošnem pa je potreben indeks, ki določa naslov segmenta s časovno kodo.

Snemanje in predvajanje

Pri snemanju zagotovimo zadosten razpon vzorčnih intervalov, da se izognemo rezanju amplitud. Rezanje (utišanje) ima neprijeten slušni učinek. Pri določenih frekvencah slišimo celo napačen ton.

Urejanje digitalnega avdia

Osnovne operacije urejanja so izrezovanje, kopiranje in vstavljanje segmentov.Vstavljanje lahko povzroči slišni klik, ki ga izravnavamo npr. s tehniko “cross-fade”.“Neškodljivo” urejanje. Segmentov ne premeščamo fizično, ampak omogočimo dostop in parametre le-tega preko igralne liste.Določanje začetka in konca signala pri urejanju.Dodajanje in brisanje sledi, združevanje sledi.Priljubljena operacija je tudi tvorba zank.

Efekti

zakasnitev (delay) – za efekta odmeva in nihanjaekvilizacija (equalization) – poudarjanje, zmanjševanje ali uravnavanje frekvenčnih pasov znotraj segmenta. Običajno grafična ekvilizacija, ki omogoča rabo različnih filtrov v povezavi z drsnikizmanjševanje šuma (noise reduction) – tehnike DPSnormalizacija (normalization) – spremeni vrednosti v segmentu tako, da izenači najvišjo amplitudo z najvišjo dovoljeno vrednostjo

Efekti

časovna kompresija in razširjanje (time compression and expansion) – brez spreminjanja višinespreminjanje višine (pitch shifting) – višina segmenta se spremeni brez spreminjanja dolžinestereoizacija (stereoization) – delitev sledi v dve vzporedni stereo sledi z razlikovanjem vsebineakustična okolja (acoustic environments, surround)

Sinhronizacija zvoka

1. Sinhronizacija več sledi (lahko tudi zvoka in videa) temelji na časovnih značkah. Delo nam olajša možnost grafičnega urejanja v DAW. Pogosto sledi pred, med ali po editiranju tudi zaklenemo, da jih obdelujemo in prenašamo skupaj. Pri ločenem prenosu se občasno kakšen video okvir izpusti…

Sinhronizacija zvoka

2. Sinhronizacija naprav MIDI.Naprava Master neprekinjeno oddaja sporočila MIDI Clock: po 24 na vsako četrtinko note. Pri tem se upošteva tudi takt masterja, ki pove število četrtink v minuti (npr. 120 BPM – beat perminute). Ob takšni nastavitvi se MIDI Clockpošlje vsakih 20,833 ms.(1 min = 60.000 ms.60.000 ms / (24 * 120) = 20,833333… ms

Pretvorba zvoka

Pretvorba iz enega formata v drugega (dekompresiranje in ponovno zapisovanje z ali brez stiskanja)Spreminjanje parametrov in zapisovanje v istem formatu (dekompresiranje, sprememba frekvence vzorčenja in/ali ločljivosti amplitude –kvantizacije ter ponovno zapisovanje s stiskanjem v istem formatu).

Stiskanje zvoka

Včasih uporabno Huffmanovo kodiranje, v splošnem pa zahtevamo kakšno stiskanje z izgubami.Očitna tehnika stiskanja avdia je odstranitev tišine. Namesto dolgega zaporedja vzorcev tišine zapisujemo trajanje tišine. A običajno zahtevamo neki prag tišine, kar pomeni stiskanje z izgubami.Principi stiskanja z izgubami so drugačni kot pri drugih medijih. Visokih frekvenc oziroma hitrih sprememb ne moremo preprosto ignorirati kot pri barvah (DCT), ker so zelo pomembne. Torej bo treba iskati redundanco drugod.

Stiskanje govora

Companding (compressing/expanding)Nelinearna kvantizacija. Višja ločljivost pri tišjih tonih.

Stiskanje govora

Različne nelinearne funkcije za ‘companding’:zakon μ (μ-law):y: = log (1 + μ x) / log (1 + μ)x = vhodni signal, y = izhod, μ > 0 določa stiskanje.μ = 255 se uporablja v telefoniji (samo 8 kbps, 12 bitov

stisne v 8 bitov)zakon A (A-law):

( )( ) ( )⎪⎩

⎪⎨⎧

<≤++<≤+

=1/1log1/log1

/10log1/:

xAAAxAxAAx

y

Stiskanje govora

PCM: Pulse Code ModulationDPCM:

Osnovna ideja je podobna inter-frame kodiranju videa. Kodiramo razlike med vzorci in ne samih vzorcev. Zaradi razlike med videom in avdiom, ki izvirajo v strojnem kodiranju oddanega signala, pa tolmačenje tehnike pri avdiu ni tako enostavno.

Stiskanje govora

Adaptive Differencial Pulse Code Modulation (ADPCM)Stiskanje z DPCM bo nastopilo le, če bodo razlike zahtevale manj bitov kot originalni signal. A razlike niso “nujno” majhne kot pri videu. Zato rajši napovedovanje kot pa samo kodiranje razlik (BDPCM; B pomeni Basic).Pri ADPCM se kvantizacijska stopnica dinamično spreminja. Za večje razlike večja stopnica.V telefoniji 16 kbps ali 32 kbps.

Stiskanje govora

Modulacija delta.Posebna oblika DPCM, kjer je frekvenca vzorčenja dovolj visoka, da lahko razlike predstavimo z enim samim bitom.Linear Predictive Coding.

Matematični model stanj vokalnega trakta.Namesto vzorcev pošilja parametre za opis stanj.Na sprejemni strani generator govora.Samo 2,4 kbps, vsebinsko ustrezna kvaliteta, a se izgubi barva glasu govornika…

Stiskanje, temelječe na zaznavanju avdia

Ideja stiskanja z izgubami je zavreči tiste lastnosti zvoka, ki niso slišne. Uporabimo spoznanja psihoakustike:

kritični pasoviminimalni slušni pragprekrivanje (maskiranje).

Tona ne slišimo, če:ni dovolj glasen (je pod slišnim pragom) aliga prekrije drugi ton.

Stiskanje, temelječe na zaznavanju avdia

Tipično uporabimo 32 frekvenčnih (kritičnih) pasov.V vsakem izračunamo povprečno glasnost signala in z njeno pomočjo ter z uporabo psihoakustičnegamodela potem ton in amplitudo maskirnega signala.Ideja je predstaviti maskirno krivuljo vsakega pasu z eno samo vrednostjo.Podrobnosti kompleksne.Najbolj znani algoritmi, ki temeljijo na tej metodi, so tisti, ki jih vključuje video MPEG.

Stiskanje, temelječe na zaznavanju avdiaMPEG-1 vključuje definicije treh nivojev kodiranja avdia:

MP1, MP2, MP3. Kompleksnost in kvaliteta naraščata.192 kbps MP1 je primerljiv s 128 kbps MP2 ali 64 kbpsMP3.

MPEG-2 vključuje bolj ali manj identične algoritme kot MPEG-1, a z novimi podrobnostmi (surround audio).

MPEG-2 definira tudi nov avdio kodek Advanced AudioCoding (AAC).AAC ni kompatibilen z “nižjimi” standardi. AAC 96 kbpsnaj bi bil boljši kot MP3 128 kbps. AAC je integriran in izpopolnjen tudi v MPEG-4.

MP3

MPEG-1 Audio Layer 3.tipično razmerje stiskanja 10:1pesem CD povprečne dolžine in zahtevnosti stisne pod 3 MB brez hudih izgub.Seveda bodo višje podatkovne hitrosti zmanjšale izgube, možna je tudi spremenljiva bitna hitrost VBR.Nižje bitne hitrosti služijo npr. za streaming. 64 kbps naj bi po kvaliteti ustrezalo FM radiu.MP3 ponuja lastni avdio format, večinoma pa služi kot kodek za shranjevanje zvoka v drugih formatih (Quicktime, Flashovi SWF filmi…)Raba za presnemavanje (legalni mp3 servisi in pa neformalne “pear-to-pear” storitve).

Drugi avdio formati

nestisnjeniAIFF za MAC/OS, WAV za Windows, AU za Unix (softver v glavnem omogoča prenosljivost).Stiskanje z različnimi kodeki podpirajo npr. QuickTime, Windows Media in RealTime. Tudi MP3 ponuja lasten format.Vsi navedeni nudijo tudi podporo za streamed audio (nižji podatkovni prenosi).OGG Vorbis je odprt, neplačljiv. Po kakovosti primerljiv z MPEG-4 (AAC), nekoliko zmogljivejši kot MP3, WMA in PAC

MIDI

Musical Instruments Digital Interface (glasbeni vmesnik za glasbila). 1981 pobuda, 1983 specifikacijaMIDI je v primerjavi z zapisom avdio vzorcev kot vektorska grafika proti rastrski grafiki.Namesto vzorcev imamo sporočila, ki prožijo dogodke (npr. pritisni določeno tipko na klaviaturi z določeno hitrostjo). Potrebujemo inštrument ali napravo (sampler ali pa računalnik), ki bo izbrani ton zaigral.MIDI je strojni in programski standard za glasbo.

MIDI

Strojni del:serijska povezava (cenejša in enostavnejša, čeprav počasnejša)asinhroni prenos (naprave stalno poslušajo –čakajo na prvi bit sporočila, ki je vedno 1)Hitrost prenosa je 31,25 kbit/s.16 kanalov.Sprejemni, oddajni in prehodni priključki naprav:MIDI In, MIDI Out in MIDI Through

MIDI

MIDI kot strojni standard: naprava lahko generira, sprejema ali posreduje sporočilo.

MIDI

MIDI

Naprava, ki je oddajala sporočila, običajno ni dovoljevala samo igranja, ampak tudi programiranje glasbenih sekvenc – naprava “sekvencer”. Danes so sekvencerji kar računalniki. Zaradi prenosljivosti in ponovljivosti programov se je pojavila tudi potreba po shranjevanju – datoteke MIDI.Računalnik je seveda lahko tudi inštument. Tone bodisi generira zvočna kartica ali pa se preberejo iz vnaprej pripravljenih kratkih zvočnih datotek (enako delujejo tudi naprave “samplerji”).

Datoteka MIDI

binarna datoteka4 tipi

standard MIDI file (SMF) običajno s končnico .midMIDI karaoke file s končnico .kar ima dodano sinhronizirano besedilo pesmieXtensible Music File (XMF)RMI (RIFF-based MIDI, .rmi) – RIFF (resourceinterchange file format) je fleksibilni datotečni format, ki pakira različne medijske tipe in jih opremi s priveski (tags) za ustrezne aplikacije. 1991 Microsoft in IBM. RMI je v bistvu SMF s posebno glavo.

MIDI

MIDI

Zaradi zakasnitev, ki izvirajo iz prepustnosti vrat MIDI Through so razvili posebne naprave (Through boxes).

MIDI

Programski del standarda so sporočila MIDIstatusni zlog1 ali 2 podatkovna zloga (za vrednosti 0 … 127)Zakaj ne od 0 do 255?Stiskanje: ob ponavljanju sporočil navajamo samo podatkovne zloge, ki se vedno začenjajo z 0.Kanalska (glasovna in načinovna) sporočila ter sistemska sporočila (več tipov)

MIDI

Kanalska glasovna sporočila MIDIMIDI v glavnem usmerjen k inštrumentom s tipkami.‘Note On’ ton hitrostNote Off ton hitrost (Hitrost se ignorira. isto kot Note On ton 0)Polyphonic Aftertouch, Channel Aftertouch

spreminjanje parametrov tipke, potem ko je že pritisnjena, ali spreminjanje vseh tonov v kanalu

Control Change funkcija vrednostza nadzor široke palete funkcij sodobnih synthesizerjev

Program Change instrumentizbira vrste instrumenta na kanalu.

Pitch Bend (dinamično spreminjanje tona, zvijanje strune, kolo na MIDI klaviaturah)

MIDI

Vsakemu sporočilu MIDI sledi delta time, ki določa interval, po katerem se bo prožil naslednji dogodek.splošni (general) MIDI

določa nabor inštrumentov (0..127), ki lahko igrajo zvoke.za tolkala še dodaten izbor (35..81) na kanalu 10.Inštrument izberemo s sporočilom ‘Program Change’.

QuickTime omogoča MIDI funkcionalnost (nabor vzorčnih tonov posameznih inštrumentov).MIDI software ima podobno funkcionalnost kot avdio software. Seveda zahteva možnost igranja tonov. Omogoča tudi branje not in notni izpis.MIDI in avdio software velikokrat integrirana.

MIDI

Sinhronizacija naprav MIDI.Naprava Master neprekinjeno oddaja sistemska sporočila MIDI Clock: po 24 na vsako četrtinkonote. Pri tem se upošteva tudi takt masterja, ki pove število četrtink v minuti (npr. 120 BPM –beat per minute). Ob takšni nastavitvi se MIDI Clock pošlje vsakih 20,833 ms.(1 min = 60.000 ms.60.000 ms / (24 * 120) = 20,833333… ms )

Software za urejanje in glasbeno produkcijo

Avdio-orientirane digitalne avdio delovne postaje (DAW = digital audio workstation)

Digidesign Pro Tools (Mac/PC)Steinberg Nuendo (Mac/PC) BIAS Deck (Mac)Pro Tracks Plus (PC)Cakewalk Music Creator (PC)Sony Sound Forge (PC)Adobe Audition (PC)Magix Samplitude Professional (PC)

Software za urejanje in glasbeno produkcijo

MIDI-orientirane DAWSteinberg Cubase (Mac/PC)Mackie Tracktion (Mac/PC)Apple (prej Emagic) Logic Pro (Mac) MOTU Digital Performer (Mac)Cakewalk Sonar (PC)