Digitalni zvokssljruma5/dokumenti/zapis_informacij/z… · · 2010-01-181000 Hz in dobimo...
Transcript of Digitalni zvokssljruma5/dokumenti/zapis_informacij/z… · · 2010-01-181000 Hz in dobimo...
Digitalni zvok
Akustika in psihoakustikaVzorčenje in predstavitev digitalnega zvokaOperacije nad digitalnim zvokomStiskanje digitalnega zvoka
Stiskanje govoraStiskanje, temelječe na zaznavanjuMP3Drugi algoritmi in formati stiskanja
MIDISoftware za urejanje in glasbeno produkcijo
Akustika
S fizikalno količino zvoka se ukvarja akustika, s subjektivnim zaznavanjem pa psihoakustika. Zvok je mehansko valovanje, ki se širi v dani snovi. V plinih in kapljevinah gre za vzdolžno valovanje, v trdnih snoveh lahko tudi prečno valovanje.
Hitrost zvoka v plinu:Za zrak pribl. czrak = (331,5 + 0,6 T [oC]) m/s κ = adiabatni eksponent (spec. gostota/spec. toplota), R splošna plinska konstanta, M molska masa
MRTc κ
=
Psihoakustika
Frekvenca zvoka – višina (poenostavljeno)Amplituda zvoka – glasnost (poenostavljeno)glasnost = 10 log10(j/j0) [fon]
j = jakost (gostota energijskega toka v W/m2)j0 = najmanjša jakost, ki jo z ušesom zaznamo. Izberemo j0 = 10-12 W/m2, kar ustreza jakosti 0 pri frekvenci 1000 Hz in dobimo glasnost v dB. Le-ta ni odvisna od frekvence zvoka.
Zakaj sploh tako kompliciramo?Občutljivost ušesa na jakost je logaritemska. Glasnost je subjektivni občutek. Dva tona, ki ju slišimo enako glasna, naj bosta tudi opisana z enako vrednostjo.
Psihoakustika
Slišimo frekvence 20 Hz do 20 kHzSlišimo glasnosti od 0 dB do 140 dBUho sliši logaritemsko: med 100 Hz in 200 Hz oktava, a oktava tudi med 1 kHz in 2 kHz.razlika 10 dB pri zveznem šumu pomeni podvojitev glasnosti, spremembo 5 dB jasno zaznamo, 3 dB pa večina ljudi ne.Glasnost pojema z razdaljo.
Psihoakustika
Frekvenca je fizikalna količina, višina tona, ki ga slišimo, pa ne. Odvisna je tudi od amplitude in višjih harmonskih frekvenc.Če predvajamo 200 Hz glasneje, bo večina poslušalcev slišala kot ton z nižjo frekvenco.Na najbolj občutljivem območju med 1 in 5 kHz pa uho ne zazna spremembe tona s spremembo jakosti.Dve visoki frekvenci razlika so moteči udarciDve nizki bližnji frekvenci aritmetična sredina
Psihoakustika
Pri nizkih frekvencah ločimo tone, ki so narazen za nekaj Hz, pri višjih frekvencah pa je za to potrebna razlika nekaj 100 Hz. Kritični pasovi so mnogo ožji pri nizkih frekvencah. Tri četrtine vseh kritičnih pasov je pod 5 kHz. Pri 1kHz je npr. kritični pas širok 160 Hz. Vsak signal oz. šum znotraj kritičnega pasu, katerega amplituda je manjša od osrednjega sinusnega signala, bo neslišen.
Psihoakustika
Minimalni slišni prag = minimalni nivo (glasnost), kjer uho zazna dani ton frekvence. Referenca = 1 dB pri 1 kHz. Dva tona z enako močjo in različnima frekvencama ne zaznamo kot enako glasna.Tudi slišnost šuma upada pri višjih in nižjih frekvencah.Prekrivanje: močnejši ton prekrije šibkejšega. Pojav izkoristimo za maskiranje.
Psihoakustika
Glasnosti:0 dB: slušna meja10 dB: človeško dihanje na 3 m20 dB: šumenje listja30 dB: gledališče (občinstvo)40 dB: bivalno naselje ponoči50 dB: mirna restavracija60 dB: pisarna ali restavracija70 dB: promet80 dB: sesalec z 1 m
Psihoakustika
Glasnosti [dB]:90: glasna tovarna, težki tovornjak z 1 m100: pnevmatsko kladivo z 2 m, diskoteka110: pospeševanje motocikla s 5 m120: rock koncert, vzlet letala s 100 m130: prag bolečine150: letalski motor s 30 m180: raketni motor s 30 m
Psihoakustika
ton = zvok z eno samo frekvenco (sinusno valovanje; črtast spekter z eno sinusno sestavino – porazdelitev jakosti po frekvencah)zven = zvok z osnovno in višjimi harmonskimi frekvencami (celimi večkratniki osnovne). Prav tako črtast spekter.šum = zvok, v katerem so v večji ali manjši meri vse sinusne sestavine v nekem intervalu (ima zvezni spekter).
Vzorčenje in predstavitev digitalnega zvoka
Digitalni zvok ustvarimo z vzorčenjem nepretrganega signala, generiranega z izvorom zvoka (A/D pretvornik ADC).Podobno DAC ponovno generira analogni zvok za predvajanje (povezan na ojačevalnik in zvočnike).Frekvenca vzorčenja mora biti vsaj 2x višja od najvišje frekvence v originalnem signalu.
pri CD 44,1 kHz, pri kasetah DAT 48 kHz.
Vzorčenje in predstavitev digitalnega zvoka
Velikost vzorca in kvantizacija. Linearna ali nelinearna (npr. logaritemska).Število kanalov ali sledi (mono, stereo, 4, 16, 32, …)Prepletanje
prednosti: lažja sinhronizacija kanalovslabosti: zapravi prostor, ko niso potrebni vsi kanali; potratnost enokanalnih aplikacij, ki dostopajo do vseh vrednosti in jih potem zavržejo, (začasno) prestavljanje ali razteg kanala v prepletenem načinu zahteva “razpletanje” in ponovno prepletanje; ne dovoljuje spremembe števila kanalov.
Vzorčenje in predstavitev digitalnega zvoka
“Dithering” – pred vzorčenjem vnesemo naključni šumDithering razprši šum po spektru. Ni večkoncentriran okrog tona in je manj moteč.
Snemanje in predvajanje
Vgrajeni mikrofoni vs. zunanji mikrofoniIzbira primerne frekvence vzorčenja in velikosti vzorca. Slednja je pomembnejša.Hitrost prenosa [bit/s] = frekvenca [Hz]* velikost vzorca [bit] * št. kanalov (* povpr. faktor stiskanja)CD: 44.100 * 16 * 2 = 1.411.200 bit/s80 min: 1.411.200 * 80 * 60 / 8 = 846.720.000 B(360.000 sektorjev * 2352 B/sektor). Digital Audio Tape (DAT): 32, 44.1 ali 48 kHz, 12 bitov ali 16 bitov na vzorec. 60 ali 170 m dolžine. Različni standardi (15 do 180 minut glasbe). Do 2005 v redni pro-fesionalni in polprofesionalni rabi.
Snemanje in predvajanje
Največkrat snemanje direktno na disk.Hitro nalaganje in predvajanje delov digitalnih avdio zaporedij (segmentov) zahteva naključni dostop.Le tako bo zagotovljen nepretrgan pretok podatkov k DAC.Pri napravah s konstantno hitrostjo prenosa to ni problem (neposredna linearna preslikava). V splošnem pa je potreben indeks, ki določa naslov segmenta s časovno kodo.
Snemanje in predvajanje
Pri snemanju zagotovimo zadosten razpon vzorčnih intervalov, da se izognemo rezanju amplitud. Rezanje (utišanje) ima neprijeten slušni učinek. Pri določenih frekvencah slišimo celo napačen ton.
Urejanje digitalnega avdia
Osnovne operacije urejanja so izrezovanje, kopiranje in vstavljanje segmentov.Vstavljanje lahko povzroči slišni klik, ki ga izravnavamo npr. s tehniko “cross-fade”.“Neškodljivo” urejanje. Segmentov ne premeščamo fizično, ampak omogočimo dostop in parametre le-tega preko igralne liste.Določanje začetka in konca signala pri urejanju.Dodajanje in brisanje sledi, združevanje sledi.Priljubljena operacija je tudi tvorba zank.
Efekti
zakasnitev (delay) – za efekta odmeva in nihanjaekvilizacija (equalization) – poudarjanje, zmanjševanje ali uravnavanje frekvenčnih pasov znotraj segmenta. Običajno grafična ekvilizacija, ki omogoča rabo različnih filtrov v povezavi z drsnikizmanjševanje šuma (noise reduction) – tehnike DPSnormalizacija (normalization) – spremeni vrednosti v segmentu tako, da izenači najvišjo amplitudo z najvišjo dovoljeno vrednostjo
Efekti
časovna kompresija in razširjanje (time compression and expansion) – brez spreminjanja višinespreminjanje višine (pitch shifting) – višina segmenta se spremeni brez spreminjanja dolžinestereoizacija (stereoization) – delitev sledi v dve vzporedni stereo sledi z razlikovanjem vsebineakustična okolja (acoustic environments, surround)
Sinhronizacija zvoka
1. Sinhronizacija več sledi (lahko tudi zvoka in videa) temelji na časovnih značkah. Delo nam olajša možnost grafičnega urejanja v DAW. Pogosto sledi pred, med ali po editiranju tudi zaklenemo, da jih obdelujemo in prenašamo skupaj. Pri ločenem prenosu se občasno kakšen video okvir izpusti…
Sinhronizacija zvoka
2. Sinhronizacija naprav MIDI.Naprava Master neprekinjeno oddaja sporočila MIDI Clock: po 24 na vsako četrtinko note. Pri tem se upošteva tudi takt masterja, ki pove število četrtink v minuti (npr. 120 BPM – beat perminute). Ob takšni nastavitvi se MIDI Clockpošlje vsakih 20,833 ms.(1 min = 60.000 ms.60.000 ms / (24 * 120) = 20,833333… ms
Pretvorba zvoka
Pretvorba iz enega formata v drugega (dekompresiranje in ponovno zapisovanje z ali brez stiskanja)Spreminjanje parametrov in zapisovanje v istem formatu (dekompresiranje, sprememba frekvence vzorčenja in/ali ločljivosti amplitude –kvantizacije ter ponovno zapisovanje s stiskanjem v istem formatu).
Stiskanje zvoka
Včasih uporabno Huffmanovo kodiranje, v splošnem pa zahtevamo kakšno stiskanje z izgubami.Očitna tehnika stiskanja avdia je odstranitev tišine. Namesto dolgega zaporedja vzorcev tišine zapisujemo trajanje tišine. A običajno zahtevamo neki prag tišine, kar pomeni stiskanje z izgubami.Principi stiskanja z izgubami so drugačni kot pri drugih medijih. Visokih frekvenc oziroma hitrih sprememb ne moremo preprosto ignorirati kot pri barvah (DCT), ker so zelo pomembne. Torej bo treba iskati redundanco drugod.
Stiskanje govora
Companding (compressing/expanding)Nelinearna kvantizacija. Višja ločljivost pri tišjih tonih.
Stiskanje govora
Različne nelinearne funkcije za ‘companding’:zakon μ (μ-law):y: = log (1 + μ x) / log (1 + μ)x = vhodni signal, y = izhod, μ > 0 določa stiskanje.μ = 255 se uporablja v telefoniji (samo 8 kbps, 12 bitov
stisne v 8 bitov)zakon A (A-law):
( )( ) ( )⎪⎩
⎪⎨⎧
<≤++<≤+
=1/1log1/log1
/10log1/:
xAAAxAxAAx
y
Stiskanje govora
PCM: Pulse Code ModulationDPCM:
Osnovna ideja je podobna inter-frame kodiranju videa. Kodiramo razlike med vzorci in ne samih vzorcev. Zaradi razlike med videom in avdiom, ki izvirajo v strojnem kodiranju oddanega signala, pa tolmačenje tehnike pri avdiu ni tako enostavno.
Stiskanje govora
Adaptive Differencial Pulse Code Modulation (ADPCM)Stiskanje z DPCM bo nastopilo le, če bodo razlike zahtevale manj bitov kot originalni signal. A razlike niso “nujno” majhne kot pri videu. Zato rajši napovedovanje kot pa samo kodiranje razlik (BDPCM; B pomeni Basic).Pri ADPCM se kvantizacijska stopnica dinamično spreminja. Za večje razlike večja stopnica.V telefoniji 16 kbps ali 32 kbps.
Stiskanje govora
Modulacija delta.Posebna oblika DPCM, kjer je frekvenca vzorčenja dovolj visoka, da lahko razlike predstavimo z enim samim bitom.Linear Predictive Coding.
Matematični model stanj vokalnega trakta.Namesto vzorcev pošilja parametre za opis stanj.Na sprejemni strani generator govora.Samo 2,4 kbps, vsebinsko ustrezna kvaliteta, a se izgubi barva glasu govornika…
Stiskanje, temelječe na zaznavanju avdia
Ideja stiskanja z izgubami je zavreči tiste lastnosti zvoka, ki niso slišne. Uporabimo spoznanja psihoakustike:
kritični pasoviminimalni slušni pragprekrivanje (maskiranje).
Tona ne slišimo, če:ni dovolj glasen (je pod slišnim pragom) aliga prekrije drugi ton.
Stiskanje, temelječe na zaznavanju avdia
Tipično uporabimo 32 frekvenčnih (kritičnih) pasov.V vsakem izračunamo povprečno glasnost signala in z njeno pomočjo ter z uporabo psihoakustičnegamodela potem ton in amplitudo maskirnega signala.Ideja je predstaviti maskirno krivuljo vsakega pasu z eno samo vrednostjo.Podrobnosti kompleksne.Najbolj znani algoritmi, ki temeljijo na tej metodi, so tisti, ki jih vključuje video MPEG.
Stiskanje, temelječe na zaznavanju avdiaMPEG-1 vključuje definicije treh nivojev kodiranja avdia:
MP1, MP2, MP3. Kompleksnost in kvaliteta naraščata.192 kbps MP1 je primerljiv s 128 kbps MP2 ali 64 kbpsMP3.
MPEG-2 vključuje bolj ali manj identične algoritme kot MPEG-1, a z novimi podrobnostmi (surround audio).
MPEG-2 definira tudi nov avdio kodek Advanced AudioCoding (AAC).AAC ni kompatibilen z “nižjimi” standardi. AAC 96 kbpsnaj bi bil boljši kot MP3 128 kbps. AAC je integriran in izpopolnjen tudi v MPEG-4.
MP3
MPEG-1 Audio Layer 3.tipično razmerje stiskanja 10:1pesem CD povprečne dolžine in zahtevnosti stisne pod 3 MB brez hudih izgub.Seveda bodo višje podatkovne hitrosti zmanjšale izgube, možna je tudi spremenljiva bitna hitrost VBR.Nižje bitne hitrosti služijo npr. za streaming. 64 kbps naj bi po kvaliteti ustrezalo FM radiu.MP3 ponuja lastni avdio format, večinoma pa služi kot kodek za shranjevanje zvoka v drugih formatih (Quicktime, Flashovi SWF filmi…)Raba za presnemavanje (legalni mp3 servisi in pa neformalne “pear-to-pear” storitve).
Drugi avdio formati
nestisnjeniAIFF za MAC/OS, WAV za Windows, AU za Unix (softver v glavnem omogoča prenosljivost).Stiskanje z različnimi kodeki podpirajo npr. QuickTime, Windows Media in RealTime. Tudi MP3 ponuja lasten format.Vsi navedeni nudijo tudi podporo za streamed audio (nižji podatkovni prenosi).OGG Vorbis je odprt, neplačljiv. Po kakovosti primerljiv z MPEG-4 (AAC), nekoliko zmogljivejši kot MP3, WMA in PAC
MIDI
Musical Instruments Digital Interface (glasbeni vmesnik za glasbila). 1981 pobuda, 1983 specifikacijaMIDI je v primerjavi z zapisom avdio vzorcev kot vektorska grafika proti rastrski grafiki.Namesto vzorcev imamo sporočila, ki prožijo dogodke (npr. pritisni določeno tipko na klaviaturi z določeno hitrostjo). Potrebujemo inštrument ali napravo (sampler ali pa računalnik), ki bo izbrani ton zaigral.MIDI je strojni in programski standard za glasbo.
MIDI
Strojni del:serijska povezava (cenejša in enostavnejša, čeprav počasnejša)asinhroni prenos (naprave stalno poslušajo –čakajo na prvi bit sporočila, ki je vedno 1)Hitrost prenosa je 31,25 kbit/s.16 kanalov.Sprejemni, oddajni in prehodni priključki naprav:MIDI In, MIDI Out in MIDI Through
MIDI
Naprava, ki je oddajala sporočila, običajno ni dovoljevala samo igranja, ampak tudi programiranje glasbenih sekvenc – naprava “sekvencer”. Danes so sekvencerji kar računalniki. Zaradi prenosljivosti in ponovljivosti programov se je pojavila tudi potreba po shranjevanju – datoteke MIDI.Računalnik je seveda lahko tudi inštument. Tone bodisi generira zvočna kartica ali pa se preberejo iz vnaprej pripravljenih kratkih zvočnih datotek (enako delujejo tudi naprave “samplerji”).
Datoteka MIDI
binarna datoteka4 tipi
standard MIDI file (SMF) običajno s končnico .midMIDI karaoke file s končnico .kar ima dodano sinhronizirano besedilo pesmieXtensible Music File (XMF)RMI (RIFF-based MIDI, .rmi) – RIFF (resourceinterchange file format) je fleksibilni datotečni format, ki pakira različne medijske tipe in jih opremi s priveski (tags) za ustrezne aplikacije. 1991 Microsoft in IBM. RMI je v bistvu SMF s posebno glavo.
MIDI
Zaradi zakasnitev, ki izvirajo iz prepustnosti vrat MIDI Through so razvili posebne naprave (Through boxes).
MIDI
Programski del standarda so sporočila MIDIstatusni zlog1 ali 2 podatkovna zloga (za vrednosti 0 … 127)Zakaj ne od 0 do 255?Stiskanje: ob ponavljanju sporočil navajamo samo podatkovne zloge, ki se vedno začenjajo z 0.Kanalska (glasovna in načinovna) sporočila ter sistemska sporočila (več tipov)
MIDI
Kanalska glasovna sporočila MIDIMIDI v glavnem usmerjen k inštrumentom s tipkami.‘Note On’ ton hitrostNote Off ton hitrost (Hitrost se ignorira. isto kot Note On ton 0)Polyphonic Aftertouch, Channel Aftertouch
spreminjanje parametrov tipke, potem ko je že pritisnjena, ali spreminjanje vseh tonov v kanalu
Control Change funkcija vrednostza nadzor široke palete funkcij sodobnih synthesizerjev
Program Change instrumentizbira vrste instrumenta na kanalu.
Pitch Bend (dinamično spreminjanje tona, zvijanje strune, kolo na MIDI klaviaturah)
MIDI
Vsakemu sporočilu MIDI sledi delta time, ki določa interval, po katerem se bo prožil naslednji dogodek.splošni (general) MIDI
določa nabor inštrumentov (0..127), ki lahko igrajo zvoke.za tolkala še dodaten izbor (35..81) na kanalu 10.Inštrument izberemo s sporočilom ‘Program Change’.
QuickTime omogoča MIDI funkcionalnost (nabor vzorčnih tonov posameznih inštrumentov).MIDI software ima podobno funkcionalnost kot avdio software. Seveda zahteva možnost igranja tonov. Omogoča tudi branje not in notni izpis.MIDI in avdio software velikokrat integrirana.
MIDI
Sinhronizacija naprav MIDI.Naprava Master neprekinjeno oddaja sistemska sporočila MIDI Clock: po 24 na vsako četrtinkonote. Pri tem se upošteva tudi takt masterja, ki pove število četrtink v minuti (npr. 120 BPM –beat per minute). Ob takšni nastavitvi se MIDI Clock pošlje vsakih 20,833 ms.(1 min = 60.000 ms.60.000 ms / (24 * 120) = 20,833333… ms )
Software za urejanje in glasbeno produkcijo
Avdio-orientirane digitalne avdio delovne postaje (DAW = digital audio workstation)
Digidesign Pro Tools (Mac/PC)Steinberg Nuendo (Mac/PC) BIAS Deck (Mac)Pro Tracks Plus (PC)Cakewalk Music Creator (PC)Sony Sound Forge (PC)Adobe Audition (PC)Magix Samplitude Professional (PC)