Tractament i Publicació d Àudio - Grau...

Tractament i Publicació d’Àudio

PRA 1Pere Amengual GomilaMarç 2016

2

Tractament i Publicació d’Àudio - PRA 1

Índex

Pregunta 1 ................................................................. 3

Pregunta 2 ................................................................. 5

Pregunta 3 ................................................................. 7

Pregunta 4 ................................................................. 9

Pregunta 5 ................................................................. 10

3


Pregunta 1

És habitual llegir en treballs d’aquesta assignatura, o en d’altres del grau de multimèdia, sentències com “El so tindrà més qualitat com major sigui la seva resolució” o - l’equivalent en l’àmbit visual - “A major resolució, la imatge tindrà més qualitat”.

Per provar la validesa -o no- d’aquestes sentències efectuarem les següents operacions:

a) Grava amb el teu ordinador, telèfon o dispositiu al qual tinguis accés, amb una qualitat de 11.025 Hz i 8 bits*, la frase “Un so di-gitalitzat sempre tindrà més qualitat com major sigui la seva reso-lució.”

b) Guarda el resultat de la gravació (en format MP3, WAV, o el for-mat que per defecte assigni el teu dispositiu de gravació) amb el nom “soBaixaResolucio.xxx”

c) Amb el teu editor d’àudio converteix el so a 48 KHz i 32 bits. Guarda el resultat en format WAV, sense comprimir, i amb el nom “soAltaResolucio.wav”.

d) Compara l’espai que ocupen els dos fitxers en el teu disc dur. Quin ocupa més?

El fitxer que ocupa més espai és soAltaResolucio.wav, que té una mida de 1.079.054 bytes (1,1 MB), en comparació amb el fitxer soBaixaRes-lucio.wav amb una mida de 62.144 bytes (66 KB).

Quina és la raó?

La mida dels fitxers digitalitzats depèn tant de la freqüència de mos-treig com de la profunditat de bits.

El nombre de bytes dels fitxers es calcula de la següent manera:

Profunditat en bits x mostres per segon x durada en segons x nombre de canals / 8

32 bits x 48000 Hz x 5,619 x 1 canal / 8 = 1.078.848 bytes

8 bits x 11025 Hz x 5,619 s x 1 canal / 8 = 61.949 bytes

La petita diferencia amb la mida real és deguda a les capçaleres dels fitxers en format WAV(1)

Per tant, a un fitxer amb major profunditat de bits i major freqüència de mostreig li correspon una mida major,

e) Compara auditivament els dos sons: el so amb “baixa resolució” i el so amb “alta resolució”. Si entenem com a qualitat d’una gra-vació a la seva similitud amb el so real, raona si és cert dir que “Un so digitalitzat sempre tindrà més qualitat com major sigui la seva resolució”.

Encara que és cert que existeix una correlació entre la resolució d’un so digitalitzat i la seva qualitat o similitud amb el so real, és necessari que la resolució es mantingui tant el procés de digitalització com en el d’emmagatzemat de la mostra per mantenir la fidelitat.

4


Analitzem el que passa quan no es mantenen la freqüència de mos-treig o la profunditat de bits:

• Un so digitalitzat amb una profunditat de 8 bits es pot convertir a 32 bits però els bits menys significatius s’emplenaran amb zeros o amb uns valors aleatoris, això no ens assegura una major fidelitat ja que no es recupera el senyal que havia quedat per sota del soroll de quantificació(2).

• Un so digitalitzat amb un freqüència de mostreig de 11025 Hz es pot resamplejar a 48000 Hz interpolant els valors intermedis però, encara que això presenti alguns avantatges en el procés del senyal, ja no serà possible recuperar els components del so amb freqüènci-es per sobre la Freqüència de Nyquist(3), com es pot observar en la figura 1, ni eliminar completament els potencials artefactes d’alia-sing ja existents.

• Un so digitalitzat amb una profunditat de 32 bits convertit a 8 bits sí que pot retenir un nivell de renou de quantificació marginalment menys perceptible que un enregistrat originalment a 8 bits si es fan servir algoritmes de tramat(4) (dithering) en el procés de con-versió a una profunditat de bits menor. Per tant, no s’obté la matei-xa fidelitat digitalitzant a 8 bits i convertint a 32 bits (emplenant els bits sense informació amb zeros) que digitalitzant a 32 bits i convertint a 8 bits aplicant un algorisme de dithering.

• Un so digitalitzat amb una freqüència de mostreig alta es pot re-samplejar a una freqüència de mostreig de 11025 Hz però es per-dran els components del senyal per sobre de la Freqüència de Ny-quist.

Per tant, la conclusió és que no sempre basta digitalitzar amb una ma-jor resolució sinó que és necessari mantenir-la tant en el moment de processar el senyal com en el d’emmagatzemar-lo.

Fitxers d’àudio a entregar: “soBaixaResolucio.xxx” (11.025 Hz i 8 bits) i “soAltaResolucio.wav” (48 Khz i 32 bits).

Figura 1. Anàlisi espectral de soAltaResolucio.wav

5


Pregunta 2

Amb un micròfon, un tècnic de so ha gravat el so del bombo d’una bateria amb el nom “bombo.wav”. De totes maneres, com pots es-coltar, el micròfon també ha captat, a un nivell més baix, el so agut del “hi hat”.

a) Si el tècnic de so volgués eliminar el so del hi hat de la gravació i deixar només el so del bombo, quin o quins filtres o efectes hauria d’aplicar?

Existeixen varies estratègies per aconseguir aquest objectiu depe-nent de quins aspectes del so del bombo considerem prioritaris

1) Una porta de renou (Noise gate) ens pot ajudar a deixar passar no-més el so quan aquest sobrepassa un determinat nivell. Com tots els cops de bombo tenen un nivell més alts que els de hi hat, ajustant el llindar (threshold) i el temps d’alliberament (release) podem fer que la porta s’obri només quan sona el bombo. L’inconvenient d’aquest siste-ma és que no ens preserva la cua del bombo ja que aquesta a vegades es sent al mateix temps que alguns cops de hi hat.

2) Un filtre passa-baixos ens permet filtrar els cops de hi hat ja que aquests tenen un contingut espectral de freqüències més altes que el bombo. El problema és que si situem la freqüència de tall del filtre tan baixa com per fer desaparèixer el hi hat, el bombo perd els seus transitoris ja que aquests comparteixen rang de freqüències (4k-7k) amb els cops de hi hat.

3) Audacity ens permet realitzar una tècnica coneguda com edició es-pectral. Amb aquesta tècnica podem atenuar manualment el rang de freqüències corresponent als cops de hi hat només en aquells frag-ments de temps en que aquests sonen, mantenint, per tant, la cua del bombo i conservant els seus transitoris. El problema d’aquesta tècnica és que crea uns artefactes clarament audibles degut a la naturalesa inharmònica tant del so de fons com del so del hi hat.

La tècnica que es fa servir professionalment per aquestes tasques es coneix amb el nom de “sample replacement” i consisteix en substituir la pista de so original per un sampler que dispara la mostra d’un so de bombo net cada vegada que la pista original sobrepassa un determinat volum en un rang de freqüències especificat. El problema és que no disposem del so de bombo original per realitzar la substitució.

b) Intenta efectuar aquesta operació amb els filtres i efectes del teu editor d’àudio, i guarda el resultat amb el nom de “bomboCor-regit.wav”. Inclou una captura de pantalla del filtre o efecte escollit i comenta els paràmetres que has escollit.

Finalment he optar per una tècnica mixta entre els procediments 1 i 2. He importat dues vegades el so del bombo en pistes separades.

A la primera pista li he aplicat una porta de renou (Figura 2) sense equa-lització a la senyal de keygate, un llindar de -8,17 dB que ens assegura que no es dispararà la porta amb els cops de hi hat, un atac de 0,01 mS per deixar passar els transitoris del bombo, un temps de Hold de 47,95 mS i un Decay de 105 mS que coincideix amb una corxera del fragment

6


a processar i, finalment, un rang d’atenuació de 90 dB que ens elimina la totalitat del so no desitjat.

A la segona pista li he aplicat un filtre passa-baixos amb una freqüèn-cia de 150 Hz i una pendent de 36 dB /octava per atenuar la zona de l’espectre on es troba majoritàriament el so del hi hat i deixar passar la ressonància del bombo.

Les dues pistes s’exporten finalment com un sol fitxer d’àudio. El re-sultat final no queda perfecte ja que hi ha una part de la ressonància del bombo que comparteix banda de freqüències amb el hat però acon-segueix eliminar el hat mantenint els dos components que defineixen el caràcter del bombo: el clic dels transitoris i la ressonància de baixa freqüència.

Fitxer d’àudio a entregar: “bomboCorregit.wav” (48 Khz i 16 bits).

Fig 3. filtre passa-baixos

Fig 2. porta de renou

Fig 4. anàlisi espectral de les dues pistes processades

7


Pregunta 3

En els estudis de gravació, és típic trobar-se amb grups que tenen moltes dificultats per tocar correctament els seus instruments. El següent àudio - “bateria.wav”- seria una simulació de la gravació d’un bateria que té dificultats per tocar el seu instrument a un nivell constant. Si amb un editor d’àudio obriu el fitxer i observeu la forma d’ona de la gravació, veureu que alguns cops de percussió tenen un nivell molt més alt que altres.

a) Quina operació o operacions haurà d’efectuar el tècnic de so per anivellar els sons de la bateria?

La combinació d’operacions que es sol efectuar en aquests casos consisteix en una primera anivellació dels volums fent servir talls en la gravació i modificant la seva amplitud per separat fins obtenir una aproximació al resultat desitjat. Alguns programes d’edició d’àudio ja porten integrades eines de trossejat per realitzar aquesta tasca amb més facilitat.

La segona operació a realitzar consisteix en aplicar un compressor, que és un efecte útil per reduir el rang dinàmic d’un fragment sonor, igualant per tant el volum dels diferents cops.

b) Intenta efectuar aquesta operació amb els filtres i efectes del teu editor d’àudio, i guarda el resultat amb el nom de “bateriaCorregida.wav”. Inclou una captura de pantalla del filtre o efecte escollit i comenta els paràmetres que has escollit del filtre.

En primer lloc, una escolta detallada del material ens revela que aquest ja ha estat sotmès a un o varis processos de processat dinàmic ja que es pot detectar com el soroll d’ambient va canviant el seu nivell al llarg del temps. Això ens dificultarà la tasca d’obtenir un resultat final més fidedigne ja que, a més de modificar el rang dinàmic del fragment sonor, haurem d’intentar rectificar els artefactes ja presents en la font original.

Per trossejar (“chop”) el fragment original en fragments més petits sobre els quals realitzar modificacions manuals de guany he fet servir l’eina “Find zero crossings” per detectar punts de tall adients i “Add label at selection” per marcar els fragments.

Una vegada detectats i marcats tots els cops de percussió he procedit a igualar manualment els seus volums amb l’eina “Amplify” (Figura 5) fent servir una o vàries vegades una amplificació de 3dB. Amb tots els fragments ja igualats a grans trets he aplicat un compressor amb un

Fig 5. Trossejat i amplificació manual

8


llindar (Threshold) de -20 dB, que defineix el nivell a partir del qual s’aplica el compressor, una relació (Ratio) de 4:1, que ens redueix el rang dinàmic en aquesta proporció de manera que per cada 4 dB d’entrada per damunt del llindar el senyal resultant presenta una pujada de 1 dB, i un temps d’atac (Attack Time) de 190 mS, que deixa passar sense processar els transitoris dels cops de percussió retardant l’aplicació de l’efecte una vegada el senyal supera el llindar. El darrer paràmetre és el temps d’alliberament (Release) de 1000 mS per intentar preservar la cua de l’envolupant dels cops de percussió fent el procés contrari, és a dir, mantenint la compressió encara que el nivell del senyal ja hagi deixat d’estar per sobre el llindar. (Figura 6).

Per eliminar alguns artefactes del processat he fet servir un esvaïment de sortida (Fade Out) en alguns fragments ens els quals el soroll de fons pujava de forma inacceptable (Figura 7). Per acabar el procés de modificació del rang dinàmic, un limitador de tipus brickwall amb un guany d’entrada (Input Gain) de 6 dB amplifica el senyal i un llindar de -0,6 amb un ràtio infinit:1 impedeix el clipping o distorsió per retall. (Figura 8)

Fitxer d’àudio a entregar: “bateriaCorregida.wav” (48 Khz i 16 bits).

Fig 8. Limitador

Fig 6. Compressor Fig 7. Esvaïment de sortida

9


Pregunta 4

Descarregueu de la pàgina Freesound el fitxer d’àudio digital http://freesound.org/people/jppi_Stu/sounds/70986/ (us haureu de donar d’alta si encara no ho heu fet).

Editeu aquest so, de manera que el resultat final sigui una numeració de menor a major, en comptes de la numeració de major a menor de l’àudio original. És a dir, fent servir eines d’edició bàsiques heu de convertir l’àudio original “ten, nine, eight,...” en “one, two, three, ...”.

El fitxer resultant “countUp10.aiff” ha de tenir exactament la mateixa durada que l’àudio original i no ha de tenir clics ni cap altra tipus d’incidència que mostri que és un àudio editat.

Per realitzar aquesta edició, assegurant-me que el fitxer modificat tenia exactament la mateixa mida que l’original, primer he situat marcadors a l’inici de cada nombre, cercant punts de creuament a zero per evitar clics, encara que el programa no els trobava correctament i finalment els he hagut de cercar manualment.

El procés de cercar encreuaments amb zero abans de realitzar una edició amb talls o inseriments ens ajuda a evitar que el valor de les mostres canviï de forma brusca i, per tant, es senti un impuls curt però de ample de banda molt extens que es percep amb facilitat.

Una altra manera de evitar els clics en els processos de edició de

mostres és fer servir esvaïments d’entrada i sortida en cada fragment. Aquest procediment té l’inconvenient de que s’ha de controlar que el nivell del soroll de fons romangui constant.

Després he seleccionat els fragments individualment i amb copiar i aferrar els he situat a una nova pista. Malgrat haver cercat punts d’encreuament zero, ha estat necessari eliminar alguns clicks amb l’eina “Repair” d’Audacity.

També en aquests tipus d’edicions de veus es pot fer servir la tècnica d’enregistrar uns minuts del renou de fons de l’entorn on es graven les veus. Encara que no es pugui percebre en una escolta superficial, tots els espais tenen un soroll de fons únic que es coneix amb el nom de “room tone”. Enregistrant aquest soroll de fons el podem afegir més tard en l’edició per dissimular els talls i afegir pauses amb resultats més naturals.

Fitxer d’àudio a entregar: “countUp10.aiff” (48 Khz i 16 bits).

10


Pregunta 5

Descarrega’t els dos fitxers d’àudio ‘’home.wav’’ i ‘’dona.wav’’. Cadascun d’aquests fitxers contenen un fragment de la lectura d’un llibre.

a) Manipula el fitxer “home.wav” i “dona.wav” de manera que un d’ells sembli que està parlant molt a prop nostre (aplicant un compressor) i l’altre molt lluny (aplicant una reverberació). També pots jugar amb els nivells (amplificació). Descriu les manipulacions que hagis dut a terme.

Les característiques del so que el cervell fa servir per interpretar la distància a la que es troba són: el volum (un so més fluix probablement tindrà una font més llunyana), el contingut espectral (els son llunyans no tenen el mateix contingut espectral que els propers degut a que l’aire no absorbeix per igual totes les freqüències), la relació entre so directe i so reflectit (les fonts sonores més properes presenten una proporció major de so directe i un volum menor de les reflexions), la distància entre les reflexions (ens indica les mides de l’espai en què es transmet el so)

Per tant, per aconseguir una aparença de proximitat he aplicat els següents efectes:

a) disminució del senyal lateral (Side Component) de la gravació estereofònica, deixant només el senyal central (Mid Component) i eliminant així part de les reflexions introduïdes per l’entorn de la

gravació. Això és possible degut a que la veu presenta només senyal central i les reflexions, com provenen de diferents posicions, presenten majoritàriament senyal lateral. Amb Audacity s’aconsegueix aplicant l’efecte Matrix: Stereo to MS i després eliminant el canal R per duplicar el L i tornar a combinar-los en un senyal stereo ja sense senyal lateral.

b) Expansor per reduir el volum de les reflexions de la sala, ja que aquestes tenen un volum més baix que la senyal de la veu. Cal ajustar els paràmetres amb cura per evitar un efecte poc natural.

c) realçament de la banda de freqüències coneguda com “rang de presència” entre els 3k i els 8k.

Fig 9. Expansor

11


b) Combina els dos fitxers de tal manera que s’intercali una frase o fragment d’home i una frase de dona, com si estiguessin mantenint una conversa. No s’han d’escoltar clics, ni sons retallats ni res estrany.

Per mantenir la durada conjunta dels dos fitxers he fet servir les opcions de retallar i aferrar vigilant sempre de retallar els fragments en la seva totalitat. Per evitar els silencis entre retall i retall he aferrat cada fragment just al final de l’anterior. No ha estat necessari realitzar cap procés per evitar els clics.

c) Repeteix el procés anterior, però ara en ordre invers: primer fes el “collage” dels àudios per simular la conversa, i després aplica els efectes per acostar o allunyar els locutors.

En aquest procés, he optat per fer servir l’opció “Ajusta els límits - Ajunta” en la veu de la dona per crear un únic fitxer d’àudio i que, en aplicar els efectes, la cua de la reverberació fos tractada en la seva totalitat. D’aquesta manera, es fa audible la diferència entre aplicar els efectes abans o després.

d) En quin dels dos ordres d’execució és més fàcil obtenir un bon resultat final? Raona la resposta

Els processos que impliquen modificacions en el domini del temps, com retards o reverberació, és preferible realitzar-los després de qualsevol edició ja que si es divideix un so amb reverberació ocorren dos efectes no desitjats: d’una banda es tallen les cues dels son abruptament

i, d’altra banda, en iniciar-se la reproducció d’un fragment es sent breument la cua d’un so que no es correspon amb el fragment que s’acaba d’escoltar.

En canvi, els sons processats amb efectes com equalitzadors, canvi de guany, compressors, etc... poden ser retallats posteriorment ja que no són efectes que perdurin en el temps de la mateixa manera que els esmentats en el paràgraf anterior.

Per tant, el segon ordre d’execució (fer els retalls primer i després aplicar els efectes) serà l’opció que ens proporcionarà un resultat més realista.

Alguns programes d’edició d’àudio ens permeten aplicar els efectes en temps real i, per tant, s’ha de preveure un temps addicional al final del fragment a exportar per les cues de les reverberacions i efectes similars. En aquest cas, per mantenir la durada dels fitxers i no haver d’afegir espai per la cua de l’àudio de la dona he acabat el collage amb la veu de l’home.

Els fitxers d’àudio a entregar són “homeModificat.wav”, “donaModificat.wav” (apartat a), “conversaVersioA .wav” (apartat b) i “conversaVersioB.wav” (apartat c) (48 Khz i 16 bits).

12


Bibliografia i fonts consultades

Referències bibliogràfiques i en línia

(1) KABAL, Peter. Audio File Format Specifications. [en línia] Telecommunica-tions & Signal Processing Laboratory. Multimedia Signal Processing [data de consulta: 13 de març de 2016]. Disponible en <http://www-mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html>

(2) Wikipedia contributors. Signal to quantization noise ratio. [en línia] Wikipe-dia, The Free Encyclopedia; 2016 [data de consulta: 13 de març de 2016]. Disponible en <https://en.wikipedia.org/wiki/Signal-to-quantization-noise_ratio>

(3) Wikipedia contributors. Nyquist Frequency. [en línia] Wikipedia, The Free Encyclopedia; 2016 [data de consulta: 13 de març de 2016]. Disponible en <https://en.wikipedia.org/wiki/Nyquist_frequency>

(4) Wikipedia contributors. Noise shaping. [en línia]. Wikipedia, The Free Ency-clopedia; 2016 [data de consulta: 13 de març de 2016]. Disponible en <https://en.wikipedia.org/w/index.php?title=Noise_shaping&oldid=710646351>

BALLOU, Glen. Handbook for Sound Engineers. 3ª edició. Boston: Focal, 2002. Print. ISBN 0-240-80454-6

COOK, Perry R. Real Sound Synthesis for Interactive Applications. 3ª Edició. Natick, MA: K Peters, 2002. Print. ISBN 156881-168-3

COSTA, Juan Bermúdez. Nueva Generación De Instrumentos Musicales Elec-trónicos. 1ª Edició. Barcelona: Marcombo, 1977. Print. ISBN 84-267-0213-9

EVEREST, F. Alton. Critical Listening Skills for Audio Professionals. 1ª Edició. Boston: Thomson Course Technology, 2007. Print. ISBN 978-1-59863-023-7

EVEREST, F. Alton. The Master Handbook of Acoustics. 4ª Edició. New York: McGraw-Hill, 2001. Print. ISBN 0-07-136097-2

FARNELL, Andy. Designing Sound. 1ª Edició. Cambridge, MA: MIT, 2010. Print. ISBN 978-0-262-01441-0

HOWARD, David M., and J. A. S. ANGUS. Acoustics and Psychoacoustics. 2ª Edi-ció. Oxford: Focal, 2001. Print. ISBN 0-240-51609-5

KATZ, Robert A. Mastering Audio: The Art and the Science. Amsterdam: Else-vier/Focal, 2007. Print. ISBN 0-240-80545-3

MIRANDA, Eduardo Reck. Computer Sound Design: Synthesis Techniques and Programming. 2ª Edició. Oxford: Focal, 2002. Print. ISBN 0-240-51693-1

PIERCE, John R., and Andrés Lewin-Richter. Los Sonidos De La Música. 1º Edi-ció. Barcelona: Prensa Científica, 1985. Print. ISBN 84-7593-009-3

ROEDERER, Juan G. Introduction to the Physics and Psychophysics of Music. 2º Edició. New York, Heidelberg, Berlin: Springer, 1979. Print. ISBN3-540-90116-7

ROSE, Jay. Producing Great Sound for Digital Video. San Francisco: CMP, 1999. Print. ISBN 0-87930-597-5

WATKINSON, John. Introducción Al Audio Digital. 2ª Edició. Andoain: Escuela De Cine Y Vídeo, 2003. Print. ISBN 84-932-84-9-1

BERENGUER, Josep Manuel et al., Tractament i Publicació d’Àudio. 3ª Edició. Barcelona. Edició electrònica. FUOC 2015.

Imatges

Totes les imatges, inclosa la de portada, són captures de pantalla del progra-ma Audacity realitzades per Pere Amengual sota llicència CC-0

Tractament i Publicació d Àudio - Grau...

Documents

Transcript of Tractament i Publicació d Àudio - Grau...