Andrea Arcella Un Sistema Di Riconoscimento Dei Timbri Musicali
-
Upload
andrea-torelli -
Category
Documents
-
view
24 -
download
0
Transcript of Andrea Arcella Un Sistema Di Riconoscimento Dei Timbri Musicali
-
Univ ersit degli Studi di Nap oli Federico I Icorso di laurea in sica
Un sistema di riconoscimento dei tim bridegli strumen ti musicali basato sui
coecien ti mel-cepstrum
Relatore : Prof. GianpaoloEvangelistaCorrelatore : Prof. FrancescoCutugno Candidato : Andrea Arcella
matricola : 07/5532
anno accademico2003-2004
-
Sommario
Il riconoscimento automatico di suoni e immagini semprestata unesigen-
za molto sentita n dagli albori della ricerca informatica. Infatti le ricadute
di tale ricerca coprono un vasto insieme di discipline che vanno dalla si-
ca alla medicina,dalle telecomunicazioni alla multimedialit. Questa tesi ha
comeoggetto il riconoscimento automatico degli strumenti musicali, cio il
riconoscimento dei loro timbri. Il riconoscimento vieneeettuato tramite un
sistemain gradodi analizzaredei suonie fornire una rispostasullo strumento
che li ha generati.La tesi illustra inizialmente le caratteristiche del timbro e
le problematiche principali legateal suoriconoscimento. Verrannoquindi de-
lineati i principali passifatti no ad oggi nel riconoscimento timbrico e verr
presentato quello che attualmente lo stato dellarte. Seguir la discussione
di un problema parallelo a quello del riconoscimento: la creazionedi spazi
timbrici; verr propostauna metodologiadi rappresentazionetimbrica basata
su reti competitiv e con relativa verica sperimentale. Inne vienepresentato
un progetto di classicatore timbrico confrontando due diversestrategie di
classicazioneentrambe sottopostea verica sperimentale.
-
Indice
1 In tro duzione 7
1.1 Cosil riconoscimento timbrico . . . . . . . . . . . . . . . . . 7
1.2 A che serve il riconoscimento timbrico . . . . . . . . . . . . . . 8
1.3 Levento sonorotra evento sico e percezione. . . . . . . . . . 10
2 Il Tim bro 14
2.1 Una denizione di timbro . . . . . . . . . . . . . . . . . . . . . 14
2.2 Timbro e Spettro . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Segnali discreti e rappresentazione nel dominio della
frequenza . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Timbri strumentali e rappresentazioni in frequenza . . 17
2.3 Rappresentazioni del suono. . . . . . . . . . . . . . . . . . . . 20
2.3.1 Evoluzione temporale del suono: la rappresentazione
ADSR . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Modello di produzionedel suonosorgente-ltro . . . . 23
2.3.3 Deconvoluzionee Cepstrum . . . . . . . . . . . . . . . 26
2.4 Timbro, Pitch e Loudness . . . . . . . . . . . . . . . . . . . . 33
2.5 Denizioni quantitativ e di alcunegrandezzepercettive . . . . . 35
1
-
2.6 Il riconoscimento timbrico negli esseriumani . . . . . . . . . . 36
2.6.1 Riconoscimento di toni isolati e frasi monofoniche . . . 37
2.6.2 Riconoscimento di insiemi polistrumentali: il modello
di McAdams . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Rappresen tazione Tim brica 43
3.1 Lo SpazioTimbrico . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Riconoscereo rappresentare . . . . . . . . . . . . . . . 43
3.1.2 Comesi creauno spaziotimbrico . . . . . . . . . . . . 44
3.1.3 Lo spaziotimbrico di Grey . . . . . . . . . . . . . . . . 46
3.2 Creazionedi uno spaziotimbrico a partire da coecien ti MFCC 49
3.2.1 Databasesonoroe strumenti utilizzati . . . . . . . . . 49
3.2.2 Lalgortimo di front end . . . . . . . . . . . . . . . . . 52
3.2.3 Le Mappe Autoorganizzanti . . . . . . . . . . . . . . . 62
3.3 Discussionedellesperimento . . . . . . . . . . . . . . . . . . . 67
4 Sistema di riconoscimen to tim brico a partire da coecien ti
MF CC 75
4.1 Struttura di un sistemadi riconoscimento . . . . . . . . . . . . 75
4.2 Riduzionedei dati: Analisi per Componenti Principali . . . . . 77
4.3 Algoritmi di riconoscimento . . . . . . . . . . . . . . . . . . . 81
4.3.1 Approccio classico:criterio MAP . . . . . . . . . . . . 81
4.3.2 Approccio Data Mining . . . . . . . . . . . . . . . . . . 97
5 Conclusioni e sviluppi futuri 120
5.1 Estensionedel Databasedi addestramento . . . . . . . . . . . 120
2
-
5.2 Quantit delle Features. . . . . . . . . . . . . . . . . . . . . . 121
A Il sistema uditiv o 122
A.1 Struttura dellorecchio . . . . . . . . . . . . . . . . . . . . . . 122
A.2 Discriminazionedelle frequenze . . . . . . . . . . . . . . . . . 128
B Schema delle Trasformate di Fourier 131
3
-
Elenco delle gure
1.1 Schemasemplicato dellMPEG-7 . . . . . . . . . . . . . . . . 10
1.2 Rappresentazione temporale di un campionedi violoncello . . 11
1.3 Spettrogramma di un violoncello. . . . . . . . . . . . . . . . . 12
2.1 Rappresentazionein frequenzadi un violoncelloin regimequasi
stazionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Esempiodi ADSR . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Schemadel tratto vocale . . . . . . . . . . . . . . . . . . . . . 25
2.4 Schemasemplicato di registrazionefonograca . . . . . . . . 29
2.5 Deconvoluzione in frequenza . . . . . . . . . . . . . . . . . . . 30
2.6 SchemaAnalisi Cepstrale. . . . . . . . . . . . . . . . . . . . . 32
2.7 schemaa blocchi del modello di McAdams . . . . . . . . . . . 42
3.1 schemaa blocchi MFCC . . . . . . . . . . . . . . . . . . . . . 52
3.2 bancodi ltri mel . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 I primi 26 mfcc del violoncello rappresentati per 12 frames . . 56
3.4 I primi 26 mfcc della tuba rappresentati per 12 frames . . . . 57
3.5 Gli inviluppi spettrali del violoncellorappresentati per 12 frames 58
3.6 Gli inviluppi spettrali della tuba rappresentati per 12 frames . 59
4
-
3.7 Esempiodi topologia a griglia rettangolare (in alto) ed esago-
nale (in basso). . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.8 Esempiodi layer bidimensionale:gli intorni sono evidenziati
con toni di grigio . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.9 Due esempidi neuroni con relativi intorni rispettivamente di
raggio d=1 e d=2 . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.10 Proiezionebidimensionaletramite reti di Kohonen . . . . . . . 70
3.11 rete di Kohonencon databasedi addestramento 1 . . . . . . . 72
3.12 rete di Kohonencon databasedi addestramento 2 . . . . . . . 73
3.13 Inviluppi spettrali semplicati del databasedi addestramento 2 74
4.1 Proiezionebidimensionaledi 6 timbri tramite PCA . . . . . . 79
4.2 Sogliae regioni di due funzioni di densit gaussiane . . . . . . 85
4.3 Esempiodi gaussianabinormale . . . . . . . . . . . . . . . . . 86
4.4 Esempiodi curve di livello . . . . . . . . . . . . . . . . . . . . 88
4.5 Gruppo di gaussianebinormali . . . . . . . . . . . . . . . . . . 89
4.6 Sovrapposizionedi due gaussianebinormali . . . . . . . . . . . 90
4.7 Proiezionetramite PCA di nove timbri . . . . . . . . . . . . . 94
4.8 Nove timbri rappresentati da altrettan te gaussianebinormali.
Vista uno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.9 Nove timbri rappresentati da altrettan te gaussianebinormali.
Vista due . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.10 Regioni di classicazionerelative a nove timbri . . . . . . . . . 108
4.11 Test 1: riconoscimento del timbro di Marimba . . . . . . . . . 109
4.12 Test 2: riconoscimento del timbro di Tromba . . . . . . . . . . 110
5
-
4.13 Test 3: riconoscimento del timbro di Tromba con pitch modi-
cato (un tono) . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.14 Test 4: riconoscimento del timbro di Tromba con pitch modi-
cato (una quinta) . . . . . . . . . . . . . . . . . . . . . . . . 112
4.15 Test 5: riconoscimento del timbro di Fagotto con pitch modi-
cato (un semitono) . . . . . . . . . . . . . . . . . . . . . . . 113
4.16 Test 6: riconoscimento del timbro di Fagotto con pitch modi-
cato (un tono inferiore) . . . . . . . . . . . . . . . . . . . . . 114
4.17 Test 7: riconoscimento del timbro di Fagotto con pitch modi-
cato (una quinta inferiore) . . . . . . . . . . . . . . . . . . . 115
4.18 Test 8: riconoscimento del timbro di Fagotto con pitch modi-
cato (unottava inferiore) . . . . . . . . . . . . . . . . . . . . 116
4.19 Test9: riconoscimento del timbro di Vibrafono conpitch mod-
icato (unottava inferiore) e diversafonte di registrazione . . 117
4.20 Test10:riconoscimento del timbro di Tromba barocca . . . . . 118
4.21 Test11:riconoscimento del timbro di Chitarra classica. . . . . 119
A.1 Schemadellorecchio . . . . . . . . . . . . . . . . . . . . . . . 123
A.2 Graco delle curve di Fletcher . . . . . . . . . . . . . . . . . . 125
A.3 Caratteristiche di ingresso-uscitadi un compressoree di un
expanderdi dinamica . . . . . . . . . . . . . . . . . . . . . . . 126
6
-
Capitolo 1
In tro duzione
1.1 Cos il riconoscimen to tim brico
Riconoscereun timbro vuol dire avere la capacit di riconoscerela sorgente
che ha dato origine ad un suono.In seguitodeniremo con precisionecosasi
intende con timbro e sorgente sonorama per rendereintuitiv o il concetto si
pu pensareallazioneche compiamoquandoascoltiamoun brano musicalee
riconosciamogli strumenti che lo eseguono.Questoprocessoabbastanzafa-
miliare per molte persone in realt unattivit estremamente complessache
coinvolgesia laspetto sico del suonosia le capacit percettivedi chi ascolta.
Naturalmente il concetto di sorgente sonora molto pi ampio del concetto
di strumento musicale ma noi faremo esplicito riferimento a questultimo.
I motivi di tale scelta sono i seguenti: il riconoscimento dei timbri relativi
agli strumenti musicali di per s un campo interessante di indagine e di
applicazioneper tutti coloro che si occupanodi musicae multimedialit; gli
strumenti della tradizione musicaleoccidentale si possonoconsideraresorgen-
7
-
ti sonorebennote per quelche riguarda il loro funzionamento eddisponibile
unampia letteratura in merito; data la loro notoriet pi sempliceutiliz-
zarli per fare esperimenti di riconoscimento con esseriumani e compararei
risultati con gli esperimenti eseguiticon il computer.
1.2 A che serve il riconoscimen to tim brico
Una parte consistente della ricerca informatica rivolta attualmente allob-
biettiv o di rendere intellegibile e quindi utilizzabile lenorme mole di infor-
mazionepresente in rete. Una delle esigenzepi sentite quindi quella del-
lindicizzazionedei documenti multimediali che diventano una componente
semprepi importante del usso informativo che avvolge il mondo attuale.
Attualmente abbastanzasempliceeettuare ricerchecontestuali in rete me-
diante parole chiave per trovare documenti; in realt per non sappiamose
ci cheabbiamotrovato corrisponderealmente a ci checerchiamo nc hnon
neprendiamovisione.In altri termini le sempliciricerchecheeettuiamo oggi
non sonobasatesul contenuto del le ma sul suoformato o su altri parametri
che non assicuranoche il contenuto di quel le abbia interesseper noi 1. Ci
a cui puntano i nuovi sistemi di ricerca che potremmo denire in telligenti
inveceuna ricerca che operi sui contenuti. Il motore di ricerca deve essere
quindi in grado di capire il contenuto di un oggetto e selezionareci che
soddisfa le nostre richieste.Se tutti coloro che rendonodisponibile uninfor-
mazionein rete associasserouna descrizionedi questainformazionechepossa
1Si pensiallalgoritmo del motore di ricerca Google,che nel presentare la graduatoria dirilevanzadei siti interessanti sfrutta linformazione che viene dalla sceltadegli altri utenti:i siti pi scelti durante le precedenti ricerche sonoquelli che il motore presenter comepiinteressanti per le ricerche successive.
8
-
essereinterpretata dal motore il problemasarebbe risolto. Il problemastato
immediatamente sentito nellambito dello sviluppo di paginehtml ed infatti
hanno fatto subito la loro comparsai famosi tag html che contengono le pa-
role chiave relative al contenuto del sito; tali tag sonoinvisibili a chi vede la
paginaweb e vengonosfruttati dai motori di ricercaper le indicizzazioni.Lo
sviluppo dello standardXML dettato proprio da questotip o di esigenze.Ri-
tornando ai le multimediali ed audio in particolare, il problemada risolvere
lo stesso,con la dierenza che la denizione e lestensionedellinformazione
in essicontenuta meno immediata. Attualmente vengonoinvestite ingenti
risorseper la ricercadi uno standarddi descrizionedei contenuti multimediali
e possiamosenzaltrocitare MPEG-7 2 comepunto focaledi questericerche
(si veda la gura 1.1 tratta dal sito di riferimento dellMPEG-7).
A questo punto per si pone una domanda:che succedese il materiale
informativo su cui eettuiamo una ricerca sprovvisto dei metadati che ne
descrivono il contenuto? La stessadomandapu esseremessasotto unaltra
forma che ci aiuter a centrare meglio il sensodel nostro lavoro: che succede
se il materiale sprovvisto di metadati appositamente inseriti da un essere
umano? La risposta : necessitiamodi un sistemaautomatico che sia in gra-
do di estrarredei parametri da usaresuccessivamente comemetadati; questi
parametri dovranno esserequindi legati al modo in cui noi percepiamole
informazioni sonoree le categorizziamo.Lo scopo di questolavoro di anal-
izzare le strategie n qui adottate per risolvere questoproblema, valutarne
i successie i limiti e proporre nuove soluzioninellambito dellindicizzazione
automatica di una classedi documenti sonori.2http://ipsi.fraunhofer.de/delite/Pro jects/MPEG7/
9
-
Figura 1.1: Schemasemplicato dellMPEG-7
1.3 Lev ento sonoro tra evento sico e percezione
Il suono un evento sico, descrivibilecomevibrazione in un mezzoelastico.
Comeevento sico pu esseredescritto dalle opportune equazioni,pu essere
rivelato con ladeguata strumentazione e pu inne essereregistrato abbas-
tanza fedelmente su un supporto; essopu esserecodicato in forma digitale
e resocosdisponibile a molti tipi di elaborazione.I computer ci consentono
10
-
visualizzazionimolto dettagliate del fenomenoe tra le pi comuni troviamo
la visualizzazionedellandamento dellintensit in funzione del tempo (Fig.
1.2), lo spettrogramma (Fig. 1.3) che descrive levoluzionespettrale nel tem-
po, avvalendosidi una terza dimensionedata dai falsi colori, o livelli di grigio,
dellimmagine.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4-0.1
-0.08
-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1Rappresentazione temporale del campione campione di cello.wav
secondi
inte
nsit
nor
mal
izza
ta
Figura 1.2: Rappresentazione temporale di un campionedi violoncello
Ci che abbiamo appena descritto qualcosadi oggettivo che esistein-
dipendentemente da noi e sopratutto indipendentemente dalla sorgente che
lha generato.Ci che indichiamo con evento sonoro inveceun suonocos
comevienepercepitoda un essereumanoequindi introduciamola percezione
11
-
secondi
freq
uenz
a in
Her
tz
Spettrogramma del campione di cello.wav
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
2.2x 10
4
Figura 1.3: Spettrogramma di un violoncello
nel nostro discorso.Innanzitutto il cervello non elabora direttamente il suono
realmente presente nellambiente in prossimit delle nostre orecchie. Lorec-
chio infatti eettua una serie di modic he del segnalenel trasdurre la vi-
brazioneacustica in impulsi elettrici (vedi AppendiceA); la coclea si com-
porta comeun bancodi ltri a larghezzadi bandanon uniforme e tali segnali
vengonopoi modicati in impulsi dallorganodi Corti. Putroppo, nonostante
i progressifatti nel campo della siologia per capire il funzionamento del sis-
tema uditiv o, non esistea tuttoggi un modello universalmente condivisoche
ci consenta di riprodurre articialmen te il suo funzionamento. Ovviamente
12
-
dei modelli esistono,e noi ne utilizzeremouno, ma importante sottolineare
che si tratta di approssimazionivalide in casispecici.
Anche laspetto psicologicodella percezionerivesteun ruolo signicativ o
quandoascoltiamoun suono.Quandoun suonoci raggiungenon ci chiediamo
quale sia lequazioneche lo descriva ncomesi sia propagato no a noi, ma
ci chiediamo inanzitutto che cosaha generatoquel suono(la sorgente) e dove
stato generato(lambiente).
13
-
Capitolo 2
Il Tim bro
2.1 Una denizione di tim bro
Cominciamocol proporreunadenizione di timbro cheprobabilmente trover
daccordo la maggior parte delle persone:il timbro la qualit del suono,
la sua coloritura, cio ci che permette di distinguere due suoni prodotti
da sorgenti diverse,anche se essi hanno rigorosamente lo stessotempo di
crescita, la stessaintensit e la stessadurata. Dai termini usati emergeche
abbiamo usato una denizione basatasulla percezioneche le personehanno
del suono.Limplementazionedi un riconoscitoredi timbri si deveper basare
su una denizione oggettiva di timbro. Un approccio possibile quello di
trovare un insiemedi parametri misurabili che nel loro complessoci diano
una descrizioneoggettiva di questaentit.
14
-
2.2 Tim bro e Spettro
Sappiamoche la qualit che noi percepiamocome timbro dipende in primo
luogo dal contenuto spettrale del segnale.Chiariamo cosa intendiamo per
spettro e contenuto spettrale.
2.2.1 Segnali discreti e rappresentazione nel dominio
della frequenza
Il suonointesocomevibrazioneacustica un segnalecontinuo mentre la sua
registrazionesu un supporto digitale un segnalediscreto rappresentato da
una sequenzanumerica nita. Si denisce Trasformata di Fourier Discreta
(DFT) di sequenzenite x[n] di lunghezzaN:
X[k] =N1X
n=0
x[n]ej2kn/N (2.1)
La quantit jX[k]j chiamata modulo mentre la quantit argX[k] chiamata
fasee sonoentrambe funzioni reali di k. Tali funzioni ci fornisconouna rapp-
resentazione del contenuto in frequenzadel segnale.La Trasformata Inversa
di Fourier Discreta (IDFT) denita come:
x[n] =1
N
N1X
k=0
X[k]ej2kn/N (2.2)
Nel contesto dei segnali audio la coppia di equazioni 2.1 e 2.2 sono dette
rispettivamente analisi e sintesi. Queste denominazioniderivano dal fatto
che tramite la prima equazione possibileottenere lanalisi in frequenzadel
15
-
segnalementre con la seconda possibilesintetizzaredei suonia partire dalla
descrizionedel loro contenuto in frequenza.Sulla basedi questaidea forte si
poggianomolti successidellelaborazionedei segnaliaudio ma questedenom-
inazioni possonoesserecausadi incomprensionenella corretta discussionedei
fenomeni.Bisogna infatti tener presente che la coppia di equazioni2.1 e 2.2
corrispondonoallanalisi e alla sintesi nel sensoproprio del termine soloseN
maggioreo ugualealla durata del segnaleespressain numero di campioni.
In tal caso,per, lanalisi ci fornisce informazioni solo sul contenuto in fre-
quenzamedio del segnale.Comevedremoin seguito, i suoni degli strumenti
musicali sonomegliodescritti da un contenuto in frequenzadinamico ovvero
in termini di rappresentazioni miste tempo-frequenza.
Lenergia g della sequenzax[n] denita come
g =N1X
n=0
jx[n]j2 (2.3)
ed sempreuna quantit nita. Applicando la relazionedi Parseval otteni-
amo:
g =N1X
n=0
jx[n]j2 =K1X
k=0
jX[k]j2 (2.4)
dove la quantit jX[k]j2 chiamata densit di energia spettrale o semplice-
mente spettro.
16
-
2.2.2 Timbri strumentali e rappresentazioni in frequen-
za
In un segnaleperiodico, come la parte stazionariadi un suonostrumentale,
il contenuto in frequenza dato dalla sovrapposizionedella frequenzapi
bassa,che generalmente determina il pitch della nota, e dei multipli interi
di questa.Tali componenti sonochiamati armoniche. I suoni degli strumenti
musicali non sonogeneralmente periodici. Inoltre, in una vastaclassedi stru-
menti le frequenzedelle componenti principali non sono in relazionearmon-
ica. In sensogeneralizzatosi parler allora di parziali del suonoper indicare
le componenti principali. In gura 2.1 possiamovederela rappresentazione
spettrale di un campione di violoncello ove vengonoevidenziate le prime
parziali. Bisognaporre attenzioneal fatto che la gura si riferiscealla DFT
di un campionein cui non presente lattacco ma solo la parte stazionaria
del suono,ed per questa ragione che riusciamo a distinguere nettamente
le armoniche, cio le frequenzedelle parziali che si trovano in rapporto ar-
monico. Il diversopesodelle parziali nelle rappresentazioni spettrali di due
suoni diversi in regime quasi-stazionariod origine a quella che deniamo
dierenza timbrica. Altre importanti dierenze timbriche sonoassociate al-
linviluppo di ampiezzaed al rumore del sistema di eccitazione.Un altro
aspetto su cui occorre focalizzare lattenzione levoluzione temporale del
contenuto in frequenzadei segnaliperiodici; se il suononon ha un cambia-
mento del contenuto in frequenzanel corsodel tempo 1 la suaDFT fornisce
1In termini rigorosi solo un suono prodotto articialmen te, come unonda quadra, hauno spettro eettiv amente costante nel tempo; nel casodi strumenti acustici si possonocitare strumenti come lorgano che approssimanoabbastanzabenequestocomportamento
17
-
eettiv amente il contenuto spettrale del suonoistante per istante; seinveceil
suonoevolve nel tempo il calcolodella DFT fornisceuna media dei contenuti
spettrali chesi sonomanifestati. Tale rappresentazionenon ovviamente sig-
nicativ a per suoni la cui evoluzionespettrale sia rilevante dal punto di vista
psicoacustico.Per ottenere una rappresentazione spettrale dinamica occorre
suddividere in segnalein piccoleporzioni chiamate frame in cui il segnalesi
pu considerarecostante dal punto di vista dello spettro. Tali frame possono
esserequindi giustapposti in vari modi per ottenere delle rappresentazioni
tempo-frequenza;una di queste lo spettrogramma illustrato in Fig. 1.3
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
20
40
60
80
100
120
modulo della dft del campione di cello.wav
prima parziale
seconda parziale
terza parziale
Figura 2.1: Rappresentazione in frequenzadi un violoncello in regimequasistazionario
18
-
Per costruire un algoritmo che possariconoscerei timbri dobbiamodare
un criterio di similitudine tra gli spettri. Il problemachea parte casielemen-
tari, non abbiamo un criterio di similitudine tra spettri che sia abbastanza
robusto da far funzionareun sistemadi elaborazione.Possiamocertamente
dire che a due spettri uguali corrispondono timbri uguali ma non semplice
dire quanto due spettri siano simili tra loro. Potremmo dire che due suoni
sonosimili quandoil rapporto tra le armoniche simile nei duesuoni,oppure
segli spettri variano in modo similenel tempo. La realt cheognunodei pos-
sibili criteri contiene un qualche gradodi verit ma non si riescea trovare un
insiemedi parametri nito che renda conto di tutte le possibili sfaccettature
che identicano un timbro. Vediamoun esempiopratico: qualunqueascolta-
tore percepiscecomesimili i timbri di una tromba in si bemolleequelli di una
tromba in mi bemolle;per un computer che faccia lanalisi di Fourier i due
timbri sono irrimediabilmente diversi quanto quelli di un sax e di unarpa.
Inoltre tutti i timbri naturali hanno unevoluzione temporale e quindi non
ha sensoparlare del timbro di uno strumento comedi unentit statica. Ev-
idenziamoora un fatto abbastanzaovvio che rimane spessonascostotra le
pieghedei ragionamenti: se abbiamo unottima conoscenzadi una sorgente
sonorapossiamoagevolmente predirequalesar il contenuto spettrale equin-
di il timbro che sar originato da questa sorgente. Se invecesiamo esposti
ad un determinato suononon siamonecessariamente in grado di ricostruire
la sorgente, in altri termini nella realt sica non esisteuna biunivocit tra
lanalisi e la sintesi.
19
-
2.3 Rappresentazioni del suono
Una soluzioneal problemadellidenticazione dellesorgenti sonorepu essere
suggeritadallapproccio usato dagli esseriumani. Nellintroduzioneabbiamo
detto che un essereumano si chiede quale sia la sorgente che ha prodotto
quel suono.Quindi evidentemente si confronta ci che si ascolta in un dato
momento condelle informazioni precedentemente memorizzate.Questeinfor-
mzioni sonoabbastanzapreciseda farci distinguerenettamente un pianoforte
da una tromba ma sonoabbastanzageneralida farci riconoscerecomesimili
due trombe in tonalit diverse,o meglio ancorada consentirci di raggrupp-
paresotto ununica famglia le trombe, i tromboni e i icorni. Noi chiameremo
questeinformazioni le caratteristiche del suonoe descriveremoil modo in cui
estrarle. Per poter realizzarequestaoperazioneabbiamobisognodi un mod-
ello del suono a cui fare riferimento e che riassumadelle informazioni che
sonogi presenti nellevoluzionespettrale del segnale.
2.3.1 Evoluzione temporale del suono: la rappresentazione
ADSR
Il modello ADSR (A ttack Decay SustainRelease)2 un modello che descrive
levoluzione dellenergia del suono nel dominio temporale. Secondoquesto
modello il suono viene descritto in termini dellevoluzione temporale del-
lampiezzache si pu riassumerein quattro fasi: una fasedi attacco (attack),
2la terminologia usata derivata da quella usata dai costruttori di sintetizzatori elet-tronici, infatti la parola releasesi riferisce allatto di rilascire il tasto del sintetizzatore; perquestomotivo alcuni autori quando usano il modello a tre parametri impiegano il terminedecay per indicare lultimo parametro che coincide col nostro release(modello ASD)
20
-
Figura 2.2: Esempiodi ADSR
una fasein cui lin tensit diminuisce(decay) e che rappresenta la transizione
tra lattacco e la terza fase,una fasedi evoluzionetemporale(sustain) e inne
una fase in cui lin tensit sonoradecadeno al silenzio (release).E impor-
tante osservarechequestequattro fasihannocaratteristichemolto diversetra
loro; inoltre non sonopresenti in tutti i suonistrumentali con le stessequalit
e nella stessamisura. La prima fase,lattacco, quella che contraddistingue
la parte iniziale dellemissionesonora.Lattacco strettamente legatoal mo-
do in cui viene generatoil suonodello strumento. Nella classicazionedegli
strumenti lattacco gioca un ruolo essenziale.Infatti le famiglie strumentali
degli strumenti pizzicati (come la chitarra, il liuto, larpa, il clavicembalo
21
-
etc.) o degli strumenti a percussionevengonoin prima approssimazioneiden-
ticati proprio dal modo in cui viene prodotto il suono in attacco anzich
dal materiale di cui sono composti (come i legni o gli ottoni) o dal modo
in cui viene eccitato il risuonatore (ance,doppie ance,archi3). Dal punto di
vista del riconoscimento dello strumento da parte di un ascoltatore(special-
mente seesperto) lattacco gioca un ruolo fondamentale. Chi usa strumenti
musicali elettronici sa beneche si pu fare una riproduzionerealistica di un
timbro acustico anche se la parte stazionaria del suono scadente, mentre
lelemento fondamentale il realismodellattacco. Purtroppo lattacco an-
che la parte del suonoche pi dicile da analizzaree classicare. Difatti
esso essenzialmente costituito da un segnaledi breve durata in cui lonset
delloscillazioneed il rumore di eccitazionecoesistonoe quindi la maggior
parte degli strumenti di analisi diventano inutilizzabili. Linformazione cos-
tituita dalla durata dellattacco pu comunqueesseredi qualche utilit nella
classicazionetimbrica. Tutti i suoniprodotti dagli strumenti musicali hanno
una fasedi attacco. La secondafase, il decay4 tiene conto della transizione
tra la fasenon stazionaria dellattacco e quella stazionaria del sustain ed
generalmente caratterizzata da una diminuzionedellintensit; abbastanza
dicile individuare in modo chiaro questa fase negli strumenti acustici in
quanto essaha una durata breve e si percepiscesolo in pochi casi;un esem-
pio si pu avere ascoltandogli ottoni quando vengonosuonati con attacco
molto netto. La terza fase, il sustain, quella in cui la durata del suono
3si noti che esistonodue tecniche per suonareun arco: quella con larchetto (da cui ilnome della famiglia strumentale) e quella del pizzicato. I due casi corrispondono a duediversi modi di eccitare il risuonatore
4il decay viene descritto in questasedeper completezzama la sua importanza dovutapi alla sua utilit nella sintesi di suoni elettronici che nella descrizionedi suoni acustici
22
-
controllata a piaceredallesecutore.Si pensiagli strumenti a ato o ad arco,
la cui intensit deve esserecontrollata dallesecutore,oppure allorgano, in
cui invecelin tensit ssata a priori ed costante nc h il tasto abbas-
sato. In questa fasestazionariaabbiamo un segnaleperiodico e levoluzione
temporaledello spettro molto contenuta a menoche lesecutorenon ricorra
ad artici espressivicomeil vibrato. Non tutti gli strumenti hanno una fase
di sustain,ad esempioil piano e gli strumenti pizzicati passanodirettamente
dallattaco al release.La quarta fase, il release, caratterizzata dalla pro-
gressiva diminuzionedi intensit del suono.Anche in questocasoil segnale
periodico ma levoluzione temporale dello spettro molto pi evidente.
Non tutti gli strumenti hannoquestafasetemporale,ad esempionellorgano
il suonocessaistantaneamente non appena viene rilasciato il tasto. Si noti
comequestomodello pur descrivendoun suonocomeentit indipendente, dia
la possibilit di crearedelle relazioni forti tra levento sonoroe la sorgente
che lha generatoconsentendo in parte di tracciare il percorsoa ritroso dal
suonoalla sorgente.
2.3.2 Modello di produzione del suono sorgente-filtro
In questomodello si assumeche lo strumento cheemette il suonosiaschema-
tizzabile comedueentit dieren ti che interagisconotra di loro: una sorgente5
ed un ltro. La sorgente viene eccitata al ne di creare un pattern di vi-
brazioneil qualeverr modicato dal ltro. Il ltro agisceda risuonatorecon
5la parola sorgente usata in questo contesto non ha il signicato no ad ora adottatodi origine del suono.Come risulta chiaro dalla lettura del paragrafo la sorgente sonora acui facciamoriferimento nei capitoli precedenti rappresentata in questocasodalla coppiasorgente-ltro
23
-
vari modi di vibrazione.Ciascunmodo altera lo spettro inducendodei picchi
in corrispondenzadelle frequenzerisonanti. Chiariamo con un esempio:nel
violino larchetto che sfregala corda fornisce leccitazione,la corda vibrante
la sorgente mentre il corpo dello strumento il ltro. La vibrazione della
sorgente determina il contenuto in frequenzadel suono.Lampiezza relati-
va delle armoniche (parziali) pu esserealterata cambiando il metodo e la
forza delleccitazione,ad esempiolarchetto pu sfregarela corda in vari mo-
di che il violinista sfrutta per ottenere suoni pi dolci o pi aspri. Il ltro
producedue eetti sul suono:esso in gradodi modicare sia lin tensit che
le relazioni temporali delle singolearmoniche. Ciascun modo di vibrazione
del risuonatore caratterizzato dalla frequenzadi risonanzae dal fattore di
qualit Q. La frequenzadi risonanzadi ciascunmodo la frequenzain cui
massimalampiezzadelle vibrazioni. Il fattore Q denito comeil rapporto
tra la frequenzadi risonanzadel sistemae la larghezzadi banda dello stes-
so. Il Q indica la selettivit in frequenzadel modo risonante considerato,in
altri termini controlla quella che si chiama campanaturadel ltro; maggiore
il Q e pi stretta la campanache rappresenta il modo. Una risonanza
con un alto Q causasia un incremento udibile della frequenzadi risonan-
za allin terno dello spettro del suono,sia un maggior tempo di ritardo nelle
componenti del segnaleche passanoattraverso il modo. Il suonopu essere
alterato manipolando le caratteristiche del ltro. Ad esempioin una tromba
si pu usare la sordina per cambiare le caratteristiche di risonanzadel tubo
e della campana.
Questomodellodi produzionesonorapu essereriportato in formamatem-
atica descrivendolo come un sistema lineare in cui la funzione di trasferi-
24
-
mento complessiva il prodotto delle funzioni di trasferimento dei singoli
sottosistemicome illustrato nellequazione2.5:
Y (z) = X(z)NY
i=1
Hi(z) (2.5)
doveY (z) eX(z) sonole trasformatez delluscita e del segnaledi eccitazione
eHi(z) sonole trasformatez degliN sottosistemi.Questomodello nato nel
contesto degli studi di elaborazionedel parlato ed stato ampiamente utiliz-
zato nel modellizzarelapparato fonatorio. Successivamente stato impiegato
nella sintesi per modelli sici portando in alcuni casi a buoni risultati come
nella modellizzazionedegli strumenti a corda ad opera di Karplus e Strong.
Non bisognatrascurareper che sia nel casodel parlato che nella sintesi per
modelli sici alla parte linearedescritta dallequazione2.5 sempreassociata
una parte non lineare che tiene conto del feedback che il segnaleha con la
sorgente. La gura 2.3 illustra il classicoschemadellapparato fonatorio
Figura 2.3: Schemadel tratto vocale
Dalla gura si evincecheesistonoduediversefonti di eccitazione:una per
i suonivocalici, chesonosuoniarmonici e laltra cheschematizzatacomeun
25
-
generatoredi rumore, necessariaalla generazionedei suoni consonantici che
sonosuoni inarmonici o dallo spettro continuo assimilabilea rumorecolorato.
Nel casodegli strumenti musicali non possiamofornire un sempliceschema
valido per tutti gli strumenti. Dobbiamo tener presente che generalmente,
almenonella fasedi attacco, la componente non lineare dovuta al feedback
generalmente preponderante.
La tecnica LPC (Linear Prediction Coecien t) la pi nota implemen-
tazionedel modello sorgente ltro; in sintesi lo spettro vienemodellato come
una funzione a tutti poli che rispecchiano i picchi spettrali (formanti nel
parlato). Questa tecnica ci consente di ottenereuna rappresentazione in fre-
quenzadel sistemache chiameremoinviluppo spettrale. Linviluppo spettrale
ignora i dettagli delle parziali contenute nello spettro orendo una visione
dellandamento generaledella risposta in frequenza;essopu esserepensato
comeuna sorta di impronta spettrale del sistema.Tale impronta caratter-
istica di un certo sistemae ci si aspetta che a sistemi simili corrispondano
impronte simili. Rifacendoci allesempioprecedente possiamopensareche le
trombe in si bemolleed in mi bemolleabbiano inviluppi spettrali molto simili
e ci aspettiamo che un icorno abbia un inviluppo spettrale molto pi simile
a quello di una tromba che a quello di un pianoforte.
2.3.3 Deconvoluzione e Cepstrum
Nel dominio del tempo loperazionedi convoluzione loperazionematemat-
ica che caratterizza i sistemi lineari, infatti essadescrive la relazionetra tre
segnali: il segnaledi ingressox[n], la risposta allimpulso h[m] e il segnale
26
-
di uscita y[n]. Loperazionedi convoluzione di due segnalisi indica con la
notazionex[n] h[m] e la sua formulazionematematica 6:
y(i) =X
j=
h[j]x[i j] (2.6)
Uno degli assunti fondamentali della teoria dei sistemi lineari che suf-
cien te conoscerela risposta allimpulso del sistemaper conoscereil segnale
di uscita dallo stesso,qualunquesia lingresso.Loperazionedi convoluzione
unoperazionemolto dispendiosain termini di potenzacomputazionalerichi-
estadato che il numero di operazioni (tra addizioni e moltiplicazioni) cresce
molto velocemente al cresceredel numero di campioni contenuti in x[n] e
h[m]. Inoltre pu accadereche linformazionecontenuta nei segnalidi ingres-
so e di uscita nonch il tip o di trasformazionea cui questi sonosottoposti
dal sistema leggibile molto pi chiaramente nel dominio della frequenza
che nel dominio temporale; per questi motivi, quando si debba valutare la
convoluzione tra due segnali,si preferiscemolto spessopassareal dominio
trasformato della frequenza.Dalle propriet della DFT si vede che la con-
voluzionenel dominio temporaleequivalead una moltiplicazionenel dominio
della frequenza:
Y (f) = H(f)X(f) (2.7)
doveH(f) la risposta in frequenzadel sistemacio la DTFT della risposta
6le formule che seguonosono riferite a sequenzediscrete nite dato che i campioniaudio che elaboriamo sonoeettiv amente sequenzedi questo tip o. Per una trattazione pigeneraledei concetti espressisi rimanda ai testi di basesul DSP citati in bibliograa.
27
-
allimpulso:
H(f) =X
k=
h[k]ej2kf (2.8)
Quindi per valutare x[n] h[m] si trasformano i duesegnalinel dominio della
frequenza,si eettua la moltiplicazione, e si antitrasforma il risultato. Pre-
cisiamoche la diminuzionedi richiestacomputazionaleottenuta valutando la
convoluzionetramite dominio trasformato dovuta allutilizzo dellalgoritmo
di calcoloFFT (Fast Fourier Trasform) che abbatte radicalmente il numero
di calcoli necessariper la trasformazionee lantitrasformazione. Ci possi-
bile quandosia la risposta impulsiva che il segnalehanno durata nita ed in
tala casola 2.7 diventa il prodotto delle DFT di x[n] ed h[n].
Molto spessoci si trova a dover aron tare il seguente problema: nota la
risposta allimpulso h[n] di un sistemalineareed il segnaley[n] in uscita dal
sistema si vuole conoscereil segnalein ingressox[n]. Per risolvere questo
problema si ricorre alla deconvoluzione che appunto loperazioneneces-
saria a riottenere il segnaleoriginario x[n]. Per un sistemaa risposta nita
FIR essa denita come:
x[n] =y[n]
P nk=1 h[k]x[n k]h[0]
(2.9)
dove h[0] 6= 0. Questotip o di problemasi presenta piuttosto frequentemente
in molti contesti compresoquello dellelaborazione dellaudio digitale. Per
chiarire il concetto illustriamo brevemente un esempiodi uso della decon-
voluzione.Agli albori della registrazionefonograca venivano usati apparati
di incisionecompletamente meccanici;il suonoda registrareveniva convoglia-
28
-
to tramite un tubo a campanache trasportava londa sonoraversoil sistema
di incisionesuceralacca.Il tubo una cavit risonante chepu essereschema-
tizzata comeun sistemalineare la cui risposta in frequenza caratterizzata
dalla presenzadi picchi di risonanzaparticolarmente evidenti. Il segnalein
uscita dal sistema, dato dalla convoluzione del segnalein ingressocon la
risposta allimpulso del ltro, risulta pertanto aetto da una distorsionear-
monica che viene percepita dallascoltatore comeunalterazionedel timbro.
Un sempliceschema proposto in gura 2.4.Oltre a questoeetto il sistema
Figura 2.4: Schemasemplicato di registrazionefonograca
di registrazioneintroduceuna drastica limitazione della banda passante del
segnaleoriginario e provoca la comparsadi vari tipi di rumori: sia quelli es-
29
-
tesi lungo lin tero arco temporale come i fruscii sia quelli di tip o impulsivo7
che hannouna durata molto breve e si presentano ripetutamente. Concentri-
amoci momentaneamente sui soli picchi di risonanzaintrodotti dalla tromba
trascurandoil resto.Seabbiamola fortuna di esserein possessodellapparato
originale di incisionepossiamomisurarne la risposta in frequenza;a questo
punto siamoin gradodi progettareun ltro in frequenzacheabbiauna rispos-
ta tale da annullare leetto dei picchi di risonanzaintrodotti dal tubo. Come
illustrato in gura 2.5 moltiplichiamo nel dominio della frequenzail segnale
in uscita con un segnaleche linversodella risposta in frequenzadel tubo
riottenendo il segnaleprivo delle risonanzeindotte. Il successodella decon-
Figura 2.5: Deconvoluzione in frequenza
voluzione legato al fatto che il segnaledi disturb o convoluto col segnale
originario non opera tagli alla banda del segnaleoriginario (sistemaprivo di
zeri sullassedelle frequenze).Purtoppo ogni qual volta un sistemaelimina
completamente un intervallo di frequenzenon c modo di riottenere le fre-
quenzemancanti per ricostruire il segnaleoriginario e infatti anche i migliori
7denominati in gergoclick e crackle e dovuti alle imperfezioni della ceralacca
30
-
restauri fonograci non restituiranno mai lin tera banda udibile di frequenze
comesi pu udire nelle moderne registrazioni; questa situazione rispecchia
il dato formale che la convoluzionenon in generaleuna trasformazionein-
vertibile. Inoltre seun sistemasporca il segnaleoriginario con un segnaledi
disturbo che copre lin tero range di frequenzedel segnaleoriginario ed in-
oltre costantemente presente lungo tutto larco temporale non possibile
in generaleseparareil rumore indotto dal segnaleoriginario. In termini pi
generali il problema si pone ogni qual volta si devono separaredue segnali
chesi sovrappongonosianel dominio della frequenzache in quellodel tempo.
Sebbeneil problemasia destinato a rimanere insoluto seposto in termini
generali,esistonodiversicasiparticolari in cui il ricorsoa tecnichenon lineari
ci consente di superare problemi altrimenti non aron tabili con le tecniche
lineari. Una delle tecniche non lineari impiegatenellelaborazionedei segnali
lelaborazioneomomorfa. Tramite questa tecnica si cercadi separaredei
segnalicombinati in modo non lineare(ad esempiotramite una convoluzione)
trasformando il problema in modo che risulti lineare. Un esempiotipico di
deconvoluzione omomorfa si ha in problemi di elaborazionedel parlato. Il
modello sorgente ltro di produzionedel parlato decompone il segnalesn in
uneccitazioneen eun ltro la cui risposta in frequenzaH(ej). Nel dominio
della frequenzaabbiamoS(ej) = H(ej)E(ej). Applicando il logaritmo ad
entrambi i membri otteniamo:
lg S(ej) = lgH(ej) + lgE(ej) (2.10)
In questo caso siamo interessati solo allo spettro, che il modulo della
31
-
trasformata di Fourier, e quindi possiamoriscrivere la relazionecome
lg jS(ej)j = lg jH(ej)j + lg jE(ej)j (2.11)
Le componenti lentamente variabili dello spettro e quindi quelledi lg jS(ej)j
sonorappresentate dalle bassefrequenzee corrispondonoallinviluppo spet-
trale. Il dettaglio dovuto alla struttura ne delle parziali invece rappre-
sentato dalle alte frequenzedi lg jS(ej)j. A questo punto possiamoanti-
trasformare la relazione2.11 e ottenere la separazionedelle bassefrequenze
dal dettaglio ne, semplicemente separandoi primi coecien ti dai restanti.
Questoprocesso chiamato analisi cepstraleed schematizzatain gura 2.6.
Si pu dire quindi che abbiamo applicato al dominio temporale delle proce-
Figura 2.6: SchemaAnalisi Cepstrale
32
-
dure tipiche del dominio della frequenza.Questaprassi stata attiv amente
esploratadagli anni 60, quandoBogert, Healy e Tukey [BB63] pubblicarono
il loro lavoro introducendouna curiosa terminologia per indicare linsieme
delle rappresentazioni che si ottengonoseguendoquestastrada; inventarono
quindi il termine cepstrumche lanagrammadi spectrum.
Il concetto di inviluppo spettrale si ricollega strettamente a quello in-
trodotto nel paragrafo 2.3.2 quando si parlato di impronta spettrale. An-
che in questocasoci si aspetta che a timbri simili corrispondano inviluppi
spettrali simili ed a timbri diversi corrispondano inviluppi di forma diversa.
2.4 Tim bro, Pitc h e Loudness
Introduciamoora le altre duegrandezzepercettive che insiemeal timbro cos-
tituiscono gli attributi fondamentali di un evento sonoro:pitch e loudness.
Il primo termine identica laltezza soggettiva di un suonoperiodico; seab-
biamo a che fare con un suonopuro, cio una sinusoide, laltezza percepita
ovviamente collegataalla frequenzarealedel suono;questacorrispondenza
per non linearelungo tutta la bandaudibile per cui il pitch (altezzasogget-
tiva) e la frequenzadi oscillazione(altezzaoggettiva) non sonosinonimi. Con-
siderandoinvecesuoni periodici composti, la sensazionedel pitch collegata
alla frequenzadella fondamentale cio la prima parzialedel suonocomposto.
Proprio per questomotivo nella teoria musicalele note (indipendentemente
dallo strumento che le emette) sonoorganizzateconvenzionalmente in mo-
do da avere una corrispondenzabiunivoca tra il nome della nota (LA440)
e frequenzaassegnata(440 Hz); infatti tale frequenza proprio quella della
33
-
fondamentale.
Il loudness la grandezzapercettiva che d conto dellintensit sonora;
comeillustrato in appendiceA.1 anche in questocasola relazionetra loudness
e intensit sonora tuttaltro che biunivoca.
Se ritorniamo alla denizione di timbro data nel paragrafo 2.1 ci rendi-
amo conto che le tre grandezzepercettive sonoconsideratecompletamente
indipendenti tra loro, ma veramente cos?Nel casodegli strumenti acustici
sicuramente no. Un casoabbastanzaevidente la tromba: quando questo
strumento viene suonato con espressivit che va da debole a forte non
solootteniamo un volume sonoropi alto ma il timbro diventa decisamente
pi squillante; al contrario osserviamoche a volumi minori il suonotende a
chiudersi. Ma anche il pitch inuenza in maniera determinante il timbro
e la riprova sta nel fatto che pi dicile riconscereuno strumento quan-
do vienesuonatonelle gammeestremedei suoi registri. Nelle esperienzeche
discuteremosi cercher sempredi trattare il timbro comeunentit indipen-
dente dalle altre ma bisognatener presente che questa unapprossimazione
eche lanalisi dei risultati dovr tenerneconto. Anc h lapprossimazionesia
sensatabisogner comunqueadottare alcuni accorgimenti: i campioni sonori
usati negli esperimenti dovranno essereprodotti in modo che la nota emessa
corrisponda ad un suono giustamente rappresentativ o dello strumento; in
termini musicali sarebbe beneche gli strumenti fosserosuonati con dinamica
pari a mezzoforte. Il discorsoper il pitch pi complicato: lidea pi comune
nella prassisperimentale quella di compararestrumenti diversi suonati al-
lo stessopitch; in questo modo si pensadi neutralizzare leetto del pitch
sulle analisi dei campioni. In realt questascelta pu crearealtri problemi:
34
-
un dato pitch che rappresenta la nota di un registro medio di un certo stru-
mento potrebbe caderenel registro estremodi un altro (si pensia strumenti
con tessiture lontane comecontrabbassoe violino); in questocasoil secondo
strumento si troverebbe rappresentato nei dati da analizzareda un contenuto
spettrale meno caratterizzante. Non esisteuna soluzionedenitiv a a questi
problemi ma sene deve necessariamente tener conto in fasedi progettazione
dellesperimento.
2.5 Denizioni quantitativ e di alcune grandezze
percettiv e
In questo paragrafo daremo le denizioni quantitativ e di alcune grandezze
siche strettamente correlate a sensazioniuditiv e rilevanti. Alcuni modelli
di amplicatori ed equalizzatori per lalta fedelt sono dotati di controlli
che fanno riferimento a queste grandezzeper consentire allascoltatore di
intervenire manualmente sulla modica del timbro e migliorare lascolto in
funzionedel tip o di musicae della qualit della registrazione.
Brigh tness. Questagrandezzadata dal baricentro delladistribuzione
spettrale:
BR =
RjX()jd
RjX()jd
(2.12)
e per i suoni periodici si pu mostrareche:
BR =
Pk kakPk ak
(2.13)
35
-
dove k lindice dellarmonicae ak la relativa ampiezza.Questaquan-
tit collegataalla sensazionedi bril lantezzadel suono.Possiamoquin-
di dire che i suoni luminosi, aperti etc. hanno tendenzialmente una
brightnessmaggioredi quella dei suoni scuri.
Presence . Essa denita come:
PR = 10 log(
RjH()X()j2 dR
jX()j2 d) (2.14)
dove H() un ltro rettangolare passabandacon guadagnounitario
tra i 700e i 900Hz. Questaquantit quindi una misura in dB del con-
tenuto energeticodi una porzione localizzata dello spettro. Questa re-
gionedellospettro molto signicativ a dal punto di vista percettivo e la
variazionedi presencevieneassociata ad una variazionedi brillantezza
del suono.
2.6 Il riconoscimen to tim brico negli esseriumani
In questo paragrafo illustreremo i risultati di alcune ricerche condotte su
esseriumani per vericare la nostra capacit di riconoscimento timbrico.
Tali ricerchesonoessenzialisiaper capiremeglio la percezioneumanasiaper
avere un termine di paragonecon i risultati prodotti con il riconoscimento
articiale. Nellambito del riconoscimento timbrico possiamoschematizzare
tre situazioni diverse:lascolto di un tono isolato, di una frase monofonica,
o di un insiemepolistrumentale. Nei primi due casi disponiamo di risultati
quantitativi mentre per il terzo stato solopropostoqualchemodello; questo
36
-
dovuto al fatto che la ricerca ancoraai primi passiin questocampo e si
ancora fermi alla fasedi discussionedi un modello sucien temente robusto.
Ci si aspetta che in futuro siano progettati esperimenti che possanofornire
ulteriori dati.
2.6.1 Riconoscimento di toni isolati e frasi monofoniche
In questambito possiamocitare dieci ricerche che vannodal 1947al 2001;di
questele prime cinquehanno indagato il riconoscimento di toni isolati mentre
le successive si sonoconcentrate su frasi monofoniche. I risulatati complessivi
sonomostrati nella tabella 2.1
Esperimento Percentuale riconoscimenti corretti Numero di strumenti
[Eag47] 56 9[Sal64] 41 10[Ber64] 59 10[Cla64] 90 3[Str67] 85 8[Cam78] 72 6[Ken86] 84 3[Bro99] 89 2[Mar99] - Toni Isolati 46 27[Mar99] - Frasi Monofoniche 10 sec 67 27[Bro01] 85 4
Tabella 2.1: Risultati degli esperimenti sullaccuratezzadel riconoscimentoumano
In alcuni esperimenti come quello di Brown [Bro01] stato usato un
databasedi pochi strumenti e gli ascoltatori non eranoprecedentemente in-
formati degli strumenti usati. In questi casivienechiesto ai soggettidi com-
pilare anche la lista totale di strumenti usati indipendentemente dal loro
37
-
registro8. Con questa informazionesi possonoottenere delle stime sulle ca-
pacit di clustering9dei soggetti. In tal modo lerrore nellaccuratezzadel
riconoscimento si pu valutare oltre che nelle risposte sbagliate anche nel-
linserimento di una classestrumentale non realmente presente nel test. In
altri esperimenti comequello di Martin [Mar99] stato usato un database
decisamente pi grandee i soggettieranoa conoscenzadella lista degli stru-
menti impiegati. Diamo qualche dettaglio sullesperimento di Martin dato
che limp ostazione stata presacomeriferimento anche in esperimenti suc-
cessivi[Ero01] e rappresenta il lavoro organicopi recente sul riconoscimento
timbrico. Hanno partecipato allesperimento quaranta soggetti, tutti a vario
titolo musicalmente esperti. Nel test con toni isolati sono state impiegate
137 note di 27 diversi strumenti, ognuno rappresentato con diversi pitch; i
campioni provengonodalla collezioneMcGill [Opo87]. I 27 strumenti sono
inoltre stati raggruppati in 5 famiglie strumentali: archi, ottoni, ancedoppie,
clarinetti e auti. In questotest i riconoscimenti accurati sonostati in media
del 46 % per i singoli strumenti e del 92 % per le famglie strumentali. Nella
secondaparte del test sonostati utilizzati 19 strumenti che eseguivano frasi
monofoniche della durata di circa 10 secondi;laccuratezzain questocaso
stata del 67 % per gli strumenti e del 97 % per le famiglie strumentali.
Comparandoi risultati delle ricerche emergonole seguenti osservazioni:
1. Laccuratezzadel riconosciemento decadeal cresceredelnumerodi stru-
menti da riconoscere.Taledegradazionenon linearema molto ampia
8ad esempioil sax sopranoe quello contralto devono esserericonusciuti entrambi comesassofono
9raggruppamento; in questocasosi intende la capacit di raggruppare strumenti dellastessafamiglia comead esempiogli archi
38
-
inizialmente (passandoda 3 a 10strumenti) mentre tendead attenuarsi
successivamente (laccuratezzasembra costante passandoda 10 a quasi
trenta strumenti)
2. Laccuratezza molto maggiorenel riconoscimento delle famigle stru-
mentali che nel riconoscimento di singoli toni; tale divario per si re-
stringe quando si passaal test con frasi monofoniche. Questo fatto ci
suggerisceche gli invarianti acustici, pur operandouna discriminazione
importante tra strumenti, non sono sucien ti per ottenere unaccu-
ratezza media superiore al 50 %. In pratica lerrore concentrato al-
lin terno delle famiglie strumentali; questo dato ci induce a pensare
che per migliorare la discriminazionefra strumenti della stessafamiglia
abbiamo bisognodi altre informazioni. Dato che laccuratezzacresce
sensibilmente quandosi passada singoli toni a frasi monofoniche, pos-
siamo ipotizzare che le informazioni aggiuntiv e di cui ci possiamoav-
valeresianocontenute nel fraseggiostrumentale, nella tessituradel bra-
no e nella tecnica esecutiva10. Per vericare questa ipotesi si dovrebbe
ripetere il test con soggetti con una scarsacompetenza musicale; in
questomodo si potrebbe separarela capacit percettiva dalle sovras-
trutture culturali che determinano lincremento di accuratezzache si
ottiene nel passaggioda singoli toni a frasi monofoniche.
10per una persona musicalmente competente semplice distiguere un sax alto da unsopranoseha la possibilit di ascoltare i due strumenti che eseguonouna scalasu 2 ottave(tessitura), oppure prestando attenzione alla velocit di certi passaggiche sonosemplici emolto frequenti su uno strumento mentre sonodicili equindi raramente eseguitisullaltro(tecnica strumentale).
39
-
2.6.2 Riconoscimento di insiemi polistrumentali: il mod-
ello di McAdams
Il modello di McAdams [McA93] fornisceunipotesi sul riconoscimento tim-
brico eettuato su un insiemepolistrumentale. Tale modello schematizzato
in gura 2.7. Il primo bloccorappresenta la trasduzionedellavibrazionesono-
ra in stimolo elettrico coscomestata descritta nel paragrafoA.1. Nella fase
di auditory grouping il usso di informazioni in ingressoviene quindi elabo-
rato in rappresentazioni uditiv e separate,una per ciascunasorgente sonora
presente nellambiente; in altri termini il cervello opera una separazioneal-
lin terno del usso informativo in ingressoche descrive linsieme dei suoni
orchestrali miscelati tra loro, e li separain ussi indipendenti che rappresen-
tano ciascunasorgente sonora.Nella fasesuccessiva inizia lanalisi di ciascuna
sorgente con la progressiva estrazionedelle caratteristiche percettive rilevan-
ti. Alla ne di queste tre fasi la rappresentazione uditiva iniziale stata
trasformata in un gruppo di propriet astratte caratterizzatedagli invarianti
acustici di ciascunasorgente. Nella fasedi matching with auditory lexicon la
rappresentazione confrontata con classidi eventi e di sorgenti sonoresim-
ili gi presenti in memoria; lo stimolo viene quindi riconosciuto in basealla
classepresente in memoria che gli si adatta meglio. Se presente una sor-
gente sconosciuta11 lascoltatore reagiscecreandouna nuova voce nella sua
memoria. A questopunto possibileassociare le classi riconosciutecon un
dizionario verbale che assegnaun nome a ciascunasorgente riconosciuta. Il
loop in gura spiegail fatto che lanalisi pu essereripetuta pi volte nellam-
11cio una sorgente che non confrontabile con nessunodei gruppi presenti in memoria
40
-
bito dello stessoascoltoqualora le sorgenti sonoresianocorrotte da rumore;
in altri termini il processoqu descritto vienecompiuto per approssimazioni
successive.
41
-
Figura 2.7: schemaa blocchi del modello di McAdams
42
-
Capitolo 3
Rappresentazione Tim brica
3.1 Lo Spazio Tim brico
3.1.1 Riconoscere o rappresentare
Nel Capitolo 2 abbiamovisto comesiapossibileapplicaredei criteri di simili-
tudine agli inviluppi spettrali, ma limitandoci al confronto tra inviluppi non
stato necessariochiederciqualepropriet percettiva rappresenti esattamente
la forma di quellinviluppo. Ad esempiopotremmo chiedereciseun inviluppo
con la forma che ricorda quella di un ltro passabandacorrisponde ad un
suonoargentino o nasale.La risposta a questedomandeviene da un ramo
di ricerca che si intersecacol riconoscimento timbrico ma non coicide con
esso;tale ricercapunta alla creazionedi uno spazio timbrico. Con questoter-
mine si intendeuno spaziometrico in cui vengonocollocati gli oggetti sonori
conformemente alla metrica scelta.Possiamoimmaginare lo spaziotimbrico
come un modo per visualizzaree quanticare la rappresentazione mentale
43
-
che gli esseriumani hanno dei suoni. Ad esempio,quando ascoltiamo due
trombe in diversatonalit, immaginiamo i relativi suoni comevicini mentre
un suonodi pianosar percepitocomelontano da questi.Si noti che in questo
ragionamento i termini vicino e lontano sonocollegatiai termini simile e dif-
ferente usati a proposito del riconoscimento ma non sono la stessacosa;nei
primi due compresoun concetto di metrica che negli altri due assente.
La dierenza consisteproprio nel fatto che per denire una metrica abbi-
amo bisognodi dare un signicato percettivo alle quantit che identicano
un suono:due fagotti sono vicini perch hanno un suononasale.Si tratta
quindi di individuare quelle qualit percettive che avvicinano o allontanano
due suoni. Questo contemporaneamente il punto di forza e la debolezza
di questo approccio; infatti da una parte ci forniscenuovi strumenti per il
riconoscimento comela possibilit di ricercaper attributi percettivi1 mentre
dallaltra si presta a crearedelle incongruenzedovute al fatto che lo stesso
strumento pu avere caratteristiche percettive assaidiverse in funzione del
registro e della tecnicastrumentale usata.Una parte del lavoro sperimentale
di questatesi stato dedicatoad aron tare questapproccio per indagarnele
potenzialit e verr discussonel capitolo 3.2.
3.1.2 Come si crea uno spazio timbrico
Se immaginiamo che ciascun timbro sia descrivibile mediante un insieme
di caratteristiche misurabili possiamorappresentarlo come un punto nello
spazio.Ad esempio,supponiamo che ciascunsuonosia denito dalla bright-
1ad esempiosi pu immaginare una query ad un database nella forma: trovami unsuonomolto cupo che evolva nel tempo versoun media nasalit
44
-
nessedalla presenceentrambemisurabili suuna scala.Allora possiamousare
questi valori comecomponenti di un vettore in uno spaziobidimensionale.
Ciascunacoppia di valori individua un punto che pu essererappresentato
su un piano cartesiano.Una volta stabilita una metrica, per esempioquella
euclidea, possibilestabilire la distanza tra i punti. Se la rappresentazione
ottenuta uno specchio fedeledella nostra realt percettiva ci si aspetta chea
punti vicini corrispondanotimbri simili. Osserviamosubito chenon sappiamo
nquali siano le caratteristiche percettive rilevanti nquante essesiano,cio
non possibilestabilire la dimensionalit dello spazio;inoltre non possibile
stabilire a priori che la metrica euclideasiaquellagiusta.La costruzionedello
spazio timbrico si avvale di un misto di ipotesi, manipolazioni statistiche e
successive veric he. Innanzitutto si fanno delle ipotesi sulla dimensionalit
dello spazio,cio sul numero di caratteristiche percettive principali. Questo
forse il momento pi delicato dellintero processoin quanto non c nes-
sun elemento sostanzialea partire dalle nostre conoscenzepregressesulla
percezioneche ci dia unindicazione in tal senso;in questa scelta entra in
gioco il maggior desideriodi qualsiasi ricercatore: poter visualizzaregra-
camente in ununica rappresentazione i dati che analizza.Questoorienta la
sceltaversodimensionalit limitate, preferibilemente di ordine due o tre, in
modo da poter rappresentare i timbri suun unico graco. Sar la rispondenza
tra i graci ottenuti e la realt percettiva a determinare la validit di questa
ipotesi.Una volta stabilite questepremesse,si sottoponeun databasesonoro
ad un sistema (umano o automatico) che fornisca in uscita delle risposte
basatesulla percezioneche indichino il livello di similarit dei suoni. I suoni
vengonoquindi rappresentati nel nostro spazio.A questopunto possibile
45
-
valutare la correlazionestatistica tra la grandezza(ignota) misurata sugli
assicon grandezzenote al ne di stabilire il signicato degli assidel nostro
spazio.Unaltra operazioneda eettuare la verica del clustering, ossiala
capacit del sistemadi raggrupparein zonebendenite gruppi di suonisimili
comei timbri prodotti da strumenti di una stessafamiglia.
Questo tip o di ricerche ha goduto di unattenzione decisamente minore
rispetto al riconoscimento veroe proprio. Le motivazioni sonoessenzialmente
di opportunit: la rappresentazione timbrica un argomento che richiedeun
insiemedi competenzepi vasto e non ha le ricadute applicative e commer-
ciali immediate di un software di riconoscimento robusto. Ci nonostante,
gli sviluppi a lungo termine di questoapproccio possonoportare a risultati
inattesi in vari campi di ricercacompresoil riconoscimento timbrico. Infatti,
la comprensionedei fenomenipercettivi potrebbe ricevereun grandeimpulso
dalla comprensionedel numeroe del signicato delledimensionidello spazio.
Ai ni del riconoscimento si pu ipotizzare lunione di due framework per
ottenere risultati migliori: uno basatosugli spazi timbrici e laltro su sistemi
esperti in grado di valutare le tecniche strumentali ed esecutive in presenza
di frammenti musicali.
3.1.3 Lo spazio timbrico di Grey
Grey [Gre75] stato il primo ad impegnarsi in una verica sperimentale di
questi concetti. Nellidea iniziale di Gray non cera comescopo nale il ri-
conoscimento automatico, il suo obbiettivo era quello di vericare se fosse
stato possibiledare una rappresentazione formaledello spaziomentale in cui
46
-
gli esseriumani collocano i suoni; la sua impostazioneper stata ripresa
anche per la costruzionedi spazi tramite analisi automatiche e quindi vale
la pena di descriverla pi in dettaglio. Inizialmente stato selezionatoun
databasedi 16 strumenti su cui stata eettuata unelaborazione tesa ad
eliminare le dierenze non timbriche comeil pitch o il loudness.I suoni sono
stati quindi somministrati a coppiead un insiemedi ascoltatori. Per ciascuna
coppia lascoltatoredava un giudizio di similarit espressoin forma numerica.
A partire da questi dati Grey costru una seriedi matrici che contenevano
le valutazioni soggettive (subjective ratings). Questi dati furono elaborati
in due modi indipendenti: con un algoritmo di Multidimensional Scaling2
(MDS) e con un algoritmo di Hierarchical Clustering3 (HC). Lo scopo del-
lanalisi MDS era quello di scoprire i rapporti metrici degli stimoli in uno
spazioEuclideo che tenesseconto delle valutazioni di somiglianzain termini
di distanze spaziali. Lanalisi HC inveceera usata per raggrupparestimoli
simili indipendentemente dalla struttura spazialesottostante. Una prova del-
la bont del modello era data secondoGrey dalla compatibilit dei risultati
nei due tipi di analisi. In altri termini, se lalgoritmo di clustering tendeva
a raggruppare punti che gi risultavano vicini in un graco tridimension-
ale ottenuto tramite lanalisi MDS, si aveva la confermadi aver individuato
la giusta dimensionalit e la giusta metrica. A questopunto lultimo passo
2lalgoritmo prende in input una matrice delle distanze e genera in output una con-gurazione di punti (su due o tre dimensioni); la distanza euclidea tra i punti dellacongurazione rappresenta spazialmente la matrice delle distanze.
3lalgoritmo HC adotta una strategia che si pu riassumere in tre passi: trova unamatrice di similarit (qualora non sia gi disponibile) calcolandole distanze tra gli oggetti.Vengono collegate coppie di oggetti simili per formare dei cluster binari. I cluster cosottenuti vengonoassemblati in cluster pi grandi creando un albero gerarchico. Lalb eroviene esaminatoper trovare dei cluster secondoi criteri scelti
47
-
sarebbe stato quello di trovare il signicato percettivo delle tre dimensioni
con tecniche di regressione.Purtroppo Grey non ci riusc e lasci solo delle
considerazioniqualitativ esuquali potevanoesserele grandezzerappresentate
dai tre assi;in particolare indic lasseprincipale comerappresentativ o della
distribuzione spettrale mentre gli altri due assidovevano rappresentare una
seriedi caratteristiche temporali e spettrali miscelatetra loro secondopesi
non noti. La giusticazione di questadicolt eradovuta, secondoGrey, alle
inuenze di natura culturale degli ascoltatori; egli in pratica sosteneva che
le esperienzeculturali degli ascoltatori (del tutto indipendenti quindi dalla
oggettivit del timbro) inuenzavano i dati in modo da renderetroppo comp-
lessa,senon impossibile,lidenticazione di un certo assecon una grandezza
percettiva misurabile.
Alla luce della successiva esperienzadi Martin [Mar99] possiamoritenere
che Grey avessein parte ragione nellindicare lesperienzaculturale dellas-
coltatore come un limite nella creazionedi uno spazio timbrico. Infatti, i
risultati di Martin ci dicono che il riconoscimento migliora sensibilmente us-
ando frasi monofoniche anzich toni isolati e solo con le prime possibile
sfruttare la conoscenzadel fraseggioe delle tecniche strumentali. Daltra
parte il numero di dimensioni usate da Grey non necessariamente quello
corretto ed inoltre il grado di correlazionetra un assee una grandezzanon
sar mai del cento per cento, dato che il timbro non realmente indipendente
dal pitch. Ma sopratutto osserviamoche se fosseuna macchina ad operare
lanalisi e fornire i dati da rappresentare in uno spazio timbrico cadrebbe
completamente il limite dovuto allesperienzaculturale degli uomini.
48
-
3.2 Creazione di uno spazio tim brico a partire
da coecien ti MF CC
3.2.1 Database sonoro e strumenti utilizzati
In questocapitolo descriveremo la nostra esperienzanella creazionedi uno
spaziotimbrico. Lo strumento usato per limplementazione degli algoritmi
lambiente di calcoloscientico Matlab ver. 6.5. Comemateriale timbrico da
analizzareabbiamoutilizzato un gruppo basedi 30strumenti rappresentativ o
delle principali famiglie strumentali dellorchestra classicaoccidentale come
mostrato in tabella 3.1
Sono stati utlizzati esempisonori campionati ad una frequenzadi 44.1
KHz con una risoluzione di 16 bit. Conviene fare alcune precisazionisulle
fonti da cui abbiamo attin to i campioni per evidenziare i problemi tipici
che si incontrano quandosi fanno questotip o di esperimenti. Sul mercatosi
trovano moltissime librerie commercialidi campioni sonori destinate ai mu-
sicisti. Molte di questelibrerie sonorealizzateda grandi esecutorie registrate
in studi con attrezzature allo stato dellarte. Il problemaprincipale che tali
librerie sonodestinatead essereusatesu hardware proprietario comei cam-
pionatori: questosignica che vengonousati formati di le non standard e
comunque i campioni sonotagliati e modicati per ottenere la migliore resa
musicalesulle macchine cui sonodestinati.
Nel nostro esperimento i campioni da inserire nel databasedi strumenti
sono tratti per la maggior parte dalla libreria McGill [Opo87] e in parte
49
-
Strumento tecnica esecutiva Label Famiglia StrumentaleFlauto contralto vibrato alto ute vibrato ati - legniTromba barocca bach trumpet ati - ottoniClarinetto basso bassclarinet ati - anciaFagotto bassoon ati - ancia doppiaClarinetto in sib b-at-clarinet ati - anciaVioloncello vibrato, con archetto cello arc hiVioloncello pizzicato cello pizzicato arc hiTromba in do c-trumpet ati - ottoniContrabbasso vibrato, con archetto double bass arc hiContrabbasso pizzicato double basspizzicato arc hiClarinetto in mib vibrato e-at-clarinet ati - anciaCorno Inglese English-horn ati - ancia doppiaFlauto vibrato ute-vibrato ati - legniCorno Francese french-horn ati - ottoniChitarra acustica guitar web cordofoni - corde pizzicateClavicembalo harps cordofoni - corde pizzicateMarimba marimba p ercussioni - cromatic heOboe vibrato oboe ati - ancia doppiaOrgano da chiesa suonato su registro di riferimen to 1 organ 2Organo da chiesa suonato su registro di riferimen to 2 organo autoPianoforte piano cordofoni - corde martellateSax Tenore sax tenor ati - anciaTromboneTenore tenor-trombone ati - ottoniTuba tuba ati - ottoniVibrafono vibrafono p ercussioni - cromatic heViola pizzicato viola arc hiViola vibrato, con archetto viola arc hiGruppo di violini vibrato, suonati allunisono violin ensemble arc hiviolino vibrato, con archetto violin arc hiviolino pizzicato violin arc hi
Tabella 3.1: Strumenti utilizzati per lanalisi timbrica
50
-
dalla libreria di registrazioni delluniversit dellIowa 4 che si presentano in
un formato standarde non hannosubito rielaborazioni successive. Gli editori
delle librerie riportano i seguenti dati sulle condizioni di registrazione:
libreria McGill: la maggior parte dei campioni sonostati registrati di-
rettamente in un registratoreSony PCM 3202DASH. Sonostati impie-
gati microfoni a condensatoredi alta qualit B K collegatiad un stadio
preamplicatore sempredella B K. Gli archi e il piano sonostati regis-
trati in una sala da concertocon un tempo di riverberazionevariabile
tra i 2.5 e i 5 secondi.Gli altri strumenti sonostati registrati in uno
studio acusticamente neutro con un tempo di riverberazionedi circa
0.4 secondi.
Libreria delluniversit di Iowa: le registrazioni sonostate eettuate in
una cameraanecoicanel Wendell JohnsonSpeech and Hearing Center
delluniversit dellIowa. Sonostati impiegati microfoni NeumannKM
84, mixer Mackie 1402-VLZ e registratore DAT PanasonicSV-3800.
Ciascuno strumento stato registrato con 3 livelli di dinamica non
normalizzati: piano pianissimo,mezzoforte e forte fortissimo.
La libreria McGill diventata uno standard nelle pi recenti sperimen-
tazioni sulla ricerca timbrica dato che ore un ampio ventaglio di strumenti
e ciascunostrumento viene suonato in tutta la suaestensione.Ma presenta,
per, anche alcuni difetti di cui occorre tener conto: gli esecutori impiegati
nelle registrazioni degli strumenti a ato e ad arco impiegano la tecnica del
4i campioni audio sono liberamente scaricabili allindirizzo internet http://theremin.music.uiowa.edu
51
-
vibrato5 ed in qualche casosi sente chiaramente un crescendo6. Per quanto
detto nel paragrafo2.4si deve tenerconto di questi fattori nellaprogettazione
dellalgoritmo di analisi e nella valutazionedei risultati.
3.2.2 Lalgortimo di front end
I coecien ti MF CC
Figura 3.1: schemaa blocchi MFCC
MFCC lacronimo di Mel FrequencyCepstrumCoecien t; anchequesta
tecnica nata nellambito delle ricerche di elaborazione del parlato ed
stata successivamente adattata ai suoni musicali. Analogamente alla tecnica
LPC, anchemediante gli MFCC possiamoottenereun inviluppo spettrale ma
lidea sottostante allalgoritmo diversa. In questoschema il segnaleviene
5Il vibrato una tecnica esecutiva che consistenel variare rapidamente il pitch dellanota di circa un quarto di tono attorno alla frequenzafondamentale
6Unaltra tecnica esecutiva che consistenelleettuare un incremento del loudnessdaunintensit molto bassano allin tensit desiderata
52
-
elaborato da un bancodi ltri pensatoin modo da riettere alcunepropriet
percettive illustrate in AppendiceA.
In gura 3.1 viene presentato lo schema a blocchi dellalgoritmo di es-
trazione dei coecien ti:
Vediamoora comefunzionano i vari blocchi:
FrameBlocking: il segnalein ingressovienescomposto in piccoleporzioni
temporali chiamate frame. Tali frame sono leggermente sovrapposti
in modo da non perdere eccessive informazioni quando si eettua il
nestramento.
Finestramento: Lo scopo del nestramento quello di ottenere in us-
cita un segnaleprivo di discontinuit allinizio e alla ne del frame.
Tali discontinuit portano ad una perdita di risoluzione nel dominio
della frequenzache si manifestacol fenomenodel frequencyleakageche
consiste in una dispersionedellenergia di una riga spettrale in tut-
to lassedelle frequenze.La soluzioneconsistenel moltiplicare ciascun
frame nel dominio temporaleper un altro segnalecon lo stessonumero
di campioni chiamato nestra. Utilizziamo a tale scopo la nestra di
Hamming:
(w(n)=0 .540.46cos 2nN 1 , 0nN1
0, altrimenti
)
(3.1)
La nestra riduce il frequencyleakagema contribuisce allallargamento
dei picchi spettrali.
FFT: ciascunframe in uscita dai blocchi precedenti viene trasformato
53
-
nel dominio della frequenza.Viene quindi calcolato il modulo della
trasformata di Fourier discreta mediante algoritmo di trasformata di
Fourier rapida. In uscita da questoblocco il segnaleviene trattato nel
dominio della frequenza.
Mel FrequencyWarping: la risoluzione in frequenzadello spettro del
sistemauditiv o umano non segueuna scalauniforme (vedi Appendice
A). Tra le varie scalepercettive disponibili scegliamola scalamel; tale
scala spaziata uniformemente in frequenzaal di sotto dei 1000 Hz
ed esponenzialmente al di sopra. Possiamousare la seguente formula
approssimataper calcolare i mel per una data frequenzaespressain
Hertz:
mel(f) = 2595 log10(1 +f
700) f 1000Hz (3.2)
mentre mel(f) = f per f 1000. Grazie alla presenzadel logaritmo
nella scalamel si ha leetto di comprimereil rangedi frequenzedello
spettro analogamente a quanto accadenellorecchio. A questo punto
implementiamo un bancodi ltri, spaziatouniformemente sulla scaladi
mel. Tale banco costituito da ltri triangolari con larghezzadi banda
costante no ad 1 Khz e Q costante per le frequenzesuccessive. Si noti
che i triangoli si sovrappongonosimulando leetto dellebandecritiche.
Il ltraggio viene realizzato nel dominio della frequenzamoltiplicando
la trasformata di Fourier di ciscun frame per la risposta in frequenza
di ciascun ltro mel. La risposta in frequenzadel banco ha laspetto
mostrato in gura 3.2
Cepstrum: In questo blocco convertiamo il logaritmo dello spettro in
54
-
0 1000 2000 3000 4000 5000 6000 7000 80000
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Figura 3.2: bancodi ltri mel
scala mel nel dominio del tempo. Ci che otteniamo viene chiamato
coecien te cepstrummel (MFCC). Dato che i coecien ti dello spettro
mel (ed i loro logaritmi) sono numeri reali, possiamoconvertirli nel
dominio del tempo usandola TrasfomataCosenoDiscreta (DCT).
In sintesi la formula utilizzata per il calcolodegli MFCC
cn =KX
k=1
log(fSk)cos[k(n 1
2)
K] (3.3)
dove fSk con k = 1, ..., K sono le energiein uscita dai ltri. Nelle gure
3.3 e 3.4 possiamoosservare i graci degli MFCC per i campioni di violo-
55
-
cello e tuba. Entrambi i graci rappresentano 12 frame rispettivamente dei
due strumenti; confrontandoli emergeche nel casodel violocello le dierenze
tra i frame sono molto pi marcate che nel casodella tuba. Questo un
indice abbastanzaevidente delledierenze che si hanno tra le evoluzioni tim-
briche dei vari strumenti. Putroppo, come evidenziato nel paragrafo 3.2.1,
questedierenze sonoaccentuate anche dalle tecniche strumentali usatedai
musicisti.
0 5 10 15 20 25 304
3
2
1
0
1
2
3MFCC del Timbro: cello
Figura 3.3: I primi 26 mfcc del violoncello rappresentati per 12 frames
56
-
0 5 10 15 20 25 304
3
2
1
0
1
2
3MFCC del Timbro: tuba
Figura 3.4: I primi 26 mfcc della tuba rappresentati per 12 frames
Eettuando la traformata DCT inversadegli MFCC ritorniamo ad una
rappresentazione in frequenzadel segnaleche proprio linviluppo spettrale,
sia pur rappresentato in scala mel, a cui abbiamo fatto riferimento prece-
dentemente. Osservando le gure 3.5 e 3.6 relative agli stessicampioni di
violoncello e tuba si ha la confermadi quanto gi indicato dagli MFCC: nel
casodella tuba gli inviluppi relativi ai vari frame hanno sempre la stessa
forma mentre si osservano delle variazioni nel casodel violoncello.
57
-
0 5 10 15 20 25 302
1.5
1
0.5
0
0.5
1
1.5
2
2.5
3 Strumento cello
Figura 3.5: Gli inviluppi spettrali del violoncello rappresentati per 12 frames
Riassumendo,possiamodire di aver individuato una caratteristica distin-
tiva del timbro negli MFCC partendo da un modello che prendespunto dal
funzionamento dellorecchio, ovvero un modello basato sulla percezione.A
partire da tale descrizionesiamo in grado di percorrerea ritroso il cammino
dal suonopercepitoalla sorgente in quanto la rappresentazione in frequenza
che si ottiene dagli MFCC fornisceun inviluppo spettrale che caratteristico
dello strumento.
58
-
0 5 10 15 20 25 302
1.5
1
0.5
0
0.5
1
1.5
2
2.5
3 Strumento tuba
Figura 3.6: Gli inviluppi spettrali della tuba rappresentati per 12 frames
Ne segueda quanto detto che gli MFCC individuano degli invarianti
acustici. I limiti di questa tecnica si possonoriassumerein due osservazioni
generali; la prima che lalgoritmo tiene conto solo di alcuni aspetti della
percezionetracurandonemolti altri, sia per mantenere lalgoritmo ad un liv-
ello di modestacomplessit, siaperchmolti fenomenipercettivi sonoancora
poco noti. La secondaosservazione intrinseca al modello stesso:si presup-
pone che il segnaleda analizzaresia periodico e che levoluzione temporale
59
-
dello spettro sia contenuta. Da quanto detto nel paragrafo 2.3.1, la fasedi
attacco del suono non periodica e quindi non si presta a questo tip o di
analisi; inoltre il contenuto spettrale soggettoad evoluzione,ragion per cui
ha sensoparlare di impronta spettrale solo per intervalli temporali in cui si
possanoconsideraretrascurabili tali evoluzioni.
Formazione dei Vettori A custici
Dato che il timbro evolve nel tempo, lelaborazionedel segnalein ingresso
non viene eettuata sullintero segnalema questultimo viene suddiviso in
tante piccole nestre temporali chiamate frame. La dimensionedel frame si
scegliein modo tale cheallin terno di questointervallo temporalela variazione
timbrica si possaconsideraretrascurabile (ipotesi di quasi stazionariet del
timbro). Ciascunframe vieneelaborato separatamente con lestrazionedegli
MFCC ed il risultato un vettore acustico per ciascun frame. Inne tut-
ti i vettori acustici vengonoassemblati in una matrice che rappresenta gli
invarianti acustici del suonoin tutta la suadurata.
Il nostro banco formato da 27 ltri equispaziatisu scalamel e ciascun
ltro ha una larghezzadi banda di circa 100 mel. Complessivamente il nos-
tro banco copre una larghezzadi banda di 2700mel corrispondenti a circa
8 KHz (vedi gura 3.2). La scelta di questa larghezza motivata dal fatto
che la maggiorparte di informazioni sonoretrasportate dagli strumenti mu-
sicali si trovano in questabanda mentre a frequenzepi elevate il rapporto
segnale/rumorediventa svantaggioso. Il banco risulta inoltre normalizzato
rispetto allenergiaper non privilegiare le frequenzepi alte.
Da ogni campionevengonoestratti i primi 600msece da questi vengono
60
-
eliminati i primi 80 msec.Alla routine di analisi vengonopassatiquindi circa
520msecdi audio da analizzare.Questi valori ci sonosembrati ottimali per
i seguenti motivi:
Una durata intorno ai 500 msec sucien te a contenere la maggior
parte delleevoluzioni timbriche di una singolanota su molti strumenti.
Abbiamo la necessitdi eliminare lattacco da tutti i campioniperch il
tip o di analisi che ci apprestiamoa fare fornisceinformazioni utili solo
per suoni quasi periodici (vedi paragrafo 2.3.1). A questo proposito
osserviamoche per tagliare lattacco sarebbe stato sucien te eliminare
i primi 20-40msec; la scelta di operare un taglio maggiore dettata
dalla necessit di moderare il paleseeetto di crescendopresente in
alcuneregistrazioni.
Mediante la 3.3 abbiamoche ciascunframe rappresentato da 27 coe-
cienti che formano il vettore acustico. Il primo coecien te, quello di ordine
zero, rappresenta lenergia media del segnalee viene quindi esclusoal ne
di ottenere una normalizzazione.Il vettore acustico cos ottenuto, secondo
quanto discussonel paragrafo3.2.2, contiene una descrizionepercettiva del
suono (o meglio del singolo frame), almeno per la sua parte periodica. In-
ne la trasformata cosenodei 26 coecien ti produce linviluppo spettrale del
frame.
In realt possibilevericare che la maggiorparte delle informazioni spet-
trali rilevanti sonocontenute nei primi coecien ti del vettore, mentre quelli
di ordine pi elevato contengono la parte pi ne di tale rappresentazione.
Non esisteuna regola per determinare a priori quali sia il numero giusto
61
-
di coecien ti da ritenere, ma si valuta in basealle esigenzesperimentali il
numero pi opportuno. Nel nostro casosi scelto di stabilire tale numero
pari a 6, che la quantit pi piccolaper conservare le informazioni spettrali
di maggior rilievo. Questascelta consente di concentrare lanalisi eettuata
nello stadio successivo sulle caratteristiche pi importanti diminuendoeven-
tuali correlazioni incrociate sugli assi con caratteristiche minori. Operando
la trasformata cosenodei 6 coecien ti otteniamo ancoraun inviluppo spet-
trale, che presenter un andamento pi smussato (cio meno dettagliato)
del precedente. Chiameremoconvenzionalemente tale inviluppo col termine
inviluppo semplicato. In stadi successividella ricerca comunque oppor-
tuno ripetere e/o riprogettare lesperienza tenendo conto di un numero di
coecien ti maggiore.
3.2.3 Le Mappe Autoorganizzanti
Generalit
Per la costruzionedello spazio timbrico vengono impiegate le mappe neu-
rali autoorganizzanti o SOM (Self Organizing Map), introdotte da Kohonen
[Koh90a] [Koh90b]. Si tratta di reti neurali appartenenti alla famiglia delle
reti competitiv e. Questereti imparano a riconoscerele regolarit e le corre-
lazioni presenti nel loro input e adattano la loro risposta futura, cio dopo
laddestramento, in accordocon linput. In questomodo i neuroni delle reti
competitiv e imparano a riconosceregruppi di vettori di input simili. In par-
ticolare, le mappe autoorganizzanti rispondono attiv ando neuroni vicini in
corrispondenzadi ingressisimili. Le SOM sonocaratterizzateda:
62
-
la forma del pattern reticolare, ad esempiorettangolare o esagonale
(Figura 3.7)
Figura 3.7: Esempiodi topologiaa griglia rettangolare (in alto) ed esagonale(in basso)
la metrica scelta,cio la funzionechecaratterizza la distanza;possiamo
averedistanzeeuclidee,di Manhattan, etc.
La rete funzionanel modo seguente: a ciascunneuronevieneassociato un
vettore pesow i che ha la stessadimensionalit del vettore di ingressox ; in
questomodo abbiamo una struttura in cui tutti i neuroni sono idealmente
63
-
connessiin parallelo a tutti i terminali di ingresso.Per ciascunvettore in in-
gressoviene trovato il neuroneche megliosi accoppiacol vettore producendo
il pi alto livello di eccitazione;questaccoppiamento produce la corrispon-
denza tra il vettore in input e una posizionesulla mappa. Il neuroneche si
ecciter sar quello che minimizza la distanza tra x e w i:
d = min kx w ik (3.4)
Le coordinateche individuano il neuroneeccitatorappresentano la proiezione
del vettore di ingressosulla mappa. La funzione distanza scelta inuenzer
ovviamente il tip o di proiezioneche otterremo. La particolarit delle SOM
rispetto alle altre reti competitiv e che insiemeal neuronevincente vengono
individuati e aggiornati anche i neuroni che si trovano nellintorno di questi
(vedi Fig 3.8).
A ddestramen to e Simulazione
Il funzionamento della rete si basa quindi sulla formazionedei coecien ti
associati a ciascunneurone.I coecien ti si formano nella fasedi addestra-
mento della rete. Una rete inizialmente neutra cio i suoi coecien ti sono
tutti uguali. Laddestramento consistenellesporre la rete ad un insiemedi
vettori che costituisce il nostro databasedi addestramento. Ogni volta che
viene presentato un vettore in ingressoviene selezionatoil neuronevincente
secondola regolagi illustrata. A questopunto vengonoaggiornati i pesidel
64
-
Figura 3.8: Esempiodi layer bidimensionale:gli intorni sonoevidenziati contoni di grigio