Andrea Arcella Un Sistema Di Riconoscimento Dei Timbri Musicali

Univ ersit degli Studi di Nap oli Federico I Icorso di laurea in sica

Un sistema di riconoscimento dei tim bridegli strumen ti musicali basato sui

coecien ti mel-cepstrum

Relatore : Prof. GianpaoloEvangelistaCorrelatore : Prof. FrancescoCutugno Candidato : Andrea Arcella

matricola : 07/5532

anno accademico2003-2004

Sommario

Il riconoscimento automatico di suoni e immagini semprestata unesigen-

za molto sentita n dagli albori della ricerca informatica. Infatti le ricadute

di tale ricerca coprono un vasto insieme di discipline che vanno dalla si-

ca alla medicina,dalle telecomunicazioni alla multimedialit. Questa tesi ha

comeoggetto il riconoscimento automatico degli strumenti musicali, cio il

riconoscimento dei loro timbri. Il riconoscimento vieneeettuato tramite un

sistemain gradodi analizzaredei suonie fornire una rispostasullo strumento

che li ha generati.La tesi illustra inizialmente le caratteristiche del timbro e

le problematiche principali legateal suoriconoscimento. Verrannoquindi de-

lineati i principali passifatti no ad oggi nel riconoscimento timbrico e verr

presentato quello che attualmente lo stato dellarte. Seguir la discussione

di un problema parallelo a quello del riconoscimento: la creazionedi spazi

timbrici; verr propostauna metodologiadi rappresentazionetimbrica basata

su reti competitiv e con relativa verica sperimentale. Inne vienepresentato

un progetto di classicatore timbrico confrontando due diversestrategie di

classicazioneentrambe sottopostea verica sperimentale.

Indice

1 In tro duzione 7

1.1 Cosil riconoscimento timbrico . . . . . . . . . . . . . . . . . 7

1.2 A che serve il riconoscimento timbrico . . . . . . . . . . . . . . 8

1.3 Levento sonorotra evento sico e percezione. . . . . . . . . . 10

2 Il Tim bro 14

2.1 Una denizione di timbro . . . . . . . . . . . . . . . . . . . . . 14

2.2 Timbro e Spettro . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.1 Segnali discreti e rappresentazione nel dominio della

frequenza . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.2 Timbri strumentali e rappresentazioni in frequenza . . 17

2.3 Rappresentazioni del suono. . . . . . . . . . . . . . . . . . . . 20

2.3.1 Evoluzione temporale del suono: la rappresentazione

ADSR . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.2 Modello di produzionedel suonosorgente-ltro . . . . 23

2.3.3 Deconvoluzionee Cepstrum . . . . . . . . . . . . . . . 26

2.4 Timbro, Pitch e Loudness . . . . . . . . . . . . . . . . . . . . 33

2.5 Denizioni quantitativ e di alcunegrandezzepercettive . . . . . 35

1

2.6 Il riconoscimento timbrico negli esseriumani . . . . . . . . . . 36

2.6.1 Riconoscimento di toni isolati e frasi monofoniche . . . 37

2.6.2 Riconoscimento di insiemi polistrumentali: il modello

di McAdams . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Rappresen tazione Tim brica 43

3.1 Lo SpazioTimbrico . . . . . . . . . . . . . . . . . . . . . . . . 43

3.1.1 Riconoscereo rappresentare . . . . . . . . . . . . . . . 43

3.1.2 Comesi creauno spaziotimbrico . . . . . . . . . . . . 44

3.1.3 Lo spaziotimbrico di Grey . . . . . . . . . . . . . . . . 46

3.2 Creazionedi uno spaziotimbrico a partire da coecien ti MFCC 49

3.2.1 Databasesonoroe strumenti utilizzati . . . . . . . . . 49

3.2.2 Lalgortimo di front end . . . . . . . . . . . . . . . . . 52

3.2.3 Le Mappe Autoorganizzanti . . . . . . . . . . . . . . . 62

3.3 Discussionedellesperimento . . . . . . . . . . . . . . . . . . . 67

4 Sistema di riconoscimen to tim brico a partire da coecien ti

MF CC 75

4.1 Struttura di un sistemadi riconoscimento . . . . . . . . . . . . 75

4.2 Riduzionedei dati: Analisi per Componenti Principali . . . . . 77

4.3 Algoritmi di riconoscimento . . . . . . . . . . . . . . . . . . . 81

4.3.1 Approccio classico:criterio MAP . . . . . . . . . . . . 81

4.3.2 Approccio Data Mining . . . . . . . . . . . . . . . . . . 97

5 Conclusioni e sviluppi futuri 120

5.1 Estensionedel Databasedi addestramento . . . . . . . . . . . 120

2

5.2 Quantit delle Features. . . . . . . . . . . . . . . . . . . . . . 121

A Il sistema uditiv o 122

A.1 Struttura dellorecchio . . . . . . . . . . . . . . . . . . . . . . 122

A.2 Discriminazionedelle frequenze . . . . . . . . . . . . . . . . . 128

B Schema delle Trasformate di Fourier 131

3

Elenco delle gure

1.1 Schemasemplicato dellMPEG-7 . . . . . . . . . . . . . . . . 10

1.2 Rappresentazione temporale di un campionedi violoncello . . 11

1.3 Spettrogramma di un violoncello. . . . . . . . . . . . . . . . . 12

2.1 Rappresentazionein frequenzadi un violoncelloin regimequasi

stazionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2 Esempiodi ADSR . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3 Schemadel tratto vocale . . . . . . . . . . . . . . . . . . . . . 25

2.4 Schemasemplicato di registrazionefonograca . . . . . . . . 29

2.5 Deconvoluzione in frequenza . . . . . . . . . . . . . . . . . . . 30

2.6 SchemaAnalisi Cepstrale. . . . . . . . . . . . . . . . . . . . . 32

2.7 schemaa blocchi del modello di McAdams . . . . . . . . . . . 42

3.1 schemaa blocchi MFCC . . . . . . . . . . . . . . . . . . . . . 52

3.2 bancodi ltri mel . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.3 I primi 26 mfcc del violoncello rappresentati per 12 frames . . 56

3.4 I primi 26 mfcc della tuba rappresentati per 12 frames . . . . 57

3.5 Gli inviluppi spettrali del violoncellorappresentati per 12 frames 58

3.6 Gli inviluppi spettrali della tuba rappresentati per 12 frames . 59

4

3.7 Esempiodi topologia a griglia rettangolare (in alto) ed esago-

nale (in basso). . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.8 Esempiodi layer bidimensionale:gli intorni sono evidenziati

con toni di grigio . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.9 Due esempidi neuroni con relativi intorni rispettivamente di

raggio d=1 e d=2 . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.10 Proiezionebidimensionaletramite reti di Kohonen . . . . . . . 70

3.11 rete di Kohonencon databasedi addestramento 1 . . . . . . . 72

3.12 rete di Kohonencon databasedi addestramento 2 . . . . . . . 73

3.13 Inviluppi spettrali semplicati del databasedi addestramento 2 74

4.1 Proiezionebidimensionaledi 6 timbri tramite PCA . . . . . . 79

4.2 Sogliae regioni di due funzioni di densit gaussiane . . . . . . 85

4.3 Esempiodi gaussianabinormale . . . . . . . . . . . . . . . . . 86

4.4 Esempiodi curve di livello . . . . . . . . . . . . . . . . . . . . 88

4.5 Gruppo di gaussianebinormali . . . . . . . . . . . . . . . . . . 89

4.6 Sovrapposizionedi due gaussianebinormali . . . . . . . . . . . 90

4.7 Proiezionetramite PCA di nove timbri . . . . . . . . . . . . . 94

4.8 Nove timbri rappresentati da altrettan te gaussianebinormali.

Vista uno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.9 Nove timbri rappresentati da altrettan te gaussianebinormali.

Vista due . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.10 Regioni di classicazionerelative a nove timbri . . . . . . . . . 108

4.11 Test 1: riconoscimento del timbro di Marimba . . . . . . . . . 109

4.12 Test 2: riconoscimento del timbro di Tromba . . . . . . . . . . 110

5

4.13 Test 3: riconoscimento del timbro di Tromba con pitch modi-

cato (un tono) . . . . . . . . . . . . . . . . . . . . . . . . . . 111

4.14 Test 4: riconoscimento del timbro di Tromba con pitch modi-

cato (una quinta) . . . . . . . . . . . . . . . . . . . . . . . . 112

4.15 Test 5: riconoscimento del timbro di Fagotto con pitch modi-

cato (un semitono) . . . . . . . . . . . . . . . . . . . . . . . 113


cato (un tono inferiore) . . . . . . . . . . . . . . . . . . . . . 114


cato (una quinta inferiore) . . . . . . . . . . . . . . . . . . . 115


cato (unottava inferiore) . . . . . . . . . . . . . . . . . . . . 116

4.19 Test9: riconoscimento del timbro di Vibrafono conpitch mod-

icato (unottava inferiore) e diversafonte di registrazione . . 117

4.20 Test10:riconoscimento del timbro di Tromba barocca . . . . . 118

4.21 Test11:riconoscimento del timbro di Chitarra classica. . . . . 119

A.1 Schemadellorecchio . . . . . . . . . . . . . . . . . . . . . . . 123

A.2 Graco delle curve di Fletcher . . . . . . . . . . . . . . . . . . 125

A.3 Caratteristiche di ingresso-uscitadi un compressoree di un

expanderdi dinamica . . . . . . . . . . . . . . . . . . . . . . . 126

6

Capitolo 1

In tro duzione

1.1 Cos il riconoscimen to tim brico

Riconoscereun timbro vuol dire avere la capacit di riconoscerela sorgente

che ha dato origine ad un suono.In seguitodeniremo con precisionecosasi

intende con timbro e sorgente sonorama per rendereintuitiv o il concetto si

pu pensareallazioneche compiamoquandoascoltiamoun brano musicalee

riconosciamogli strumenti che lo eseguono.Questoprocessoabbastanzafa-

miliare per molte persone in realt unattivit estremamente complessache

coinvolgesia laspetto sico del suonosia le capacit percettivedi chi ascolta.

Naturalmente il concetto di sorgente sonora molto pi ampio del concetto

di strumento musicale ma noi faremo esplicito riferimento a questultimo.

I motivi di tale scelta sono i seguenti: il riconoscimento dei timbri relativi

agli strumenti musicali di per s un campo interessante di indagine e di

applicazioneper tutti coloro che si occupanodi musicae multimedialit; gli

strumenti della tradizione musicaleoccidentale si possonoconsideraresorgen-

7

ti sonorebennote per quelche riguarda il loro funzionamento eddisponibile

unampia letteratura in merito; data la loro notoriet pi sempliceutiliz-

zarli per fare esperimenti di riconoscimento con esseriumani e compararei

risultati con gli esperimenti eseguiticon il computer.

1.2 A che serve il riconoscimen to tim brico

Una parte consistente della ricerca informatica rivolta attualmente allob-

biettiv o di rendere intellegibile e quindi utilizzabile lenorme mole di infor-

mazionepresente in rete. Una delle esigenzepi sentite quindi quella del-

lindicizzazionedei documenti multimediali che diventano una componente

semprepi importante del usso informativo che avvolge il mondo attuale.

Attualmente abbastanzasempliceeettuare ricerchecontestuali in rete me-

diante parole chiave per trovare documenti; in realt per non sappiamose

ci cheabbiamotrovato corrisponderealmente a ci checerchiamo nc hnon

neprendiamovisione.In altri termini le sempliciricerchecheeettuiamo oggi

non sonobasatesul contenuto del le ma sul suoformato o su altri parametri

che non assicuranoche il contenuto di quel le abbia interesseper noi 1. Ci

a cui puntano i nuovi sistemi di ricerca che potremmo denire in telligenti

inveceuna ricerca che operi sui contenuti. Il motore di ricerca deve essere

quindi in grado di capire il contenuto di un oggetto e selezionareci che

soddisfa le nostre richieste.Se tutti coloro che rendonodisponibile uninfor-

mazionein rete associasserouna descrizionedi questainformazionechepossa

1Si pensiallalgoritmo del motore di ricerca Google,che nel presentare la graduatoria dirilevanzadei siti interessanti sfrutta linformazione che viene dalla sceltadegli altri utenti:i siti pi scelti durante le precedenti ricerche sonoquelli che il motore presenter comepiinteressanti per le ricerche successive.

8

essereinterpretata dal motore il problemasarebbe risolto. Il problemastato

immediatamente sentito nellambito dello sviluppo di paginehtml ed infatti

hanno fatto subito la loro comparsai famosi tag html che contengono le pa-

role chiave relative al contenuto del sito; tali tag sonoinvisibili a chi vede la

paginaweb e vengonosfruttati dai motori di ricercaper le indicizzazioni.Lo

sviluppo dello standardXML dettato proprio da questotip o di esigenze.Ri-

tornando ai le multimediali ed audio in particolare, il problemada risolvere

lo stesso,con la dierenza che la denizione e lestensionedellinformazione

in essicontenuta meno immediata. Attualmente vengonoinvestite ingenti

risorseper la ricercadi uno standarddi descrizionedei contenuti multimediali

e possiamosenzaltrocitare MPEG-7 2 comepunto focaledi questericerche

(si veda la gura 1.1 tratta dal sito di riferimento dellMPEG-7).

A questo punto per si pone una domanda:che succedese il materiale

informativo su cui eettuiamo una ricerca sprovvisto dei metadati che ne

descrivono il contenuto? La stessadomandapu esseremessasotto unaltra

forma che ci aiuter a centrare meglio il sensodel nostro lavoro: che succede

se il materiale sprovvisto di metadati appositamente inseriti da un essere

umano? La risposta : necessitiamodi un sistemaautomatico che sia in gra-

do di estrarredei parametri da usaresuccessivamente comemetadati; questi

parametri dovranno esserequindi legati al modo in cui noi percepiamole

informazioni sonoree le categorizziamo.Lo scopo di questolavoro di anal-

izzare le strategie n qui adottate per risolvere questoproblema, valutarne

i successie i limiti e proporre nuove soluzioninellambito dellindicizzazione

automatica di una classedi documenti sonori.2http://ipsi.fraunhofer.de/delite/Pro jects/MPEG7/

9

Figura 1.1: Schemasemplicato dellMPEG-7

1.3 Lev ento sonoro tra evento sico e percezione

Il suono un evento sico, descrivibilecomevibrazione in un mezzoelastico.

Comeevento sico pu esseredescritto dalle opportune equazioni,pu essere

rivelato con ladeguata strumentazione e pu inne essereregistrato abbas-

tanza fedelmente su un supporto; essopu esserecodicato in forma digitale

e resocosdisponibile a molti tipi di elaborazione.I computer ci consentono

10

visualizzazionimolto dettagliate del fenomenoe tra le pi comuni troviamo

la visualizzazionedellandamento dellintensit in funzione del tempo (Fig.

1.2), lo spettrogramma (Fig. 1.3) che descrive levoluzionespettrale nel tem-

po, avvalendosidi una terza dimensionedata dai falsi colori, o livelli di grigio,

dellimmagine.

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4-0.1

-0.08

-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1Rappresentazione temporale del campione campione di cello.wav

secondi

inte

nsit

nor

mal

izza

ta

Figura 1.2: Rappresentazione temporale di un campionedi violoncello

Ci che abbiamo appena descritto qualcosadi oggettivo che esistein-

dipendentemente da noi e sopratutto indipendentemente dalla sorgente che

lha generato.Ci che indichiamo con evento sonoro inveceun suonocos

comevienepercepitoda un essereumanoequindi introduciamola percezione

11

secondi

freq

uenz

a in

Her

tz

Spettrogramma del campione di cello.wav

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

2.2x 10

4

Figura 1.3: Spettrogramma di un violoncello

nel nostro discorso.Innanzitutto il cervello non elabora direttamente il suono

realmente presente nellambiente in prossimit delle nostre orecchie. Lorec-

chio infatti eettua una serie di modic he del segnalenel trasdurre la vi-

brazioneacustica in impulsi elettrici (vedi AppendiceA); la coclea si com-

porta comeun bancodi ltri a larghezzadi bandanon uniforme e tali segnali

vengonopoi modicati in impulsi dallorganodi Corti. Putroppo, nonostante

i progressifatti nel campo della siologia per capire il funzionamento del sis-

tema uditiv o, non esistea tuttoggi un modello universalmente condivisoche

ci consenta di riprodurre articialmen te il suo funzionamento. Ovviamente

12

dei modelli esistono,e noi ne utilizzeremouno, ma importante sottolineare

che si tratta di approssimazionivalide in casispecici.

Anche laspetto psicologicodella percezionerivesteun ruolo signicativ o

quandoascoltiamoun suono.Quandoun suonoci raggiungenon ci chiediamo

quale sia lequazioneche lo descriva ncomesi sia propagato no a noi, ma

ci chiediamo inanzitutto che cosaha generatoquel suono(la sorgente) e dove

stato generato(lambiente).

13

Capitolo 2

Il Tim bro

2.1 Una denizione di tim bro

Cominciamocol proporreunadenizione di timbro cheprobabilmente trover

daccordo la maggior parte delle persone:il timbro la qualit del suono,

la sua coloritura, cio ci che permette di distinguere due suoni prodotti

da sorgenti diverse,anche se essi hanno rigorosamente lo stessotempo di

crescita, la stessaintensit e la stessadurata. Dai termini usati emergeche

abbiamo usato una denizione basatasulla percezioneche le personehanno

del suono.Limplementazionedi un riconoscitoredi timbri si deveper basare

su una denizione oggettiva di timbro. Un approccio possibile quello di

trovare un insiemedi parametri misurabili che nel loro complessoci diano

una descrizioneoggettiva di questaentit.

14

2.2 Tim bro e Spettro

Sappiamoche la qualit che noi percepiamocome timbro dipende in primo

luogo dal contenuto spettrale del segnale.Chiariamo cosa intendiamo per

spettro e contenuto spettrale.

2.2.1 Segnali discreti e rappresentazione nel dominio

della frequenza

Il suonointesocomevibrazioneacustica un segnalecontinuo mentre la sua

registrazionesu un supporto digitale un segnalediscreto rappresentato da

una sequenzanumerica nita. Si denisce Trasformata di Fourier Discreta

(DFT) di sequenzenite x[n] di lunghezzaN:

X[k] =N1X

n=0

x[n]ej2kn/N (2.1)

La quantit jX[k]j chiamata modulo mentre la quantit argX[k] chiamata

fasee sonoentrambe funzioni reali di k. Tali funzioni ci fornisconouna rapp-

resentazione del contenuto in frequenzadel segnale.La Trasformata Inversa

di Fourier Discreta (IDFT) denita come:

x[n] =1

N

N1X

k=0

X[k]ej2kn/N (2.2)

Nel contesto dei segnali audio la coppia di equazioni 2.1 e 2.2 sono dette

rispettivamente analisi e sintesi. Queste denominazioniderivano dal fatto

che tramite la prima equazione possibileottenere lanalisi in frequenzadel

15

segnalementre con la seconda possibilesintetizzaredei suonia partire dalla

descrizionedel loro contenuto in frequenza.Sulla basedi questaidea forte si

poggianomolti successidellelaborazionedei segnaliaudio ma questedenom-

inazioni possonoesserecausadi incomprensionenella corretta discussionedei

fenomeni.Bisogna infatti tener presente che la coppia di equazioni2.1 e 2.2

corrispondonoallanalisi e alla sintesi nel sensoproprio del termine soloseN

maggioreo ugualealla durata del segnaleespressain numero di campioni.

In tal caso,per, lanalisi ci fornisce informazioni solo sul contenuto in fre-

quenzamedio del segnale.Comevedremoin seguito, i suoni degli strumenti

musicali sonomegliodescritti da un contenuto in frequenzadinamico ovvero

in termini di rappresentazioni miste tempo-frequenza.

Lenergia g della sequenzax[n] denita come

g =N1X

n=0

jx[n]j2 (2.3)

ed sempreuna quantit nita. Applicando la relazionedi Parseval otteni-

amo:

g =N1X

n=0

jx[n]j2 =K1X

k=0

jX[k]j2 (2.4)

dove la quantit jX[k]j2 chiamata densit di energia spettrale o semplice-

mente spettro.

16

2.2.2 Timbri strumentali e rappresentazioni in frequen-

za

In un segnaleperiodico, come la parte stazionariadi un suonostrumentale,

il contenuto in frequenza dato dalla sovrapposizionedella frequenzapi

bassa,che generalmente determina il pitch della nota, e dei multipli interi

di questa.Tali componenti sonochiamati armoniche. I suoni degli strumenti

musicali non sonogeneralmente periodici. Inoltre, in una vastaclassedi stru-

menti le frequenzedelle componenti principali non sono in relazionearmon-

ica. In sensogeneralizzatosi parler allora di parziali del suonoper indicare

le componenti principali. In gura 2.1 possiamovederela rappresentazione

spettrale di un campione di violoncello ove vengonoevidenziate le prime

parziali. Bisognaporre attenzioneal fatto che la gura si riferiscealla DFT

di un campionein cui non presente lattacco ma solo la parte stazionaria

del suono,ed per questa ragione che riusciamo a distinguere nettamente

le armoniche, cio le frequenzedelle parziali che si trovano in rapporto ar-

monico. Il diversopesodelle parziali nelle rappresentazioni spettrali di due

suoni diversi in regime quasi-stazionariod origine a quella che deniamo

dierenza timbrica. Altre importanti dierenze timbriche sonoassociate al-

linviluppo di ampiezzaed al rumore del sistema di eccitazione.Un altro

aspetto su cui occorre focalizzare lattenzione levoluzione temporale del

contenuto in frequenzadei segnaliperiodici; se il suononon ha un cambia-

mento del contenuto in frequenzanel corsodel tempo 1 la suaDFT fornisce

1In termini rigorosi solo un suono prodotto articialmen te, come unonda quadra, hauno spettro eettiv amente costante nel tempo; nel casodi strumenti acustici si possonocitare strumenti come lorgano che approssimanoabbastanzabenequestocomportamento

17

eettiv amente il contenuto spettrale del suonoistante per istante; seinveceil

suonoevolve nel tempo il calcolodella DFT fornisceuna media dei contenuti

spettrali chesi sonomanifestati. Tale rappresentazionenon ovviamente sig-

nicativ a per suoni la cui evoluzionespettrale sia rilevante dal punto di vista

psicoacustico.Per ottenere una rappresentazione spettrale dinamica occorre

suddividere in segnalein piccoleporzioni chiamate frame in cui il segnalesi

pu considerarecostante dal punto di vista dello spettro. Tali frame possono

esserequindi giustapposti in vari modi per ottenere delle rappresentazioni

tempo-frequenza;una di queste lo spettrogramma illustrato in Fig. 1.3

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

20

40

60

80

100

120

modulo della dft del campione di cello.wav

prima parziale

seconda parziale

terza parziale

Figura 2.1: Rappresentazione in frequenzadi un violoncello in regimequasistazionario

18

Per costruire un algoritmo che possariconoscerei timbri dobbiamodare

un criterio di similitudine tra gli spettri. Il problemachea parte casielemen-

tari, non abbiamo un criterio di similitudine tra spettri che sia abbastanza

robusto da far funzionareun sistemadi elaborazione.Possiamocertamente

dire che a due spettri uguali corrispondono timbri uguali ma non semplice

dire quanto due spettri siano simili tra loro. Potremmo dire che due suoni

sonosimili quandoil rapporto tra le armoniche simile nei duesuoni,oppure

segli spettri variano in modo similenel tempo. La realt cheognunodei pos-

sibili criteri contiene un qualche gradodi verit ma non si riescea trovare un

insiemedi parametri nito che renda conto di tutte le possibili sfaccettature

che identicano un timbro. Vediamoun esempiopratico: qualunqueascolta-

tore percepiscecomesimili i timbri di una tromba in si bemolleequelli di una

tromba in mi bemolle;per un computer che faccia lanalisi di Fourier i due

timbri sono irrimediabilmente diversi quanto quelli di un sax e di unarpa.

Inoltre tutti i timbri naturali hanno unevoluzione temporale e quindi non

ha sensoparlare del timbro di uno strumento comedi unentit statica. Ev-

idenziamoora un fatto abbastanzaovvio che rimane spessonascostotra le

pieghedei ragionamenti: se abbiamo unottima conoscenzadi una sorgente

sonorapossiamoagevolmente predirequalesar il contenuto spettrale equin-

di il timbro che sar originato da questa sorgente. Se invecesiamo esposti

ad un determinato suononon siamonecessariamente in grado di ricostruire

la sorgente, in altri termini nella realt sica non esisteuna biunivocit tra

lanalisi e la sintesi.

19

2.3 Rappresentazioni del suono

Una soluzioneal problemadellidenticazione dellesorgenti sonorepu essere

suggeritadallapproccio usato dagli esseriumani. Nellintroduzioneabbiamo

detto che un essereumano si chiede quale sia la sorgente che ha prodotto

quel suono.Quindi evidentemente si confronta ci che si ascolta in un dato

momento condelle informazioni precedentemente memorizzate.Questeinfor-

mzioni sonoabbastanzapreciseda farci distinguerenettamente un pianoforte

da una tromba ma sonoabbastanzageneralida farci riconoscerecomesimili

due trombe in tonalit diverse,o meglio ancorada consentirci di raggrupp-

paresotto ununica famglia le trombe, i tromboni e i icorni. Noi chiameremo

questeinformazioni le caratteristiche del suonoe descriveremoil modo in cui

estrarle. Per poter realizzarequestaoperazioneabbiamobisognodi un mod-

ello del suono a cui fare riferimento e che riassumadelle informazioni che

sonogi presenti nellevoluzionespettrale del segnale.

2.3.1 Evoluzione temporale del suono: la rappresentazione

ADSR

Il modello ADSR (A ttack Decay SustainRelease)2 un modello che descrive

levoluzione dellenergia del suono nel dominio temporale. Secondoquesto

modello il suono viene descritto in termini dellevoluzione temporale del-

lampiezzache si pu riassumerein quattro fasi: una fasedi attacco (attack),

2la terminologia usata derivata da quella usata dai costruttori di sintetizzatori elet-tronici, infatti la parola releasesi riferisce allatto di rilascire il tasto del sintetizzatore; perquestomotivo alcuni autori quando usano il modello a tre parametri impiegano il terminedecay per indicare lultimo parametro che coincide col nostro release(modello ASD)

20

Figura 2.2: Esempiodi ADSR

una fasein cui lin tensit diminuisce(decay) e che rappresenta la transizione

tra lattacco e la terza fase,una fasedi evoluzionetemporale(sustain) e inne

una fase in cui lin tensit sonoradecadeno al silenzio (release).E impor-

tante osservarechequestequattro fasihannocaratteristichemolto diversetra

loro; inoltre non sonopresenti in tutti i suonistrumentali con le stessequalit

e nella stessamisura. La prima fase,lattacco, quella che contraddistingue

la parte iniziale dellemissionesonora.Lattacco strettamente legatoal mo-

do in cui viene generatoil suonodello strumento. Nella classicazionedegli

strumenti lattacco gioca un ruolo essenziale.Infatti le famiglie strumentali

degli strumenti pizzicati (come la chitarra, il liuto, larpa, il clavicembalo

21

etc.) o degli strumenti a percussionevengonoin prima approssimazioneiden-

ticati proprio dal modo in cui viene prodotto il suono in attacco anzich

dal materiale di cui sono composti (come i legni o gli ottoni) o dal modo

in cui viene eccitato il risuonatore (ance,doppie ance,archi3). Dal punto di

vista del riconoscimento dello strumento da parte di un ascoltatore(special-

mente seesperto) lattacco gioca un ruolo fondamentale. Chi usa strumenti

musicali elettronici sa beneche si pu fare una riproduzionerealistica di un

timbro acustico anche se la parte stazionaria del suono scadente, mentre

lelemento fondamentale il realismodellattacco. Purtroppo lattacco an-

che la parte del suonoche pi dicile da analizzaree classicare. Difatti

esso essenzialmente costituito da un segnaledi breve durata in cui lonset

delloscillazioneed il rumore di eccitazionecoesistonoe quindi la maggior

parte degli strumenti di analisi diventano inutilizzabili. Linformazione cos-

tituita dalla durata dellattacco pu comunqueesseredi qualche utilit nella

classicazionetimbrica. Tutti i suoniprodotti dagli strumenti musicali hanno

una fasedi attacco. La secondafase, il decay4 tiene conto della transizione

tra la fasenon stazionaria dellattacco e quella stazionaria del sustain ed

generalmente caratterizzata da una diminuzionedellintensit; abbastanza

dicile individuare in modo chiaro questa fase negli strumenti acustici in

quanto essaha una durata breve e si percepiscesolo in pochi casi;un esem-

pio si pu avere ascoltandogli ottoni quando vengonosuonati con attacco

molto netto. La terza fase, il sustain, quella in cui la durata del suono

3si noti che esistonodue tecniche per suonareun arco: quella con larchetto (da cui ilnome della famiglia strumentale) e quella del pizzicato. I due casi corrispondono a duediversi modi di eccitare il risuonatore

4il decay viene descritto in questasedeper completezzama la sua importanza dovutapi alla sua utilit nella sintesi di suoni elettronici che nella descrizionedi suoni acustici

22

controllata a piaceredallesecutore.Si pensiagli strumenti a ato o ad arco,

la cui intensit deve esserecontrollata dallesecutore,oppure allorgano, in

cui invecelin tensit ssata a priori ed costante nc h il tasto abbas-

sato. In questa fasestazionariaabbiamo un segnaleperiodico e levoluzione

temporaledello spettro molto contenuta a menoche lesecutorenon ricorra

ad artici espressivicomeil vibrato. Non tutti gli strumenti hanno una fase

di sustain,ad esempioil piano e gli strumenti pizzicati passanodirettamente

dallattaco al release.La quarta fase, il release, caratterizzata dalla pro-

gressiva diminuzionedi intensit del suono.Anche in questocasoil segnale

periodico ma levoluzione temporale dello spettro molto pi evidente.

Non tutti gli strumenti hannoquestafasetemporale,ad esempionellorgano

il suonocessaistantaneamente non appena viene rilasciato il tasto. Si noti

comequestomodello pur descrivendoun suonocomeentit indipendente, dia

la possibilit di crearedelle relazioni forti tra levento sonoroe la sorgente

che lha generatoconsentendo in parte di tracciare il percorsoa ritroso dal

suonoalla sorgente.

2.3.2 Modello di produzione del suono sorgente-filtro

In questomodello si assumeche lo strumento cheemette il suonosiaschema-

tizzabile comedueentit dieren ti che interagisconotra di loro: una sorgente5

ed un ltro. La sorgente viene eccitata al ne di creare un pattern di vi-

brazioneil qualeverr modicato dal ltro. Il ltro agisceda risuonatorecon

5la parola sorgente usata in questo contesto non ha il signicato no ad ora adottatodi origine del suono.Come risulta chiaro dalla lettura del paragrafo la sorgente sonora acui facciamoriferimento nei capitoli precedenti rappresentata in questocasodalla coppiasorgente-ltro

23

vari modi di vibrazione.Ciascunmodo altera lo spettro inducendodei picchi

in corrispondenzadelle frequenzerisonanti. Chiariamo con un esempio:nel

violino larchetto che sfregala corda fornisce leccitazione,la corda vibrante

la sorgente mentre il corpo dello strumento il ltro. La vibrazione della

sorgente determina il contenuto in frequenzadel suono.Lampiezza relati-

va delle armoniche (parziali) pu esserealterata cambiando il metodo e la

forza delleccitazione,ad esempiolarchetto pu sfregarela corda in vari mo-

di che il violinista sfrutta per ottenere suoni pi dolci o pi aspri. Il ltro

producedue eetti sul suono:esso in gradodi modicare sia lin tensit che

le relazioni temporali delle singolearmoniche. Ciascun modo di vibrazione

del risuonatore caratterizzato dalla frequenzadi risonanzae dal fattore di

qualit Q. La frequenzadi risonanzadi ciascunmodo la frequenzain cui

massimalampiezzadelle vibrazioni. Il fattore Q denito comeil rapporto

tra la frequenzadi risonanzadel sistemae la larghezzadi banda dello stes-

so. Il Q indica la selettivit in frequenzadel modo risonante considerato,in

altri termini controlla quella che si chiama campanaturadel ltro; maggiore

il Q e pi stretta la campanache rappresenta il modo. Una risonanza

con un alto Q causasia un incremento udibile della frequenzadi risonan-

za allin terno dello spettro del suono,sia un maggior tempo di ritardo nelle

componenti del segnaleche passanoattraverso il modo. Il suonopu essere

alterato manipolando le caratteristiche del ltro. Ad esempioin una tromba

si pu usare la sordina per cambiare le caratteristiche di risonanzadel tubo

e della campana.

Questomodellodi produzionesonorapu essereriportato in formamatem-

atica descrivendolo come un sistema lineare in cui la funzione di trasferi-

24

mento complessiva il prodotto delle funzioni di trasferimento dei singoli

sottosistemicome illustrato nellequazione2.5:

Y (z) = X(z)NY

i=1

Hi(z) (2.5)

doveY (z) eX(z) sonole trasformatez delluscita e del segnaledi eccitazione

eHi(z) sonole trasformatez degliN sottosistemi.Questomodello nato nel

contesto degli studi di elaborazionedel parlato ed stato ampiamente utiliz-

zato nel modellizzarelapparato fonatorio. Successivamente stato impiegato

nella sintesi per modelli sici portando in alcuni casi a buoni risultati come

nella modellizzazionedegli strumenti a corda ad opera di Karplus e Strong.

Non bisognatrascurareper che sia nel casodel parlato che nella sintesi per

modelli sici alla parte linearedescritta dallequazione2.5 sempreassociata

una parte non lineare che tiene conto del feedback che il segnaleha con la

sorgente. La gura 2.3 illustra il classicoschemadellapparato fonatorio

Figura 2.3: Schemadel tratto vocale

Dalla gura si evincecheesistonoduediversefonti di eccitazione:una per

i suonivocalici, chesonosuoniarmonici e laltra cheschematizzatacomeun

25

generatoredi rumore, necessariaalla generazionedei suoni consonantici che

sonosuoni inarmonici o dallo spettro continuo assimilabilea rumorecolorato.

Nel casodegli strumenti musicali non possiamofornire un sempliceschema

valido per tutti gli strumenti. Dobbiamo tener presente che generalmente,

almenonella fasedi attacco, la componente non lineare dovuta al feedback

generalmente preponderante.

La tecnica LPC (Linear Prediction Coecien t) la pi nota implemen-

tazionedel modello sorgente ltro; in sintesi lo spettro vienemodellato come

una funzione a tutti poli che rispecchiano i picchi spettrali (formanti nel

parlato). Questa tecnica ci consente di ottenereuna rappresentazione in fre-

quenzadel sistemache chiameremoinviluppo spettrale. Linviluppo spettrale

ignora i dettagli delle parziali contenute nello spettro orendo una visione

dellandamento generaledella risposta in frequenza;essopu esserepensato

comeuna sorta di impronta spettrale del sistema.Tale impronta caratter-

istica di un certo sistemae ci si aspetta che a sistemi simili corrispondano

impronte simili. Rifacendoci allesempioprecedente possiamopensareche le

trombe in si bemolleed in mi bemolleabbiano inviluppi spettrali molto simili

e ci aspettiamo che un icorno abbia un inviluppo spettrale molto pi simile

a quello di una tromba che a quello di un pianoforte.

2.3.3 Deconvoluzione e Cepstrum

Nel dominio del tempo loperazionedi convoluzione loperazionematemat-

ica che caratterizza i sistemi lineari, infatti essadescrive la relazionetra tre

segnali: il segnaledi ingressox[n], la risposta allimpulso h[m] e il segnale

26

di uscita y[n]. Loperazionedi convoluzione di due segnalisi indica con la

notazionex[n] h[m] e la sua formulazionematematica 6:

y(i) =X

j=

h[j]x[i j] (2.6)

Uno degli assunti fondamentali della teoria dei sistemi lineari che suf-

cien te conoscerela risposta allimpulso del sistemaper conoscereil segnale

di uscita dallo stesso,qualunquesia lingresso.Loperazionedi convoluzione

unoperazionemolto dispendiosain termini di potenzacomputazionalerichi-

estadato che il numero di operazioni (tra addizioni e moltiplicazioni) cresce

molto velocemente al cresceredel numero di campioni contenuti in x[n] e

h[m]. Inoltre pu accadereche linformazionecontenuta nei segnalidi ingres-

so e di uscita nonch il tip o di trasformazionea cui questi sonosottoposti

dal sistema leggibile molto pi chiaramente nel dominio della frequenza

che nel dominio temporale; per questi motivi, quando si debba valutare la

convoluzione tra due segnali,si preferiscemolto spessopassareal dominio

trasformato della frequenza.Dalle propriet della DFT si vede che la con-

voluzionenel dominio temporaleequivalead una moltiplicazionenel dominio

della frequenza:

Y (f) = H(f)X(f) (2.7)

doveH(f) la risposta in frequenzadel sistemacio la DTFT della risposta

6le formule che seguonosono riferite a sequenzediscrete nite dato che i campioniaudio che elaboriamo sonoeettiv amente sequenzedi questo tip o. Per una trattazione pigeneraledei concetti espressisi rimanda ai testi di basesul DSP citati in bibliograa.

27

allimpulso:

H(f) =X

k=

h[k]ej2kf (2.8)

Quindi per valutare x[n] h[m] si trasformano i duesegnalinel dominio della

frequenza,si eettua la moltiplicazione, e si antitrasforma il risultato. Pre-

cisiamoche la diminuzionedi richiestacomputazionaleottenuta valutando la

convoluzionetramite dominio trasformato dovuta allutilizzo dellalgoritmo

di calcoloFFT (Fast Fourier Trasform) che abbatte radicalmente il numero

di calcoli necessariper la trasformazionee lantitrasformazione. Ci possi-

bile quandosia la risposta impulsiva che il segnalehanno durata nita ed in

tala casola 2.7 diventa il prodotto delle DFT di x[n] ed h[n].

Molto spessoci si trova a dover aron tare il seguente problema: nota la

risposta allimpulso h[n] di un sistemalineareed il segnaley[n] in uscita dal

sistema si vuole conoscereil segnalein ingressox[n]. Per risolvere questo

problema si ricorre alla deconvoluzione che appunto loperazioneneces-

saria a riottenere il segnaleoriginario x[n]. Per un sistemaa risposta nita

FIR essa denita come:

x[n] =y[n]

P nk=1 h[k]x[n k]h[0]

(2.9)

dove h[0] 6= 0. Questotip o di problemasi presenta piuttosto frequentemente

in molti contesti compresoquello dellelaborazione dellaudio digitale. Per

chiarire il concetto illustriamo brevemente un esempiodi uso della decon-

voluzione.Agli albori della registrazionefonograca venivano usati apparati

di incisionecompletamente meccanici;il suonoda registrareveniva convoglia-

28

to tramite un tubo a campanache trasportava londa sonoraversoil sistema

di incisionesuceralacca.Il tubo una cavit risonante chepu essereschema-

tizzata comeun sistemalineare la cui risposta in frequenza caratterizzata

dalla presenzadi picchi di risonanzaparticolarmente evidenti. Il segnalein

uscita dal sistema, dato dalla convoluzione del segnalein ingressocon la

risposta allimpulso del ltro, risulta pertanto aetto da una distorsionear-

monica che viene percepita dallascoltatore comeunalterazionedel timbro.

Un sempliceschema proposto in gura 2.4.Oltre a questoeetto il sistema

Figura 2.4: Schemasemplicato di registrazionefonograca

di registrazioneintroduceuna drastica limitazione della banda passante del

segnaleoriginario e provoca la comparsadi vari tipi di rumori: sia quelli es-

29

tesi lungo lin tero arco temporale come i fruscii sia quelli di tip o impulsivo7

che hannouna durata molto breve e si presentano ripetutamente. Concentri-

amoci momentaneamente sui soli picchi di risonanzaintrodotti dalla tromba

trascurandoil resto.Seabbiamola fortuna di esserein possessodellapparato

originale di incisionepossiamomisurarne la risposta in frequenza;a questo

punto siamoin gradodi progettareun ltro in frequenzacheabbiauna rispos-

ta tale da annullare leetto dei picchi di risonanzaintrodotti dal tubo. Come

illustrato in gura 2.5 moltiplichiamo nel dominio della frequenzail segnale

in uscita con un segnaleche linversodella risposta in frequenzadel tubo

riottenendo il segnaleprivo delle risonanzeindotte. Il successodella decon-

Figura 2.5: Deconvoluzione in frequenza

voluzione legato al fatto che il segnaledi disturb o convoluto col segnale

originario non opera tagli alla banda del segnaleoriginario (sistemaprivo di

zeri sullassedelle frequenze).Purtoppo ogni qual volta un sistemaelimina

completamente un intervallo di frequenzenon c modo di riottenere le fre-

quenzemancanti per ricostruire il segnaleoriginario e infatti anche i migliori

7denominati in gergoclick e crackle e dovuti alle imperfezioni della ceralacca

30

restauri fonograci non restituiranno mai lin tera banda udibile di frequenze

comesi pu udire nelle moderne registrazioni; questa situazione rispecchia

il dato formale che la convoluzionenon in generaleuna trasformazionein-

vertibile. Inoltre seun sistemasporca il segnaleoriginario con un segnaledi

disturbo che copre lin tero range di frequenzedel segnaleoriginario ed in-

oltre costantemente presente lungo tutto larco temporale non possibile

in generaleseparareil rumore indotto dal segnaleoriginario. In termini pi

generali il problema si pone ogni qual volta si devono separaredue segnali

chesi sovrappongonosianel dominio della frequenzache in quellodel tempo.

Sebbeneil problemasia destinato a rimanere insoluto seposto in termini

generali,esistonodiversicasiparticolari in cui il ricorsoa tecnichenon lineari

ci consente di superare problemi altrimenti non aron tabili con le tecniche

lineari. Una delle tecniche non lineari impiegatenellelaborazionedei segnali

lelaborazioneomomorfa. Tramite questa tecnica si cercadi separaredei

segnalicombinati in modo non lineare(ad esempiotramite una convoluzione)

trasformando il problema in modo che risulti lineare. Un esempiotipico di

deconvoluzione omomorfa si ha in problemi di elaborazionedel parlato. Il

modello sorgente ltro di produzionedel parlato decompone il segnalesn in

uneccitazioneen eun ltro la cui risposta in frequenzaH(ej). Nel dominio

della frequenzaabbiamoS(ej) = H(ej)E(ej). Applicando il logaritmo ad

entrambi i membri otteniamo:

lg S(ej) = lgH(ej) + lgE(ej) (2.10)

In questo caso siamo interessati solo allo spettro, che il modulo della

31

trasformata di Fourier, e quindi possiamoriscrivere la relazionecome

lg jS(ej)j = lg jH(ej)j + lg jE(ej)j (2.11)

Le componenti lentamente variabili dello spettro e quindi quelledi lg jS(ej)j

sonorappresentate dalle bassefrequenzee corrispondonoallinviluppo spet-

trale. Il dettaglio dovuto alla struttura ne delle parziali invece rappre-

sentato dalle alte frequenzedi lg jS(ej)j. A questo punto possiamoanti-

trasformare la relazione2.11 e ottenere la separazionedelle bassefrequenze

dal dettaglio ne, semplicemente separandoi primi coecien ti dai restanti.

Questoprocesso chiamato analisi cepstraleed schematizzatain gura 2.6.

Si pu dire quindi che abbiamo applicato al dominio temporale delle proce-

Figura 2.6: SchemaAnalisi Cepstrale

32

dure tipiche del dominio della frequenza.Questaprassi stata attiv amente

esploratadagli anni 60, quandoBogert, Healy e Tukey [BB63] pubblicarono

il loro lavoro introducendouna curiosa terminologia per indicare linsieme

delle rappresentazioni che si ottengonoseguendoquestastrada; inventarono

quindi il termine cepstrumche lanagrammadi spectrum.

Il concetto di inviluppo spettrale si ricollega strettamente a quello in-

trodotto nel paragrafo 2.3.2 quando si parlato di impronta spettrale. An-

che in questocasoci si aspetta che a timbri simili corrispondano inviluppi

spettrali simili ed a timbri diversi corrispondano inviluppi di forma diversa.

2.4 Tim bro, Pitc h e Loudness

Introduciamoora le altre duegrandezzepercettive che insiemeal timbro cos-

tituiscono gli attributi fondamentali di un evento sonoro:pitch e loudness.

Il primo termine identica laltezza soggettiva di un suonoperiodico; seab-

biamo a che fare con un suonopuro, cio una sinusoide, laltezza percepita

ovviamente collegataalla frequenzarealedel suono;questacorrispondenza

per non linearelungo tutta la bandaudibile per cui il pitch (altezzasogget-

tiva) e la frequenzadi oscillazione(altezzaoggettiva) non sonosinonimi. Con-

siderandoinvecesuoni periodici composti, la sensazionedel pitch collegata

alla frequenzadella fondamentale cio la prima parzialedel suonocomposto.

Proprio per questomotivo nella teoria musicalele note (indipendentemente

dallo strumento che le emette) sonoorganizzateconvenzionalmente in mo-

do da avere una corrispondenzabiunivoca tra il nome della nota (LA440)

e frequenzaassegnata(440 Hz); infatti tale frequenza proprio quella della

33

fondamentale.

Il loudness la grandezzapercettiva che d conto dellintensit sonora;

comeillustrato in appendiceA.1 anche in questocasola relazionetra loudness

e intensit sonora tuttaltro che biunivoca.

Se ritorniamo alla denizione di timbro data nel paragrafo 2.1 ci rendi-

amo conto che le tre grandezzepercettive sonoconsideratecompletamente

indipendenti tra loro, ma veramente cos?Nel casodegli strumenti acustici

sicuramente no. Un casoabbastanzaevidente la tromba: quando questo

strumento viene suonato con espressivit che va da debole a forte non

solootteniamo un volume sonoropi alto ma il timbro diventa decisamente

pi squillante; al contrario osserviamoche a volumi minori il suonotende a

chiudersi. Ma anche il pitch inuenza in maniera determinante il timbro

e la riprova sta nel fatto che pi dicile riconscereuno strumento quan-

do vienesuonatonelle gammeestremedei suoi registri. Nelle esperienzeche

discuteremosi cercher sempredi trattare il timbro comeunentit indipen-

dente dalle altre ma bisognatener presente che questa unapprossimazione

eche lanalisi dei risultati dovr tenerneconto. Anc h lapprossimazionesia

sensatabisogner comunqueadottare alcuni accorgimenti: i campioni sonori

usati negli esperimenti dovranno essereprodotti in modo che la nota emessa

corrisponda ad un suono giustamente rappresentativ o dello strumento; in

termini musicali sarebbe beneche gli strumenti fosserosuonati con dinamica

pari a mezzoforte. Il discorsoper il pitch pi complicato: lidea pi comune

nella prassisperimentale quella di compararestrumenti diversi suonati al-

lo stessopitch; in questo modo si pensadi neutralizzare leetto del pitch

sulle analisi dei campioni. In realt questascelta pu crearealtri problemi:

34

un dato pitch che rappresenta la nota di un registro medio di un certo stru-

mento potrebbe caderenel registro estremodi un altro (si pensia strumenti

con tessiture lontane comecontrabbassoe violino); in questocasoil secondo

strumento si troverebbe rappresentato nei dati da analizzareda un contenuto

spettrale meno caratterizzante. Non esisteuna soluzionedenitiv a a questi

problemi ma sene deve necessariamente tener conto in fasedi progettazione

dellesperimento.

2.5 Denizioni quantitativ e di alcune grandezze

percettiv e

In questo paragrafo daremo le denizioni quantitativ e di alcune grandezze

siche strettamente correlate a sensazioniuditiv e rilevanti. Alcuni modelli

di amplicatori ed equalizzatori per lalta fedelt sono dotati di controlli

che fanno riferimento a queste grandezzeper consentire allascoltatore di

intervenire manualmente sulla modica del timbro e migliorare lascolto in

funzionedel tip o di musicae della qualit della registrazione.

Brigh tness. Questagrandezzadata dal baricentro delladistribuzione

spettrale:

BR =

RjX()jd

RjX()jd

(2.12)

e per i suoni periodici si pu mostrareche:

BR =

Pk kakPk ak

(2.13)

35

dove k lindice dellarmonicae ak la relativa ampiezza.Questaquan-

tit collegataalla sensazionedi bril lantezzadel suono.Possiamoquin-

di dire che i suoni luminosi, aperti etc. hanno tendenzialmente una

brightnessmaggioredi quella dei suoni scuri.

Presence . Essa denita come:

PR = 10 log(

RjH()X()j2 dR

jX()j2 d) (2.14)

dove H() un ltro rettangolare passabandacon guadagnounitario

tra i 700e i 900Hz. Questaquantit quindi una misura in dB del con-

tenuto energeticodi una porzione localizzata dello spettro. Questa re-

gionedellospettro molto signicativ a dal punto di vista percettivo e la

variazionedi presencevieneassociata ad una variazionedi brillantezza

del suono.

2.6 Il riconoscimen to tim brico negli esseriumani

In questo paragrafo illustreremo i risultati di alcune ricerche condotte su

esseriumani per vericare la nostra capacit di riconoscimento timbrico.

Tali ricerchesonoessenzialisiaper capiremeglio la percezioneumanasiaper

avere un termine di paragonecon i risultati prodotti con il riconoscimento

articiale. Nellambito del riconoscimento timbrico possiamoschematizzare

tre situazioni diverse:lascolto di un tono isolato, di una frase monofonica,

o di un insiemepolistrumentale. Nei primi due casi disponiamo di risultati

quantitativi mentre per il terzo stato solopropostoqualchemodello; questo

36

dovuto al fatto che la ricerca ancoraai primi passiin questocampo e si

ancora fermi alla fasedi discussionedi un modello sucien temente robusto.

Ci si aspetta che in futuro siano progettati esperimenti che possanofornire

ulteriori dati.

2.6.1 Riconoscimento di toni isolati e frasi monofoniche

In questambito possiamocitare dieci ricerche che vannodal 1947al 2001;di

questele prime cinquehanno indagato il riconoscimento di toni isolati mentre

le successive si sonoconcentrate su frasi monofoniche. I risulatati complessivi

sonomostrati nella tabella 2.1

Esperimento Percentuale riconoscimenti corretti Numero di strumenti

[Eag47] 56 9[Sal64] 41 10[Ber64] 59 10[Cla64] 90 3[Str67] 85 8[Cam78] 72 6[Ken86] 84 3[Bro99] 89 2[Mar99] - Toni Isolati 46 27[Mar99] - Frasi Monofoniche 10 sec 67 27[Bro01] 85 4

Tabella 2.1: Risultati degli esperimenti sullaccuratezzadel riconoscimentoumano

In alcuni esperimenti come quello di Brown [Bro01] stato usato un

databasedi pochi strumenti e gli ascoltatori non eranoprecedentemente in-

formati degli strumenti usati. In questi casivienechiesto ai soggettidi com-

pilare anche la lista totale di strumenti usati indipendentemente dal loro

37

registro8. Con questa informazionesi possonoottenere delle stime sulle ca-

pacit di clustering9dei soggetti. In tal modo lerrore nellaccuratezzadel

riconoscimento si pu valutare oltre che nelle risposte sbagliate anche nel-

linserimento di una classestrumentale non realmente presente nel test. In

altri esperimenti comequello di Martin [Mar99] stato usato un database

decisamente pi grandee i soggettieranoa conoscenzadella lista degli stru-

menti impiegati. Diamo qualche dettaglio sullesperimento di Martin dato

che limp ostazione stata presacomeriferimento anche in esperimenti suc-

cessivi[Ero01] e rappresenta il lavoro organicopi recente sul riconoscimento

timbrico. Hanno partecipato allesperimento quaranta soggetti, tutti a vario

titolo musicalmente esperti. Nel test con toni isolati sono state impiegate

137 note di 27 diversi strumenti, ognuno rappresentato con diversi pitch; i

campioni provengonodalla collezioneMcGill [Opo87]. I 27 strumenti sono

inoltre stati raggruppati in 5 famiglie strumentali: archi, ottoni, ancedoppie,

clarinetti e auti. In questotest i riconoscimenti accurati sonostati in media

del 46 % per i singoli strumenti e del 92 % per le famglie strumentali. Nella

secondaparte del test sonostati utilizzati 19 strumenti che eseguivano frasi

monofoniche della durata di circa 10 secondi;laccuratezzain questocaso

stata del 67 % per gli strumenti e del 97 % per le famiglie strumentali.

Comparandoi risultati delle ricerche emergonole seguenti osservazioni:

1. Laccuratezzadel riconosciemento decadeal cresceredelnumerodi stru-

menti da riconoscere.Taledegradazionenon linearema molto ampia

8ad esempioil sax sopranoe quello contralto devono esserericonusciuti entrambi comesassofono

9raggruppamento; in questocasosi intende la capacit di raggruppare strumenti dellastessafamiglia comead esempiogli archi

38

inizialmente (passandoda 3 a 10strumenti) mentre tendead attenuarsi

successivamente (laccuratezzasembra costante passandoda 10 a quasi

trenta strumenti)

2. Laccuratezza molto maggiorenel riconoscimento delle famigle stru-

mentali che nel riconoscimento di singoli toni; tale divario per si re-

stringe quando si passaal test con frasi monofoniche. Questo fatto ci

suggerisceche gli invarianti acustici, pur operandouna discriminazione

importante tra strumenti, non sono sucien ti per ottenere unaccu-

ratezza media superiore al 50 %. In pratica lerrore concentrato al-

lin terno delle famiglie strumentali; questo dato ci induce a pensare

che per migliorare la discriminazionefra strumenti della stessafamiglia

abbiamo bisognodi altre informazioni. Dato che laccuratezzacresce

sensibilmente quandosi passada singoli toni a frasi monofoniche, pos-

siamo ipotizzare che le informazioni aggiuntiv e di cui ci possiamoav-

valeresianocontenute nel fraseggiostrumentale, nella tessituradel bra-

no e nella tecnica esecutiva10. Per vericare questa ipotesi si dovrebbe

ripetere il test con soggetti con una scarsacompetenza musicale; in

questomodo si potrebbe separarela capacit percettiva dalle sovras-

trutture culturali che determinano lincremento di accuratezzache si

ottiene nel passaggioda singoli toni a frasi monofoniche.

10per una persona musicalmente competente semplice distiguere un sax alto da unsopranoseha la possibilit di ascoltare i due strumenti che eseguonouna scalasu 2 ottave(tessitura), oppure prestando attenzione alla velocit di certi passaggiche sonosemplici emolto frequenti su uno strumento mentre sonodicili equindi raramente eseguitisullaltro(tecnica strumentale).

39

2.6.2 Riconoscimento di insiemi polistrumentali: il mod-

ello di McAdams

Il modello di McAdams [McA93] fornisceunipotesi sul riconoscimento tim-

brico eettuato su un insiemepolistrumentale. Tale modello schematizzato

in gura 2.7. Il primo bloccorappresenta la trasduzionedellavibrazionesono-

ra in stimolo elettrico coscomestata descritta nel paragrafoA.1. Nella fase

di auditory grouping il usso di informazioni in ingressoviene quindi elabo-

rato in rappresentazioni uditiv e separate,una per ciascunasorgente sonora

presente nellambiente; in altri termini il cervello opera una separazioneal-

lin terno del usso informativo in ingressoche descrive linsieme dei suoni

orchestrali miscelati tra loro, e li separain ussi indipendenti che rappresen-

tano ciascunasorgente sonora.Nella fasesuccessiva inizia lanalisi di ciascuna

sorgente con la progressiva estrazionedelle caratteristiche percettive rilevan-

ti. Alla ne di queste tre fasi la rappresentazione uditiva iniziale stata

trasformata in un gruppo di propriet astratte caratterizzatedagli invarianti

acustici di ciascunasorgente. Nella fasedi matching with auditory lexicon la

rappresentazione confrontata con classidi eventi e di sorgenti sonoresim-

ili gi presenti in memoria; lo stimolo viene quindi riconosciuto in basealla

classepresente in memoria che gli si adatta meglio. Se presente una sor-

gente sconosciuta11 lascoltatore reagiscecreandouna nuova voce nella sua

memoria. A questopunto possibileassociare le classi riconosciutecon un

dizionario verbale che assegnaun nome a ciascunasorgente riconosciuta. Il

loop in gura spiegail fatto che lanalisi pu essereripetuta pi volte nellam-

11cio una sorgente che non confrontabile con nessunodei gruppi presenti in memoria

40

bito dello stessoascoltoqualora le sorgenti sonoresianocorrotte da rumore;

in altri termini il processoqu descritto vienecompiuto per approssimazioni

successive.

41

Figura 2.7: schemaa blocchi del modello di McAdams

42

Capitolo 3

Rappresentazione Tim brica

3.1 Lo Spazio Tim brico

3.1.1 Riconoscere o rappresentare

Nel Capitolo 2 abbiamovisto comesiapossibileapplicaredei criteri di simili-

tudine agli inviluppi spettrali, ma limitandoci al confronto tra inviluppi non

stato necessariochiederciqualepropriet percettiva rappresenti esattamente

la forma di quellinviluppo. Ad esempiopotremmo chiedereciseun inviluppo

con la forma che ricorda quella di un ltro passabandacorrisponde ad un

suonoargentino o nasale.La risposta a questedomandeviene da un ramo

di ricerca che si intersecacol riconoscimento timbrico ma non coicide con

esso;tale ricercapunta alla creazionedi uno spazio timbrico. Con questoter-

mine si intendeuno spaziometrico in cui vengonocollocati gli oggetti sonori

conformemente alla metrica scelta.Possiamoimmaginare lo spaziotimbrico

come un modo per visualizzaree quanticare la rappresentazione mentale

43

che gli esseriumani hanno dei suoni. Ad esempio,quando ascoltiamo due

trombe in diversatonalit, immaginiamo i relativi suoni comevicini mentre

un suonodi pianosar percepitocomelontano da questi.Si noti che in questo

ragionamento i termini vicino e lontano sonocollegatiai termini simile e dif-

ferente usati a proposito del riconoscimento ma non sono la stessacosa;nei

primi due compresoun concetto di metrica che negli altri due assente.

La dierenza consisteproprio nel fatto che per denire una metrica abbi-

amo bisognodi dare un signicato percettivo alle quantit che identicano

un suono:due fagotti sono vicini perch hanno un suononasale.Si tratta

quindi di individuare quelle qualit percettive che avvicinano o allontanano

due suoni. Questo contemporaneamente il punto di forza e la debolezza

di questo approccio; infatti da una parte ci forniscenuovi strumenti per il

riconoscimento comela possibilit di ricercaper attributi percettivi1 mentre

dallaltra si presta a crearedelle incongruenzedovute al fatto che lo stesso

strumento pu avere caratteristiche percettive assaidiverse in funzione del

registro e della tecnicastrumentale usata.Una parte del lavoro sperimentale

di questatesi stato dedicatoad aron tare questapproccio per indagarnele

potenzialit e verr discussonel capitolo 3.2.

3.1.2 Come si crea uno spazio timbrico

Se immaginiamo che ciascun timbro sia descrivibile mediante un insieme

di caratteristiche misurabili possiamorappresentarlo come un punto nello

spazio.Ad esempio,supponiamo che ciascunsuonosia denito dalla bright-

1ad esempiosi pu immaginare una query ad un database nella forma: trovami unsuonomolto cupo che evolva nel tempo versoun media nasalit

44

nessedalla presenceentrambemisurabili suuna scala.Allora possiamousare

questi valori comecomponenti di un vettore in uno spaziobidimensionale.

Ciascunacoppia di valori individua un punto che pu essererappresentato

su un piano cartesiano.Una volta stabilita una metrica, per esempioquella

euclidea, possibilestabilire la distanza tra i punti. Se la rappresentazione

ottenuta uno specchio fedeledella nostra realt percettiva ci si aspetta chea

punti vicini corrispondanotimbri simili. Osserviamosubito chenon sappiamo

nquali siano le caratteristiche percettive rilevanti nquante essesiano,cio

non possibilestabilire la dimensionalit dello spazio;inoltre non possibile

stabilire a priori che la metrica euclideasiaquellagiusta.La costruzionedello

spazio timbrico si avvale di un misto di ipotesi, manipolazioni statistiche e

successive veric he. Innanzitutto si fanno delle ipotesi sulla dimensionalit

dello spazio,cio sul numero di caratteristiche percettive principali. Questo

forse il momento pi delicato dellintero processoin quanto non c nes-

sun elemento sostanzialea partire dalle nostre conoscenzepregressesulla

percezioneche ci dia unindicazione in tal senso;in questa scelta entra in

gioco il maggior desideriodi qualsiasi ricercatore: poter visualizzaregra-

camente in ununica rappresentazione i dati che analizza.Questoorienta la

sceltaversodimensionalit limitate, preferibilemente di ordine due o tre, in

modo da poter rappresentare i timbri suun unico graco. Sar la rispondenza

tra i graci ottenuti e la realt percettiva a determinare la validit di questa

ipotesi.Una volta stabilite questepremesse,si sottoponeun databasesonoro

ad un sistema (umano o automatico) che fornisca in uscita delle risposte

basatesulla percezioneche indichino il livello di similarit dei suoni. I suoni

vengonoquindi rappresentati nel nostro spazio.A questopunto possibile

45

valutare la correlazionestatistica tra la grandezza(ignota) misurata sugli

assicon grandezzenote al ne di stabilire il signicato degli assidel nostro

spazio.Unaltra operazioneda eettuare la verica del clustering, ossiala

capacit del sistemadi raggrupparein zonebendenite gruppi di suonisimili

comei timbri prodotti da strumenti di una stessafamiglia.

Questo tip o di ricerche ha goduto di unattenzione decisamente minore

rispetto al riconoscimento veroe proprio. Le motivazioni sonoessenzialmente

di opportunit: la rappresentazione timbrica un argomento che richiedeun

insiemedi competenzepi vasto e non ha le ricadute applicative e commer-

ciali immediate di un software di riconoscimento robusto. Ci nonostante,

gli sviluppi a lungo termine di questoapproccio possonoportare a risultati

inattesi in vari campi di ricercacompresoil riconoscimento timbrico. Infatti,

la comprensionedei fenomenipercettivi potrebbe ricevereun grandeimpulso

dalla comprensionedel numeroe del signicato delledimensionidello spazio.

Ai ni del riconoscimento si pu ipotizzare lunione di due framework per

ottenere risultati migliori: uno basatosugli spazi timbrici e laltro su sistemi

esperti in grado di valutare le tecniche strumentali ed esecutive in presenza

di frammenti musicali.

3.1.3 Lo spazio timbrico di Grey

Grey [Gre75] stato il primo ad impegnarsi in una verica sperimentale di

questi concetti. Nellidea iniziale di Gray non cera comescopo nale il ri-

conoscimento automatico, il suo obbiettivo era quello di vericare se fosse

stato possibiledare una rappresentazione formaledello spaziomentale in cui

46

gli esseriumani collocano i suoni; la sua impostazioneper stata ripresa

anche per la costruzionedi spazi tramite analisi automatiche e quindi vale

la pena di descriverla pi in dettaglio. Inizialmente stato selezionatoun

databasedi 16 strumenti su cui stata eettuata unelaborazione tesa ad

eliminare le dierenze non timbriche comeil pitch o il loudness.I suoni sono

stati quindi somministrati a coppiead un insiemedi ascoltatori. Per ciascuna

coppia lascoltatoredava un giudizio di similarit espressoin forma numerica.

A partire da questi dati Grey costru una seriedi matrici che contenevano

le valutazioni soggettive (subjective ratings). Questi dati furono elaborati

in due modi indipendenti: con un algoritmo di Multidimensional Scaling2

(MDS) e con un algoritmo di Hierarchical Clustering3 (HC). Lo scopo del-

lanalisi MDS era quello di scoprire i rapporti metrici degli stimoli in uno

spazioEuclideo che tenesseconto delle valutazioni di somiglianzain termini

di distanze spaziali. Lanalisi HC inveceera usata per raggrupparestimoli

simili indipendentemente dalla struttura spazialesottostante. Una prova del-

la bont del modello era data secondoGrey dalla compatibilit dei risultati

nei due tipi di analisi. In altri termini, se lalgoritmo di clustering tendeva

a raggruppare punti che gi risultavano vicini in un graco tridimension-

ale ottenuto tramite lanalisi MDS, si aveva la confermadi aver individuato

la giusta dimensionalit e la giusta metrica. A questopunto lultimo passo

2lalgoritmo prende in input una matrice delle distanze e genera in output una con-gurazione di punti (su due o tre dimensioni); la distanza euclidea tra i punti dellacongurazione rappresenta spazialmente la matrice delle distanze.

3lalgoritmo HC adotta una strategia che si pu riassumere in tre passi: trova unamatrice di similarit (qualora non sia gi disponibile) calcolandole distanze tra gli oggetti.Vengono collegate coppie di oggetti simili per formare dei cluster binari. I cluster cosottenuti vengonoassemblati in cluster pi grandi creando un albero gerarchico. Lalb eroviene esaminatoper trovare dei cluster secondoi criteri scelti

47

sarebbe stato quello di trovare il signicato percettivo delle tre dimensioni

con tecniche di regressione.Purtroppo Grey non ci riusc e lasci solo delle

considerazioniqualitativ esuquali potevanoesserele grandezzerappresentate

dai tre assi;in particolare indic lasseprincipale comerappresentativ o della

distribuzione spettrale mentre gli altri due assidovevano rappresentare una

seriedi caratteristiche temporali e spettrali miscelatetra loro secondopesi

non noti. La giusticazione di questadicolt eradovuta, secondoGrey, alle

inuenze di natura culturale degli ascoltatori; egli in pratica sosteneva che

le esperienzeculturali degli ascoltatori (del tutto indipendenti quindi dalla

oggettivit del timbro) inuenzavano i dati in modo da renderetroppo comp-

lessa,senon impossibile,lidenticazione di un certo assecon una grandezza

percettiva misurabile.

Alla luce della successiva esperienzadi Martin [Mar99] possiamoritenere

che Grey avessein parte ragione nellindicare lesperienzaculturale dellas-

coltatore come un limite nella creazionedi uno spazio timbrico. Infatti, i

risultati di Martin ci dicono che il riconoscimento migliora sensibilmente us-

ando frasi monofoniche anzich toni isolati e solo con le prime possibile

sfruttare la conoscenzadel fraseggioe delle tecniche strumentali. Daltra

parte il numero di dimensioni usate da Grey non necessariamente quello

corretto ed inoltre il grado di correlazionetra un assee una grandezzanon

sar mai del cento per cento, dato che il timbro non realmente indipendente

dal pitch. Ma sopratutto osserviamoche se fosseuna macchina ad operare

lanalisi e fornire i dati da rappresentare in uno spazio timbrico cadrebbe

completamente il limite dovuto allesperienzaculturale degli uomini.

48

3.2 Creazione di uno spazio tim brico a partire

da coecien ti MF CC

3.2.1 Database sonoro e strumenti utilizzati

In questocapitolo descriveremo la nostra esperienzanella creazionedi uno

spaziotimbrico. Lo strumento usato per limplementazione degli algoritmi

lambiente di calcoloscientico Matlab ver. 6.5. Comemateriale timbrico da

analizzareabbiamoutilizzato un gruppo basedi 30strumenti rappresentativ o

delle principali famiglie strumentali dellorchestra classicaoccidentale come

mostrato in tabella 3.1

Sono stati utlizzati esempisonori campionati ad una frequenzadi 44.1

KHz con una risoluzione di 16 bit. Conviene fare alcune precisazionisulle

fonti da cui abbiamo attin to i campioni per evidenziare i problemi tipici

che si incontrano quandosi fanno questotip o di esperimenti. Sul mercatosi

trovano moltissime librerie commercialidi campioni sonori destinate ai mu-

sicisti. Molte di questelibrerie sonorealizzateda grandi esecutorie registrate

in studi con attrezzature allo stato dellarte. Il problemaprincipale che tali

librerie sonodestinatead essereusatesu hardware proprietario comei cam-

pionatori: questosignica che vengonousati formati di le non standard e

comunque i campioni sonotagliati e modicati per ottenere la migliore resa

musicalesulle macchine cui sonodestinati.

Nel nostro esperimento i campioni da inserire nel databasedi strumenti

sono tratti per la maggior parte dalla libreria McGill [Opo87] e in parte

49

Strumento tecnica esecutiva Label Famiglia StrumentaleFlauto contralto vibrato alto ute vibrato ati - legniTromba barocca bach trumpet ati - ottoniClarinetto basso bassclarinet ati - anciaFagotto bassoon ati - ancia doppiaClarinetto in sib b-at-clarinet ati - anciaVioloncello vibrato, con archetto cello arc hiVioloncello pizzicato cello pizzicato arc hiTromba in do c-trumpet ati - ottoniContrabbasso vibrato, con archetto double bass arc hiContrabbasso pizzicato double basspizzicato arc hiClarinetto in mib vibrato e-at-clarinet ati - anciaCorno Inglese English-horn ati - ancia doppiaFlauto vibrato ute-vibrato ati - legniCorno Francese french-horn ati - ottoniChitarra acustica guitar web cordofoni - corde pizzicateClavicembalo harps cordofoni - corde pizzicateMarimba marimba p ercussioni - cromatic heOboe vibrato oboe ati - ancia doppiaOrgano da chiesa suonato su registro di riferimen to 1 organ 2Organo da chiesa suonato su registro di riferimen to 2 organo autoPianoforte piano cordofoni - corde martellateSax Tenore sax tenor ati - anciaTromboneTenore tenor-trombone ati - ottoniTuba tuba ati - ottoniVibrafono vibrafono p ercussioni - cromatic heViola pizzicato viola arc hiViola vibrato, con archetto viola arc hiGruppo di violini vibrato, suonati allunisono violin ensemble arc hiviolino vibrato, con archetto violin arc hiviolino pizzicato violin arc hi

Tabella 3.1: Strumenti utilizzati per lanalisi timbrica

50

dalla libreria di registrazioni delluniversit dellIowa 4 che si presentano in

un formato standarde non hannosubito rielaborazioni successive. Gli editori

delle librerie riportano i seguenti dati sulle condizioni di registrazione:

libreria McGill: la maggior parte dei campioni sonostati registrati di-

rettamente in un registratoreSony PCM 3202DASH. Sonostati impie-

gati microfoni a condensatoredi alta qualit B K collegatiad un stadio

preamplicatore sempredella B K. Gli archi e il piano sonostati regis-

trati in una sala da concertocon un tempo di riverberazionevariabile

tra i 2.5 e i 5 secondi.Gli altri strumenti sonostati registrati in uno

studio acusticamente neutro con un tempo di riverberazionedi circa

0.4 secondi.

Libreria delluniversit di Iowa: le registrazioni sonostate eettuate in

una cameraanecoicanel Wendell JohnsonSpeech and Hearing Center

delluniversit dellIowa. Sonostati impiegati microfoni NeumannKM

84, mixer Mackie 1402-VLZ e registratore DAT PanasonicSV-3800.

Ciascuno strumento stato registrato con 3 livelli di dinamica non

normalizzati: piano pianissimo,mezzoforte e forte fortissimo.

La libreria McGill diventata uno standard nelle pi recenti sperimen-

tazioni sulla ricerca timbrica dato che ore un ampio ventaglio di strumenti

e ciascunostrumento viene suonato in tutta la suaestensione.Ma presenta,

per, anche alcuni difetti di cui occorre tener conto: gli esecutori impiegati

nelle registrazioni degli strumenti a ato e ad arco impiegano la tecnica del

4i campioni audio sono liberamente scaricabili allindirizzo internet http://theremin.music.uiowa.edu

51

vibrato5 ed in qualche casosi sente chiaramente un crescendo6. Per quanto

detto nel paragrafo2.4si deve tenerconto di questi fattori nellaprogettazione

dellalgoritmo di analisi e nella valutazionedei risultati.

3.2.2 Lalgortimo di front end

I coecien ti MF CC

Figura 3.1: schemaa blocchi MFCC

MFCC lacronimo di Mel FrequencyCepstrumCoecien t; anchequesta

tecnica nata nellambito delle ricerche di elaborazione del parlato ed

stata successivamente adattata ai suoni musicali. Analogamente alla tecnica

LPC, anchemediante gli MFCC possiamoottenereun inviluppo spettrale ma

lidea sottostante allalgoritmo diversa. In questoschema il segnaleviene

5Il vibrato una tecnica esecutiva che consistenel variare rapidamente il pitch dellanota di circa un quarto di tono attorno alla frequenzafondamentale

6Unaltra tecnica esecutiva che consistenelleettuare un incremento del loudnessdaunintensit molto bassano allin tensit desiderata

52

elaborato da un bancodi ltri pensatoin modo da riettere alcunepropriet

percettive illustrate in AppendiceA.

In gura 3.1 viene presentato lo schema a blocchi dellalgoritmo di es-

trazione dei coecien ti:

Vediamoora comefunzionano i vari blocchi:

FrameBlocking: il segnalein ingressovienescomposto in piccoleporzioni

temporali chiamate frame. Tali frame sono leggermente sovrapposti

in modo da non perdere eccessive informazioni quando si eettua il

nestramento.

Finestramento: Lo scopo del nestramento quello di ottenere in us-

cita un segnaleprivo di discontinuit allinizio e alla ne del frame.

Tali discontinuit portano ad una perdita di risoluzione nel dominio

della frequenzache si manifestacol fenomenodel frequencyleakageche

consiste in una dispersionedellenergia di una riga spettrale in tut-

to lassedelle frequenze.La soluzioneconsistenel moltiplicare ciascun

frame nel dominio temporaleper un altro segnalecon lo stessonumero

di campioni chiamato nestra. Utilizziamo a tale scopo la nestra di

Hamming:

(w(n)=0 .540.46cos 2nN 1 , 0nN1

0, altrimenti

)

(3.1)

La nestra riduce il frequencyleakagema contribuisce allallargamento

dei picchi spettrali.

FFT: ciascunframe in uscita dai blocchi precedenti viene trasformato

53

nel dominio della frequenza.Viene quindi calcolato il modulo della

trasformata di Fourier discreta mediante algoritmo di trasformata di

Fourier rapida. In uscita da questoblocco il segnaleviene trattato nel

dominio della frequenza.

Mel FrequencyWarping: la risoluzione in frequenzadello spettro del

sistemauditiv o umano non segueuna scalauniforme (vedi Appendice

A). Tra le varie scalepercettive disponibili scegliamola scalamel; tale

scala spaziata uniformemente in frequenzaal di sotto dei 1000 Hz

ed esponenzialmente al di sopra. Possiamousare la seguente formula

approssimataper calcolare i mel per una data frequenzaespressain

Hertz:

mel(f) = 2595 log10(1 +f

700) f 1000Hz (3.2)

mentre mel(f) = f per f 1000. Grazie alla presenzadel logaritmo

nella scalamel si ha leetto di comprimereil rangedi frequenzedello

spettro analogamente a quanto accadenellorecchio. A questo punto

implementiamo un bancodi ltri, spaziatouniformemente sulla scaladi

mel. Tale banco costituito da ltri triangolari con larghezzadi banda

costante no ad 1 Khz e Q costante per le frequenzesuccessive. Si noti

che i triangoli si sovrappongonosimulando leetto dellebandecritiche.

Il ltraggio viene realizzato nel dominio della frequenzamoltiplicando

la trasformata di Fourier di ciscun frame per la risposta in frequenza

di ciascun ltro mel. La risposta in frequenzadel banco ha laspetto

mostrato in gura 3.2

Cepstrum: In questo blocco convertiamo il logaritmo dello spettro in

54

0 1000 2000 3000 4000 5000 6000 7000 80000

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Figura 3.2: bancodi ltri mel

scala mel nel dominio del tempo. Ci che otteniamo viene chiamato

coecien te cepstrummel (MFCC). Dato che i coecien ti dello spettro

mel (ed i loro logaritmi) sono numeri reali, possiamoconvertirli nel

dominio del tempo usandola TrasfomataCosenoDiscreta (DCT).

In sintesi la formula utilizzata per il calcolodegli MFCC

cn =KX

k=1

log(fSk)cos[k(n 1

2)

K] (3.3)

dove fSk con k = 1, ..., K sono le energiein uscita dai ltri. Nelle gure

3.3 e 3.4 possiamoosservare i graci degli MFCC per i campioni di violo-

55

cello e tuba. Entrambi i graci rappresentano 12 frame rispettivamente dei

due strumenti; confrontandoli emergeche nel casodel violocello le dierenze

tra i frame sono molto pi marcate che nel casodella tuba. Questo un

indice abbastanzaevidente delledierenze che si hanno tra le evoluzioni tim-

briche dei vari strumenti. Putroppo, come evidenziato nel paragrafo 3.2.1,

questedierenze sonoaccentuate anche dalle tecniche strumentali usatedai

musicisti.

0 5 10 15 20 25 304

3

2

1

0

1

2

3MFCC del Timbro: cello

Figura 3.3: I primi 26 mfcc del violoncello rappresentati per 12 frames

56

0 5 10 15 20 25 304

3

2

1

0

1

2

3MFCC del Timbro: tuba

Figura 3.4: I primi 26 mfcc della tuba rappresentati per 12 frames

Eettuando la traformata DCT inversadegli MFCC ritorniamo ad una

rappresentazione in frequenzadel segnaleche proprio linviluppo spettrale,

sia pur rappresentato in scala mel, a cui abbiamo fatto riferimento prece-

dentemente. Osservando le gure 3.5 e 3.6 relative agli stessicampioni di

violoncello e tuba si ha la confermadi quanto gi indicato dagli MFCC: nel

casodella tuba gli inviluppi relativi ai vari frame hanno sempre la stessa

forma mentre si osservano delle variazioni nel casodel violoncello.

57

0 5 10 15 20 25 302

1.5

1

0.5

0

0.5

1

1.5

2

2.5

3 Strumento cello

Figura 3.5: Gli inviluppi spettrali del violoncello rappresentati per 12 frames

Riassumendo,possiamodire di aver individuato una caratteristica distin-

tiva del timbro negli MFCC partendo da un modello che prendespunto dal

funzionamento dellorecchio, ovvero un modello basato sulla percezione.A

partire da tale descrizionesiamo in grado di percorrerea ritroso il cammino

dal suonopercepitoalla sorgente in quanto la rappresentazione in frequenza

che si ottiene dagli MFCC fornisceun inviluppo spettrale che caratteristico

dello strumento.

58

0 5 10 15 20 25 302

1.5

1

0.5

0

0.5

1

1.5

2

2.5

3 Strumento tuba

Figura 3.6: Gli inviluppi spettrali della tuba rappresentati per 12 frames

Ne segueda quanto detto che gli MFCC individuano degli invarianti

acustici. I limiti di questa tecnica si possonoriassumerein due osservazioni

generali; la prima che lalgoritmo tiene conto solo di alcuni aspetti della

percezionetracurandonemolti altri, sia per mantenere lalgoritmo ad un liv-

ello di modestacomplessit, siaperchmolti fenomenipercettivi sonoancora

poco noti. La secondaosservazione intrinseca al modello stesso:si presup-

pone che il segnaleda analizzaresia periodico e che levoluzione temporale

59

dello spettro sia contenuta. Da quanto detto nel paragrafo 2.3.1, la fasedi

attacco del suono non periodica e quindi non si presta a questo tip o di

analisi; inoltre il contenuto spettrale soggettoad evoluzione,ragion per cui

ha sensoparlare di impronta spettrale solo per intervalli temporali in cui si

possanoconsideraretrascurabili tali evoluzioni.

Formazione dei Vettori A custici

Dato che il timbro evolve nel tempo, lelaborazionedel segnalein ingresso

non viene eettuata sullintero segnalema questultimo viene suddiviso in

tante piccole nestre temporali chiamate frame. La dimensionedel frame si

scegliein modo tale cheallin terno di questointervallo temporalela variazione

timbrica si possaconsideraretrascurabile (ipotesi di quasi stazionariet del

timbro). Ciascunframe vieneelaborato separatamente con lestrazionedegli

MFCC ed il risultato un vettore acustico per ciascun frame. Inne tut-

ti i vettori acustici vengonoassemblati in una matrice che rappresenta gli

invarianti acustici del suonoin tutta la suadurata.

Il nostro banco formato da 27 ltri equispaziatisu scalamel e ciascun

ltro ha una larghezzadi banda di circa 100 mel. Complessivamente il nos-

tro banco copre una larghezzadi banda di 2700mel corrispondenti a circa

8 KHz (vedi gura 3.2). La scelta di questa larghezza motivata dal fatto

che la maggiorparte di informazioni sonoretrasportate dagli strumenti mu-

sicali si trovano in questabanda mentre a frequenzepi elevate il rapporto

segnale/rumorediventa svantaggioso. Il banco risulta inoltre normalizzato

rispetto allenergiaper non privilegiare le frequenzepi alte.

Da ogni campionevengonoestratti i primi 600msece da questi vengono

60

eliminati i primi 80 msec.Alla routine di analisi vengonopassatiquindi circa

520msecdi audio da analizzare.Questi valori ci sonosembrati ottimali per

i seguenti motivi:

Una durata intorno ai 500 msec sucien te a contenere la maggior

parte delleevoluzioni timbriche di una singolanota su molti strumenti.

Abbiamo la necessitdi eliminare lattacco da tutti i campioniperch il

tip o di analisi che ci apprestiamoa fare fornisceinformazioni utili solo

per suoni quasi periodici (vedi paragrafo 2.3.1). A questo proposito

osserviamoche per tagliare lattacco sarebbe stato sucien te eliminare

i primi 20-40msec; la scelta di operare un taglio maggiore dettata

dalla necessit di moderare il paleseeetto di crescendopresente in

alcuneregistrazioni.

Mediante la 3.3 abbiamoche ciascunframe rappresentato da 27 coe-

cienti che formano il vettore acustico. Il primo coecien te, quello di ordine

zero, rappresenta lenergia media del segnalee viene quindi esclusoal ne

di ottenere una normalizzazione.Il vettore acustico cos ottenuto, secondo

quanto discussonel paragrafo3.2.2, contiene una descrizionepercettiva del

suono (o meglio del singolo frame), almeno per la sua parte periodica. In-

ne la trasformata cosenodei 26 coecien ti produce linviluppo spettrale del

frame.

In realt possibilevericare che la maggiorparte delle informazioni spet-

trali rilevanti sonocontenute nei primi coecien ti del vettore, mentre quelli

di ordine pi elevato contengono la parte pi ne di tale rappresentazione.

Non esisteuna regola per determinare a priori quali sia il numero giusto

61

di coecien ti da ritenere, ma si valuta in basealle esigenzesperimentali il

numero pi opportuno. Nel nostro casosi scelto di stabilire tale numero

pari a 6, che la quantit pi piccolaper conservare le informazioni spettrali

di maggior rilievo. Questascelta consente di concentrare lanalisi eettuata

nello stadio successivo sulle caratteristiche pi importanti diminuendoeven-

tuali correlazioni incrociate sugli assi con caratteristiche minori. Operando

la trasformata cosenodei 6 coecien ti otteniamo ancoraun inviluppo spet-

trale, che presenter un andamento pi smussato (cio meno dettagliato)

del precedente. Chiameremoconvenzionalemente tale inviluppo col termine

inviluppo semplicato. In stadi successividella ricerca comunque oppor-

tuno ripetere e/o riprogettare lesperienza tenendo conto di un numero di

coecien ti maggiore.

3.2.3 Le Mappe Autoorganizzanti

Generalit

Per la costruzionedello spazio timbrico vengono impiegate le mappe neu-

rali autoorganizzanti o SOM (Self Organizing Map), introdotte da Kohonen

[Koh90a] [Koh90b]. Si tratta di reti neurali appartenenti alla famiglia delle

reti competitiv e. Questereti imparano a riconoscerele regolarit e le corre-

lazioni presenti nel loro input e adattano la loro risposta futura, cio dopo

laddestramento, in accordocon linput. In questomodo i neuroni delle reti

competitiv e imparano a riconosceregruppi di vettori di input simili. In par-

ticolare, le mappe autoorganizzanti rispondono attiv ando neuroni vicini in

corrispondenzadi ingressisimili. Le SOM sonocaratterizzateda:

62

la forma del pattern reticolare, ad esempiorettangolare o esagonale

(Figura 3.7)

Figura 3.7: Esempiodi topologiaa griglia rettangolare (in alto) ed esagonale(in basso)

la metrica scelta,cio la funzionechecaratterizza la distanza;possiamo

averedistanzeeuclidee,di Manhattan, etc.

La rete funzionanel modo seguente: a ciascunneuronevieneassociato un

vettore pesow i che ha la stessadimensionalit del vettore di ingressox ; in

questomodo abbiamo una struttura in cui tutti i neuroni sono idealmente

63

connessiin parallelo a tutti i terminali di ingresso.Per ciascunvettore in in-

gressoviene trovato il neuroneche megliosi accoppiacol vettore producendo

il pi alto livello di eccitazione;questaccoppiamento produce la corrispon-

denza tra il vettore in input e una posizionesulla mappa. Il neuroneche si

ecciter sar quello che minimizza la distanza tra x e w i:

d = min kx w ik (3.4)

Le coordinateche individuano il neuroneeccitatorappresentano la proiezione

del vettore di ingressosulla mappa. La funzione distanza scelta inuenzer

ovviamente il tip o di proiezioneche otterremo. La particolarit delle SOM

rispetto alle altre reti competitiv e che insiemeal neuronevincente vengono

individuati e aggiornati anche i neuroni che si trovano nellintorno di questi

(vedi Fig 3.8).

A ddestramen to e Simulazione

Il funzionamento della rete si basa quindi sulla formazionedei coecien ti

associati a ciascunneurone.I coecien ti si formano nella fasedi addestra-

mento della rete. Una rete inizialmente neutra cio i suoi coecien ti sono

tutti uguali. Laddestramento consistenellesporre la rete ad un insiemedi

vettori che costituisce il nostro databasedi addestramento. Ogni volta che

viene presentato un vettore in ingressoviene selezionatoil neuronevincente

secondola regolagi illustrata. A questopunto vengonoaggiornati i pesidel

64

Figura 3.8: Esempiodi layer bidimensionale:gli intorni sonoevidenziati contoni di grigio

Andrea Arcella Un Sistema Di Riconoscimento Dei Timbri Musicali

Documents

Transcript of Andrea Arcella Un Sistema Di Riconoscimento Dei Timbri Musicali