Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale...

36
1 UNIVERSITA’ ROMA TRE Codifica Musicale (Standard MPEG) Ing. Francesco Benedetto Ing. Francesco Benedetto - - Prof. Gaetano Giunta Prof. Gaetano Giunta Corso di Corso di Elaborazione Numerica dei Segnali Elaborazione Numerica dei Segnali Dipartimento di Elettronica Applicata Dipartimento di Elettronica Applicata Università degli Studi Roma Tre Università degli Studi Roma Tre

Transcript of Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale...

Page 1: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

1

UNIVERSITA’ ROMA TRE

Codifica Musicale (Standard MPEG)

Ing. Francesco Benedetto Ing. Francesco Benedetto -- Prof. Gaetano GiuntaProf. Gaetano Giunta

Corso di Corso di Elaborazione Numerica dei SegnaliElaborazione Numerica dei Segnali

Dipartimento di Elettronica ApplicataDipartimento di Elettronica ApplicataUniversità degli Studi Roma TreUniversità degli Studi Roma Tre

Page 2: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

2

UNIVERSITA’ ROMA TRE Il segnale audio

Il segnale audio è per sua natura un segnale analogico, ovvero un segnale che varia in modo continuo nel tempo.

Riuscire a rappresentare un segnale audio con un segnale digitale preservando l'informazione è un argomento che è alla base della teoria dell'informazione.

Page 3: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

3

UNIVERSITA’ ROMA TRE Campionamento

La risposta sta nel campionare il segnale, ossia prelevare, ad intervalli regolari, il valore del segnale audio.

All’aumentare della risoluzione, ovvero del numero di rettangoli(passo di campionamento), l'errore di conversione diminuisce.

Page 4: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

4

UNIVERSITA’ ROMA TRE Esempio qualità CD

Le tracce audio digitali di un CD sono immagazzinate in file binari ed in ogni secondo vengono prelevati ben 44100 campioni e ogni campione è quantizzato con 16 bit.

Considerando due canali, sinistro e destro, si avrà un bit-rate complessivo pari a: 44100 * 16 *2= 176400 bytes/secondo valore che corrisponde alla velocità di lettura "1x" dei normali lettori CD audio.

Tale bit-rate, a partire dalla codifica finora discussa, porta alla qualità sonora nota come "qualità CD", che è lo standard di riferimento quando si valutano i risultati prodotti dagli algoritmi di compressione.

Page 5: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

5

UNIVERSITA’ ROMA TRE Le tecniche

Tecniche di compressione senza perdita di informazione: particolari codifiche riescono a comprimere i dati relativi al filmato senza decurtarne il contenuto informativo

Tecniche di compressione con perdita: codifiche che producono una riduzione irreversibile del contenuto informativo del filmato

Tipicamente i due tipi di codifica vengono usate contemporaneamente in modo da ottenere significativi rapporti di compressione con una perdita di qualità relativamente bassa

Page 6: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

6

UNIVERSITA’ ROMA TRE I modelli

Nel caso dell' audio, delle immagini e dei filmati, un certo livello di degradazione è un compromesso accettabile per ridurre (e di molto) l'occupazione o la banda richiesta dal file.

Le codifiche di compressione dell'audio sono numerose ed utilizzano tecniche anche molto differenti l'una dall'altra:

- le codifiche nel dominio del tempo (lossless), - le codifiche per modelli (lossy), - le codifiche nel dominio della frequenza (lossy).

Generalmente le prime due categorie di algoritmi vengono usate per comprimere il segnale vocale mentre alla terza appartengono algoritmi come MP3, WMA, ATRAC-3 e AAC ottimi per la compressione della musica.

Page 7: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

7

UNIVERSITA’ ROMA TRE Codifiche in Frequenza

Questi algoritmi sono accomunati dal fatto di esaminare e processare il segnale non nel dominio del tempo, ma nel dominio della frequenza.

Ogni strumento musicale, ogni suono e anche la voce ha una propria impronta spettrale caratteristica costituita da una combinazione di frequenze contenute in uno spettro più o meno ampio.

Lavorando su tale spettro è possibile comprimere il segnale in misura molto maggiore di quanto non si riesca a fare nel dominio del tempo.

Page 8: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

8

UNIVERSITA’ ROMA TRE Voce e Musica

La voce umana occupa solo certe frequenze mentre gli strumenti musicali spaziano su range diversi a seconda del tipo di strumento impiegato.

Comprimere una musica generica utilizzando un approccio basato su modelli (CELP) risulterebbe estremamente complesso. La musica dovrà essere "ascoltata da un orecchio" quindi conoscere fino in fondo quello che un uomo medio riesce a sentire o non riesce a sentire può rivelarsi sorprendentemente utile.

Page 9: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

9

UNIVERSITA’ ROMA TRE Modello Percettivo

Il nostro orecchio non è uno strumento lineare, non percepisce tutti i suoni e soprattutto non li percepisce nello stesso modo. Da qui l’idea di eliminare tutte quelle componenti frequenziali che non possiamo udire.

Dal grafico emerge che l'orecchio umano è maggiormente sensibile alle frequenze comprese fra 2 e 4 KHz. In sostanza si tagliano le alte frequenze e le bassissime frequenze.

Page 10: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

10

UNIVERSITA’ ROMA TRE Mascheramento Audio

La percettività del suono non è costante nel tempo, varia in funzione di ciò che ascoltiamo. Nella figura è riportata la variazione dellacaratteristica in presenza di un suono.

In pratica un tono forte copre i suoni d’intensità minore non solo ad una determinata frequenza ma anche in quelle vicine.

Page 11: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

11

UNIVERSITA’ ROMA TRE Mascheramento Temporale

Supponiamo di avere al solito due toni, uno forte e l'altro, che gli è vicino in frequenza, piuttosto debole. Dall'analisi vista prima percepiremo solo il tono più forte (tono maschera).

Se improvvisamente questo tono maschera cessa di esistere, la membrana del nostro timpano deve assestarsi. Impiegheremo quindiun pò prima di riuscire a sentire il tono più debole anche dopo che il tono forte è morto.

Page 12: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

12

UNIVERSITA’ ROMA TRE Pre e Post Mascheramento

Pre-Mascheramento

Post-Mascheramento

La maschera complessiva (global Masking Threshold) rappresenta la parte dell’informazione ininfluente che può esser eliminata.

Page 13: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

13

UNIVERSITA’ ROMA TRE MPEG-1

La tecnica di codifica permette di selezionare diverse opzioni, primo fra tutti il numero di canali e la loro funzionalità:

- a canale singolo;

- a due canali;

- stereo semplice;

- stereo congiunta.

Le frequenze di campionamento possono essere di 32 kHz, 44.1 kHz o 48 kHz, il bitrate varia da 16 a 320 kbit/sec.

Page 14: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

14

UNIVERSITA’ ROMA TRE MPEG-1

Layer I: è il più semplice dei tre ed è studiato per avere le migliori prestazioni con bitrate sopra 128 kbit/s per canale. Fornisce fattori di compressione di circa 1 a 4.

Layer II: superiore per complessità al primo è adatto per bitrate intorno a 128 kbit/s per canale. I fattori di compressione vanno da 1 a 6 fino a 1 a 8.

Layer III: è il più complesso dei tre ed offre ottime prestazioni con bitrate di circa 64 kbit/s per canale. Riesce a ridurre la dimensione fino a 12 volte.

Page 15: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

15

UNIVERSITA’ ROMA TRE Schema di co/decodifica

Si riporta il segnale audio nel dominio temporale.

Page 16: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

16

UNIVERSITA’ ROMA TRE Codificatore

- Analisi: si trasforma il segnale rappresentandolo nel dominio delle frequenze.

- Modello percettivo: indica quali componenti spettrali possono essere scartate.

- Quantizzazione e codifica: incrementa o decrementa il valore d’ogni campione fino a portarlo a livelli standard e poi lo codifica con un certo numero di bit.

- Creazione dello stream: ai dati relativi alla finestra si aggiunge un’intestazione con le informazioni necessarie alla decodifica.

Page 17: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

17

UNIVERSITA’ ROMA TRE Layers I e IIMolto simili tra loro, vengono analizzati insieme:

Page 18: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

18

UNIVERSITA’ ROMA TRE Analisi

Il segnale viene scomposto in 32 sottobande tramite il banco di filtri.

Il layer I esegue un finestramento ogni 12 passi mentre il layer II ogni 36. Si hanno quindi 384 (32*12) campioni per finestra nel primo e 1152 (32*36) nel secondo. Si noti che questi sono campioni spettrali, nel dominio delle frequenze e non più in quello del tempo.

Page 19: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

19

UNIVERSITA’ ROMA TRE FFT e Quantizzazione

Modello percettivo: genera per ogni pacchetto la ThresholdMask, che sarà utilizzata in fase di campionamento per eliminare le componenti frequenziali non necessarie.

Quantizzazione: operazione che inevitabilmente introduce rumore. Il numero di livelli di quantizzazione è ottenuto, per ogni componente spettrale, da un algoritmo d’allocazione dinamica dei bit. Questo sceglie il quantizzatore all’interno di quelli disponibili, lavorando in modo da ottenere il bitraterichiesto e da rispettare le imposizioni della Threshold Mask.

Page 20: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

20

UNIVERSITA’ ROMA TRE Layer III

Il Layer III, più comunemente noto come MP3, introduce nuove tecniche al fine di migliorare la qualità dell’audio e mantenereaccettabile il bitrate.

Page 21: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

21

UNIVERSITA’ ROMA TRE MP3 - Funzionamento

Per ognuna delle sottobande, viene calcolata l'entità del mascheramento causata dalle bande adiacenti. Se la potenza in una sottobanda è sotto la soglia di mascheramento, allora non viene codificata in uscita l'informazione poiché sarebbe inudibile.

Altrimenti, occorre calcolare il numero di bit necessari per rappresentare l'informazione della sottobanda facendo attenzioneche il rumore introdotto stia sotto la soglia.

Page 22: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

22

UNIVERSITA’ ROMA TRE MP3-Esempio

Consideriamo per semplicità solo 16 delle 32 sottobande:

Dai dati del nostro modello psicoacustico, sappiamo che l'ottava banda, se presenta una intensità di 60dB, genera una maschera di12dB nella settima e di 15dB nella nona. La settima ha un livello pari a 10 (<12dB), ed è perciò mascherata e tagliata via dall'uscita. La nona è a 35dB (>15) così passa in uscita.

Page 23: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

23

UNIVERSITA’ ROMA TRE MP3 – Formato dei Dati

bit reservoir: se la dimensione dei dati in una finestra è inferiore al numero di bit a lei assegnata, il codificatore usa questo spaziovuoto per inserire dati relativi alle finestre successive.

Page 24: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

24

UNIVERSITA’ ROMA TRE MP3 - Prestazioni

I dati non sono “assoluti”, la riduzione varia in funzione del suono da comprimere e del codificatore utilizzato. I dati riportati sono stati recuperati dal Fraunhofer Institut e si riferiscono al loro codificatore.

Page 25: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

25

UNIVERSITA’ ROMA TRE Prestazioni Audio

Sono evidenti le migliori performance raggiunte dai codificatoriMPEG.

* Il sistema European DAB usa MPEG-1 Layer II

Page 26: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

26

UNIVERSITA’ ROMA TRE MPEG-2

Con il passare del tempo è divenuto chiaro che due canali non sono sufficienti a coprire tutte le applicazioni, per permetterela codifica multicanale è stato sviluppato il secondo standard.

L’impulso principale è stato dato dalla necessità di codificare l’audio che rispondesse alle richieste del settore cinematografico-televisivo, con almeno 5 canali: destro, sinistro, centrale, destro e sinistro surround.

Il progetto MPEG-2 si articola in due fasi successive, nella prima si è privilegiata la compatibilità con gli standard precedenti. Nella seconda questa è stata sacrificata, si era compreso che abbandonare la compatibilità era l’unica via per ottenere un notevole incremento nelle prestazioni.

Page 27: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

27

UNIVERSITA’ ROMA TRE MPEG-2 Schema a Blocchi

I codificatori non presentano novità concettuali rispetto ai precedenti. I codificatori di seconda generazione aggiungono altre frequenze di campionamento: a 16 kHz, a 22.05 e a 24 kHz. Per quanto riguarda il bitrate, questo può variare da un minimo di 8 kbit/s fino a 160 kbit/s per canale.

Page 28: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

28

UNIVERSITA’ ROMA TRE MPEG-2 AAC

La seconda fase di MPEG-2, denominata AAC (AdvancedAudio Coding), parte con l’obiettivo di sviluppare un tool per migliorare le prestazioni nella codifica multicanale.

Il risultato ottenuto è notevole, si possono codificare fino a 48 canali con una frequenza di campionamento che va da 8 a 96 kHz per canale. Per comprendere il livello raggiunto si tenga presente che alcuni test dimostrano come, a parità di qualità e nel caso di codifica a 5 canali, l’AAC in pratica dimezza la bitrate rispetto a MPEG-2 Layer II.

Page 29: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

29

UNIVERSITA’ ROMA TRE MPEG-2 AAC

Com’è possibile notare, l’AAC segue gli stessi principi del layer III, oltre a migliorare il funzionamento d’alcuni punti, introduce una serie di blocchi che migliorano la compressione e riducono il bitrate.

Page 30: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

30

UNIVERSITA’ ROMA TRE MPEG-2 AAC

Fra le parti migliorate ci sono:

· Risoluzione di frequenza: il numero di linee di frequenza in uscita dal Filter Bank passa da 576 a 1024 (potenza di 2 e più facile da gestire), la dimensione delle finestre quindi diventa di 2048 campioni;

· Codifica stereo congiunta, M/S: anziché codificare i due canali separatamente si codifica la loro media e la loro differenza (left-right), si ricordi che codificare piccoli valori richiede pochi bit;

· Codifica di Huffman: si utilizzano un maggior numero di tabelle, che oltre a migliorare la codifica facilitano il lavorodel quantizzatore.

Page 31: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

31

UNIVERSITA’ ROMA TRE MPEG-4

Seguendo l’evoluzione informatica, MPEG-4 introduce il concetto di “oggetto” nel settore audiovisivo. Ogni file multimediale è una combinazione di diversi oggetti che, pur potendo esistere separatamente sono armonizzati per ottenere l’effetto complessivo.

Page 32: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

32

UNIVERSITA’ ROMA TRE MPEG-4

- Il parlato può essere realizzato in lingue diverse e codificatotramite un tool dedicato che offre buona qualità ad un bitratemodesto.

- Per l’annuncio non è indispensabile una qualità eccelsa, è codificato come parlato sintetico ottenendo l’effetto desideratoad un bitrate molto basso (fino a 200 bit/s).

- Il rumore del treno è codificato con 8 canali, in modo da ottenere un perfetto effetto stereo.

- La musica di sottofondo è codificata con l’AAC.

Page 33: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

33

UNIVERSITA’ ROMA TRE Architettura MPEG-4

Synthetic-Natural Hybrid Coding (SNHC): questa tecnica permette la composizione d’audio naturale (compresso) e suono sintetico creato in real-time sul terminale ricevente.

Page 34: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

34

UNIVERSITA’ ROMA TRE Prestazioni MPEG-4

Le valutazioni devono tener conto di due parametri, bitrate e qualità del suono. La qualità del suono, purtroppo non può essere misurata scientificamente ma resta una valutazione soggettiva, la scala di riferimento riportata è puramente indicativa.

Tabella di valutazione della configurazione mono

Page 35: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

35

UNIVERSITA’ ROMA TRE Prestazioni MPEG-4

Superiore capacità dell’AAC di comprimere i dati, ad un costo più basso, mentre ovviamente cede ai bassi bit-rate a TwinVQ e CELP, ottimizzati per dare il massimo in condizioni critiche.

Page 36: Monografia Compressione Video - goccedimemoriapolibiomedica.yolasite.com/resources/Codifica segnale musicale.pdf · 2 UNIVERSITA’ ROMA TRE Il segnale audio Il segnale audio è per

36

UNIVERSITA’ ROMA TRE Principali Riferimenti

P. Noll: “Wideband Speech Audio Coding”, IEEE audio codingcomunication magazine, Vol. 31. No 11, Nov 1993.

D. Pan: “A tutorial on MPEG/Audio compression”, IEEE Trans. on Multimedia, vol. 2, no. 2, 1995, pp. 60-74.

G. Giunta: “Codifica Audio”, Università degli Studi “ROMA TRE”, Facoltà di Ingegneria (scaricabile gratuitamente dal sito www.comlab.uniroma3.it/ens.html).

G. Vercellesi: “MPEG audio tutorial”, Università degli Studi di Milano, Dipartimento di Informatica e Comunicazione.

F. Visciotti: “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”, Università degli Studi di Bologna, Facoltà di Ingegneria.