Codificación en fisso mobile

download Codificación en fisso mobile

of 20

Transcript of Codificación en fisso mobile

  • 7/27/2019 Codificacin en fisso mobile

    1/20

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - D icembre 2005 97

    Tecnologie di codifica audio e video

    in ambiente fisso e mobile

    GIOVANNI CORDARAROSARIO DROGO DE IACOVO

    GUIDO FRANCESCHINI

    MAURO QUAGLIA

    Larticolo descrive i pi importanti standard esistenti nel campo dellecodifiche audio/video ed illustra i principi alla base del funzionamentodegli algoritmi di compressione, con un approfondimento sulle tecnichedi codifica audio/video allo stato dellarte. Vengono inoltre descritte lemodalit di adozione delle tecniche di codifica nei differenti contestiapplicativi ed infine viene riportata una breve panoramica sulle tecnologiein fase di sviluppo che, in futuro, potranno permettere la realizzazione discenari applicativi innovativi.

    1. Introduzione

    Attualmente, esistono numerosi servizi di nuovagenerazione che sfruttano architetture distribuiteper erogare contenuti digitali compressi su reti eterminali eterogenei. In tale contesto operanonumerosi enti di standardizzazione, che regolano

    gli aspetti tecnologici relativi agli algoritmi di codi-fica e trasmissione dei segnali audio e video, perciascuno degli scenari applicativi identificati.

    Gli algoritmi di compressione definiti dagli stan-dard sono molteplici, volti al soddisfacimento didifferenti requisiti: tuttavia, essi si basano su prin-cipi analoghi. Dopo una descrizione dei pi impor-tanti standard esistenti, larticolo analizza i principialla base del funzionamento degli algoritmi di com-pressione, con un approfondimento sulle tecnichedi codifica audio/video allo stato dellarte. Nelseguito si descrivono le modalit di adozione delletecniche di codifica nei differenti contesti di servi-

    zio. Infine si riporta una breve panoramica sulletecnologie in fase di sviluppo, che potranno intro-durre, in futuro, nuove funzionalit e permettere laprogettazione di scenari applicativi innovativi.

    2. Gli standard di codifica audio e video

    Il bisogno di uno standard risponde ad una esi-genza essenziale per tutte le applicazioni che sifondano sulla comunicazione tra pi peer: lintero-per abil it . Linteroperabil it i l requisito cheesprime la necessit di scambiare qualunque tipo

    di informazioni senza barriere tecnologiche, inter-facciando e rendendo interlavoranti sistemi prodottida differenti manifatturiere. Gli standard specifi-cano i tool necessari a garantire interoperabilit ene governamo levoluzione funzionale e prestazio-nale definendo roadmap di evoluzione che consen-tano ladozione dei pi recenti progressi tecnolo-gici. Loggetto della standardizzazione rappresentail minimo indispensabile per assicurare interopera-bilit, ma salvaguarda la libert di azione delleindustrie, mantenendo aperta la possibilit diimplementare aree non-normative e stimolando,cos, la competizione e linnovazione.

    Assecondando questi principi fondanti gli stan-dard nel campo della codifica audio e videodescrivono: la sintassi di un bit stream codificato, cio la

    TECNOLOGIE

  • 7/27/2019 Codificacin en fisso mobile

    2/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    98 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - D icembre 2005

    sequenza dei valori binari che rendono unflusso di dati conforme);

    la semantica degli elementi sintattici, cio il lorosignificato;

    ilprocesso di decodifica.Gli standard non specificano invece larchitet-

    tura ed il funzionamento degli encoder, che costi-tuiscono indubbiamente la parte pi critica del pro-cesso di compressione. Questo approccio spronalindustria a ricercare soluzioni innovative cheincrementino le prestazioni, consentendo la crea-zione di valore aggiunto sui prodotti e assicurandoallo standard una evoluzione genetica pur nellam-bito della conformit alla norma.

    Lesistenza di uno standard ha importanti impli-cazioni economiche per le realt che vi parteci-pano, in quanto permette la suddivisione dei costie investimenti e laccelerazione del processo diindustrializzazione.

    Esistono due tipi di standard: gli standard defacto e gli standard de jure. Uno standard de facto tipicamente originato dalla sua capillare diffu-sione e popolarit: in alcuni casi, un certo prodottoo modello pu essere tanto diffuso e imitato dadiventare uno standard. In altri casi, invece, sia incampo manifatturiero che commerciale, esistonospecifiche studiate a priori che regolano lutilizzo ela produzione di sistemi. A volte questi standardsono obbligatori per legge e imposti dagli stati, avolte sono fissati da accordi fra imprese o da asso-ciazioni di consumatori ma non vincolanti per i pro-duttori, che possono scegliere se conformare adessi i loro prodotti o meno. Questi si dicono stan-

    dard de jure.MPEG (Moving Picture Export Group) ed ITU(International Telecommunication Union) sono iprincipali enti di normativa che standardizzano tec-nologie di codifica audio e video: costituiscono unriferimento per altri enti come DVB (Digital VideoBroadcasting), ISMA (Internet Streaming MediaAlliance) e 3GPP, che utilizzano queste tecnologiee le integrano con altri elementi per definire profilidi servizio per specifici contesti applicativi.

    Da un lato quindi sono definiti standard di riferi-mento, spesso comprensivi di un ampio insieme ditooled opzioni, che coprono un ampio spettro diesigenze; dallaltro vengono definiti scenari di ser-

    vizio pi verticali, soddisfatti combinando e profi-lando in modo opportuno le tecnologie disponibili,ivi incluse gli standard di codifica.

    Nel corso dellarticolo sar descritto lo statodellarte degli standard MPEG, storicamente ilpunto di riferimento tecnologico per il mondo dellacodifica. Ladozione delle tecnologie di codifica neidiversi ambiti applicativi, oggetto di attivit deglienti sopra citati, sar oggetto di un capitolo a s.

    2. 1 Il principale standard di riferimento: MPEG

    MPEG (Moving Picture Experts Group) un

    gruppo di lavoro che opera al l internodellInternational Organisation for Standardization( ISO) e del l Internat ional Electrotechnical Commission (IEC). Formalmente, rappresenta il

    gruppo 11 del Subcommittee 29 del JointTechnical Committee 1: il suo titolo ufficiale, per-tanto ISO/IEC JTC1/SC29/WG11.

    Nato nel 1988, MPEG ha prodotto molteplicistandard: MPEG-1 (1993) ed MPEG-2 (1995), costi-tuiscono i primi standard di successo per la codi-

    fica audio e video. Grazie alla loro diffusione ed alvasto utilizzo in prodotti commerciali e servizi,come Video-CD, DVD, televisione digitale, DAB(Digital Audio Broadcasting), player e registratoriMP3 questi standard hanno promosso e consentitoil passaggio dai sistemi analogici a quelli digitali.Sulla base di tal i successi, stato realizzatoMPEG-4 (1998), nato con lobiettivo di migliorare leprestazioni dei codificatori audio e video per potersoddisfare requisiti di servizio innovativi e pi sfi-danti, come quelli di videocomunicazione e tra-smissione su reti a banda limitata. MPEG-4 intro-duce alcune novit, in grado di allargare il contestoapplicativo rispetto agli standard precedenti: per-

    mette di inserire in flussi video contenuti sintetici esottotitoli, creare scene multimediali contenenti pidi un video o pi di un audio, codificare video nonrettangolari, segmentare oggetti allinterno di unaripresa video.

    Nel 2001 stato pubblicato un nuovo standard,MPEG-7, che modifica lorientamento del lavorodel gruppo. Lobiettivo primario, conseguenza delproliferare di contenuti multimediali digitali, non pi quello di specificare algoritmi di codifica, mapermettere la gestione efficace di tali contenuti:MPEG-4 definisce come rappresentare il conte-nuto, MPEG-7 come descriverlo. MPEG-7 facilita

    lutilizzo dei milioni di contenuti digitali esistenti (diqualunque tipo: audio, video, immagini, naturali esintetici, contenuti misti), la loro catalogazione, chepu disporre di un formato di descrizione comune,e la ricerca degli argomenti di interesse. MPEG-7 ufficialmente denominato Multimedia ContentDescription Interface. Questa attenzione ai contestidi utilizzo ed alle problematiche di integrazione deimedia digitali stata riaffermata nel charterdel pirecente standard, MPEG-21, tuttora in fase di defi-nizione. MPEG-21, Multimedia framework, non sifocalizza esclusivamente sui contenuti, ma analizzala catena di distribuzione nella sua interezza, perstandardizzare lintero processo che regola il ciclo

    di vita e di diffusione del contenuto digitale.MPEG-21 descrive gli elementi chiave di un fra-mework in grado di permettere la descrizione e li-dentificazione del contenuto, la sua protezione, lasua distribuzione in reti eterogenee.

    MPEG uno standard aperto ad esperti accre-ditati da appositi National Standard Body. I docu-menti sono disponibili per gli enti appartenenti allacomunit.

    Come standard di riferimento, MPEG guidatoda alcuni principi cardine: Data la vastit degli argomenti trattati, gli stan-

    dard MPEG generalmente operano producendo

    toolbox, insiemi di algoritmi specifici che per-mettono di soddisfare requisiti variegati. Taleapproccio permette alle industrie di utilizzare ilsottoinsieme dei tool di base che permettono di

  • 7/27/2019 Codificacin en fisso mobile

    3/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - D icembre 2005 99

    rispondere alle proprie esigenze. Per garantirela variet, ed al tempo stesso linteroperabilittra tutti i sottoinsiemi utilizzati, MPEG utilizza ilmeccanismo dei profili, combinazioni di tool,anchesse decise dalla comunit e specificatein fase normativa, appositamente studiate per

    essere utilizzate in particolari contesti applica-tivi. Standardizzazione a priori: MPEG identifica le

    tecnologie per la standardizzazione prima dellar ichiesta da parte del le industr ie. Questoapproccio permette ad MPEG di produrre stan-dard prettamente tecnologici, esclusi da qua-lunque interesse commerciale;

    Specifica del minimo per garantire interoperabi-lit, approccio generale per gli standard de jure;

    Esecuzione, in fase normativa, di test di confor-mit e verifica delle prestazioni di ogni nuovostandard.Il processo di standardizzazione seguito dal

    Moving Picture Experts Group (MPEG) rappre-sentato nel riquadro omonimo.

    3. I principi della codifica audiovisiva

    La teoria dellinformazione distingue due tipolo-gie di codifica, utilizzate in un sistema di telecomu-nicazioni: codifica di sorgente; codifica di canale.

    Con il termine sorgente sintende linforma-zione nella sua forma originale da trasmettere: la

    sua codifica, pertanto, consiste in una conversionee manipolazione dei dati in ingresso per esprimerli inmodo pi efficace, utilizzando un numero inferiore dibit; quando linformazione viene trasferita tramite un

    mezzo trasmissivo, la codifica di sorgente seguitadalla codifica di canale, volta a garantire che i bitgiungano a destinazione proteggendoli da eventualierrori di trasmissione. Nel seguito si tratter diffusa-mente della codifica di sorgente [1] [2] rimandandoad un'altra occasione lapprofondimento delle tecni-

    che di codifica di canale.I segnali audio e video presentano caratteristi-che significativamente differenti tra loro, a partiredalle dimensioni: alla natura monodimensionaledellaudio si contrappone la bidimensionalit del-limmagine visiva. Di conseguenza, anche i codifi-catori, studiati in modo specifico per comprimereefficacemente i due tipi di segnali, eseguono ope-razioni differenti. A livello algoritmico, tuttavia, sipu riscontrare un approccio analogo per il pro-cesso di codifica, che in entrambi i casi esegue lastessa sequenza di operazioni: le differenze si con-cretizzano nei tooladottati per compiere i singolipassi. Ogni codificatore, infatti, cerca di rappresen-

    tare in modo efficiente linformazione contenuta nelsegnale audiovisivo: per raggiungere questo scopoinizialmente calcola un modello del segnale sor-gente per identificare le componenti predominantied eliminando le informazioni ridondanti o inin-fluenti; successivamente cerca di rappresentare inmodo efficiente linformazione in uscita di talemodello, e provvede alla creazione del bitstream, ilflusso di dati che costituisce il segnale codificato,che pu essere memorizzato in un file o trasmesso.

    Questi obiettivi si concretizzano in una precisasequenza di blocchi funzionali, che eseguono ope-razioni distinte tra loro, utilizzando come input il

    risultato ottenuto nel blocco precedente: Analisi del segnale: questa prima fase consistenello studio di porzioni di segnale limitate neltempo, con lobiettivo di analizzarne le caratte-

    Il processo distandardizzazioneMPEG

    MPEG segue un processo di standar-

    dizzazione formale, che origina unaserie di documenti ufficiali. Il percorso

    si articola in alcune fasi:

    Analis i dei requis it i: il lavoro di

    definizione di un nuovo standard

    nasce in seguito allidentificazione

    di applicazioni che necessitano di

    nuove tecnologie ed alla defini-

    zione di requisiti;

    Fa se co mp et it iv a: successiva-

    mente inizia la prima fase opera-

    tiva del processo di standardzza-

    zione, che prevede:

    Call for Proposal: un bando cherichiede a tutte le parti interes-

    sate di presentare proposte tec-

    nologiche in grado di soddisfare

    i requisiti identificati;

    Eval uati on: le proposte sono

    valutate con un processo ade-

    guato ed imparziale, che com-

    prende test soggettivi, compa-

    razioni numeriche e valutazioni

    di esperti; Fase cooperativa: una volta indivi-

    duate una o pi tecnologie pro-

    mettenti, inizia un lavoro coopera-

    tivo per migliorarne gli aspetti

    algoritmici e definire una prima

    versione dello standard (Working

    Dra ft ) . Si eseguono Core

    Exper iment s mirati che permet-

    tono di verificare, confrontare e

    introdurre ulteriori miglioramenti

    incrementando le prestazioni del

    modello di riferimento. Ogni modi-

    fica allo standard validata daopportuni Verification Tests.

    Al termine della fase cooperat iva, si

    giunge ad uno stadio di maturit tale

    da permettere la pubblicazione dello

    standard. Anche in questa circostanza

    sono prodotti alcuni documenti uffi-

    ciali:

    Commitee Draft: la prima versione

    dello standard, contenente le tec-

    nologie consolidate oggetto dellastandardizzazione;

    International Standard (IS): docu-

    mento che contiene le specifiche

    tecniche dello standard;

    Amendments: documenti che con-

    tengono aggiunte o modifiche tec-

    niche ad uno standard esistente,

    prodotte successivamente alla

    pubblicazione;

    Corrigenda: documenti prodotti

    per correggere errori presenti in

    standard gi pubblicati.

  • 7/27/2019 Codificacin en fisso mobile

    4/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    100 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005

    ristiche. In base allap-proccio ut i l izzato gl iscopi del l operazionepossono essere molte-plici: la costruzione di unmodello del segnale cor-

    rente costruito a partiredalle somiglianze e dalledifferenze r ispetto acampioni passat i ememorizzati, l el imina-zione di porzioni nonpercepibili, la definizionedi parametri in grado difornire una descrizionesommaria delle compo-nenti principali.

    Trasformazione-quantiz-zazione: la seconda faseprevede la rappresenta-

    zione dellinformazione inun dominio trasformato,in grado di fornire una descrizione compatta edefficiente della correlazione insita nel segnale,cos da consentire una riduzione drastica dellaridondanza presente. Essa seguita dalla quan-tizzazione, ovvero loperazione di decimazione,che elimina le componenti meno significativepresenti nel dominio trasformato per massimiz-zare il fattore di compressione.

    Codifica entropica: lultima fase rappresenta inmodo efficace i simboli in uscita dalla fase diquantizzazione, generando lostream codificato.

    Lanalisi del segnale strettamente legata allecaratteristiche del segnale in input; la codificaentropica, al contrario, fornisce una compressionestatistica basata su concetti generici, validi perogni tipo di informazione.

    La maggioranza degli standard esistenti eseguela catena di operazioni sopra descritta. Il processodi codifica, pertanto, composto da un insiemevariegaro di algoritmi, utilizzati in modo sequen-ziale per migliorare le prestazioni: a tecniche appo-sitamente studiate per analizzare levolvere delsegnale nel tempo (la predizione del moto per ilvideo, il modello psicoacustico per laudio) si uni-scono algoritmi importati dallanalisi dei segnali

    (trasformazioni) e operazioni proprie dalla teoriadellinformazione (codifica entropica); per talemotivo, tali catene di operazioni sono identificatecol nome di codif icator i ibridi.

    Le figure 1 e 2 mostranolo schema di funzionamentodei codif icator i audio evideo. A livello di architet-tura si pu notare come ladifferenza principale, a partelidentit dei blocchi, consi-sta nellanello di retroazione

    con decodifica applicato aicodificatori video. Lutilit ditale processo sar illustratanel paragrafo successivo.

    Il decodificatore esegue le operazioni inverse,nellordine opposto, rispetto al codificatore.

    3.1 Lanalisi del segnale

    La fase di analisi (blocchi verdi nelle figure 1 e2) del segnale rappresenta loperazione in cui codi-fica video ed audio presentano le differenze pisignificative. I modelli analitici utilizzati, infatti,sono studiati ed ottimizzati per sfruttare la naturadel segnale su cui sono applicati; per tale motivo

    saranno analizzati separatamente.

    3.1.1 Il video: la stima del moto

    I fotogrammi adiacenti di una ripresa video pre-sentano notevoli somiglianze ed una forte correla-zione.

    La fase di analisi del segnale video sfrutta talecaratteristica per diminuire la quantit di energia, equindi di informazione, necessaria ad una descri-zione esauriente del contenuto. Lobiettivo di taleoperazione consiste nella stima del fotogrammacorrente, effettuata calcolando la differenzarispetto ai frame ad esso adiacenti (fotogrammi di

    riferimento), precedenti e successivi. La stima eseguita suddividendo limmagine in macroblocchi(tipicamente di 16x16 pixel), che possono essere

    +

    FrameBuffer

    Creazione delbitstream

    Forward FrameBuffer

    Backward FrameBuffer

    Moto-compensazione

    Stimadel moto

    CodificaentropicaVettori di moto

    RateBuffer

    Quantizzatione+

    --

    Trasforma-zione

    Codificaentropica

    Quantizzazioneinversa

    Retroazione

    Trasformazioneinversa

    FIGURA 1 La struttura di base di un codificatore video.

    FrameBuffer

    Banco filtridi analisi

    Modellopercettivo

    QuantizzationeTrasformazioneCodificaentropica

    FIGURA 2 La struttura di base di un codificatore audio.

  • 7/27/2019 Codificacin en fisso mobile

    5/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - D icembre 2005 101

    ulteriormente scomposti in blocchetti di dimen-sione minore. Per ogni blocco, lalgoritmo ricercaallinterno di una porzione del fotogramma di riferi-mento linsieme di campioni di medesime dimen-sioni che pi gli assomiglia. Il blocco pi somi-gliante quello che minimizza la differenza, in ter-

    mini di errore quadratico medio. Larea di ricerca centrata intorno alla posizione del blocco analiz-zato, poich solitamente il contenuto di foto-grammi adiacenti presenta una correlazione chetende a diminuire in base alla distanza tra le areeanalizzate.

    Tale tecnica conosciuta col nome di BlockMatching [3]. Ad ogni blocco associato un valore(vettore di moto) che rappresenta la differenza diposizione, in pixel, tra il blocco analizzato ed il suoaccoppiamento sul fotogramma di riferimento. Lafase di stima del moto seguita dalla moto-com-pensazione, operazione nella quale lintero frame,stimato tramiteblock matching, sottratto allorigi-

    nale; si codifica esclusivamente la differenza (resi-duo), per minimizzare lenergia dellinformazione,ottimizzando il fattore di compressione. Durante ilprocesso di codifica, ogni fotogramma di riferi-mento, oltre ad essere codificato ed inserito nel bitstream anche decodificato: in questo modo, lastima del moto calcolata utilizzando lo stessoriferimento, sia in fase di codifica che in fase didecodifica. Utilizzando in codifica limmagine origi-nale, infatti, si creerebbe una discordanza tra il rife-rimento del codificatore e quello del decodificatoreche produrrebbe un errore di r icostruzione.Iterando la fase di stima del moto a pi fotogrammi

    (prassi normalmente utilizzata nei codificatori) sioriginerebbe un fastidioso errore di deriva (drifting)con conseguente limitazione delle prestazioni.

    In base al tipo di stima del moto, i fotogrammisono classificati in tre categorie: Frame I (Intra): su di essi non eseguita la stima

    del moto. Sono codificati interamente, a meno dipredizioni spaziali che avvengono allinterno delframe stesso tra blocchi adiacenti;

    Frame P (Predicted): frame nei quali si effettuastima del moto uni-direzionale;

    Frame B (Bidirectional): frame nei quali si effet-tua stima del moto bidirezionale. Il residuo calcolato sottraendo al blocco corrente la

    media del blocchi di riferimento individuati.Per effettuare la stima del moto necessario

    memorizzare un gruppo di fotogrammi, con conse-guente elevata occupazione di memoria ed intro-duzione di ritardo di codifica, che pu divenire cri-tico in caso di codifica real time. Generalmente, ilnumero di fotogrammi coinvolti nel processo distima del moto rappresenta un compromesso tra iltempo di ritardo e lefficienza di codifica, efficienzache tende ad aumentare al crescere del numero difotogrammi stimati. La tipica sequenza allinternodi un gruppo di immagini di tipo: IBBBBBBBP.

    La stima del moto pu essere eseguita con pre-

    cisione superiore al pixel, interpolando il foto-gramma di riferimento e utilizzando anche i cam-pioni interpolati per la ricerca dellaccoppiamentomigliore.

    3.1.2 Laudio: il modello psicoacustico

    Un metodo di compressione di dati audio nonha come obiettivo la riproduzione senza perditedella forma donda sonora, ma la massimizzazione,a parit di informazioni fornite, della qualit perce-

    pita dallascoltatore; , pertanto, inutile riprodurreaccuratamente ogni caratteristica della formadonda dei suoni codificati. Pu essere, invece,molto efficace eseguire lanalisi delle componentidel segnale acustico per identificare quelle chemaggiormente influenzano la percezione dellascol-tatore. Questa la teoria alla base del perceptualcoding (codifica percettiva) che, sfruttando leconoscenze di acustica relative alle modalit dipercezione dellorecchio umano, analizza le com-ponenti in frequenza di ogni suono in input, misu-randone il livello di udibilit. Per eseguire questocompito, si utilizza come riferimento un opportunomodello: il modello psicoacustico. Per capire

    come lavora il modello psicoacustico, necessarioconsiderare due concetti importanti per laudiodigitale e la codifica percettiva: laridondanza e lir-rilevanza. La prima rappresenta linformazione inin-fluente, che pu essere rappresentata pi efficace-mente utilizzando un numero inferiore di bit senzaalterare la qualit del segnale; lirrilevanza, invece,riguarda il meccanismo di udibilit. La teoria psi-coacustica ammette che, date le particolarit dellapercezione umana, certe propriet di una dataforma donda siano effettivamente insignificanti perun ascoltatore (ad esempio le frequenze al di fuoridella soglia di udibilit, 20 Hz 20 kHz [2]). La

    codifica percettiva prevede, in riferimento almodello psicoacustico, di memorizzare esclusiva-mente i dati percepibili dallorecchio umano. Inquesto modo, possibile ottenere drastiche ridu-zioni delle dimensioni del codificato, semplice-mente scartando limpercepibile.

    In particolare, la codifica percettiva opera ese-guendo una serie di mascheramenti, eliminandoalcune componenti. In particolare, tre sono i tipi dimascheramento effettuati: Frequency masking: se un suono forte ed uno

    debole di frequenze analoghe competono, ilsegnale pi debole non pu essere udito, per-tanto non necessario codificarlo; inoltre

    possibile eliminare le componenti appartenentia zone non udibili dello spettro di frequenza.

    Temporal masking: dopo un suono forte,occorre un certo lasso di tempo prima di riu-scire a percepire un suono debole;

    Ridondanza stereo: non pu essere distinta laprovenienza di un suono a bassa frequenza1.Come mostrato in precedenza, lanalisi del

    segnale acustico non pu prescindere dalla cono-scenza delle componenti in frequenza che com-pongono il segnale stesso. Pertanto, il segnale iningresso sottoposto ad unanalisi tempo-fre-quenza: linput suddiviso in una serie di frame

    (1)

    Questo fenomeno spiega il motivo della presenza di una sola cassa di riso-

    nanza per basse frequenze (Subwoofer) in impianti 5+1.

  • 7/27/2019 Codificacin en fisso mobile

    6/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    102 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005

    temporali disgiunti, e ad ognuno di essi applicatauna trasformata di Fourier, che li scompone in 32sottobande, analizzate separatamente.

    In alcuni standard, in particolar modo quellidedicati alla voce (G.729), il modello psicoacusticosopra descritto sostituito, o affiancato, da una

    modellizzazione parametrica del segnale o da unapredizione lineare che sfrutta le conoscenze rela-tive alla natura dei suoni emessi dalla voce umana:lalgoritmo pi conosciuto ed utilizzato denomi-nato CELP (Codebook Excited Linear Prediction).

    3.2 Trasformazione-quantizzazione

    Lapplicazione di trasformate (blocchi blu nellefigure 1 e 2) rappresenta una delle operazioni piefficaci effettuate dalla maggior parte dei codifica-tori ad oggi standardizzati. I dati nel dominio origi-nale (spaziale per il video, temporale per laudio)sono trasformati in una rappresentazione diffe-

    rente, il cosiddetto dominio trasformato. Il motivoalla base di tale operazione si pu individuare inuna maggiore compressione: campioni adiacentipresentano alta correlazione e lenergia tende adessere uniformemente distribuita tra essi, renden-done difficile leliminazione o la riduzione di alcuni,senza compromettere la qualit del segnale deco-dificato. Con una scelta adeguata delle operazionidi trasformazione, possibile eliminare la correla-zione esistente tra campioni adiacenti raggrup-pando la maggior parte dellenergia, e quindi del-linformazione utile, in un numero limitato di cam-pioni nel dominio trasformato: in questo modo, le-

    liminazione degli elementi meno significativi haimpatto minimo sulla qualit globale del segnalericostruito.

    La tecnica maggiormente utilizzata nellanalisidei segnali la DCT (Discrete Cosine Transform)[3], che opera su insiemi di campioni limitati: nelcaso del video, ad esempio, la DCT bidimensionale applicata su blocchi di 8x8 campioni. Questacaratteristica, unita alla bassa potenza computa-zionale richiesta, alla possibilit di parallelizzazionedelle operazioni, ed alle buone prestazioni fornite alla base del successo che tale trasformata haavuto in molti standard di codifica.

    Per la codifica audio, la DCT non applicata al

    segnale in ingresso, ma alle singole sottobandecalcolate dallanalizzatore tempo-frequenza, persfruttare lalta correlazione presente tra campionidi ciascuna sottobanda; si utilizza una versione dif-ferente della DCT, denominata Modified DCT(MDCT) che lavora su finestre applicative parzial-mente sovrapposte, in modo che la seconda metdi un blocco di campioni coincida con la primamet del blocco successivo. Questa operazione effettuata per eliminare gli artefatti originati dallediscontinuit prodotte sui confini dei blocchi, nonmascherabili alla percezione uditiva.

    La fase di trasformazione seguita dalla quan-

    tizzazione (blocchi rosa nelle figure 1 e 2), ovvero lariduzione del numero di bit impiegati per la descri-zione dei campioni. Tale operazione quella cheintroduce la perdita di qualit, eliminando i bit

    meno signif icat iv i di c iascun campione.Lapplicazione della quantizzazione al segnale tra-sformato, tuttavia, limita la perdita di informazionegrazie allalto numero di campioni nulli o pocosignificativi presenti nella rappresentazione neldominio DCT.

    3.3 Codifica entropica

    Lultima fase della catena di codifica costituitadalla codifica entropica (blocchi gialli nelle figure 1e 2). In uscita dagli stadi precedenti, prodottauna variet di coefficienti appartenenti a differenticategorie: campioni quantizzati nel dominio tra-sformato, side information (header, informazioni disincronizzazzione) ed elementi per lanalisi delsegnale (vettori di moto, parametri della codificapsicoacustica). Ciascuno di essi pu essere rap-presentato efficacemente in formato binario, ridu-cendo ulteriormente il numero di bit necessari per

    la descrizione dellinterno flusso. Un codificatoreentropico mappa i simboli in input in unostream didati, che rappresentano il formato di uscita. Lacompressione pu essere ottenuta sfruttando laridondanza relativa al numero di occorrenze dideterminati simboli nello stream codificato: gene-ralmente si esegue una codifica dei simboli su lun-ghezza variabile VLC (Variable Length Coding) [3],associando ai simboli pi frequenti lunghezzaminore. I due algoritmi pi utilizzati sono: Huffmann Coding: ogni simbolo rappresentato

    con una sequenza di bit di dimensione variabile,in base alla frequenza di occorrenza;

    Codifica Aritmetica: mappa ogni simbolo ininput in un numero frazionale di bit. Si ottieneun migliore fattore di compressione rispettoallalgoritmo di Huffmann.

    4. Lo stato dellarte della codifica video

    H.264/AVC (Advanced Video Coding), sinonimodella parte 10 dello standard MPEG-4 [4] con cuiviene abitualmente indicato, il pi recente stan-dard internazionale di codifica video. stato svi-luppato congiuntamente da ITU-T2 e da MPEG.Costituisce lo stato dellarte per la codifica video,

    fornendo alta efficienza di codifica in vari contestiapplicativi: videotelefonia, videoconferenza, TV,storage (DVD e hard disk),streaming video.

    H.264/AVC stato sviluppato in un periodo diquattro anni a seguito di una Call for Proposals cuiVCEG3 ha contribuito in modo sostanziale.

    (2)

    ITU-T coordina il lavoro di standardizzazione per le telecomunicazioni nel-

    lambito dellInternational Telecommunication Union (ITU).

    (3)

    Il gruppo che si occupa di codifica video in ITU-T (sottogruppo 16) deno-

    minato Video Coding Experts Grouped stato responsabile di standard natiper supportare i servizi di videocomunicazione: il primo H.261 stato segui-

    to dal pi efficiente H.263, a sua volta aggiornato in H.263+ e H.263++.

    Lultimo tentativo di standardizzazione stato H.26L, confluito in H.264.

  • 7/27/2019 Codificacin en fisso mobile

    7/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005 103

    I risultati della Callporta-rono MPEG al le seguent iconclusioni: le st rut ture tradiziona li

    dei codif icator i nonnecessitavano di stravol-

    gimenti, ma di sempliciottimizzazioni dei tool dibase;

    alcuni tool esclusi daglistandard precedenti perla loro complessit pote-vano essere riammessinel nuovo standard, gra-zie alle maggiori capacitcomputazionali dei termi-nal i di nuova genera-zione;

    per permettere la mas-sima libert ed efficienza,

    H.264/AVC non sarebbestato retro-compatibilecon gli standard precedenti;

    la tecnologia proposta da VCEG era in assolutola pi premettente.Come conseguenza, per facilitare il processo di

    avanzamento, ITU-T ed MPEG decisero di unire leloro forze, costituendo ilJoint Video Team (JVT).

    Lo standard H.264/AVC [4] stato prodotto epubblicato nel 2003. A luglio 2004 stata pubbli-cata la seconda versione dello standard, che pre-senta una serie di profili aggiuntivi, denominatiFRExt (Fidelity Range EXTensions) [5].

    La figura3 fornisce una visione complessiva deiprincipali standard di codifica video prodotti daITU-T ed MPEG e confluiti nel lavoro congiunto diJVT.

    4.1 Caratteristiche tecniche

    H.264/AVC mantiene la struttura di base deicodificatori video, ma presenta notevoli differenzerispetto agli standard precedenti: grazie alle mag-giori capacit di calcolo dei terminali di nuovagenerazione e a miglioramenti algoritmici, alcunitoolsono stati ottimizzati (tabella 1). AVC inoltre

    in grado, dopo la pubblicazione di FRExt, di codifi-care video ad alta qualit, per applicazioni HDTV ocinematografiche abit rate elevato.

    Gli elementi innovativi introdotti dallo standardcoinvolgono tutti i blocchi basilari della catena dicodifica descritta precedentemente.

    Lanalisi del segnale Stima del moto: gli algoritmi di stima del moto

    presenti in AVC presentano alcune differenzerispetto ai codificatori precedenti. Cos come

    per H.263 e MPEG-4, limmagine originale suddivisa in macroblocchi di 16x16 campioni. stata, tuttavia, introdotta, grazie alle mag-giori potenze dei processori odierni, la possibi-lit di iterare la fase di spli tting sino allotteni-mento di blocchi 4x4. Nel la f igura 4 sonomostrati i possibili blocchi contemplati. Lastima del moto ha precisione maggiore: 1/4 o1/8 d i p ixe l . Una l t ra importante novi triguarda la stima del moto per i blocchi di tipoP: H.264 supporta i Mult iple ReferenceFrames, ovvero la ricerca del matching ottimoeseguita su pi fotogrammi di r iferimento

    ITU-T

    ISO

    H.261

    H.263 H.263++

    H.263+ H.263L

    H.264/AVC

    MPEG4

    MPEG2

    1990 1992 1994 1996 1998 2000 2002 2003

    MPEG1

    FIGURA 3 La storia della codifica video.

    CaratteristicheMPEG-4

    Visual H.263

    Dati supportati

    Numero di profili

    Efficienza di codifica

    Dimensione dei blocchi minimaper la motocompensazione

    Supporto a blocchi rettangolari

    Precisione della stima di moto

    Dimensione blocchi DCT

    Oggetti di qualsiasiforma, texture

    19

    Media

    8x8

    No

    1/2 o 1/4 pixel

    8x8

    H.264/AVC

    Video framerettangolari

    7

    Alta

    4x4

    S

    1/4 o 1/8 pixel

    4x4

    DCT = Discrete Cosine Transform

    TABELLA 1 Confronto tra H.264/AVC e gli standard precedenti.

    16x16

    Mtypes

    8x8types

    0

    16x8

    0

    0

    0 1

    2 3

    11

    0

    0

    0

    0 1

    2 3

    11

    8x16 8x8

    8x8 8x4 4x8 4x4

    FIGURA 4 Schema delle possibili modalit di stima block based.

  • 7/27/2019 Codificacin en fisso mobile

    8/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    104 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005

    ( f igura 5). Sia lencoder che il decoder, per-tanto, conservano in memoria una serie diframe di riferimento durante la fase di codificadi unimmagine. Anche la stima del moto di tipoB, pu usufruire di tale caratteristica: la diffe-renza tra le due modalit, consiste nella possi-

    bilit, da parte dei blocchi B, di adottaremedie pesate dei matching distribuiti su framedifferenti.

    Esistono, infine, nuove possibili identificazioniper i blocchi:

    - Skip: i l blocco presenta caratteristiche dimoto analoghe ai blocchi adiacenti. Nessunvettore di moto codificato, ad esso asse-gnato quello calcolato dai blocchi aventi lostesso orientamento;

    - Direct: utilizzato quando si identifica unmovimento lineare di un blocco di tipo Ballinterno della scena codificata. assegnatoil medesimo vettore per la stima del moto inentrambe le direzioni;

    - Intra: eliminazione della stima del moto, neicasi in cui la stima non risulti affidabile o pos-sibile.

    Intra prediction: i blocchi classificati Intra

    possono usufruire di un tipo di predizione ana-logo al block matching. Il blocco di riferimentonon ricercato tra i fotogrammi adiacenti, matra i blocchi dello stesso fotogramma che si tro-vano nellintorno di quello analizzato.

    Trasformazione-quantizzazione La trasformazione applicata, per la prima volta

    in uno standard, una trasformata ad interi,piuttosto che una rappresentazione basata suapprossimazioni di funzioni trigonometriche(quale la DCT tradizionale). Un vantaggio signifi-cativo di tale operazione consiste nellimpossi-

    bilit di discordanze, dovute ad approssima-zioni, tra i risultati ottenuti nellencodere neldecoder. La trasformata ad inter i statacomunque progettata per mantenere le caratte-

    ristiche della DCT, in termini di compattazionedellenergia ed eliminazione della ridondanza.

    La trasformata applicata su blocchi 4x4; inalcuni profili c la possibilit di adattare ladimensione dei blocchi effettuando una sceltatra 8x8 e 4x4.

    Codifica Entropica Sono stati introdotti due algoritmi innovativi;

    CAVLC (Context Adaptive Variable LengthCoding), e CABAC (Context Adaptive BinaryAr ithmet ic Coding ). Il primo rappresenta untradizionale codificatore di tipo VLC (VariableLength Coding), che presenta la caratteristicadi adattare le tabelle di quantizzazione al con-testo applicativo, migliorandone le presta-zioni. Lefficienza ulteriormente miglioratadallutilizzo di CABAC, il secondo metodo pre-visto, un codif icatore ar i tmet ico che traeanchesso notevoli vantaggi dallutilizzo della

    conoscenza del contesto. CABAC in gradodi aumentare del 10-15% lefficienza di codi-fica rispetto a CAVLC.Alcune innovazioni intro dotte r iguardano,

    invece, la struttura generale del codificato ed imeccanismi di error resilience, pensati per la tra-smissione efficiente su reti a pacchetto: Network Abstraction Layer (NAL): fornisce le

    informazioni per rappresentare unit indipen-denti al l interno dello str ea m che possonoessere utilizzate efficacemente in fase di tra-smissione su reti a pacchetto;

    Meccanismi di protezione: per fornire prote-

    zione efficace in caso di errori trasmissivi siadotta il Flexible Macroblock Ordering (FMO),che suddivide i macroblocchi di un fotogrammain pacchetti differenti, trasmessi separata-mente. In caso di perdita di un pacchetto, lim-magine ricostruita utilizzando i macroblocchiricevuti correttamente come predittori dei bloc-chi corrotti.

    4.2 Profili e livelli

    La maggior parte delle applicazioni richiedeesclusivamente un sottoinsieme limitato dellampiorange di funzionalit e toolsupportati da uno stan-

    dard ampio come AVC; per favorire linteroperabi-lit su un insieme variegato di applicazioni (adesempio, video-conferencing o digital TV) gli stan-dard MPEG identificano una serie di profili e livelli.Essi rappresentano delle raccomandazioni relativeai tooled ai parametri di utilizzo necessari per sup-portare determinate funzionalit. Gli enti di norma-tiva come ISMA o 3GPP, che supportano il mondoindustriale per la regolamentazione di opportunicontesti applicativi, generalmente utilizzano taliprofili e livelli per garantire interoperabilit allin-terno del dato contesto.

    Profili e livelli si differenziano in base al tipo di

    specifica che forniscono: un Profilo definisce le caratteristiche algoritmi-che: specifica pertanto il subsetdi toolneces-sari per fornire le funzionalit di interesse.

    = 4 = 2

    = 1

    Four prior-decoded picturesas reference

    Currentpicture

    FIGURA 5 Stima del moto per un blocco di tipo P che utilizza

    multiple reference frames.

  • 7/27/2019 Codificacin en fisso mobile

    9/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005 105

    I profili incidono sulla sintassi del bit streamcodificato;

    un Livello specifica il set di limiti estrinseciallalgoritmo di codifica entro i quali opera ilcodificatore. Ciascun profilo, per un determi-nato livello, opera nelle medesime condizioni. I

    livelli generalmente specificano le modalit dicarico e memoria del decoder, bit rate, framerate e risoluzione spaziale del bitrate codificato.

    H.264/AVC identifica 7 profili Baseline: progettato per minimizzare la com-

    plessit e privilegiare la robustezza trasmis-siva in contesti di distribuzione su reti etero-genee. Per tale motivo supporta tutti i tooldescritti precedentemente ad eccezione deib locchi d i t ipo B e l impiego de l too lCABAC;

    Main: progettato per ottenere alti fattore dicompressione: supporta blocchi di tipo B e lu-

    tilizzo della codifica aritmetica CABAC ma nonFMO;

    X(eXtendend): cerca di unire la robustezza delBaseline con lefficienza del Main, aggiungendo,inoltre, alcuni tool addizionali. Supporta tutti itool descritti precedentemente ad eccezione diCABAC;

    High Profiles: rappresentano quattro distintiprofili di servizio ad alta qualit, progettati perapplicazioni di tipo HDTV o editing professio-nale di sequenze video, che prevedono un cam-pionamento su 8, 10 e 12 bit/campione, sup-portano codifica lossless e la conversione al

    formato RGB.Per ciascun profilo sono stati identificati diffe-renti livelli (17 in totale); si rimanda a [3] [4] per unadettagliata descrizione.

    4.3 Prestazioni

    Le figure 6 e 7 mostrano alcuni esempi relativialle prestazioni (in termini di rapporto segnale-rumore - PSNR) ottenute dai codificatori AVCrispetto a standard precedenti: i profili analizzati

    sono ASP (Advanced Simple Profile) per MPEG-4(ricerca esaustiva, 1/4 di pixel di precisione per lastima del moto, filtro di deblocking), HLP (HighLatency Profile) per H.263 (analogo ad MPEG-4ASP), e Main Profi le (5 reference frame) perH.264/AVC.

    Per tutti i codificatori lo schema utilizzato deltipo: IBBPBBP.

    H.263 ed MPEG-4 forniscono prestazioni analo-ghe; H.264, invece, in grado di raggiungere fat-tori di compressione nettamente superiori. In parti-colare, si pu notare come, a bassi bit rate, utiliz-zando H.263 o MPEG-4 occorra allincirca raddop-piare la banda per eguagliare le prestazioni fornite

    da AVC. Ovviamente, laumento in termini di fattoredi compressione compensato da una richiesta dimaggiore sforzo computazionale, che tuttavia supportato dai terminali di ultima generazione. Latabella 2 riassume le prestazioni e la potenza com-putazionale richiesta per i differenti profili, in rela-zione ad MPEG-2.

    Il significativo divario, in termini di compres-sione, tra AVC e gli altri standard non deriva dallu-tilizzo di un tool particolare, ma piuttosto ad unaserie di ottimizzazioni degli algoritmi comuni a tuttii codificatori ibridi, in particolare nella fase di stimadel moto e di codifica entropica.

    Il miglioramento di efficienza raggiunto daH.264/AVC, unito alla definizione di profili per altaqualit, ha reso praticabile la progettazione di nuoviscenari applicativi nel contesto wireless e wired.

    QualityY-PSNR (dB)

    39

    38

    37

    36

    35

    34

    33

    3231

    30

    29

    28

    27

    0 50 100 150 200 250

    JVT/H.264/AVC

    Foreman QCIF 10 Hz

    Bit rate (kbit/s)

    MPEG-4

    MPEG-2

    H.263

    AVC = Advanced Video Coding

    FIGURA 6 Prestazioni di H.264, H.263, MPEG-4 e MPEG-2 su unasequenza QCIF (176x144 pixel) [7].

    QualityY-PSNR (dB)

    38

    37

    36

    35

    34

    33

    32

    3130

    29

    28

    2726

    25

    0 500 1000 1500 2000 2500 3000 3500

    Tempete CIF 30 Hz

    Bit rate (kbit/s)

    JVT/H.264/AVC

    MPEG-4

    MPEG-2

    H.263

    AVC = Advanced Video Coding

    FIGURA 7 Prestazioni di H.264, H.263, MPEG-4 e MPEG-2 su unasequenza CIF (352x288 pixel) [7].

  • 7/27/2019 Codificacin en fisso mobile

    10/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    106 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005

    Utilizzando la modulazione 8-PSK (Phase-Shift-Keying) e turbo codici, infatti possibile triplicare,a parit di banda, i canali disponibili rispetto alsistema DVB-S, ad oggi in uso, che si appoggia adMPEG-2 [6]. Grazie agli High Profiles, inoltre, unsegnale HD pu essere compresso a circa 8Mbit/s, bit rate che ne cosente lo storage su DVD[6]. Di conseguenza, H.264/AVC ampiamenteadottato da parte degli enti normativi di settore,come si vedr nei capitoli seguenti.

    In termini prestazionali AVC rappresenta lo statodellarte per la codifica video, parallelamente ad

    esso tuttavia si stanno affermando alcune tecnolo-gie di codifica proprietarie, in grado di affermarsi inaltri enti di standardizzazione. La pi nota di talitecnologie, Windows Media Video sviluppata daMicrosoft, descritta nel riquadro La TecnologiaWindows Media Video.

    5. Lo stato dellarte della codifica audio

    Le tecnologie di codifica audio sono oggetto distudio MPEG (parte 3 di MPEG-4 - ISO/IEC14496-3) [9] e gli algoritmi standardizzati costitui-scono un toolbox, comprendente tecnologie varie-gate, denominato Advanced Audio Coding (AAC).Il processo di standardizzazione ha subito unandamento differente rispetto a quello compiutodalle tecnologie di codifica video: durante gli ultimianni, con il consolidamento degli algoritmi e laspecializzazione dei tool in base al differente uti-

    lizzo (codifica di voce, musica, lossless, ...), non si assistito alla definizione di un nuovo standard dicodifica, ma allallargamento del toolset MPEG-4AAC; i nuovi tool si inseriscono in unarchitetturatradizionale, e introducono miglioramenti per parti-colari applicazioni e bitrate. Come conseguenza,pertanto, si assistito alla definizione di nuoviprofili: HE-AAC (High Efficiency Advanced AudioCoding) focalizzato al raggiungimento di un ele-vato fattore di compressione, in grado di permet-tere la distribuzione di parlato e musica su mezzi

    ProfiloApplicazioni

    previste

    Aumento dellacomplessitstimata per ildecodificatore

    Stima preliminaredel miglioramento

    in ef ficienzarispetto a MPEG-2

    BaselineApplicazioni a abassoritardo, videotelefono,

    mobile, ...

    Circa 2,5 voltepi complesso

    circa 1,5 volte

    eXtended Mobile, streaming, ...Circa 3,5 voltepi complesso

    circa 1,75 volte

    MainDistribuzione del

    segnalevideo interlacciato, ...

    Circa 4 voltepi complesso

    circa 2 volte

    TABELLA 2 Prestazioni di H.264/AVC e MPEG-2 [8].

    La tecnologiaWindows Media Video

    Windows Media Video [15] rappre-

    senta la soluzione per la codifica

    video inserita allinterno dellultima

    generazione di tecnologie digitali

    multimediali sviluppate da Microsoft.

    Lo scenario applicativo nel quale

    trova spazio questa tecnologia rap-

    presentato dal la distr ibuzione in

    streaming di flussi audio/video versodevice eterogenei, f issi o mobili.

    Larchitettura stata studiata per

    ottenere alta efficienza computazio-

    nale e bassa complessit mante-

    nendo un elevato fattore di compres-

    sione. La tecnologia di base parte

    integrante del codec Microsoft noto

    come VC-1, di recente proposto per

    la rat if ica come standard presso

    SMPTE (Society of Motion Picture

    and Television Engineer), organismo

    tecnico USA che opera a livello mon-

    diale per l'industria dellimmagine inmovimento.

    Aspetti algoritmiciVC -1 ad ot ta un a rc hi te tt ur a mo lt o

    simile a quella attualmente utilizzata

    da AVC. Rappresenta anchesso un

    codificatore ibrido con stima del moto

    di tipoblock matching, in grado di uti-

    lizzare frame I, Pe B. La trasforma-

    zione spaziale effettuata utilizzando

    la DCT e la codifica entropica si basa

    sugli stessi principi algoritmici di

    quella VLC adottata in tutti gli stan-

    dard MPEG.

    Esistono, tuttavia, alcune differenze

    che non rappresentano modifiche

    sostanziali dellapproccio algoritmico,ma semplici configurazioni dei singolo

    tool:

    la DCT utilizzata in VC-1 appli-

    cata adattativamente su blocchi di

    dimensione variabile: in base al

    contesto pu essere applicata su

    blocchi 4x4, 8x8 o rettangolari

    4x8; la trasformata su blocchi di

    dimensione maggiore pi adatta

    alla compressione di texture ripe-

    titive che coprono ampie zone. I

    blocchi di dimensione minore,

    invece, si applicano sulle zone didettaglio;

    VC-1 include un toolper il ricono-scimento del cambio di illumina-

    zione prima di eseguire la stima

    del moto, in modo da compensare

    gli effetti negativi che esso causa

    sulla stima del moto block mat-

    ching;

    I blocchi su cui VC-1 effettua la

    stima del moto hanno dimensione

    minima 8x8, al contrario dei 4x4

    adottati in AVC e non sono utilz-

    zati frame multipli di riferimento:

    la scelta di escludere tali tool da

    VC-1 stata dettata dal desiderio

    di limitare la complessit compu-tazionale dellencodera scapito di

    una sensibile perdita prestazio-

    nale.

    Profili e prestazioni

    Sono stati predisposti tre profili per

    VC-1: Simple, Main e Advanced, ana-

    logi, come tool e targetal Baseline,

    Main e Extended di AVC. In base ad

    alcuni test effettuati da Tandberg

    Television [16], le prestazioni di VC-1

    risultano paragonabili a quelle otteni-

    bili da AVC bench non siano riportatii dettagli del confronto.

  • 7/27/2019 Codificacin en fisso mobile

    11/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005 107

    trasmissivi a banda limitata (Internet), LC-AAC(Low Complexity Advanced Audio Coding) , abassa complessit e AAC-SSR (Scalable SampleRate Advanced Audio Coding), in grado di fornirescalabilit.

    Lo stato dellarte rappresentato da HE-AAC,

    che ingloba alcuni tool innovativi, che si aggiun-gono al tool setMPEG-4 AAC: SBR (Spectral BandReplication) e PS (Parametric Stereo). Essi sarannodescritti di seguito.

    5.1 Spectral Band Replication

    Un tipico svantaggio introdotto dalla codificaaudio che utilizza trasformate la riduzione dellabanda riprodotta al diminuire del bit rate . SBR sipropone di limitare tale effetto, riproducendo le altefrequenze, grazie ad una loro parametrizzazionecalcolata sulla base delle componenti di bassa fre-quenza: allencoder calcolata una descrizione

    della forma dei toni alti emessi dalla voce umana,inserita come side information nello stream codifi-cato. Il decoder ricostruisce la parte alta dellospettro utilizzando queste informazioni, il modellodi parametrizzazione e la parte bassa dello spettrocodificata in modo tradizionale. Solitamente,linformazione SBR occupa una porzione di bandalimitata, dellordine di 1,5 kbit/s su un contenutocodificato ad esempio a 24 kbit/s.

    Linformazione relativa alla replica dello spettrocostituisce uno stream aggiuntivo che si sovrap-pone ad un codificato tradizionale: in questomodo, scartando i bit relativi ad SBR possibile

    decodificare un contenuto mantenendo la compati-bilit con uno standard precedente ad HE-AAC.Grazie alle sue caratteristiche, SBR raggiunge

    la massima efficienza per la codifica di segnalevocale a basso bitrate.

    5.2 Parametric Stereo

    Analogamente alle alte frequenze, le compo-nenti stereofoniche di un segnale audio sonospesso trascurate per codifiche a basso bit rate,che trattano esclusivamente segnali monofonici.

    Unalternativa a tale limite stata definita inMPEG-4, ed denominata Parametric Stereo (PS):

    si propone di trasmettere una descrizione parame-trica del segnale stereofonico, utilizzando comesupporto una sua versione mono. In questo modo possibile rappresentare una versione stereofo-nica del segnale originale con pochi kbit/s aggiun-tivi rispetto al segnale di partenza. Grazie al PS possibile rappresentare segnali stereo a bit rateinferiori a 16 kbit/s. Questa tecnologia consente lacodifica a basso bitrate di segnali musicali.

    5.3 Profili e livelli

    Come descritto nel paragrafo 4.2, MPEG speci-

    fica differenti modalit di funzionamento degli stan-dard in base al contesto di utilizzo, differenziandole funzionalit garantite e le condizioni di applica-zione. Tale operazione si concretizza nella defini-

    zione diprofi lielivell i. In precedenza sono gi statinominati i profili innovativi: HE-AAC (in due ver-sioni, dette AACPlus-v1 e AACplus-v2 o EnhancedAACplus), LC-AAC, AAC-SBR.

    Essi si aggiungono allinsieme dei profili previ-sto dalla prima versione di MPEG-4 audio:

    1 Speech Audio Profile: studiato per la codificavoce, include CELP;2 Synthetic Audio Profile: per la generazione di

    audio sintetico;3 Scalable Audio Profile: allarga le funzionalit

    dello Speech profile garantendo scalabilit epermettendo la codifica di contenuti musicali;

    4 Main Audio Profile: raggruppa i tool presenti neitre profili precedentemente descritti;

    5 High Quality Audio Profile: per applicazioni ditipo Hi-Fi: include tool di error resilience;

    6 Low Delay Audio Profile: profilo studiato perminimizzare complessit computazionale eritardo di codifica;

    7 Natural Audio Profile: contiene tutti i tool pre-senti in MPEG-4 per la codifica di contenutinaturali;

    8 Mobile Audio Internetworking Profile: com-prende i tool per low delay e scalabilit, ed predisposto per essere integrato con tooldicodifica non inclusi in MPEG;

    9 AAC Profi le: loriginale AAC.La definizione e associazione dei livelli ai diversi

    profili definita in [9].

    5.4 Prestazioni

    Nella figura 8 riportato un confronto fra le pre-stazioni (dati forniti da Coding Technologies) otte-nibili con i diversi codec della famiglia AAC. I testsono stati effettuati utilizzando una modalit di testdenominata MUSHRA4 (MUlti Stimulus test withHidden Reference and Anchors).

    AACPlus v2

    AACPlus v1

    AAC-LC

    40

    30

    20

    10

    0

    -10

    -20

    -30

    -4018 24 32

    MUSHRA scores relative to 7 kHz anchor, stereo

    Bit rate (kbit/s)

    DeltaMUSHRAscore

    48

    AAC = Advanced Audio Coding

    FIGURA 8 Confronto tra la famiglia AAC (fonte: Coding Technologies).

    (4)Il MUSHRA una modalit di test che, sulla base del gradimento di un cam-

    pione variegato di utenti, stima la qualit di un file audio in confronto ad uno

    streamdi riferimento.

  • 7/27/2019 Codificacin en fisso mobile

    12/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    108 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005

    Il codec AACPlus v2 rappresenta unsupersetdiAACPlus v1 come, a sua volta, AACPlus v1 unsupersetdi AAC. AACPlus v1 la combinazione diAAC e SBR (Spectral Band Replication) ed stan-dardizzato come High-Efficiency profile in MPEG-4part 10 (HE AAC). AACPlus v2 costruito su

    AACPlus v1 con laggiunta di tool specifici comeParametric Stereo che permette di raggiungereunalta efficienza di codifica con segnali stereofo-nici, come detto in precedenza. Si noti anche che,nella terminologia 3GPP, il codec AACPlus v2 corri-sponde al codec Enhanced AACPlus, come sardescritto nel seguito.

    In sintesi, i risultati riportati in figura 8 indicanocome il codec AACPlus v2 (Enhanced AACPlus)fornisca una qualit migliore rispetto ad AACPlusv1. Tale guadagno si riduce man mano che il bitrate cresce, fino ad annullarsi per bit rate attorno a48 kbit/s.

    6. Ladozione delle tecnologie di codifica A/V neidiversi contesti

    6.1 Le tecnologie di trasporto dei media

    La definizione di un sistema completo per lafornitura di uno specifico servizio richiede lintegra-zione di numerose tecnologie: enti quali DVB,3GPP o ISMA si occupano di selezionare e profi-lare opportunamente le tecnologie di base, inte-grandole se necessario con tool ad hoc , percostruire profili di servizio nei contesti applicativi di

    loro pertinenza, garantendo cos linteroperabilittra sistemi.Come gi illustrato, ITU ed MPEG forniscono i

    bacini tecnologici cui attingere per gli standard dicodifica audio e video. A questi occorre aggiun-gere diversi altri contributi, i pi evidenti dei qualisono legati al trasporto ed allo storage dei dati. Inquesti settori gli enti di normativa di riferimentosono IETF (Internet Engineering Task Force) edancora MPEG.

    Relativamente alle tecnologie di trasporto,MPEG ha definito un tool estremamente impor-tante, lMPEG-2 Transport Stream, per il mult i-plexing dei flussi audio e video nonch di tutta una

    serie di informazioni aggiuntive essenziali per ilservizio televisivo, quali ad esempio le informa-zioni sui palinsesti e soprattutto quelle relative aisistemi di protezione (c i fratura) . LMPEG-2Transport Stream permette di multiplare alcunemigliaia di flussi distinti, utilizzando pacchetti dilunghezza fissa che sono assegnati alluno o aallaltro flusso. Oltre ai segnali audio e video ven-gono multiplati flussi contenenti specifiche tabelle(ad esempio per rappresentare linsieme dei pro-grammi disponibili nel multiplex) ed altri per il tra-sporto generico di dat i , t ipicamente inviat isecondo un meccanismo di carousel(un p come

    il televideo).IETF costituisce invece il riferimento per tutte leapplicazioni relative al mondo IP. In questo caso ilprotocol stack di riferimento per i flussi audio e

    video RTP/UDP/IP: lIP (Internet Protocol) ilsubstrato comune a qualunque tipologia di trafficosu rete IP, lUDP (User Datagram Protocol) unprotocollo che permette la trasmissione (passibiledi fallimento in quanto privo di meccanismo diritrasmissione) di pacchetti di lunghezza stabilita

    dal livello superiore, lRTP (Real Time Protocol)permette di associare alcune metainformazioni alpayload del pacchetto (sequence number, timestamp, ) in modo da rendere possibile al ricevi-tore la corretta identificazione di dati mancanti e lariproduzione sincronizzata. Associato ad RTP si haanche un canale di controllo bidirezionale RTCP(Real Time Control Protocol) tramite cui trasmetti-tore e ricevitore si scambiano informazioni statisti-che che, ad esempio, in uno scenario conversa-zionale, possono essere sfruttate dal terminale tra-smettitore per modificare i propri parametri dicodifica adattandoli in tempo reale alle fluttuazioninella capacit del canale trasmissivo. Il pay load

    trasportato da RTP definito dallo specifico RTPPayload Format associato al particolare mediaaudio o video: le regole definite dai diversipayloadformatindirizzano tipicamente il requisito di ridurreleffetto degli errori di trasmissione. Per esempiostabilendo regole su come spezzare in pi pac-chetti frame video particolarmente grandi, o sucome effettuare interleaving tra frame audio.

    IETF specifica anche alcuni protocolli di segna-lazione largamente adottati: RTSP (Real TimeStreaming Protocol) dedicato allo scenario retrie-val, e rende disponibili le funzionalit di un normaleriproduttore (paus e, res ume, seek ing, ); SIP

    (Session Initiation Protocol) invece rivolto agliscenari conversazionali. Entrambi i protocolli utiliz-zano infine una sintassi comune per rappresentarei media coinvolti nella negoziazione della sessione:SDP (Session Description Protocol), sempre speci-ficato da IETF.

    MPEG ha coperto infine il settore del file for-mat per i contenuti multimedia, sia per le specifi-che pi moderne (lISO File Format, derivato daQuickTime, parte del progetto MPEG-4) sia perquelle precedenti, dallo storage di MPEG-1 (cheha originato i video CD, grande successo neiPaesi asiatici, pressoch sconosciuti da noi) alProgram Stream di MPEG-2 usato nei ben pi

    noti DVD.

    6.2 Il mondo televisivo: DVB

    Il Digital Video Broadcasting (DVB) Project unconsorzio di broadcaster, manifatturiere, operatoridi telecomunicazione, enti regolatori, nato neiprimi anni Novanta per iniziativa dellEuropeanLaunching Group (ELG), con lobiettivo iniziale diintrodurre la TV digita le in Europa.Successivamente il progetto ha allargato i propriorizzonti sia geograficamente, superando il limitedellambito europeo, che tecnologicamente, occu-

    pandosi anche di TV interattiva e mobile. Oggi ilprogetto DVB conta 270 membri provenenti da 35Paesi le cui specifiche sono adottate in tutto ilmondo.

  • 7/27/2019 Codificacin en fisso mobile

    13/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Di cembre 2005 109

    Una fondamentale decisione del progetto DVBfu la selezione dello standard MPEG-2 per lacompressione ed il mult iplexing dei segnali audioe video; questa specifica forma la base comunesu cui si basano le ulteriori normative definite daDVB: da un lato le tecniche di modulazione del

    segnale sui link dedicati del satellite (DVB-S), delcavo (DVB-C), e pi recentemente delle onderadio terrestri (DVB-T), e dallaltro le informazioniaccessorie che devono essere trasportate percompletare il servizio offerto (ad esempio i palin-sesti).

    Il profilo MPEG-2 selezionato da DVB per la TVdigitale a definizione standard (DTV) il MainProfile @ Main Levelper il video, e il Layer I e LayerII per laudio (non il Layer III, meglio noto comeMP3). Successivamente sono stati integrati in DVBaltri profili, che coprono esigenze diverse come lacontribuzione o la trasmissione in formati ad altadefinizione (HDTV).

    Le recenti specifiche DVB-H, dedicate aglihandheld devices (dispositivi mobili), definisconoun settore completamente nuovo di dispositivi ingrado di ricevere segnali audiovisivi digitali tra-smessi in modalit broadcast su canale terrestre;pertanto in questo caso stato possibile intro-durre lutilizzo di codec pimoderni rispetto allMPEG-2, in particolare AVC/H.264per i l v ideo (con VC-1opzionale) ed HE-AAC v2per laudio (con AMR WB+opzionale).

    La tabe lla 3 r ipo r ta leprincipali caratteristiche deicodec considerati da DVB.

    6.3 Il mondo del mobile: 3GPP

    Dal 1998, gli enti di stan-dardizzazione hanno decisodi cooperare per la produ-zione di un set completo dispecifiche tecniche relativealle reti mobili di terza gene-razione. In part icolare,3GPP regola gli aspetti rela-

    tivi alla distribuzione di con-tenuti video su terminali 3Gper applicazioni di strea-mi ng, videoconferencing,VoD (Video on Demand).

    Uno degli aspetti cruciali per assicurare unaltaQoS allutente di un servizio mobile luso diadeguati codec audio-video e meccanismi di pro-tezione dagli errori di canali. Se poi si considerache in ambito mobile, accanto ai servizi di tipopunto-punto, si potranno sviluppare anche servizidi tipo punto-multipunto (broadcast/multicast)dove non possibile utilizzare tutte le usuali tec-

    niche a l ivello radio per mitigare gli errori dicanale, limportanza di codec di sorgente ade-guati e relativi meccanismi di protezione risultaancora pi evidente.

    In ambito 3GPP questa problematica stataaffrontata in due modalit differenti: facendo riferi-mento a codec sviluppati da altri organismi interna-zionali (come ITU-T o ISO) utilizzando opportuniprofili oppure sviluppando delle tecnologie di com-pressione specifiche per le esigenze del mondo

    wireless. Storicamente stata seguita maggior-mente la prima strada per la codifica video mentre stata seguita maggiormente la seconda per lacodifica audio.

    Per questo motivo, mentre per i codec video cisi potr imbattere, a seconda del particolare servi-zio mobile, in H.264/AVC Baseline Profile, ISOMPEG-4 Visual Simple Profile o ITU-T H.263 Profile0, per i codec audio, accanto ad alcuni profili delcodec ISO/MPEG4 AAC, sono stati definiti duecodec di ultima generazione: Enhanced aacPlus; Extended AMR (Adaptive Multi-Rate) Wideband.

    Enhanced aacPlus (paragrafo 5) un codec di

    derivazione MPEG, mentre Extended AMRWideband stato completamente sviluppato per il3GPP e si basa sulla tecnologia AMR che ha fattola sua prima apparizione nel mondo GSM comecodec AMR Narrowband, usato solamente persegnale vocale. Scopo del sistema AMR quello di

    variare dinamicamente lallocazione di bit rate trasource codec e channel codec cercando di fornirela migliore qualit possibile in funzione di unastima della qualit del canale. Il sistema AMR quindi costituito da un set di speech codec modecio di bit rate con la possibilit di switching tra idiversi modi in funzione delle condizioni di propa-gazione.

    Poich la tecnologia non ancora matura per un

    codec audio universale, cio in grado di esserevantaggiosamente usato per ogni tipologia dibanda e contenuto, il 3GPP ha standardizzato unoo pi codec audio per ogni tipologia di servizio.

    Scenario

    Standard Definition TV

    High Definition TV

    DVB-H

    Audio codec

    ISO/IEC 11172-3 (MPEG-1 Audio):- Layer I o II- bitrate

  • 7/27/2019 Codificacin en fisso mobile

    14/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    110 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

    La tabella 4 mostra tale allocazione per iservizi wireless a pacchetto nella Release6 del 3GPP.

    Per aiutare loperatore mobile nel nonsempre facile compito di scegliere uncodec adatto al servizio che intende

    offrire, le specifiche tecniche 3GPP met-tono a disposizione delle linee guida perstabilire quale codec usare in funzionedelle caratteristiche del servizio offerto(tipologia di contenuti, banda disponibile,modalit di delivery, ...). A titolo di esem-pio, le linee guida fornite per servizi wire-less 3G relativamente ai codificatori audioEnhanced aacPlus ed Extended AMRWideband, possono essere sintetizzatecome segue: Extended AMR Widebandoffre prestazioni migl ior i a velocitmedio-basse (inferiori a 24 kbit/s) e concontenuti solo vocali o intervallati con

    musica; Enhanced aacPlus, invece, offreprestazioni migliori a velocit tendenzial-mente pi alte e con contenuti prevalen-temente musicali.

    6.4 Il mondo wireline: ISMA

    LInternet Streaming Media Alliance (ISMA) unente no profit nato originariamente (fine del 2000)allo scopo di fornire un riferimento per i servizi distreaming su IP. Era il periodo in cui si stava affer-mando la codifica MPEG-4 Video, e con essa glioggi popolarissimi DIVX, e si riteneva incombente

    una domanda del mercato per affiancare alla frui-zione locale dei DIVX anche una fruizione instreaming. Le soluzioni di streaming pi popolariallepoca (ma il quadro, bisogna dire, non si granch modificato) eranoquelle proprietarie di RealNetworks e di Microsoft.

    Lo sforzo di ISMA eradunque r ivolto pr incipal-mente a contrastare questostatus quo, promuovendoluso di tecnologie standard,aperte ed interoperabili.

    Nel la pr ima specif ica

    (ISMA1.0 di fine 2000) sonostat i selezionat i i l codecvideo MPEG-4 nonch i lcodec audio AAC (che a suavolta ha iniziato a diffondersinei DIVX come alternativa adMP3), sostanzialmentequello che rappresentava lostato dellarte per gli stan-dard di codif ica audio evideo: i due profili definitimiravano luno ad una qua-lit entry level, a basso

    bitrate, laltro a servizi diqualit superiore per bandefino a 1,5 Mbit/s

    A l ivello trasporto si sono

    adottate le specifiche IETF del settore, ovveroRTSP ed SDP per la segnalazione, RTP ed iPayload formatappropriati per il trasporto.

    Nella specifica successiva (ISMA2.0, finalizzatadi recente) larchitettura non cambia, ma si defini-scono profili aggiuntivi e si selezionano i nuovicodec video H.264 ed audio AAC-HE, puntando

    sui servizi audiovisivi ad alta qualit, con bit ratefino a 15 Mbit/s. La tabella 5 riassume le caratteri-stiche essenziali dei diversi profili definiti da ISMA.

    Tipologia di servizio Codec audio (3GPP Release 6)

    Packet switched conversational

    MMS(Multimedia Messaging Service)

    PSS(Packet switched Streaming Service)

    MBMS(Multimedia Broadcast/Multicast Service)

    - AMR Narrowband (mandatory)- AMR Wideband

    - AMR Narrowband

    - AMR Wideband- Enhanced aacPlus- Extended AMR Wideband- MPEG-4 AAC Low Complexity- MPEG-4 AAC Long Term Prediction

    - AMR Narrowband- AMR Wideband- Enhanced aacPlus- Extended AMR Wideband- MPEG-4 AAC Low Complexity- MPEG-4 AAC Long Term Prediction

    - AMR Narrowband- AMR Wideband- Enhanced aacPlus- Extended AMR Wideband

    AACAMR

    ==

    Advanced Audio CodingAdaptive Multi Rate

    TABELLA 4 I codec adottati in 3GPP.

    Profile

    Profile 0 (ISMA1.0):

    Profile 1 (ISMA1.0):- bitrate

  • 7/27/2019 Codificacin en fisso mobile

    15/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - D icembre 2005 111

    7. Tecnologie emergenti

    Le tecnologie analizzate sino ad ora permettonodi migliorare il rapporto di compressione ottenibile,ottimizzando la struttura tradizionale dei codifica-tori. Attualmente, per, gli enti di standardizzazione

    di riferimento hanno intrapreso alcuni studi prelimi-nari, con lobiettivo di introdurre nuove funzionalit,che estendono il contesto applicativo e permette-ranno di realizzare servizi innovativi. Grazie alladisponibilit crescente di banda e di capacit dimemorizzazione e con lavvento di nuove tecnolo-gie di trasporto (ad esempio le reti 4G) si delineauno scenario in cui i codec audio e video sonochiamati a soddisfare nuovi e pi sfidanti requisitiapplicativi, tra questi citiamo: Appl icaz ion i in scenar i di convergenza

    fisso/mobile; Adattamento alle caratteristiche trasmissive di

    reti a capacit variabile e mezzi sensibili a

    mutazioni del contesto ambientale; Supporto HD (High Definition) e SHD (Super

    High Definition) , sino a giungere a qualit cine-matografica;

    Eliminazione di storage multipli di contenuticodificati a differenti qualit, privilegiando unparadigma di distribuzione in grado di estrapo-lare la qualit desiderata da un flusso codificatounico.In questo paragrafo analizziamo alcune di tali

    sperimentazioni, attualmente in fase di studio inMPEG: codifica lossless , codifica scalabile, 3DAV(3D Audio Video), distributed coding, per quanto

    riguarda la codifica video, MPEG Surrounde audiosintetico per la codifica audio.

    7.1 La codifica lossless

    Grazie al contesto evolutivo descritto preceden-temente, la codifica senza perdite sta suscitandointeresse in ambito MPEG; sono infatti stati pro-dotti due standard (Amendment di MPEG-4 Audio[8]) relativi allaudio:ALS (Audio Lossless Coding) eSLS (Scalable Lossless Coding). Essi utilizzano itool compresi in MPEG-4 audio, appositamenteottimizzati per la compressione senza perdite; sidifferenziano in base alle loro prospettive di uti-

    lizzo: SLS fornisce scalabilit, e pu essere quindiutilizzato per i servizi che erogano qualit differenti.ALS, al contrario, stato studiato appositamenteper applicazioni musicali ad altissima definizione.Nel caso video la compressione lossless suppor-tata dagli High Profiles di H.264/AVC. In base aitest riportati in [10], grazie ad MPEG-4 ALS, pos-sibile codificare senza perdite un segnale audiocon un rapporto di compressione che varia in basealla sequenza ed alla frequenza di campionamento:il codificato presenta dimensioni che variano da2/3 sino ad 1/5 delloriginale.

    7.2 La codifica scalabile

    Nel corso degli ultimi anni, il contesto applica-tivo relativo alla distribuzione di contenuti video

    digitali si rapidamente evoluto e si assistito allaproliferazione di terminali eterogenei (telefonimobili, PC, palmari, ), che sfruttano apparati direte con different i capacit di banda e QoS(Wireless, LAN, ). Ciascun utente accede aglistessi server di distribuzione per fruire dei mede-

    simi contenuti, erogati a differenti qualit. Lo sce-nario di riferimento pertanto tende alladozione ditecniche di codifica in grado di fornire contenutiintrinsecamente in grado di adattarsi alle caratteri-stiche dellapparato di fruizione, richiedendo lamemorizzazione sui server di una sola versione delcontenuto codificato (anzich di pi versioni a dif-ferenti bi t rate , come accade comunemente).Queste soluzioni consentiranno ottimizzazioni sul-lintera filiera di distribuzione riducendo le proble-matiche di transcodifica e pi in generale di con-tent repurposing, sia in contesti offline che realtime.

    Questo il concetto di codifica video scalabile

    (SVC), oggetto di studio in ambito MPEG [11].Dopo alcuni tentativi, inseriti in standard prece-denti, in fase di sviluppo il primo standard dicodifica video appositamente studiato per fornirescalabilit: diverr un Amendment di MPEG-4 parte10, AVC, e sar pubblicato a luglio 2006. Lo stan-dard SVC si appoggia sullo stato dellarte per lacodifica non scalabile, ovvero il gi descritto AVC;prevede la suddivisione dellinformazione in unaserie di livelli qualitativi: si parte da un livello base(base layer), conforme ad AVC non scalabile (permantenere la compatibilit con terminali che utiliz-zano decoder AVC non scalabili), e ad esso si

    aggiungono una serie di enhancement layer (figura9), che contengono le informazioni necessarie adaumentare la qualit del video fruito. Un flussovideo scalabile permette lestrazione di un sub-stream contenente i l base layer e qualunquenumero di enhancement layer, sino alla qualitrichiesta.

    Un decoderpu ricevere e decodificare linfor-mazione contenuta nel base layer, per ottenerevideo a bassa risoluzione, oppure utilizzare alcunidei livelli aggiuntivi5, che permettono di fruire diuna migliore qualit. La qualit di decodifica puessere imposta da una serie di vincoli o dal conte-sto applicativo: le capacit di banda e del termi-

    nale, la QoS assegnata, la rumorosit del mezzo didistribuzione.

    Esistono differenti tipologie di scalabilit sup-portate: Scalabilit spaziale: il codificatore deve essere

    in grado di erogare contenuti video a diverserisoluzioni;

    Scalabil it temporale: i l codificatore deveessere in grado di erogare contenuti video aframe rate differenti;

    Scalabilit qualitativa: il codificatore deve essere

    (5)

    I livelli sono normalmente indicati con numeri crescenti, dal base layersinoal livello di qualit maggiore. Un livello definito superiore, pertanto, in

    grado di fornire un video a qualit e bit ratesuperiori rispetto al livello a cui

    esso comparato.

  • 7/27/2019 Codificacin en fisso mobile

    16/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    112 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

    in grado di erogare video abit rate differenti; Scalabilit di complessit: i differenti layer

    aggiungono complessit, in fase di decodifica; ildecodificatore, pertanto, pu scegliere il livelloper fornire la massima qualit in proporzionealle proprie capacit.

    Questi concetti di scalabilit non devono essereinterpretati in modo alternativo: un codificatoredeve essere in grado di scalare un contenuto videoin tutte le modalit previste contemporaneamente.Lobiettivo dei codificatori descritti quello di for-nire Fine Grained Scalability, ovvero di rendere ilflusso codificato scalabile con granularit fine.

    I livelli di enhancement sono generati a partiredal residuo ottenuto sottraendo il segnale rico-struito ai livelli inferiori a quello originale e riappli-cando ad esso la sequenza di operazioni necessa-ria per la codifica (trasformata, quantizzazione,codifica entropica): la stima del moto raffinataper ogni livello di risoluzione spaziale considerato.

    In aggiunta a questo, applicata unoperazione,denominata MCTF (Motion Compensated TemporalFiltering), che prevede un fi ltraggio specifico(wavelet) nella direzione temporale, per incremen-tare le prestazioni del codificatore in presenza discalabilit temporale. Grazie ad MCTF si effettua,infatti, una media su differenti fotogrammi che, incaso di scalamento temporale, permette ugual-mente di conservare la componente predominantedel movimento avvenuto.

    Attualmente si sta affermando un nuovo algo-ritmo di codifica video scalabile, che affianca ilnascente standard ma si differenzia in modo

    sostanziale in quanto adotta nativamente le wave-let[12].Come si visto in precedenza la trasformata

    DCT bidimensionale utilizzata in codifica video

    opera su blocchi di cam-pioni (solitamente 8x8, o4x4) che trasforma in uninsieme di componenti difrequenza. La trasformatawaveletopera con lo stesso

    fine, ma agisce sullinteraimmagine, senza scomposi-zioni in blocchetti. La tra-sformazione wavelet consi-ste in un filtraggio su duedimensioni che isola le com-ponenti di bassa frequenza(creando una rappresenta-zione grezza dellimma-gine contenente la medialocale dei campioni originali,in alto a sinistra nel foto-gramma trasformato difigura 10) dalle componenti

    di alta frequenza, che rap-presentano i dettagl i deicontorni, r ispettivamenteper componenti orizzontali,verticali e diagonali. pos-sibile iterare il procedimentodi scomposiz ione, come

    mostrato in figura, creando una piramide multi-risoluzione che rappresenta componenti di fre-quenze crescenti, spostandosi in basso a destra. Alivello prestazionale, la compressione wavelet ingrado di superare quella ottenuta dalla DCT. Pertale motivo, stata scelta come algoritmo alla

    base di JPEG2000, il nuovo standard di compres-sione di immagini fisse, successivo al noto JPEG.Le tecniche di codifica video wavelet possono

    essere applicate al campo della codifica scalabile:lapplicabilit della trasformata alle immagini nellaloro interezza, si presta naturalmente a fornire sca-labilit con granularit fine, in quanto pu essereassociata a particolari codifiche entropiche dette abit plane , in grado di creare uno stream di bit chepu essere troncato in posizione arbitraria, elimi-nando i bit meno significativi di tutti i campioni pre-senti nellimmagine. Questa caratteristica permettedi superare i limiti architetturali dello standard SVC,che vincolato ad un numero limitato di livelli di

    scalabilit; in futuro, pertanto, i codificatori waveletpotranno essere utilizzati in contesti applicativi chenecessitano di molteplici livelli di scalabilit: adesempio, streaming su reti a prestazioni/capacitvariabile (per esempio nelle WiFi).

    Attualmente le prestazioni dello standard SVCrisultano superiori a quelle dei codificatori wavelet,grazie allutilizzo di algoritmi maturi e consolidati:le wavelet, tuttavia, si propongono come una solu-zione promettente per il futuro.

    La problematica del video scalabile non si esau-risce allinterno della codifica video stessa, maimpatta anche sulle tecniche di trasporto e segna-

    lazione/negoziazione delle capabilities. indubbioche per beneficiare appieno della scalabil itoccorra garantire al meglio il trasporto del livellobase, con eventualmente tolleranze via via pi

    Base Layer

    Enh. Layer 1

    Enh. Layer 2

    Enhancement Layer 3

    Enhancement Layer 4

    Encoder

    Base Layer

    Enh. Layer 1

    Enh. Layer 2

    Base Layer

    Base Layer

    Enh. Layer 1

    Enh. Layer 2

    Enhancement Layer 3

    Enhancement Layer 4

    FIGURA 9 Inserimento di un codificatore video scalabile in uno scenario di distribuzione su reti e terminali

    eterogenei.

  • 7/27/2019 Codificacin en fisso mobile

    17/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - D icembre 2005 113

    ampie nei confronti dei livelli superiori, senza peral-tro discriminare i diversi flussi in termini di ritardo.Si tratta di una problematica similare a quella giattuale (in scenari di comunicazione) riguardo ladiscriminazione in termini di QoS tra trasmissioneaudio e video, ove la QoS per laudio deve privile-

    giare il basso ritardo mentre quella per il video ilbasso tasso di errore.Se dunque i diversi livelli del video devono

    poter essere gestiti con QoS diverse, e quindiessere trasportati separatamente, a livello dei pro-tocolli di segnalazione occorre rappresentare ledipendenze e correlazioni tra i vari flussi: non sitratta di problemi particolarmente complessi, senon per la verbosit delle soluzioni.

    Lutilizzo del video scalabile permette di sempli-ficare significativamente le architetture di rete pre-poste alla fornitura di servizi verso terminali etero-genei, perlomeno in teoria, giacch nella pratica leproblematiche di legacy possono vanificare in

    parte i vantaggi dellintroduzione di questa tecnica.La rete di contribuzione potrebbe infatti produrre ilvideo con la massima qualit, ma suddiviso neidiversi layer, e tali layer potrebbero essere distri-buiti (tutti o solo alcuni) fino ai diversi terminali,senza dover ricorrere a funzionalit di transcodingo transrating in rete.

    7.3 3DAV :Il video in tre dimensioni

    Con laumento prestazionale degli standard dicodifica e la maggiore disponibilit di banda sullereti di nuova generazione, diventa possibile utiliz-zare molteplici sorgenti audio e video per realizzare

    servizi innovativi. Unattivit MPEG denominata3DAV (3D audio/video) si sta occupando di taliargomenti, relativamente alla codifica video: lo-biettivo quello di permettere la sintesi di punti divista arbitari (viste virtuali) in riprese ottenute conpi telecamere posizionate in punti differenti.Appl ic az ioni di questo tipo permet te ra nno, adesempio, allutente di scegliere il punto di vistadurante la visione di un filmato televisivo, consen-tendo una nuova user experience denominata FreeViewpoint Television.

    Il lavoro del gruppo 3DAV giunto alla fase pre-liminare, relativa alla standardizzazione di algoritmiper la codifica di flussi multipli. Successivamente,

    sar indetta la Call for Proposals in merito aglialgoritmi di sintesi di punti di vista intermedi.

    7.4 Distributed coding

    Le architetture di codifica video digitale sonostate storicamente guidate dal modello downlink

    Dettagli orizzontali

    Dettagli verticali Dettagli diagonali

    FIGURA 10 Scomposizione su due livelli.

  • 7/27/2019 Codificacin en fisso mobile

    18/20

    CORDARA DROGO DE IACOVO FRANCESCHINI QUAGLIA Tecnologie di codifica audio e video in ambiente fisso e mobile

    114 NOTIZIARIO TECNICO TELECOM ITALIA Anno 14 n. 2 - Dicembre 2005

    che caratterizza i servizi broadcast: il tipico para-digma architetturale prevede un encodercomplessoed una moltitudine di decoder dalle capacit limi-tate. Tuttavia la situazione sta mutando per il prolife-rare di terminali video che dispongono di potenza dicalcolo ridotta, come le fotocamere digitali, le reti di

    sensori video a bassa potenza, le webcam ed i cel-lulari con equipaggiamenti multimediali: lo scenarioevolve verso la trasmissione su reti rumorose abanda limitata di molteplici flussi in ingresso, speditiverso centri di calcolo o ricevitori di analogapotenza. Questa nuova generazione di applicazioniuplink, presenta requisiti nuovi e sfidanti: encodera bassa potenza computazionale; alto fattore di compressione; robustezza trasmissiva.

    La tecnologia DSC (Distributed Source Coding) stata ideata per rispondere alle esigenze sopracitate: in grado di facilitare, infatti, la codificacongiunta di pi sorgenti video correlate6 [13]: la

    conoscenza della correlazione statistica tra i flussicodificati (inviata come side infomation) pu esseresfruttata in fase di decodifica; in particolare, unflusso video pu essere codificato in modo tradi-zionale, con qualunque tecnica, mentre il secondopu avvalersi della somiglianza rispetto al primoper raggiungere diversi obiettivi:1 Light encoding: la complessit dellencoderpu

    essere significativamente ridotta, eliminando lafase di stima del moto, generalmente la pidispendiosa in termini computazionali. Inviandola correlazione statistica di ogni singolo bloccocon il suo corrispondente relativo alla sorgente

    video adiacente, il codificatore esegue esclusi-vamente le operazioni di trasformazione, quan-tizzazione (guidata dalla side in format ion) ecodifica entropica, generalmente a bassa com-plessit. Un overhead imposto al decodifica-tore, che esegue una ricerca analoga alla stimadel moto per individuare il blocco appartenenteal video adiacente che presenta correlazionestatistica uguale, o pi vicina possibile, a quellainviata come side information; in questa acce-zione, il Distributed Coding trova applicazionein contesti di reti di sensori a bassa comples-sit, o in scenari che presentano nodi intermedidi alta capacit, e necessitano di bassa com-

    plessit sia in codifica che in decodifica;2 Robustezza trasmissiva: grazie ad una quantit

    molto limitata diside information (i dettagli sullecorrelazioni statistiche) possibile fornire unal-ternativa per la stima di moto nel caso di per-dita di pacchetti: in tal modo possibile limitaleil fenomeno di drift che incorre quando sonopersi i pacchetti contenenti i vettori di moto;

    3 Compressione di flussi multicamera, con predi-zione del comportamento di alcune camere a par-tire dalla loro correlazione con sorgenti adiacenti.

    Le prime promettenti applicazioni di tale tecno-logia si riscontrano nellambito della protezionedagli errori trasmessivi, i primi risultati sperimentalipresentati in figura 11 illustrano il miglioramentoprestazionale (rapporto segnale/rumore rispetto iltasso di errore nel flusso di dati) in caso di utilizzodi un canale di protezione in aggiunta al tradizio-nale FEC (Forward Error Correction).

    Bench si registrino i primi positivi risultati, vanotato che al momento le applicazioni di codificadistribuita movono i primi passi, saranno necessarisignificativi miglioramenti tecnologici perch pos-

    sano trovare applicazione in campo.

    7.5 Levoluzione dellaudio

    La codifica audio a bassobit rate trova applica-zione in molteplici scenari applicativi multimediali,monofonici e stereofonici. Da molto tempo, ilmondo della codifica ha riconosciuto limportanzadi una codifica efficiente di segnali stereo: sonopertanto note, ed inserite negli standard descritti inprecedenza, tecniche di joint stereo coding , chesfruttano le caratteristiche del segnale stereofonicoper massimizzare i l fattore di compressione.Recentemente, tuttavia, le nuove capacit dei

    dispositivi permettono di utilizzare pi di duesegnali audio: , pertanto, possibile ricercare ser-vizi innovativi che aumentino la qualit dellespe-rienza dellutente, e sfruttino la disposizione spa-ziale di molteplici sorgenti audio per fornire sensa-zioni immersive: il caso di applicazioni diaudiosurround, come ad esempio lhome theatre.

    nato, pertanto, un apposito gruppo di lavoro,allintermo di MPEG, che studia rappresentazioniefficienti di segnali audio provenienti da Nsorgentidistinte (tipicamente 5+1). Lo standard sar deno-minato MPEG Surround[14].

    Lalgoritmo in fase di studio prevede laggiunta

    di un overhead, tipicamente molto ridotto (minoredi 5 Kbit/s), che costituisce side informationrispetto al segnale stereo e riesce a descrivere effi-cacemente le componenti aggiuntive in funzione

    Football (352x240, 15 fps, 900 kbit/s)

    Errore (%)

    PSN

    R(

    dB)

    FEC only

    DSC data + FEC

    H.263+

    28

    2 4 6 8 10

    26

    24

    22

    20

    18

    DSCFEC

    ==

    Distributed Source CodingForward Error Correction

    FIGURA 11 Prestazioni del Distributed Coding, utilizzato come canale di

    protezione in aggiunta al FEC su un flusso codificato H.263+.

    (6)

    Con il termine Correlazionesi intende la sua accezione statistica: due varia-bili casuali (in questo caso due segnali) si dicono correlate se a ciascun

    valore della prima variabile corrisponde con una certa regolarit un valore

    della s