Formati multimediali e metadati: Immagini - Intranet...

Applicazioni di informatica

Formati multimediali e metadati:

Immagini

Marco Tagliasacchi

Formati multimediali e metadati

Sommario

� Immagini• Rappresentazione digitale• Compressione di immagini• Formati• Metadati

2


� Video• Rappresentazione digitale• Compressione di dati video• Formati video

Immagini digitali

Immagini raster e vettoriali

� In generale le immagini sono un ‘continuo’ di informazioni (formato ‘analogico’)

� Bisogna quindi prima ‘discretizzarle’ ovvero trasformarle in un insieme di parti distinte che possono essere codificate separatamente come numeri (formato ‘digitale’)


(formato ‘digitale’)

� Tipologia:• Immagini scalari o raster• Immagini vettoriali

Immagini digitali


• Immagini scalari o raster,

– Fotografie

– Scansioni

– Immagini biomediche (raggi-X, risonanza magnetica, ecc.)

– ...


Immagini digitali


� Tipologia:• Immagini vettoriali,

– Disegno geometrico (CAD)

– Illustrazioni

– Loghi


Immagini digitali


rastervettoriale


Immagini digitali

Rappresentazione di immagini digitali

� Il calcolatore non può direttamente rappresentare in memoria informazione in formato analogico

� L’acquisizione digitale di una immagine raster prevede di eseguire due operazioni:


• Campionamento: scomposizione dell’immagine in un reticolo di punti (pixel, picture element)

• Quantizzazione: codifica di ogni pixel con un valore numerico all’interno di un ben peciso intervallo

Immagini digitali


� Per rappresentare il disco

� Lo si sovrappone ad una griglia


� Si identificano i quadratini (in blu) che campionano (o discretizzano) il disco

� Ogni quadratino prende il nome di pixel (o picture element)

Immagini digitali


� Chiamiamo risoluzione dell’immagine la dimensione della griglia usata per il campionamento dell’immagine• Esempio: 640x480

� Aumentando la risoluzione (ovvero il numero di pixel) e quindi diminuendo la dimensione del singolo pixel, la rappresentazione approssima meglio l’immagine


rappresentazione approssima meglio l’immagine originaria

Immagini digitali


� Esempio:


Immagini digitali


� La risoluzione è spesso il parametro di riferimento usato nel mercato delle fotocamere digitali (anche se non sempre è il fattore determinante per la qualità dell’immagine prodotta)

� Spesso espresso in Megapixel (= 1 milione di pixel)


Immagini digitali


� Dopo aver campionato l’immagine occorre rappresentare ogni pixel con un numero

� Tale numero dovrà rappresentare il colore associato al pixel, usando un certo range: si parla di quantizzazione


� La rappresentazione ottenuta è nota come codifica bitmap

� Nel caso di immagini in bianco e nero senza sfumature sono sufficienti due soli bit per ogni pixel:• 0 per rappresentare i pixel più bianchi• 1 per rappresentare i pixel più neri

Immagini digitali


� Nel caso di immagini in bianco e nero senza sfumature è sufficiente un solo bit per ogni pixel:

� Il valore del pixel è pari a • 1 per rappresentare i pixel bianchi• 0 per rappresentare i pixel neri


0 0 0 0 0

0 1 0 0 0

0 1 0 0 0

0 1 0 0 0

0 1 1 1 0

0 0 0 0 0

Immagini digitali


� Nel caso di immagini in scala di grigio si utilizzano bbit per ogni pixel

� Il numero b determina il numero di livelli di grigio che è possibile rappresentare


#livelli di grigio = 2b

Immagini digitali


� Esempio: b = 2, è possibile rappresentare 4 livelli di grigio

00 � 0 (nero)

01 � 1 (grigio scuro)

10 � 2 (grigio chiaro)

11 � 3 (bianco)


11 � 3 (bianco)

0 0 0 0 0

0 1 0 0 0

0 2 0 0 0

0 2 0 0 0

0 3 3 3 0

0 0 0 0 0

00 00 00 00 00

00 01 00 00 00

00 10 00 00 00

00 10 00 00 00

00 11 11 11 00

00 00 00 00 00

Rappresentazione binaria Rappresentazione decimale

Immagini digitali


4 bpp 3 bpp


2 bpp 1 bpp

Immagini digitali


� Tipicamente, per immagini in scala di grigio, è sufficiente utilizzare b = 8 bit per pixel

� In questo modo è possibile rappresentare fino a 256 livelli di grigio


� Questa scelta è determinata dall’analisi del sistema visivo umano, che non è difficilemente in grado di distinguere un numero maggiore di livelli di grigio

� In applicazioni biomediche e/o professionali, è comune utilizzare un numero maggiore di bit per pixel (ad es. 10-12 bit per pixel)

Immagini digitali


� Tipicamente, per immagini a colori, vengono utilizzati b = 24 bit per pixel

� In questo modo è possibile rappresentare fino a

224 = 16777216 colori distinti


� Esistono diversi modi di rappresentare una immagine a colori (detti anche colorspace o spazi colore)

Immagini digitali


� Lo spazio colore più comunemente utilizzato per l’acquisizione e la visualizzazione delle immagini è

RGB = Red, Green, Blue

� Per ciascun pixel vengono utilizzati 24 bit

• 8 bit (1 byte) per il rosso [0-255]


• 8 bit (1 byte) per il rosso [0-255]• 8 bit (1 byte) per il verde [0-255]• 8 bit (1 byte) per il blu [0-255]

Immagini digitali



RedGreen Blue

Immagini digitali


� L’acquisizione di immagini a colori utilizza una griglia di filtri (Bayer filter)

� Ciascun pixel registra l’intensità luminosa di una sola componente (rosso, verde o blu)


� Per i pixel “rossi”, viene calcolata l’intensità della componente blu e verde sulla base dei pixel vicini (e viceversa)

Immagini digitali


� Esempio: fotocamera a 12.2 Mpixel

• 4272 x 2848 = 12166656 pixel

• 3 byte / pixel x 12.2 Mpixel = 36.6 Mbyte

� Questa è la dimensione del file che


si ottiene scattando in modalità raw

Compressione di immagini

Tecniche di compressione di immagini

� In fase di codifica esiste la necessità di adottare tecniche di compressione per ottimizzare:

• Occupazione di spazio di memoria

• Velocità di trasmissione attraverso la rete


� Tecniche di compressione

• senza perdita di informazione (lossless)

• con perdita di informazione (lossy)


Compressione basata su oracolo

� Consideriamo il numero di bit necessari a rappresentare le immagini acquisite dal sistema visivo umano nel corso della nostra vita

� Approssimiamo per eccesso le immagini acquisite

30 immagini / sec x

3600 sec / ora x


3600 sec / ora x

24 ore/giorno x

365 giorni / anno x

90 anni =

-------------

8.5 1010


Compressione basata su oracolo

� Per enumerare 8.5 1010 immagini abbiamo bisogno di soli log2(8.5 1010 ) = 37 bit

� Se consideriamo l’intera popolazione mondiale

log2(6.8 109 x 8.5 1010) = 69 bit


cioè 1.2 10-19 = 0.00000000000000000012 bit/immagine

� Una macchina digitale utilizza circa 20.000.000 bit/immagine, previa compressione


Compressione lossless

� Compressione senza perdita d informazione (lossless)

• Reversibili

– l’immagine compressa è identica a quella originale

– Il numero di bit necessari per memorizzare l’immagine è inferiore

• Ne esistono di due tipi:


• Ne esistono di due tipi:

– Ad hoc per le immagini � ad es. PNG

– Applicabili a qualsiasi tipo di dato � ad es. ZIP


Compressione lossy

� Algoritmi con perdita di informazione (lossy)

• Sfruttano meccanismi di mascheramento del rumore propri del sistema visivo umano

– L’occhio è più sensible al rumore quando l’immagine è caratterizzata da un basso contrasto locale



Compressione lossy


• Sfruttano il fatto che pixel vicini hanno intensità e colore spesso simili tra loro

• Scartano quella parte di contenuto dell’immagine non visibile dall’occhio umano

• Generalmente è possibile specificare quanto siamo


• Generalmente è possibile specificare quanto siamo disposti a perdere attraverso alcuni parametri

– Compromesso qualità vs. Dimensioni


Compressione lossy 29



Compressione lossy


• Scartano quella parte di contenuto dell’immagine non visibile dall’occhio umano

• Irreversibili

– l’immagine compressa è diversa da quella originale

– Compromesso qualità vs. dimensioni


• Generalmente è possibile specificare quanto siamo disposti a perdere attraverso alcuni parametri


Compressione lossy

� JPEG (Joint Picture Expert Group) è lo standard più comunemente utilizzato per la compressione lossy di immagini

� Esempio: • 682x511 pixel = 348502 pixel• 348502 pixel x 3 byte/pixel = 1045506 byte (circa 1Mb)



Compressione lossy

� JPEG (Quality = 90) – 97.8Kb – 10.7:1



Compressione lossy

� JPEG (Quality = 50) – 40.1 Kb – 26:1



Compressione lossy

� JPEG (Quality = 10) – 16.4 Kb – 64:1



Compressione lossy

� JPEG (Joint Picture Expert Group) è lo standard più comunemente utilizzato per la compressione lossy di immagini

� Esempio: • 800x600 pixel = 480000 pixel• 480000 pixel x 3 byte/pixel = 1440000 byte (c.a.

1.44Mb)



Compressione lossy

� JPEG (Quality = 90) – 107 Kb – 13.4:1



Compressione lossy

� JPEG (Quality = 50) – 49.7 Kb – 29:1



Compressione lossy

� JPEG (Quality = 10) – 25.2 Kb – 57:1


Formati

JPEG

� JPEG (Joint Picture Expert Group)• Codifica con perdita (lossy)

– Immagini a colori, 24 bit/pixel

• E’ il formato di compressione più utilizzato al mondo

• Buon rapporto di compressione

– c.a. 10:1 per immagini percettivamente indistinguibili dall’originale


dall’originale

• A forti rapporti di compressione (> 30:1) introduce artefatti:

– Blocchettizzazione

– “Contouring”

• Attenzione: ogni modifica e salvataggio dell’immagine degrada la qualità della stessa

Formati

TIFF

� TIFF (Tagged Image File Format)• Supporta un insieme di algoritmi di compressione

– Non tutti i sistemi supportano tutti gli algoritmi

• Codifica sia lossless che lossy

– Immagini a colori, 8-16 bit/pixel/colore (24-24 bit/pixel)


Formati

TIFF

� TIFF (Tagged Image File Format)• Il formato non è comunemente supportato dai web

browser

• E’ ancora il formato di riferimento per lo scambio di immagini nel mercato editoriale

• Supporta spazi colore alternativi al RGB

– ad esempio CMYK per la rappresentazione di immagini per


– ad esempio CMYK per la rappresentazione di immagini per la stampa

Formati

TIFF

� Raw• E’ un formato supportato da alcune fotocamere digitali

(tipicamente di fascia medio-alta)

• Ciascuna casa produttrice ha un proprio formato proprietario

• Rappresenta i valori RGB letti direttamente dal sensoredella fotocamera, prima di qualsiasi operazione di elaborazione


della fotocamera, prima di qualsiasi operazione di elaborazione

– Ridimensionamento

– Bilanciamento del bianco

– Correzione automatica del contrasto/luminosità

– Compressione JPEG

• E’ utile quando

– Si cerca la massima qualità dell’immagine

– Si vuole mantenere la possibilità di bilanciamento del bianco in fase di editing

Formati

PNG

� PNG (Portable Network Graphics)• Codifica senza perdita (lossless)

– Immagini a colori (24 bit/pixel)

• E’ supportato da tutti i web browser

• E’ particolarmente adatto per la codifica di immagini non naturali, che presentano aree uniformi e contorni molto ben definiti


ben definiti

– Ideale per loghi, scritte, rappresentazione raster di immagini vettoriali

• Supporta la trasparenza

• In molte applicazioni, è una valida alternativa a TIFF

Formati

PNG

� Esempio: PNG vs. JPEG

PNG – 24Kb JPEG – 13Kb


Metadati

Metadati

� I metadati sono dati supplementari, che aggiungono informazioni ad un file multimediale (immagini, audio o video)

� Alcuni metadati sono associati ad ogni tipo di file, incluse le immagini:• Nome del file• Data di creazione• Data di modifica


• Data di modifica• Dimensione del file• Ecc.

� Ciascun metadato è caratterizzato da• Un etichetta o tag, che individua la caratteristica

descritta. Ad es “filesize”• Un valore associato al tag. Ad es. 14532 byte

Metadati

Exif

� Alcuni formati di immagini supportano la definizione di metadati specifici.

� Uno sistema comunemente adottato dalle fotocamere commerciali è Exif, Exchangeable file format

� Le informazioni descritte da Exif sono:• Data e ora• Impostazioni della fotocamera


• Impostazioni della fotocamera

– Produttore e modello

– Orientazione

– Apertura

– Tempo di esposizione

– Lunghezza focale

– Sensibilità ISO

– Bilanciamento del bianco

Metadati

Exif

� Esempio di metadati Exif


Metadati

Geotagging

� Nei metadati possono essere incluse informazioni relative alla locazione degli scatti (geotagging)• Tagging manuale, l’utente indica la posizione in cui è

stata scattata la fotografia• Tagging automatico, tramite ricevitore GPS connesso

alla fotocamera


Metadati

User tagging

� Molti sistemi di sharing di immagini consentono agli utenti di aggiungere tag descrittivi


Questo tipo di tag sono estremamente utili nella

ricerca di immagini in grandi collezioni

Formati multimediali e metadati

Sommario

� Immagini digitali• Compressione di immagini• Formati• Metadati

� Video digitali

50


� Video digitali• Compressione di dati video• Formati video

Rappresentazione di dati video

Caratteristiche di un segnale video

� Risoluzione spaziale• Numero di pixel lungo la direzione orizzontale e verticale– Ad es. 640x480 pixel

� Aspect ratio

51


� Aspect ratio• rapporto tra la dimensione orizzontale e verticale dell’immagine– Ad es. 4:3, 16:9, ecc.

� Risoluzione temporale (o frame rate)• Numero di immagini visualizzate per secondo

– Ad es. 30 fps (frame per secondo)


Caratteristiche di un segnale video

� Esempio conversione frame rate

52

25 fps 8 fps



Scansione progressiva/interallacciata

� Video a scansione progressiva• Per ciascun istante temporale viene

rappresentata una intera immagine a risoluzione piena

� Utilizzata da• La maggior parte dei monitor CRT per PC

53


• La maggior parte dei monitor CRT per PC• Tutti i monitor LCD• Alcune televisioni HDTV

– 720p

– 1080p



� Video a scansione interallacciata• Per ciascun istante temporale è disponibile una

immagine che rappresenta le sole righe pari/dispari dell’immagine

54


• E’ utilizzata da– Monitor CRT dei televisori tradizionali

– Alcuni monitor HDTV

- 1080i



� Video a scansione interallacciata• E’ la modalità utilizzata nella trasmissione del

segnale televisivo analogico (ma anche digitale, in alcuni casi)– Ogni secondo vengono mostrati 50 semi-quadri

- 25 semi-quadri rappresentano le righe pari

- 25 semi-quadri rappresentano le righe dispari

55




� I limiti del sistema visivo umano fanno sì che l’occhio non sia in grado di percepire le righe mancanti, se la risoluzione temporale è sufficientemente alta (ad es. 50 semi-quadri al secondo)

56


� Il sistema di scansione interallacciata nasce storicamente per poter trasmettere un numero maggiore di canali televisivi nella stessa banda



� Il formato di scansione del video può differiredal formato supportato dal dispositivo di visualizzazione

� Video interallacciato � Monitor progressivo• Si esegue una operazione di de-interlacing, per

57


• Si esegue una operazione di de-interlacing, per interpolare le righe mancanti

� Video progressivo � Monitor interallacciato• Viene scartata parte dell’informazione



� La conversione da scansione interallacciata a progressiva può introdurre artefatti in presenza di oggetti in movimento e/o cambi di scena

58


Compressione di dati video


� Come per le immagini, i dati video vengono spesso compressi per• Ridurre la dimensione dei file memorizzati su

disco– VideoCD

– DVD/BlueRay

– DivX,Xvid,ecc.

59


– DivX,Xvid,ecc.

– Ecc.

• Consentire la trasmissione di dati video– Televisione Digitale Terrestre

– Televisione Digitale Satellitare

– Video streaming (YouTube)

– VideoOnDemand (VoD)

– IPTV



� Codec video: • sistema hardware o software costituito da due

componenti:

• Encoder– ricevere in ingresso una sequenza di immagini

– produce in uscita un bitstream, ovvero una sequenza

60


– produce in uscita un bitstream, ovvero una sequenza di bit che rappresenta il video compresso

• Decoder– Riceve in ingresso un bistream

– Produce in uscita la sequenza di immagini ricostruita

Encoder Decoder

00110001...



� Per la visualizzazione di dati video compressi è sufficiente avere a disposizione un decoder

� Per la creazione di bitstream, è necessario avere a disposizione un encoder

61


� Per garantire l’interoperabilità, ovvero che lo stesso bitstream possa essere letto correttamente da più dispositivi, si definisce uno standard



� In assenza di compressione, la dimensione dei file video è notevole. Ad esempio:

� Video a scansione interallacciata (ad. es TV)• 720 punti / linea • 576 linee (288 linee pari, 288 linee dispari)• 50 semiquadri al secondo• 3 byte / pixel (RGB)

62


• 3 byte / pixel (RGB)• 720 x 288 x 50 x 3 = 31.104.000 byte / sec

� c.a. 31 Mbyte/sec � c.a. 250 Mbps

• 2h di film occupano (se non compressi)

– 2x60x60x31 = 223.200 Mbyte � c.a. 223 Gbyte

• Un DVD ha una capacità di c.a. 4.5 Gb � per memorizzare un film a risoluzione standard su DVD c’è la necessità di un fattore di compressione pari a 223 / 4.5 = 50



� Video a scansione progressiva (ad. es cellulare o fotocamera)• 320x240 pixel• 15 frame / secondo• 3 byte / pixel (RGB)• 320 x 240 x 15 x 3 = 3.456.000 byte / sec

� c.a. 3.5 Mbyte/sec � c.a. 28 Mbps

63


• 1 minuto di video registrato occupa (se non compresso)

– 60x3.5 = 210 Mbyte



� Codifica intra-frame: codifico ogni frame come un immagine fissa

� E’ la tecnica usata da molte fotocamere compatte, che salvano i filmati ripresi in formato Motion-JPEG (ogni frame è compresso con JPEG)

64


� Si è in grado di ottenere rapporti di compressione dell’ordine 10-20 senza eccessiva perdita di qualità• Per mettere un film su DVD abbiamo bisogno di un

rapporto di c.a. 50...



� Codifica inter-frame: codifico ogni frame utilizzando la conoscenza delle immagini precedenti

� Frame consecutivi in una sequenza di immagini sono simili l’uno all’altro

65


� Codifico solo ciò che c’è di nuovo in un frame rispetto al frame precedente

� E’ possibile ottenere rapporti di compressione di 50:1 fino a anche a 100:1 senza un degrado eccessivo della qualità



� Frame originale (da codificare)

66




� Frame precedente (di riferimento)

67




� Immagine differenza tra frame originale e di riferimento

68

Grigio � = 0

Nero� < 0

Bianco� > 0




� Codificare questa immagine richiede molti meno bit rispetto a codificare l’immagine originale

69


70






� E’ possibile fare di meglio, stimando il movimento degli oggetti

71


Formati video

Video codec

� Un codec video è un sistema costituito da due componenti:

• Un video encoder, che riceve in ingresso una sequenza di immagini non compressa, e produce in uscita una sequenza di bit

• Un video decoder, che riceve in ingresso una sequenza

72


• Un video decoder, che riceve in ingresso una sequenza di bit, e produce in uscita la sequenza di immagini

� Esistono molteplici codec sul mercato

� Un decoder è in grado di interpretare solo le sequenze di bit prodotte dall’encoder corrispondente

Formati video

Video codec

� I codec che hanno trovato maggiore diffusione sono stati sviluppati da due organismi di standardizzazione:

• MPEG (Movie Picture Expert Group)

• ITU-T (International Telecomunication Union -Telecommunication Standardization Sector)

73


� Sia MPEG e ITU-T hanno sviluppato nel corso degli ultimi 20 anni diversi standard, con l’obiettivo di massimizzare la compressione per un certo livello di qualità dell’immagine.

� Ciascuno standard definisce una “lingua” con una sua sintassi ben precisa, che può essere compresa solo da un decoder che la supporti

Formati video

Video codec

� Standard MPEG• MPEG-1: (1992)

– VideoCD (l’equivalente digitale del VHS), supportato dalla maggior parte dei lettori DVD

• MPEG-2: (1994)

– DVD, SVideoCD, TV broadcasting (satellitare, terrestre, cavo)

• MPEG-4 Part 2 (1998)

74


– Internet streaming, broadcast

– DivX, Xvid, FFMpeg sono diverse implementazioni software di MPEG-4 Part 2

• MPEG-4 Part 10 (2003)

– Noto comunemente come AVC (Advanced Video Coding) oppure H.264

– Tenderà a sostituire tutti gli standard precedenti

– Adottato in innumerevoli prodotti commerciali:

- BlueRay Disc, iPhone, PSP, QuickTime, etc.

Formati video

Video codec

� Standard ITU-T• H.261: (1990)

– Sistemi obsoleti di video-conferenza su reti telefoniche

• H.263: (1996)

– Videoconfernenza, Videotelefonia, video streaming su internet

• H.264: (2003)

– E’ uguale a MPEG-4 Part 10

75


– E’ uguale a MPEG-4 Part 10

� Esistono poi codec proprietari, sviluppati individualmente da aziende private per i propri prodotti

Formati video

Video codec

� Esistono poi codec proprietari, sviluppati individualmente da aziende private per i propri prodotti

• Microsoft WMV (Windows Media Video)

– WMV7,8,9 (Windows Media Player)

– VC-1 (BlueRay Disc)

76


• RealNetworks RealVideo

– RealPlayer

• Xiph.org foundation Theora

– Part of the Ogg project

– Opensource, royalty free codec inspired to (and competing with) MPEG-4

• ...

Formati video

Multimedia Container

� Il video è quasi sempre accompagnato dall’audio

� Il Container è un formato di file

• Descrive cosa può essere immagazzinato nel file• Definisce come viene codificato il suo contenuto (ma per

lo stesso container, i dati possono essere codificati con codec diversi)

� Il Multimedia container (ad es. Il formato .AVI)

77


� Il Multimedia container (ad es. Il formato .AVI) descrive cosa può esserre immagazzinato in un file• Dati video• Dati audio• Sottotitoli• Ecc.

Formati video


� E’ possibile che un programma che sia in grado di aprire un file scritto in un certo formato non sia capace di decodificare i dati contenuti

• Capita, ad esempio che il lettore multimediale sia in grado di aprire un file, ma di riprodurre solo l’audio o il video.

• Ciò significa che un il lettore riconosce correttamente il

78


• Ciò significa che un il lettore riconosce correttamente il tipo di file, lo apre, ma non ha a disposizione il codec in grado di interpretare i dati audio o video in esso contenuti

Formati video


� I più comuni multimedia container sono:• 3GP (.3gp, .3g2): usato nel campo della telefonia• AVI (.avi): il formato standard nei sistemi operativi

Windows• MOV (.mov): usato da Apple QuickTime• OGM: Ogg Media, standard video container usato dai

codec Xiph.org • RealMedia (.rm): usato da RealPlayer• VOB (.vob): usato nei DVD

79


• VOB (.vob): usato nei DVD• DMF (.divx): DivX Media Format

Formati multimediali e metadati: Immagini - Intranet...

Documents

Transcript of Formati multimediali e metadati: Immagini - Intranet...