Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala -...

28
Semantics in Visual Information Retrieval lo Colombo , Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso di Sistemi Informativi Multimediali Cappellazzo Pietro 809652 Università Ca’Foscari di Venezia A.A.2005/06

Transcript of Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala -...

Page 1: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Semantics in Visual Information Retrieval

Carlo Colombo , Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy

Approfondimento per il corso di Sistemi Informativi Multimediali

Cappellazzo Pietro

809652

Università Ca’Foscari di Venezia A.A.2005/06

Page 2: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 2

Introduzione

Problema nel riuscire a rappresentare il contenuto di un immagine ad alto livello

Per avere ricerche efficienti queste dovrebbero contenere un livello semantico che riflette il più possibile quello a cui l’uomo si riferisce durante l’interrogazione

Solitamente per arricchire immagini o video con una semantica questa viene immessa manualmente, comportando alcuni problemi:

E’ molto costoso annotare manualmente grandi database. L’annotazione è soggettiva. Le Keywords solitamente non supportano la ricerca per somiglianza.

Page 3: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 3

Una Soluzione Alternativa

Si può accrescere in modo automatico il livello semantico di una rappresentazione visuale:

Partendo da alcune caratteristiche percettive, l’elemento atomico di un’informazione visuale.

Si possono estrarre alcuni livelli semantici intermedi utilizzando delle regole di composizione.

Attraverso un approccio di costruzione sintattica chiamato Compositional Semantics si costruisce una rappresentazione semantica basta su un concetto di gerarchia.

Questo approccio permette di poter effettuare ricerche per somiglianza, oltre a ricerche basate su caratteristiche semantiche di alto livello.

Page 4: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 4

Compositional SemanticsFramework

Questo processo prevede alcune regole di composizione che non sono indipendenti dal contesto, per questo sono stati presi in considerazione:

Dipinti artistici Video commerciali (pubblicità)

Inizialmente si descrive come organizzare le informazioni percettive per poi definire due livelli semantici distinti:

Livello Espressivo Livello Emozionale

Page 5: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 5

Proprietà Percettive

Possono essere rappresentate con punteggi:

φi[0,1]

Proprietà percettive per le immagini/video: Colori {φred, φorange, φyellow, φgreen, φblue, φpurple , φwhite, φblack}

Page 6: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 6

Proprietà Percettive

Proprietà percettive per le immagini/video: Bordi {φhor/ver}

Dove φhor/ver,rappresenta la percentuale di bordi o linee orrizontali e verticali rispetto al totale.

Page 7: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 7

Proprietà Percettive

Proprietà percettive per i video: Tagli

φcuts=#cuts/#frames dove φcuts[0,1] Dissolvenze

φdissolves=#dissolves/#frames dove φdissolves[0,1]

Page 8: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 8

Proprietà Percettive

Proprietà percettive per i video: Movimento

φmotion[0,1] Caratteristiche inter-shot

φrecurrent[0,1], φsatured[0,1]

φrhythm(i1,i2) = (#cuts + #dissolves) / (i2 – i1 + 1)

φedit = φrhythm(1,#frames)

Le proprietà percettive di un messaggio visuale possono quindi essere rappresentate come:

P = {φi}, i1,…,n

Page 9: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 9

Livello EspressivoLe regole di livello Espressivo possono essere espresse come funzioni che agiscono nelle proprietà percettive.

Fj : [0,1]n [0,1]

Il significato di queste regole può essere ulteriormente esteso attraverso l’uso di operatori logici.

F1F2 = min(F1,F2 ) F1F2 = max(F1,F2 )

Le caratteristiche espressive di un messaggio visuale possono quindi essere rappresentate come un set di funzioni:

F = {F1,…, Fm}

Page 10: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 10

Livello EspressivoImmagini

Basato sulla Itten theory relativa all’uso dei colori nell’arte e alla semantica a cui inducono. Tono, luminosità, calore, saturazione, contrasto, armonia , grandezza delle regioni, posizione di queste sono le caratteristiche espressive per un immagine.

Page 11: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 11

Livello EspressivoImmagini

Per riuscire a dare un livello espressivo ad un immagine, questa deve:

Essere divisa in regioni, caratterizzate da colori uniformi. Devono essere rappresentate le proprietà cromatiche e spaziali di

queste regioni.

Ci sono due tipi di caratteristiche espressive relative alle regioni da considerare:

Intra-regionali: calore, tonalità, luminosità, saturazione, posizione e dimensione.

Inter-regionali: tonalità, saturazione, calore, contrasto e armonia.

Ad esempio per descrivere la luminosità possiamo inserire tre valori (dark, medium, bright), il descrittore (0.0,0.1,0.9)descriverà quindi una regione molto chiara.

Page 12: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 12

Livello Espressivo ImmaginiSemantica

Φ:= region | hue = λh | lum = λl | sat = λs | warmth = λW | size = λS |

|position = λp | Contrastγ(Φ1, Φ2)| Harmony(Φ1,…, Φn)|

|Φ1Φ2 | Φ1Φ2

Dove λγ sono possibili valori delle caratteristiche γ con γ={h,l,s,w}

Vengono quindi definite le clausole semantiche in termini di soddisfacibilità ╞ di una formula generica Φ in una regione R.

La corrispondenza relativa a come Φ è verificata in una R sarà espressa da un valore ξ.

Questi dati vengono quindi inseriti in un sistema di model checking, il quale dati in input una formula generica Φ e un immagine restituirà un valore che rappresenta come quella formula è verificata nell’immagine.

Page 13: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 13

Model-Cheking Engine

input: (Φ,I)

Attraverso un approccio bottom-up, il model-Cheching engine etichetta le regioni con le sottoformule che soddisfano:

• Step 1: Etichetta R2 e R4 con Φ1

• Step 2: Etichetta R1 con Φ2

• Step 3: Etichetta R1,R2 e R3 con Φ3

Page 14: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 14

Livello EspressivoVideo

Basato su studi della semiologia, i video commerciali sono stati classificati in quattro categorie:

Pratici (Il prodotto è descritto nel suo ambiente naturale, viene percepita la sua utilità), Critici (Il prodotto è il soggetto della storia, la scena appare più reale di quello che è), Utopici (storie irreali, scenari mistici, tutto succede in modo irreale), Vivaci (enfatizzato il rapporto fra quello che il prodotto offre e quello che l’utente chiede).

Φ:= Fpratical ≥ k1| Fcritical ≥ k2 | Futopic ≥ k3 | Fplayful ≥ k4 |Φ1Φ2 | Φ1Φ2

Page 15: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 15

Livello EmozionaleIl livello emozionale rappresenta il top della gerarchia semantica costruita, le regole per comporre questo livello possono essere rappresentate attraverso delle funzioni:

Gk:[0,1]n+m[0,1]

che agiscono attraverso le proprietà percettive e le caratteristiche espressive.Le caratteristiche emozionali di un messaggio visuale possono quindi essere rappresentate come un set di funzioni:

G = {G1,…, Gk}

Page 16: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 16

Livello EmozionaleImmagini

Attraverso analisi psicologiche sono state identificate alcune emozioni primarie date dalle immagini artistiche:

Azione,Rilassamento,Gioia,Disagio

Si sono poi ricavate le regole per descrivere quali combinazioni di caratteristiche percettive ed espressive portano a queste:

Page 17: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 17

Livello EmozionaleVideo

Page 18: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 18

Retieval

Sono stati catalogati quindi alcune immagini e video in modo automatico secondo le regole descritte.

I valori ottenuti sono stati confrontati con quelli richiesti a dei team di esperti di arte, per quanto riguarda le immagini e semiologi ed esperti di marketing per i video.

P(i)=rank dato dal sistema

σ(i)=margine di errore tollerato

Q(i,k)= % di persone che hanno valutato l’immagine nell’intervallo P(i) ± σ(i)

Page 19: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 19

Image Retrieval

Per quanto riguarda le immagini sono stati considerati:

Luminosità(a), Saturazione(b), Calore(c), Armonia(d)

Page 20: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 20

Video Retrieval

Per i video commerciali sono state considerate: Praticità(a),Criticità(b),Utopia(c),Vivacità(d)

Page 21: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 21

Esempi(1):Ricerca su un database di immagini

Ricerca per:

Luminosità(a),

Saturazione(b),

Calore(c),

Armonia(d)

Page 22: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 22

Esempi(2):Ricerca da un’immagine campione

Page 23: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 23

Esempi(3):Ricerca di pubblicità vivaci

Page 24: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 24

Esempi(3):Ricerca di pubblicità vivaci

Page 25: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 25

Esempi(3):Ricerca di pubblicità vivaci

Page 26: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 26

Esempi(4):Ricerca di pubblicità critiche

Page 27: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 27

Esempi(4):Ricerca di pubblicità critiche

Page 28: Semantics in Visual Information Retrieval Carlo Colombo, Alberto Del Bimbo, and Pietro Pala - University of Florence - Italy Approfondimento per il corso.

Cappellazzo Pietro Semantics in Visual Information Retrieval 28

Esempi(4):Ricerca di pubblicità critiche