Waarnemingspsychologie bij het JPEG compressiealgoritme

2
Waarnemingspsychologie bij het JPEG compressiealgoritme Willem Van Onsem 20 juni 2012 Samenvatting Vandaag bestaan er heel wat formaten om afbeeldingen voor te stellen. Enkele daarvan stellen de afbeelding voor door middel van “lossless” compressie. Met lossless wordt bedoelt dat men de afbeelding volledig correct kan reconstrueren. In de meeste gevallen willen we echter de ruimte die de af- beelding beslaat reduceren. Daarom maken we gebruik van “lossy” compressie. Hierbij worden gegevens weggegooid. De algoritmen proberen bij deze compressie de relevante stukken te behouden en de niet waar te nemen details weg te gooien. In deze paper gaan we na in hoeverre psychologische aspecten bij deze compressie komen kijken. 1 Voorstelling Een afbeelding wordt voorgesteld als een rooster van kleu- renpunten genaamd “pixels”. Elke pixel bestaat uit drie kleurwaardes: rood, groen en blauw. De rede dat men enkel deze kleuren gebruikt is omdat het menselijk oog enkel in staat is om kleuren bestaande uit drie onafhankelijke kleur- componenten voor te stellen. Vogels zien bijvoorbeeld vier kleurencomponenten: het oog van een vogel heeft een vierde staafje dat reageert op golflengtes in het ultraviolet spec- trum. Een eerste voor de hand liggende compressie is bijge- volg niet waarneembare data te verwijderen. Dit gebeurt al op het niveau van de camera die geen rekening houdt met het niet door de mens zichtbare spectrum. Dit concept is verder ook belangrijk omdat we bij het JPEG compressiealgoritme de afbeelding eerst zullen opsplitsen in drie afbeeldingen die elk ´ en van de kleurencomponenten voorstelt. 2 Opdeling in blokken Nadat we de afbeelding in drie afbeeldingen hebben opge- deeld, delen we deze op in blokken van elk 8 × 8 pixels 1 . We kunnen een parallel trekken tussen dit fenomeen en de psychologie van de visuele hoek en eveneens het receptief veld bij bijvoorbeeld ganglion cellen: we verwerken alleen lokale informatie. Het achterliggend idee van het opdelen in blokken is dan ook de lokaliteit van de afbeelding: de kans is klein dat de intensiteit van bijvoorbeeld groen op een bepaalde plaats in de afbeelding verband houdt met de intensiteit van een totaal andere plaats in die afbeelding. 1 Omdat we reeds de afbeelding hebben opgedeeld in verschillende kleuren omvat een pixel enkel de intensiteit van ´ en kleurcomponenten 3 Omzetting frequentiedomein De kern van de compressie zit hem in het feit dat men ver- volgens elk van deze blokken omzet naar het frequentiedo- mein. Hierbij ziet men de intensiteit van pixels in een be- paald veld als de som van enkele golven. Shannon stelt dat we elk 8 × 8 veld kunnen voorstellen aan de hand van 64 2D golven waarbij de frequentie vooraf gekend is en enkel de amplitude ontbreekt. We zetten een blok om met behulp van een Fast Fourier Transformation. Ook het visueel systeem lijkt omzettingen naar het frequentiedomein te kun- nen bewerkstelligen: de ganglion cellen vergelijken immers de intensiteit van receptoren in het centrum van zijn recep- tief veld, met de intensiteit van de receptoren in de omgeving van het receptief veld. Dit is grofweg hetzelfde principe als de fourier transformatie: men vermenigvuldigt de intensiteit met een sinusgolf. Ganglioncellen doen aan fourier analyse maar doen dit door de intensiteit te vermenigvuldigen met een blokgolf. Door ganglion cellen met receptief velden van verschillende grootte te gebruiken, kunnen dus eveneens een benaderende Fourier transformatie uitvoeren. 4 Compressie De compressie van het JPEG formaat bestaat er ten slotte uit om de bekomen amplitudes van de golven af te ronden. In een extreem geval zou dit kunnen betekenen dat we be- paalde golven bijvoorbeeld afronden naar 0, en niet langer beschouwen. Zo’n vaart loopt het meestal niet. Wel zal men golven met een hogere frequentie doorgaans meer afronden (en dus meer informatie verliezen) en dan golven met een lagere frequentie. De reden is eenvoudig: golven met een lage frequentie geven de trend weer van het blok, golven met een hoge frequentie kunnen we eerder zien als ruis die tot bijvoorbeeld verschillen tussen twee naburige pixels leidt. Ook het brein zal waarschijnlijk de voorkeur geven aan lage frequenties: In [1, p. 153-155] haalt men aan dat het cor- respondance probleem kan opgelost worden door eerst de afbeeldingen op beide retina’s door een laagbandfilter te ha- len (een filter die dus golven met hoge frequenties wegfiltert). Daarnaast sturen ganglion cellen hun bevindingen (detectie van bepaalde golven) door naar de hersenen. Als we de ver- werking van deze informatie uitleggen aan de hand van het model van het neuraal netwerk, kan een neuron een bepaald gewicht toekennen aan elke ganglion cel waarvan het infor- matie ontvangt. Dit is dus ook een vorm van filtering op frequentie. 1

Transcript of Waarnemingspsychologie bij het JPEG compressiealgoritme

Page 1: Waarnemingspsychologie bij het JPEG compressiealgoritme

Waarnemingspsychologie bij het JPEG compressiealgoritme

Willem Van Onsem

20 juni 2012

Samenvatting

Vandaag bestaan er heel wat formaten om afbeeldingen voorte stellen. Enkele daarvan stellen de afbeelding voor doormiddel van “lossless” compressie. Met lossless wordt bedoeltdat men de afbeelding volledig correct kan reconstrueren.In de meeste gevallen willen we echter de ruimte die de af-beelding beslaat reduceren. Daarom maken we gebruik van“lossy” compressie. Hierbij worden gegevens weggegooid.De algoritmen proberen bij deze compressie de relevantestukken te behouden en de niet waar te nemen details weg tegooien. In deze paper gaan we na in hoeverre psychologischeaspecten bij deze compressie komen kijken.

1 Voorstelling

Een afbeelding wordt voorgesteld als een rooster van kleu-renpunten genaamd “pixels”. Elke pixel bestaat uit driekleurwaardes: rood, groen en blauw. De rede dat men enkeldeze kleuren gebruikt is omdat het menselijk oog enkel instaat is om kleuren bestaande uit drie onafhankelijke kleur-componenten voor te stellen. Vogels zien bijvoorbeeld vierkleurencomponenten: het oog van een vogel heeft een vierdestaafje dat reageert op golflengtes in het ultraviolet spec-trum. Een eerste voor de hand liggende compressie is bijge-volg niet waarneembare data te verwijderen. Dit gebeurt alop het niveau van de camera die geen rekening houdt met hetniet door de mens zichtbare spectrum. Dit concept is verderook belangrijk omdat we bij het JPEG compressiealgoritmede afbeelding eerst zullen opsplitsen in drie afbeeldingen dieelk een van de kleurencomponenten voorstelt.

2 Opdeling in blokken

Nadat we de afbeelding in drie afbeeldingen hebben opge-deeld, delen we deze op in blokken van elk 8 × 8 pixels1.We kunnen een parallel trekken tussen dit fenomeen en depsychologie van de visuele hoek en eveneens het receptiefveld bij bijvoorbeeld ganglion cellen: we verwerken alleenlokale informatie. Het achterliggend idee van het opdelenin blokken is dan ook de lokaliteit van de afbeelding: dekans is klein dat de intensiteit van bijvoorbeeld groen opeen bepaalde plaats in de afbeelding verband houdt met deintensiteit van een totaal andere plaats in die afbeelding.

1Omdat we reeds de afbeelding hebben opgedeeld in verschillendekleuren omvat een pixel enkel de intensiteit van een kleurcomponenten

3 Omzetting frequentiedomein

De kern van de compressie zit hem in het feit dat men ver-volgens elk van deze blokken omzet naar het frequentiedo-mein. Hierbij ziet men de intensiteit van pixels in een be-paald veld als de som van enkele golven. Shannon stelt datwe elk 8 × 8 veld kunnen voorstellen aan de hand van 642D golven waarbij de frequentie vooraf gekend is en enkelde amplitude ontbreekt. We zetten een blok om met behulpvan een Fast Fourier Transformation. Ook het visueelsysteem lijkt omzettingen naar het frequentiedomein te kun-nen bewerkstelligen: de ganglion cellen vergelijken immersde intensiteit van receptoren in het centrum van zijn recep-tief veld, met de intensiteit van de receptoren in de omgevingvan het receptief veld. Dit is grofweg hetzelfde principe alsde fourier transformatie: men vermenigvuldigt de intensiteitmet een sinusgolf. Ganglioncellen doen aan fourier analysemaar doen dit door de intensiteit te vermenigvuldigen meteen blokgolf. Door ganglion cellen met receptief velden vanverschillende grootte te gebruiken, kunnen dus eveneens eenbenaderende Fourier transformatie uitvoeren.

4 Compressie

De compressie van het JPEG formaat bestaat er ten slotteuit om de bekomen amplitudes van de golven af te ronden.In een extreem geval zou dit kunnen betekenen dat we be-paalde golven bijvoorbeeld afronden naar 0, en niet langerbeschouwen. Zo’n vaart loopt het meestal niet. Wel zal mengolven met een hogere frequentie doorgaans meer afronden(en dus meer informatie verliezen) en dan golven met eenlagere frequentie. De reden is eenvoudig: golven met eenlage frequentie geven de trend weer van het blok, golvenmet een hoge frequentie kunnen we eerder zien als ruis dietot bijvoorbeeld verschillen tussen twee naburige pixels leidt.Ook het brein zal waarschijnlijk de voorkeur geven aan lagefrequenties: In [1, p. 153-155] haalt men aan dat het cor-respondance probleem kan opgelost worden door eerst deafbeeldingen op beide retina’s door een laagbandfilter te ha-len (een filter die dus golven met hoge frequenties wegfiltert).Daarnaast sturen ganglion cellen hun bevindingen (detectievan bepaalde golven) door naar de hersenen. Als we de ver-werking van deze informatie uitleggen aan de hand van hetmodel van het neuraal netwerk, kan een neuron een bepaaldgewicht toekennen aan elke ganglion cel waarvan het infor-matie ontvangt. Dit is dus ook een vorm van filtering opfrequentie.

1

Page 2: Waarnemingspsychologie bij het JPEG compressiealgoritme

4.1 Quantisatietabel

In hoeverre men de amplitude van een golf met een bepaaldefrequentie afrondt, hangt af van de quantisatietabel. Een ta-bel die voor elk van de 64 golven een getal geeft. Hoe hogerhet getal, hoe groter de afronding (en bijgevolg hoe meerinformatie er verdwijnt). Het staat mensen vrij om zelf eenquantisatietabel op te bouwen. De meeste producenten vandigitale camera’s hebben dan ook een specifieke quantisatie-tabel. De algemene regel blijft wel dat golven met een hogerefrequentie als minder relevant worden beschouwd. Een inte-ressant aspect is dat er onderzoek gebeurt naar hoe de herse-nen zelf nagaan welke informatie belangrijk is en welke niet,om een optimale quantisatietabel op te bouwen: een tabelwaardoor de afbeelding alle nodige informatie blijft bevat-ten (en er dus geen zichtbaar kwaliteitsreductie optreedt),maar anderzijds ook geen nutteloze informatie opslaat (diehet oog/brein zelf later zal wegfilteren).

5 Film: MPEG-compressie

MPEG is de tegenhanger van JPEG op het gebied van film.Ook hier is de compressie niet specifiek: net zoals de quanti-satietabel niet vastligt, heeft men ook bij de compressie vanfilm heel wat vrijheden. We bespreken kort de algemenestructuren en hun gelijkenis met het brein.

5.1 Gevoelig aan verandering

MPEG slaat maar op bepaalde tijdstippen de afbeeldingop zoals deze op onze retina wordt geprojecteerd (de zo-genaamde I-frames). Op alle andere momenten worden P-frames of B-frames gebruikt. P staat hier voor predictable.Bij P-frames gaat men ervanuit dat de afbeelding minimaalveranderd is, en zal men enkel het verschil encoderen. Eenbeeld dat dus stationair is, zal nauwelijks informatie bijdra-gen aan de video.

5.2 Gevoelig aan beweging

Een P-frame kan op verschillende manieren informatie overde verandering weergeven. Bij veranderingen in de textuur(second-order motion) zal men enkel voor de gebieden die

0 1 2 3 4 5 6 7 0 1

2 3

4 5

6 7

40 60 80

100 120 140 160 180 200 220

Intensiteit

0 1 2 3 4 5 6 7 0 1

2 3

4 5

6 7

0 20 40 60 80

100 120 140

Golf 0

0 1 2 3 4 5 6 7 0 1

2 3

4 5

6 7

0 20 40 60 80

100 120 140 160

Golf 1

...

0 1 2 3 4 5 6 7 0 1

2 3

4 5

6 7

-60-40-20

0 20 40 60

Golf 2

0 1 2 3 4 5 6 7 0 1

2 3

4 5

6 7

-60-40-20

0 20 40 60

Golf 3

...

· · · · · · . . .

Figuur 1: Omzetting van een afbeelding naar golven.

veranderen de verandering noteren. Daarnaast werkt menook met motion vectors: indien objecten bewegen, schuiftmen eenvoudig de textuur op. Tot slot treden er soms ookbruuske overgangen op (bijvoorbeeld in een dialoog wanneerwe naar een andere persoon kijken). In dat geval voegt meneen I-frame in. Dit laatste is te vergelijken met saccadischebewegingen van het oog: op dat moment wordt het visueelbewegingssysteem van de hersenen tijdelijk uitgeschakeld.

6 Conclusie

We merken dat er een zekere gelijkenis bestaat tussen hoehet JPEG-compressiealgoritme een afbeelding comprimeert,en hoe het oog en het brein een afbeelding analyseert. Eenmogelijke rede dat het brein ook deze vormen van compressielijkt toe te passen, is het reduceren van irrelevante informa-tie en het versnellen van de interpretatie van de afbeeldingenop de retina.

Daarnaast is er ook een omgekeerde beınvloeding: mentracht de werking van de hersenen te analyseren om de in-formatie die toch niet zal verwerkt worden uit het bestandte kunnen filteren zonder dat men dit opmerkt.

Algemeen kunnen we dus stellen dat er parallellen bestaantussen JPEG/MPEG en de verwerking van informatie doorhet oog/hersenen. De vraag is in hoeverre deze parallellenbewust werden getrokken.

Referenties

[1] Goldstein, E.B. Sensation and Perception. Avai-lable Titles CengageNOW Series. Wadsworth CengageLearning, 2009.

2