TIK_Pred-04_2014-15.pdf

Dravni Univerzitet NOVI PAZAR

2014/2015

Dr. Ivan OKI

TEORIJA INFORMACIJA

LEKCIJA 4: Teorija informacija i kodiranje izvora

TEORIJA INFORMACIJA

Digitalni kanal za prenos informacija

TEORIJA INFORMACIJA

Kodiranje izvora

Kodiranje izvora je efikasna reprezentacija podataka koje

generie izvor.

Za efikasno kodiranje izvora neophodno je znanje o statistikim karakteristikama izvora.

Ako su neki simboli koje alje izvor verovatniji od drugih, njima se dodeljuju kratke kodne rei, dok se retkim simbolima dodeljuju duge kodne rei.

TEORIJA INFORMACIJA

Kodiranje izvora

Neka diskretan izvor proizvede K razliitih simbola sk i neka koder izvora konvertuje simbole u blokove 0 i 1, oznaene kao bk

Pretpostavimo da se k-ti simbol sk pojavljuje sa verovatnoom pk , k=0,1..K-1. Neka binarne kodne rei dodeljene simbolima sk imaju duinu lk (bita). Tada je srednja duina kodne rei kodera izvora:

TEORIJA INFORMACIJA

Kodiranje izvora

Neka Lmin doznaava najmanju moguu duinu kodne rei. Tada je efikasnost kodera izvora definisana kao:

TEORIJA INFORMACIJA

Kompresija podataka

Kompresija podataka je vana zato to generisani signali, koji se prenose kroz komunikacioni kanal, sadre znaajnu koliinu vika informacija i uzalud troe resurse prilikom prenosa.

Za efikasan prenos viak informacije treba ukloniti pre prenosa kroz komunikacioni kanal.

Kompresija podataka se postie dodeljivanjem kratkih oznaka najfrekventnijim dogaajima na izlazu izvora, a duih oznaka onim manje frekventnim.

Neke eme kodiranja izvora za kompresiju podataka su: Prefiks kodiranje (trenutno kodiranje)

Hafmenovo kodiranje (The Huffman Coding) Lempel-Zivovo kodiranje (The Lempel-Ziv Coding)

TEORIJA INFORMACIJA

Prefiks kodiranje

Prefiks kodiranje znai da ni jedna kodna re nije prefiks neke druge kodne rei

Primer:

Simbol

izvora

Verovatnoa simbola

Kod I Kod II Kod III

s0 0.5 0 0 0

s1 0.25 1 10 01

s2 0.125 00 110 011

s3 0.125 11 111 0111

TEORIJA INFORMACIJA

Da li je kod I prefiks kod?

Nije! Bit nula je kodna re simbola s0, ali je i prefiks 00, kodne rei simbola s2 . Bit 1, kodna re za s1, takoe je i prefiks u11, kodnoj rei simbola s3.

Da li je kod II prefiks kod?

DA!

Da li je kod III prefiks kod? NE!

Prefiks kod ima znaajnu karakteristiku on je uvek jednoznano dekodabilan.

Simbol

izvora

Verovatnoa simbola

Kod I Kod II Kod III

s0 0.5 0 0 0

s1 0.25 1 10 01

s2 0.125 00 110 011

s3 0.125 11 111 0111

Prefiks kodiranje

TEORIJA INFORMACIJA

Prefiks kodiranje primer

Simbol

izvora

Kod I Kod II Kod III Kod IV

s0 0 0 0 00

s1 10 01 01 01

s2 110 001 011 10

s3 1110 0010 110 110

s4 1111 0011 111 111

Koji je prefiks kod?

Kodovi I i IV.

x x

TEORIJA INFORMACIJA

Hafmenovo kodiranje primer prefiks kodiranja

Osnovna ideja: Svakom simbolu dodeliti sekvencu bita priblino jednaku po duini koliini informacije koju prenosi.

Hafmenov algoritam kodiranja:

Korak 1: Simbole izvora izlistati po opadajuoj verovatnoi pojavljivanja. Dva simbola sa najmanjom verovatnoom oznaiti sa 0 i 1; Korak 2: Prethodna dva simbola smatrati kao jedan, ija je verovatnoa pojavljivanja jednaka sumi dve originalne verovatnoe. Verovatnou novog simbola postaviti na listu prema dobijenoj vrednosti;

Procedura se ponavlja sve dok se lista ne svede samo na dva simbola

kojima se dodeljuju 0 i 1. Kodna re za svaki simbol se odreuje idui unazad, pratei jedinice i nule koje su dodeljene simbolima ili njihovim naslednicima.

TEORIJA INFORMACIJA

Hafmenovo kodiranje primer

Korak 1: Simboli izvora su izlistani sa opadajuom verovatnoom. Dva simbola sa najmanjom verovatnoom oznaeni su sa 0 i 1; Korak 2: Simboli iz koraka 1 su kombinovani u novi simbol, sa verovatnoom 0.2 (suma originalnih verovatnoa); Verovatnoa novog simbola je postavljena na odgovarajue mesto. Procedura se ponavlja sve dok se lista ne svede samo na 2 simbola, kojima se

dodeljuju 0 i 1. Kodna re se odreuje idui unazad, pratei sekvencu nula i jedinica do svakog poetnog simbola izvora.

TEORIJA INFORMACIJA

Hafmenovo kodiranje srednja duina koda

Lsrednje = 0.4(2) + 0.2(2) + 0.2(2) + 0.1(3) + 0.1(3)

= 2.2

TEORIJA INFORMACIJA

Osobine Hafmenovog kodiranja

Hafmenovo kodiranje koristi due kodne rei za simbole sa manjom verovatnoom pojavljivanja, a krae za one simbole koji se ee pojavljuju na izlazu izvora;

Dve najdue kodne rei razlikuju se samo u poslednjem bitu;

Kodne rei su prefiks kodirane i jednoznano dekodabilne;

Za srednju duinu rei vai

H Lsrednje < H + 1

TEORIJA INFORMACIJA

Proireno Hafmanovo kodiranje

Hafmenovo kodiranje nije efikasno u sluajevima kada izvor ima mali alfabet simbola, i kada se

verovatnoe pojavljivanja simbola znaajno razlikuju.

Primer:

Neka izvor ima 2 simbola, a i b. Neka je P(a) = 0.9

and P(b) = 0.1

Tada je H = 0.4690

Za Hafmenovo kodiranje srednja duina rei je 1

(to je daleko od optimuma!).

TEORIJA INFORMACIJA

Kodiranje se moe vriti za grupu simbola, ime e se postii bolje performanse

Ako se za prethodni primer proiri lista simbola i proireni izvor ima novu listu simbola {aa, ab, ba, bb}, tada je:

P(aa) = P(a)*P(a) = 0.81 => 1

P(ab) = P(a)*P(b) = 0.09 => 00

P(bb) = P(b)*P(b) = 0.09 => 011

P(bb) = P(a)*P(b) = 0.01 => 010

Tada je srednja duina kodne rei po simbolu 0.6450 (mnogo bolje!).


TEORIJA INFORMACIJA

1223231212

P(1) = 0.3 p(2) = 0.5 P(3) = 0.2

Kodne rei: 1 -> 10 2 -> 0 3-> 11

Lsrednje = 2 * 0.3 + 1 * 0.5 + 2 * 0.2 = 1.5

P(12) = 0.6 P(23) = 0.4

Kodne rei: 12 -> 0 23 -> 1

Lsrednje = (1 * 0.6 + 1 * 0.4)/2 = 0.5

U drugom sluaju je srednja duina kodne rei manja od entropije jednog simbola 1. Da li je to u redu?


TEORIJA INFORMACIJA

Teorija informacija

i

multimedijalni sistemi

TEORIJA INFORMACIJA

ta je multimedija?

Multimedija (Multimedia) nema striktnu definiciju;

U kontekstu ovog kursa multimedija ukazuje na raunarsku tehnologiju (multimedia computing) koja se koristi za efikasniju komunikaciju korienjem razliitih vrsta medija :

Tekst

Audio i govor

Slike

Grafika

Video

TEORIJA INFORMACIJA

Multimedijalni sistem

Multimedija ukljuuje mnogo vie od jednostavnog dodavanja novih vrsta podataka;

Multimedija integrie irok spektar modova simbola u jedan povezan, koherentan okvir;

Taj okvir se obino naziva multimedijalni sistem.

TEORIJA INFORMACIJA

Izazovi multimedijalnog raunarskog sistema

Razvoj uspenog multimedijalnog sistema nije trivijalan:

Kontinualne vrste multimedija, kao to je video na primer, trae puno prostora za pamenje i uvanje i irok propusni opseg za prenos;

Vana su i striktna vremenska ogranienja i sinhronizacija;

Automatska organizacija, indeksiranje i analiza kod videa i slika znatno je tee nego kod teksta;

Multimedijalni sistemi ukljuuju istraivanje u mnogim oblastima i zahtevaju kompleksne i efikasne algoritme i

raunarske platforme.

TEORIJA INFORMACIJA

Multimedijalni sistem je multidisciplinaran

Obrada

slike i

zvuka

Raunarsko generisanje slike,

prepoznavanje

oblika

Raunari, mree, operativni

sistemi

Interakcija

ovek-raunar Raunarska grafika

Multimed.

raunanje

TEORIJA INFORMACIJA

Multimedijalni sistem primer

Photosynth of Microsoft Live Labs.

TEORIJA INFORMACIJA

Multimedijalni raunarski sistem tehnike

Multimedijalni sistemi koriste neke bazine tehnike:

Multimedijalna reprezentacija i kompresija podataka;

Multimedijalna obrada i analiza podataka;

Prenos multimedijalnih podataka kroz raunarske i komunikacione mree;

Multimedijalne baze podataka, pretraivanje i indeksiranje.

TEORIJA INFORMACIJA

Kompresija podataka

Sirova slika zauzima oko 6M bytes

(bez zaglavlja) 24K bytes u formatu JPEG, Q=50

TEORIJA INFORMACIJA

Ilustracija kompresije podataka JPEG

r g b transform.

u frekventni

domen

kvantizacija

kompresija bez gubitaka

0010001 .

dekodovanje

r g b

u v

0

10

20

30

40

50

60

0

10

20

30

40

50

60

0

1

2

x

y

|dct(b-0.5)|

TEORIJA INFORMACIJA

Kompresija podataka

Metode kompresije podataka su kljune za multimedijalne aplikacije;

Sirovi multimedijalni podaci zauzimaju mnogo prostora i propusnog opsega:

Sirov video sa 30 slika/sec, rezolucijom 640x480 piksela, i bojom definisanom sa 24bita

Za 1 sec videa treba 30 * 640 * 480 * 3 = 27.6480 Mbytes

Za 1 sat videa treba oko100 Gbytes

TEORIJA INFORMACIJA

Kompresija podataka pojmovi

Koder

(kompresija )

Memorija

ili mrea Dekoder

(dekompresija)

Podaci-ulaz

(sekvenca simbola iz

alfabeta )

Podaci-izlaz (rekonstruisana

ulazna sekvenca)

Kompresija bez gubitaka: rekonstruisani podaci jednaki ulaznim

Kompresija sa gubicima: rekonstruisani podaci aproksimiraju ulazne

Kompresioni odnos = (broj bita za prezentaciju ulaza) /

(broj bita koda)

Kod (sekvenca kodnih rei )

Izvor

informacije

TEORIJA INFORMACIJA

Kompresija podataka entropija

Broj bita neophodan da se kodira izvor sa donje strane je ogranien entropijom izvora;

Samoinformacija dogaaja A definisana je

-logbP(A)

gde je P(A) verovatnoa dogaaja A

Ako je b jednako 2, jedinice su bits

Ako je b jednako e, jedinice su nats

Ako je b jednako 10, jedinice su hartleys

TEORIJA INFORMACIJA

Kompresija podataka primer entropije

Izvor ima alfabet od 2 simbola, 0 i 1. Verovatnoe pojavljivanja simbola su P(0) = 0.25, P(1) = 0.75

Informacija koja se dobije pri prijemu simbola 0 je

log2(1/0.25) = 2 bita ;

Informacija koja se dobije pri prijemu simbola 1 je

log2(1/0.75) = 0.4150 bita .

TEORIJA INFORMACIJA

Osobine samoinformacije (Self Information)

Simbol sa manjom verovatnoom ima veu samoinformaciju;

Informacija koja se dobije pri prijemu 2 nezavisna simbola jednaka je sumi samoinformacija ta dva

simbola

-log2P(sa,sb)

= -log2P(sa)P(sb)

= [-log2P(sa)] + [- log2P(sa)]

TEORIJA INFORMACIJA

Entropija izvora

Ako izvor ima simbole {s1, s2, , sn}, i ako su simboli nezavisni, onda je srednja samoinformacija

H = 1n P(si)log2(1/P(si)) [bits]

H se naziva entropija izvora

Broj bita po simbolu neophodnih za kodiranje multimedijalnog izvora sa donje strane je ogranien njegovom entropijom.

TEORIJA INFORMACIJA

Izvor ima alfabet od 2 simbola, 0 i 1. Verovatnoe pojavljivanja simbola na izlazu izvora su

P(0) = 0.25, P(1) = 0.75.

Entropija je:

H = 0.25 log2(1/0.25) + 0.75 log2(1/0.75)

= 0.8113 bits

Za ovaj izvor neophodno je najmanje 0.8113 bita po simbolu

za njegovo kodiranje.

Entropija izvora - primer

TEORIJA INFORMACIJA

Entropija slike - primer

Neka slika ima 256 moguih nivoa sivog: A={0, 1, 2, , 255}. Pretpostavljajui da su pikseli slike nezavisni i da svaki nivo sivog slike ima jednaku verovatnou, entropija slike je

H = 256 1/256 log2(1/256) = 8 bita

ta je sa crno-belom slikom koja ima samo 2 nivoa 0 i 255? Pretpostavljajui da je P(0) = 0.5 i P(255) = 0.5

H = 1 bit

TEORIJA INFORMACIJA

Procena entropije

a a a b b b b c c c c d d

P(a) = 3/13

P(b) = 4/13

P(c) = 4/13

P(d) = 2/13

Entropija: H = [-P(a)log2P(a)] + [-P(b)log2P(b)] + [-P(c)log2P(c)] + [-P(d)log2P(d)] = 1.95 bita

Ako su simboli statistiki nezavisni, onda je:

TEORIJA INFORMACIJA

eme kodiranja

Alfabet izvora: A = {s1, s2, s3, s4}

P(s1) = 0.125

P(s2) = 0.125

P(s3) = 0.25

P(s4) = 0.5

s1

s2

s3

s4 0

1 11

01 s1

s2

s3

s4 0

10 111

110 s1

s2

s3

s4 0

0 11

10

Entropija izvora H = 1.75 bita

Nisu jednoznano dekodabilni! Dobar kod, dostignuta

donja granica

TEORIJA INFORMACIJA

Kompresija podataka sa gubicima

Osim kompresije bez gubitaka, moe se i dalje redukovati broj bita koji predstavljaju multimedijalni

sadraj. To se postie odbacivanjem nepotrebne informacije.

Medijski sadraji, kao to su slike, audio i video mogu se modifikovati bez ozbiljne redukcije kvaliteta.

Standardi kompresije multimedijalnih podataka su JPEG, MPEG, itd.

TEORIJA INFORMACIJA

Metode odbacivanja informacije

Smanjivanje rezolucije

Originalna slika Rezolucija smanjena na 1/2

TEORIJA INFORMACIJA

Redukcija nivoa boje piksela

Smanjenje nivoa boje na Originalna slika

Metode odbacivanja informacije

TEORIJA INFORMACIJA

Oteenje informacije (distortion)

Oteenje informacije: mera razlike izmeu kodiranih i originalnih multimedijalnih podataka. Moe se iskazati kroz sledee parametre:

Srednja kvadratna greka (MSE - Mean Square Error)

mean( ||xorig xdecoded||2)

Odnos signal-um (SNR - Signal to Noise Ratio)

SNR = 10log10(Signal_Power/MSE) (dB)

TEORIJA INFORMACIJA

Funkcija oteenja informacija

Funkcija oteenja informacije pokazuje odnos izmeu dozvoljenog oteenja informacije i minimalnog protoka

informacije po simbolu iz izvora. Ako

oteenje nije dozvoljeno (D=0), onda po simbolu treba preneti koliinu informacija jednaku entropiji, R(0)=H. Ako je

dozvoljeno oteenje Dmax, onda ne postoji potreba ni za kakvim prenosom.

D

R(D)

0 Dmax

H

R(0)=H

TEORIJA INFORMACIJA

Odabiranje, kvantizacija

Preslikava kontinualan ili diskretan set vrednosti u manji set vrednosti;

Osnovni metod je da se odbaci deo informacije;

Kvantizacija se moe koristiti za skalare (pojedinane brojeve) ili vektore (nekoliko brojeva zajedno);

Posle kvantizacije moe se direktno generisati kod fiksne duine.

TEORIJA INFORMACIJA

Uniformna skalarna kvantizacija

xmin xmax

D =(xmax - xmin)/N

Granice odluivanja Kvantizaciona vrednost

Pretpostavimo da se x nalazi u opsegu [xmin, xmax]. Opseg

se deli na N uniformnih regiona bez preklapanja. Tada je

kvantizacioni korak D :

Kvantizator (odabira) Q(x) mapira vrednost x u kvantizacionu vrednost regiona kojoj pripada trenutna vrednost x.

TEORIJA INFORMACIJA

Greka kvantizacije

Da bi se minimizirala vrednost greke kvantizaciona vrednost treba da bude na sredini intervala odluivanja;

Ako je x sluajna promenljiva, onda je Q(x) uniformno distribuirano u intervalu [-D/2, D/2] .

xn xn+1

Greka kvantizacije

x Kvantizaciona

vrednost

TEORIJA INFORMACIJA

Kvantizacija kodne rei

xmin xmax

Kvantizaciona vrednost moe da odgovara binarnoj kodnoj rei. U gornjem primeru, kodna re odgovara indeksu svake kvantizacione vrednosti.

000 001 010 011 100 101

TEORIJA INFORMACIJA

Grejov kod (Gray code)

xmin xmax

000 001 011 010 110 111

Kodne rei se razlikuju samo za 1 bit od susednih kodnih rei. Grejov kod je otporniji na greke od prirodnog binarnog koda.

TEORIJA INFORMACIJA

Vrednost jednog bita

Ako je broj kvantizacionih intervala N, onda je potrebno log2(N) bita da bi se predstavile sve kvantizacione vrednosti

Za uniformno distribuirano x, odnos signal - um (SNR) za Q(x) je proporcionalno sa 20log(N) = 6.02n, gde je N=2n

Broj bita

dB

1 bit vie

oko 6db dobitak (gain)

TEORIJA INFORMACIJA

Neuniformni odabira (kvantizator)

Za audio i vizuelne podatke tolerancija oteenja je proporcionalna veliini signala.

Zato se kvantizacioni korak D moe uiniti proporcionalnim nivou signala

Ako distribucija signala nije uniformna, takoe treba primeniti

neuniformni korak kvantizacije.

0

Doivljeno oteenje ~ D / s

TEORIJA INFORMACIJA

Vektorsko odabiranje

Region odluivanja Kvantizaciona

vrednost

TEORIJA INFORMACIJA

Kompresija slike primer

Siva slika (Grayscale Image)

227878 bytes

Diferencijalna slika

Pri kompresiji slike bez gubitaka esto se koristi metod predikcije.

TEORIJA INFORMACIJA

Kod Siva slika (bytes) Diferencijalna slika (bytes)

Huffman coding: 192163 129397

Arithmetic coding: 190212 127220

LZ77 coding (gzip): 151685 128252

LZW (compress): 158573 136899

Entropija

H = 4.4314

Entropija

H = 6.6483

Kompresija slike primer

TEORIJA INFORMACIJA

Kompresija slike JPEG standard

TEORIJA INFORMACIJA

JPEG standard mere kompresije

binarne slike 2 bita/pikselu,

raunarska grafika 4 bita/pikselu, grayscale slike 8 bita/pikselu,

slike u boji 16, 24 ili vie bita/pikselu

Stepen kompresije:

Broj bita po pikselu u komprimovanoj slici:

Srednjekvardratna

greka:

TEORIJA INFORMACIJA

Kompresija slike primer JPEG

Originalna slika 500362 piksela i

kodovana sa 8 bita/pikselu Slika komprimovana 4 puta

Slika komprimovana 10 puta Slika komprimovana 22 puta

TEORIJA INFORMACIJA

Kompresija slike primer JPEG

TEORIJA INFORMACIJA

TIK_Pred-04_2014-15.pdf

Documents

Transcript of TIK_Pred-04_2014-15.pdf