Esercizi Modulo Teoria Dgergell'Informazione

20
U NIVERSIT ` A DEGLI S TUDI DI S ALERNO Esercizi di: Teoria e Tecnica delle Telecomunicazioni Prof. Stefano Marano - ottobre 2015 - ESERCIZIO 1 Si consideri un canale DMC, con probabilit` a di transizione ingresso-uscita rappresentata dalla matrice P = 0 @ 0.1 0.5 0.4 0.5 0.4 0.1 0.4 0.1 0.5 1 A con l’interpretazione che gli alfabeti di ingresso e di uscita coincidono, X = Y = {1, 2, 3}, e che l’elemento di posto (i, j ) rappresenta la probabilit` a di osservare in uscita Y = j dato che l’ingresso ` e X = i (con i, j =1, 2, 3). Calcolare la capacit` a del canale e stabilire qual ` e la distribuzione degli ingressi che rende massima la mutua informazione I (X, Y ). ——————————————————————————————————————————————————— ESERCIZIO 2 Si considerino due sorgenti di informazione S 1 e S 2 , indipendenti tra loro. La sorgente S 1 emette simboli X i iid in accordo alla pmf P X (n)= p n (1 - p) 1-n , con n =0, 1. Similmente, la sorgente S 2 produce simboli Y i iid in accordo alla pmf P Y (n)= p(1 - p) n , n =0, 1, 2,... . Si assuma 0 <p< 1. Il flusso totale di informazione prodotto dalle due sorgenti deve essere trasmesso su un canale discreto, binario, simmetrico e senza memoria, la cui probabilit` a di errore vale . a) Determinare quale delle due sorgenti produce una maggiore quantit` a di informazione. b) Stabilire le relazioni (anche solo in forma implicita) che devono sussistere tra p ed affinch` e sia possibile progettare il sistema di trasmissione con probabilit` a di errore piccola a piacere. ——————————————————————————————————————————————————— ESERCIZIO 3 Siano X e Y due variabili aleatorie con alfabeti, rispettivamente, X = {x 1 ,x 2 ,...,x N } e Y = {y 1 ,y 2 ,...,y M }. Sia, inoltre, Z = X + Y . a. Mostrare che H(Z |X)= H(Y |X). b. Nell’ipotesi che X e Y siano indipendenti, mostrare che H(Y ) H(Z ) e H(X) H(Z ). c. Fornire un esempio in cui H(Z )= H(X)+ H(Y ). SOLUZIONE a. H(Z |X = x i )= H(Y |X = x i ), i =1,...,N ) H(Z |X)= H(Y |X). b. H(Z ) H(Z |X)= H(Y |X)= H(Y ), e similmente si ottiene H(Z ) H(X). c. Siano X e Y indipendenti e si consideri il seguente esempio: N = |X | = M = |Y| =2, con x 1 =0,x 2 =1, y 1 =2,y 2 =4. In questo caso, sapere che Z =2 implica che X =0,Y =2; similmente Z =4 ) X =0,Y =4; Z =3 ) X =1,Y =4; Z =5 ) X =1,Y =4. In questo caso, l’incertezza su Z equivale alla somma delle incertezze su X e Y , e ci` o accade ogniqualvolta ogni valore di Z si ottiene in uno e un sol modo dai valori di X e di Y , quindi svelare il valore di Z equivale a svelare sia il valore di X che il valore di Y . ——————————————————————————————————————————————————— ESERCIZIO 4 a. Si definisca la divergenza D (P 1 ||P 0 ) tra le due pmf P 1 e P 0 ; b. si dimostri che D (P 1 ||P 0 ) 0, e che D (P 1 ||P 0 )=0 se e solo se P 1 P 0 ; c. si definisca la divergenza D (f 1 ||f 0 ) tra due le pdf f 1 e f 0 ; d. la divergenza D (f 1 ||f 0 ) gode della medesima interpretazione fisica che si attribuisce a D (P 1 ||P 0 )? e. si calcoli D (f 1 ||f 0 ) nel caso in cui f 1 N (μ, σ 2 ) e f 0 N (0, σ 2 ). ——————————————————————————————————————————————————— ESERCIZIO 5 a. Si calcoli l’informazione mutua I (X, Y ) assumendo X N (0, σ 2 ) e Y N (0, σ 2 ), evidenziandone la dipendenza dal coefficiente di correlazione = E[XY ]/σ 2 .

description

egrg

Transcript of Esercizi Modulo Teoria Dgergell'Informazione

Page 1: Esercizi Modulo Teoria Dgergell'Informazione

UNIVERSITA DEGLI STUDI DI SALERNO

Esercizi di: Teoria e Tecnica delle Telecomunicazioni

Prof. Stefano Marano

- ottobre 2015 -

ESERCIZIO 1 Si consideri un canale DMC, con probabilita di transizione ingresso-uscita rappresentata dalla matrice

P =

0

@0.1 0.5 0.40.5 0.4 0.10.4 0.1 0.5

1

A

con l’interpretazione che gli alfabeti di ingresso e di uscita coincidono, X = Y = {1, 2, 3}, e che l’elemento di posto (i, j)rappresenta la probabilita di osservare in uscita Y = j dato che l’ingresso e X = i (con i, j = 1, 2, 3). Calcolare la capacitadel canale e stabilire qual e la distribuzione degli ingressi che rende massima la mutua informazione I(X,Y ).———————————————————————————————————————————————————

ESERCIZIO 2 Si considerino due sorgenti di informazione S1

e S2

, indipendenti tra loro. La sorgente S1

emette simboli Xi

iid in accordo alla pmf PX(n) = pn(1 � p)1�n, con n = 0, 1. Similmente, la sorgente S2

produce simboli Yi iid in accordoalla pmf PY (n) = p(1�p)n, n = 0, 1, 2, . . . . Si assuma 0 < p < 1. Il flusso totale di informazione prodotto dalle due sorgentideve essere trasmesso su un canale discreto, binario, simmetrico e senza memoria, la cui probabilita di errore vale ✏.

a) Determinare quale delle due sorgenti produce una maggiore quantita di informazione.b) Stabilire le relazioni (anche solo in forma implicita) che devono sussistere tra p ed ✏ affinche sia possibile progettare il

sistema di trasmissione con probabilita di errore piccola a piacere.———————————————————————————————————————————————————

ESERCIZIO 3 Siano X e Y due variabili aleatorie con alfabeti, rispettivamente, X = {x1

, x2

, . . . , xN} e Y = {y1

, y2

, . . . , yM}.Sia, inoltre, Z = X + Y .

a. Mostrare che H(Z|X) = H(Y |X).b. Nell’ipotesi che X e Y siano indipendenti, mostrare che H(Y ) H(Z) e H(X) H(Z).c. Fornire un esempio in cui H(Z) = H(X) +H(Y ).

SOLUZIONEa. H(Z|X = xi) = H(Y |X = xi), i = 1, . . . , N ) H(Z|X) = H(Y |X).b. H(Z) � H(Z|X) = H(Y |X) = H(Y ), e similmente si ottiene H(Z) � H(X).c. Siano X e Y indipendenti e si consideri il seguente esempio: N = |X | = M = |Y| = 2, con x

1

= 0, x2

= 1, y1

= 2, y2

= 4.In questo caso, sapere che Z = 2 implica che X = 0, Y = 2; similmente Z = 4 ) X = 0, Y = 4; Z = 3 ) X = 1, Y = 4;Z = 5 ) X = 1, Y = 4. In questo caso, l’incertezza su Z equivale alla somma delle incertezze su X e Y , e cio accadeogniqualvolta ogni valore di Z si ottiene in uno e un sol modo dai valori di X e di Y , quindi svelare il valore di Z equivalea svelare sia il valore di X che il valore di Y .———————————————————————————————————————————————————

ESERCIZIO 4a. Si definisca la divergenza D (P

1

||P0

) tra le due pmf P1

e P0

;b. si dimostri che D (P

1

||P0

) � 0, e che D (P1

||P0

) = 0 se e solo se P1

⌘ P0

;c. si definisca la divergenza D (f

1

||f0

) tra due le pdf f1

e f0

;d. la divergenza D (f

1

||f0

) gode della medesima interpretazione fisica che si attribuisce a D (P1

||P0

)?e. si calcoli D (f

1

||f0

) nel caso in cui f1

⇠ N (µ,�2

) e f0

⇠ N (0,�2

).———————————————————————————————————————————————————

ESERCIZIO 5a. Si calcoli l’informazione mutua I(X,Y ) assumendo X ⇠ N (0,�2

) e Y ⇠ N (0,�2

), evidenziandone la dipendenzadal coefficiente di correlazione ⇢ = E[XY ]/�2.

Page 2: Esercizi Modulo Teoria Dgergell'Informazione

b. Si calcoli la divergenza D(X||Y ) assumendo X ⇠ N (µ,�2

) e Y ⇠ N (0,�2

), evidenziandone la dipendenza dalrapporto � = µ/�.

SOLUZIONE Si ricordi l’espressione della pdf congiunta di due variabili aleatorie gaussiane (in generale, non indipendenti):

fXY (x, y) =1

2⇡�x�y

p1� ⇢2

exp

⇢� 1

2(1� ⇢2)

(x� µx)

2

�2

x

� 2⇢(x� µx)(y � µy)

�x�y+

(y � µy)2

�2

y

��

La soluzione richiede poi solo calcolo, agevolato dal riconoscere la definizione di varie medie statistiche.———————————————————————————————————————————————————

ESERCIZIO 6 Una sorgente di informazione S emette i simboli 0 e 1 in accordo alla pmf P (n) = pn(1�p)1�n, con n = 0, 1.Detta sorgente deve essere trasmessa sul canale C rappresentato in figura.

a. Calcolare l’entropia di S , in funzione del parametro p.b. Calcolare la capacita del canale C, in funzione del parametro a.c. Disegnare sul piano (p, a) la regione accessibile, con cio intendendo l’insieme delle coppie (p, a) tali da rendere possibile

la trasmissione dell’informazione sul canale, garantendo probabilita di errore piccola a piacere.

1-a

1-a

a

a

0

1

0

1

err

SOLUZIONEH(S) = Hb(p); C = 1� a; ) a < 1�Hb(p).

———————————————————————————————————————————————————

ESERCIZIO 7 Sia X ⇠ p(x) una variabile aleatoria definita sull’ alfabeto X = {1, 2, . . . ,m}, e sia S ✓ X . Sia inoltre Y unavariabile Bernoulliana che assume valore Y = 1 se e solo se X 2 S, e si denoti con ↵ la probabilita che cio accada. Calcolarela riduzione di incertezza H(X)�H(X|Y ).

SOLUZIONEP(Y = 1) = P(X 2 S) = ↵. Sia pi = P(X = i), i 2 X . Si ha allora

P(X = k|Y = 1) =

P(Y = 1|X = k) pk↵

=

8><

>:

pk↵

k 2 S

0 k 62 S

e

P(X = k|Y = 0) =

P(Y = 0|X = k) pk1� ↵

=

8><

>:

0 k 2 S

pk1� ↵

k 62 S

DunqueH(X|Y = 1) = �

X

k2S

pk↵

log

pk↵

H(X|Y = 0) = �X

k 62S

pk1� ↵

log

pk1� ↵

H(X|Y ) = �↵X

k2S

pk↵

log

pk↵

� (1� ↵)X

k 62S

pk1� ↵

log

pk1� ↵

= H(X) +

X

k2S

pk log↵+

X

k 62S

pk log(1� ↵) = H(X) + ↵ log↵+ (1� ↵) log(1� ↵)

= H(X)�Hb(↵) ) I(X;Y ) = H(X)�H(X|Y ) = Hb(↵)

Page 3: Esercizi Modulo Teoria Dgergell'Informazione

Esiste un metodo piu rapido per giungere allo stesso risultato? Notiamo che I(X;Y ) = H(X) � H(X|Y ) = H(Y ) �H(Y |X) = H(Y ), poiche H(Y |X) = 0. Inoltre H(Y ) = Hb(↵) e si ottiene immediatamente H(X)�H(X|Y ) = Hb(↵).———————————————————————————————————————————————————

ESERCIZIO 8 Calcolare la capacita del canale DMC rappresentato in figura, con alfabeto di ingresso binario e alfabeto diuscita ternario.

X0

X1

Z0

Z1

1-a

1-a

a

a

Y0

Y1

Ye

1-b

1-b

b

b

———————————————————————————————————————————————————

ESERCIZIO 9 Sia X1

! X2

! X3

! · · · ! XN una catena Markoviana. X1

e X2

rappresentano l’ingresso e l’uscita di unprimo canale di comunicazione la cui capacita vale C

1

; similmente, X2

e X3

rappresentano l’ingresso e l’uscita di un secondocanale di comunicazione (in cascata al primo), la cui capacita vale C

2

, e cosı via. Sia inoltre C la capacita del canale coningresso X

1

e uscita XN . Dimostrare che C min{C1

, C2

, . . . , CN�1

} e commentare brevemente.———————————————————————————————————————————————————

ESERCIZIO 10 Si consideri un canale binario asimmetrico in cui le due probabilita di transizione sono ✏ e �. Determinare ladistribuzione (p, 1� p) dei simboli binari di ingresso che massimizza l’informazione mutua tra l’ingresso e l’uscita del canale.———————————————————————————————————————————————————

ESERCIZIO 11 Si consideri il canale DMC (X , p(y|x),Y) descritto dalla relazione ingresso-uscita Y = X + Z, con Zvariabile aleatoria binaria che assume, con uguale probabilita, i valori 0 e a, con a 2 <. L’alfabeto di ingresso e X = {0, 1}, ele variabili X e Z sono indipendenti. Calcolare, per ogni possibile valore del parametro a, la capacita del canale e la relativadistribuzione degli ingressi che massimizza I(X,Y ).———————————————————————————————————————————————————

ESERCIZIO 12 Si consideri un canale di comunicazione X ! Y definito dalla tripla (X , h(y|x),Y), con X e Y insiemi acardinalita finita. Si considerino inoltre due possibili distribuzioni (pmf) dell’ingresso X , siano esse P

0

(x) e P1

(x), x 2 X , ele corrispondenti distribuzioni dell’uscita Y , siano esse Q

0

(y) e Q1

(y), y 2 Y .a. Si mostri che la divergenza tra le due distribuzioni in uscita puo essere posta nella forma

D (Q0

||Q1

) =

X

y2Y

" X

x2XP0

(x)h(y|x)!log

Px2X P

0

(x)h(y|x)Px2X P

1

(x)h(y|x)

#

b. Si dimostri cheD (Q

0

||Q1

) D (P0

||P1

) (1)

(Suggerimento: facendo ricorso ad una nota disuguaglianza, si elabori dapprima sulla quantita in parentesi quadranell’equazione precedente.)c. (Facoltativo) Si commenti la rilevanza del risultato (1) in termini delle prestazioni asintotiche di un opportuno testdi ipotesi binario.

SOLUZIONEa. Si ha, ovviamente,

Q0

(y) =X

x2Xh(y|x)P

0

(x), Q1

(y) =X

x2Xh(y|x)P

1

(x), 8y 2 Y

Page 4: Esercizi Modulo Teoria Dgergell'Informazione

e dunque, utilizzando la disuguaglianza log-sum,

D (Q0

||Q1

) =

X

y2YQ

0

(y) logQ

0

(y)

Q1

(y)=

X

y2Y

"X

x2Xh(y|x)P

0

(x) log

Px2X h(y|x)P

0

(x)Px2X h(y|x)P

1

(x)

#

�X

y2Y

"X

x2X

✓h(y|x)P

0

(x) logh(y|x)P

0

(x)

h(y|x)P1

(x)

◆#=

X

x2X

✓P0

(x) logP0

(x)

P1

(x)

◆X

y2Yy(y|x)

=

X

x2X

✓P0

(x) logP0

(x)

P1

(x)

◆= D (P

0

||P1

)

La parte c richiede la lettura del Lemma di Stein, paragrafo 12.8, p. 319 del libro di testo:T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.Si vede che le pmf in uscita sono piu vicine delle pmf in ingresso. Si puo in sostanza affermare, quindi, che il testi ipotesiottimo effettuato su dati un uscita ad un canale ha prestazioni (asintotiche) inferiori rispetto al test ottimo effettuato sui datiin ingresso al canale: e una versione del teorema di trattamento dei dati (data processing inequality).———————————————————————————————————————————————————

ESERCIZIO 13 Sia {Xi}1i=1

un processo aleatorio tempo discreto a valori discreti e stazionario in senso lato. Se ne definiscetasso entropico la quantita

T = lim

n!1

1

nH (X

1

, X2

, . . . , Xn)

Definendo inoltre H1

= H(X1

) e, per n > 1, Hn = H(Xn|Xn�1

, Xn�2

, . . . , X1

), si dimostri chea) Hn+1

Hn, 8n � 1;b) esiste il limite H1 = limn!1 Hn;c) 1

nH (X1

, X2

, . . . , Xn) =1

n

Pni=1

Hi;d) (opzionale) T = H1.

Si indichi, infine, quali espressione assumono Hn e H1 nel caso in cui il processo in questione sia anche Markoviano.

SOLUZIONE Questo esercizio puo essere considerato un approfondimento che riguarda la generalizzazione del concetto dientropia a sequenze di variabili non iid. E probabilmente necessaria la lettura del paragrafo 4.2 p. 63-66 del libro di testo:T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.———————————————————————————————————————————————————

ESERCIZIO 14 Si consideri un canale di comunicazione (X , p(y|x),Y) definito dalla matrice di transizione

p(y|x) =

0

BBBBB@

r1

r2

r3

. . . rn�1

rnr2

r3

r4

. . . rn r1

r3

r4

r5

. . . r1

r2

...rn r

1

r2

. . . rn�2

rn�1

1

CCCCCA

dove r = (r1

, r2

, . . . , rn) e un vettore di probabilita (pmf) con entropia H(r).• Calcolare l’informazione mutua ingresso-uscita I(X;Y ).• Calcolare la capacita C del canale.

———————————————————————————————————————————————————

ESERCIZIO 15 Si consideri un canale binario simmetrico (BSC) con alfabeto di ingresso e di uscita X = Y = {0, 1},e con assegnata probabilita di cross-over ✏ < 1/2. Si definisca inoltre una funzione di costo Q : X �! R+ e si assuma,specificamente, che la trasmissione del simbolo X = 1 comporti un costo Q(1) = 1, mentre la trasmissione del simbolo 0 siaa costo nullo, cioe Q(0) = 0. Sia infine p = Pr{X = 1}.

a. Si calcoli la capacita del canale con vincolo sul costo medio dei simboli in ingresso:

C(�) = max

p: E[Q(X)]�I(X;Y ),

b. Si diagrammi qualitativamente l’andamento della funzione C(�) al variare di � 2 (0,1).c. Si stabilisca la relazione sussistente tra C(�) e la classica capacita del BSC.

SOLUZIONEC(�) = max

p: E[Q(X)]�I(X;Y ) = max

p: E[Q(X)]�H(Y )�Hb(✏)

Page 5: Esercizi Modulo Teoria Dgergell'Informazione

Si noti poi che P(Y = 1) = p(1� ✏) + (1� p)✏ = p(1� 2✏) + ✏. Inoltre E[Q(X)] = p, per cui

max

p: E[Q(X)]�H(Y ) = max

p: p�Hb[p(1� 2✏) + ✏]

Dunque,

� <1/2� ✏

1� 2✏) p = � ) C(�) = Hb(�(1� 2✏) + ✏)�Hb(✏) < CBSC(✏)

� � 1/2� ✏

1� 2✏) p =

1/2� ✏

1� 2✏) C(�) = 1�Hb(✏) = CBSC(✏)

———————————————————————————————————————————————————

ESERCIZIO 16 Si calcoli la capacita C(✏) di un canale ternario simmetrico, con alfabeto di ingresso e di uscita X = Y =

{0, 1, 2}, tale che

Pr{Y = i|X = j} =

⇢1� ✏ se i = j✏/2 se i 6= j

con i, j 2 {0, 1, 2}.

SOLUZIONEC(✏) = log

2

(3) � H(1 � ✏, ✏/2, ✏/2), C(0) = log

2

(3) ⇡ 1.585, decrescente per ✏ 2 (0, 2/3), C(2/3) = 0 (uniforme),crescente per ✏ 2 (2/3, 1), C(1) = log

2

(3)� 1 ⇡ 0.585. C(✏) convessa.———————————————————————————————————————————————————

ESERCIZIO 17 Siano X e Y due variabili aleatorie la cui pdf congiunta e

fXY (x, y) =1

2⇡�x�y

p1� ⇢2

exp

⇢� 1

2(1� ⇢2)

x2

�2

x

� 2⇢xy

�x�y+

y2

�2

y

��

a. Si calcoli l’informazione mutua I(X;Y ).b. Si particolarizzi il risultato precedente al caso in cui X ⇠ N (0,�2

x), Z ⇠ N (0,�2

z), con E[XZ] = 0, e con Y = X +Z.c. Si commenti brevemente il risultato ottenuto al passo precedente, alla luce della formula per la capacita di un canale

gaussiano tempo discreto con vincolo sulla potenza di ingresso pari a �2

x.

SOLUZIONEa.: I(X;Y ) = � 1

2

log

�1� ⇢2

�. b.: E[XY ] = E[X(X + Z)] = E[X2

] ) ⇢ = �x/�y ) I(X;Y ) =

1

2

log

⇣1 +

�2x

�2z

⌘. c.:

C = I(X;Y ), argmaxf(x):E[X2]�2

x

I(X;Y ) = N (0,�x).———————————————————————————————————————————————————

ESERCIZIO 18 Sia X una variabile aleatoria con alfabeto finito di arbitraria cardinalita n. La pmf di detta variabile e p inipotesi H

1

, oppure q se vale l’ipotesi H0

:H

1

: X ⇠ pH

0

: X ⇠ q

Denotando con I una variabile aleatoria binaria tale che Pr{I = 1} = 1 � Pr{I = 0} = �, si ha che l’ entropia di Xcondizionata all’evento {I = 1} (cioe all’evento {HI = H

1

}) e quella condizionata all’evento {I = 0} (cioe all’evento{HI = H

0

}) valgono, rispettivamente, H(p) e H(q).a. Calcolare l’entropia condizionata H(X|I).b. Calcolare l’entropia non condizionata H(X).c. Utilizzando le espressioni ricavate nei due precedenti punti, si dimostri la concavita \ dell’entropia.d. Determinare i vettori p⇤ che minimizzano l’entropia H(p) sull’insieme di tutte le pmf p di assegnata dimensionalita n, e

commentare brevemente il risultato alla luce della dimostrata proprieta di concavita dell’entropia.

SOLUZIONEa. H(X|I) = �H(p)+(1��)H(q); b. H(X) = H(�p+(1��)q); c. condizionamento riduce l’entropia: H(X|I) H(X)

, �H(p) + (1 � �)H(q) H(�p + (1 � �)q); d. p⇤ = le n pmf degeneri (v.a. deterministica): una funzione concava ha ilminimo sui punti estremali del set convesso su cui e definita.———————————————————————————————————————————————————

ESERCIZIO 19 Sia C1

la capacita di un BSC con ingresso X , uscita Y , e probabilita di crossover �1

. Sia inoltre C2

lacapacita di ulteriore BSC con ingresso Y , uscita Z, e probabilita di crossover �

2

. Sia C la capacita del canale complessivocon ingresso X e uscita Z.

Page 6: Esercizi Modulo Teoria Dgergell'Informazione

a. Verificare che X ! Y ! Z.b. Sulla base del risultato precedente mostrare che C min{C

1

, C2

}.c. Calcolare le capacita C

1

, C2

, e C, dei canali in questione.d. Assumendo per semplicita �

1

< 1/2 e �2

< 1/2, verificare che il risultato ottenuto al punto c risulta compatibile conquanto ricavato al punto b.

SOLUZIONEa. basta notare che p(z|x, y) = p(z|y);b. Data processing inequality: ) I(X;Z) I(X;Y ) e I(X;Z) I(Y ;Z) ) C = maxp(x) I(X;Z) maxp(x) I(X;Y ) =

C1

e C = maxp(x) I(X;Z) maxp(y) I(Y ;Z) = C2

) C min{C1

, C2

};c. C

1

= 1�Hb(�1

), C2

= 1�Hb(�2

); C = 1�Hb(�), con � = �1

(1� �2

) + �2

(1� �1

) = �1

+ �2

� 2�1

�2

;d. Assumiamo �

1

� �2

, allora � = �1

+ �2

� 2�1

�2

� 2�1

(1 � �2

1

) � �1

e similmente, se �2

� �1

si ha � � �2

)� � max{�

1

,�2

} , C min{C1

, C2

}.———————————————————————————————————————————————————

ESERCIZIO 20 Si consideri un canale binario simmetrico con ingresso X e uscita Y , la cui probabilita di transizione e ✏.Siano inoltre p = Pr{X = 1} e q = Pr{Y = 1}.

a. Dimostrare che H(Y ) � H(X)

b. Dimostrare che la proprieta di cui al punto precedente non e valida, in generale, se il canale binario non e simmetrico.

SOLUZIONEa. q = p(1 � ✏) + (1 � p)✏ = p(1 � 2✏) + ✏ ) se p 1/2 allora p q 1/2; se invece p � 1/2 allora 1/2 < q < p.

In entrambi i casi H(q) � H(p). b. Si consideri un canale binario asimmetrico con transizioni ✏1

e ✏2

, e si consideri il casolimite ✏

1

! 0 ed ✏2

! 1. L’entropia dell’uscita tende a 0, 8p; il risultato segue per continuita.———————————————————————————————————————————————————

ESERCIZIO 21 Utilizzando il metodo del funzionale di Lagrange, si determini la pmf {pk}1k=�1 a massima entropia chesoddisfi il seguente vincolo:

1X

k=�1|k| pk = A

dove A e una costante positiva assegnata.

SOLUZIONEpk = ↵�|k|, con ↵ =

p1 +A2 �A, e � = (

p1 +A2 � 1)/A

———————————————————————————————————————————————————

ESERCIZIO 22 Sia g(x) la densita di probabilita di una variabile aleatoria gaussiana a media nulla e varianza �2. Sia inoltref(x) la densita di probabilita di una generica variabile aleatoria, sempre a media nulla e con varianza �2.

a. Calcolare l’integrale

�Z 1

�1g(x) ln g(x) dx

e dire quale sia il suo significato fisico.b. Giustificare formalmente le seguenti uguaglianze e disuguaglianze

Z 1

�1f(x) ln f(x) dx�

Z 1

�1g(x) ln g(x) dx =

Z 1

�1f(x) ln f(x) dx�

Z 1

�1f(x) ln g(x) dx � 0

c. Avvalendosi dei risultati precedenti, stabilire quale sia la densita di probabilita che massimizza l’entropia nella classe delledensita cui compete media nulla e assegnata varianza �2.

SOLUZIONEa. 0.5 ln(2⇡e�2

), ed e l’entropia di g espressa in nats, diciamo h(g). b. effettuando il conto si vede banalmente cheRf ln g =

Rg ln g = �h(g), la disuguaglianza e la non negativita della divergenza; c. i punti precedenti implicano direttamente

l’asserto.

Page 7: Esercizi Modulo Teoria Dgergell'Informazione

———————————————————————————————————————————————————

ESERCIZIO 23 Si consideri un canale DMC X ! Y con alfabeti di ingresso e di uscita X = Y = {1, 2, 3, 4}. La matricedi transizione del canale M , i cui elementi sono Mij = Pr{Y = j|X = i}, i, j 2 {1, 2, 3, 4}, vale

M =

0

BB@

1� ✏ ✏ 0 0

✏ 1� ✏ 0 0

0 0 1� ✏ ✏0 0 ✏ 1� ✏

1

CCA

a. Si calcoli la capacita del canale in questione, sia essa C(✏).b. Detta CBSC(�) la capacita di un canale BSC con probabilita di crossover pari a �, si determini per quali valori dei

parametri ✏ e � si verifica che CBSC(�) = C(✏).

SOLUZIONEa. C = 2�Hb(✏). b. ✏ = 1/2 e � = 0, 1.

———————————————————————————————————————————————————

ESERCIZIO 24 Una sorgente di informazione emette simboli iid Xi, i = 1, 2, . . . , in accordo alla pmf Pr{X = x} = (1�p)px,con p 2 (0, 1), e con x = 0, 1, 2, . . . ,1.

a. Verificare che il contenuto informativo della sorgente cresce in modo monotono al crescere di p.b. Volendo trasmettere la sorgente su un canale DMC la cui capacita ammonta a 2 bit per ogni uso, stabilire per quali valori

di p esiste un modo di trasmettere in maniera affidabile, cioe con probabilita di errore piccola a piacere.

SOLUZIONEIntanto si ha H(X) =

Hb

(p)1�p . [a.] Poiche d

dpHb(p) = log

⇣1�pp

⌘) d

dpH(X) =

� log p(1�p)2 > 0. [b.] p = 1/2 ) H(X) =

Hb

(p)1�p = 2. Dunque si puo avere trasmissione affidabile se e solo se p < 1/2.

———————————————————————————————————————————————————

ESERCIZIO 25a. Si determinino tutti i vettori di probabilita p⇤ tali che l’entropia di Shannon H(p⇤) risulti minima sullo spazio di tutti i

vettori di probabilita n-dimensionali p, per ogni fissato valore finito di n.b. Si giustifichi il risultato ottenuto al punto precedente con considerazioni di carattere geometrico, alla luce della seguente

proprieta dell’entropia: detti p e q due arbitrari vettori di probabilita n-dimensionali, per ogni � 2 (0, 1) risulta

�H(p) + (1� �)H(q) H(�p+ (1� �)q)

SOLUZIONEa. sono le n pmf degeneri del tipo [0, 0, . . . , 1, . . . , 0], che danno entropia nulla. b. una funzione concava ha il minimo sui

punti estremali del set convesso su cui e definita.———————————————————————————————————————————————————

ESERCIZIO 26 Si consideri un canale discreto senza memoria di tipo binario simmetrico, al cui ingresso viene posta lasuccessione di variabili aleatorie iid {Xi}1i=1

, con Pr{Xi = 1} = Pr{Xi = 0} (ovviamente la trasmissione di ogni singolavariabile avviene in un singolo uso del canale di trasmissione). Sia {Yi}1i=1

la corrispondente successione di variabili aleatoriein uscita al canale.

a. Si calcoli la distribuzione delle variabili Yi.b. Si consideri la variabile aleatoria discreta T tale che

Pr{T = m} = Pr{Ym = 1 , Yj = 0 8j < m}e se ne calcoli l’entropia H(T ).

c. Si consideri poi la trasmissione della sorgente di informazione T su un canale in cui gli alfabeti di ingresso e di uscitaabbiano cardinalita k. In assenza di ulteriori informazioni sulle caratteristiche del canale, dire per quali valori di k risultaimpossibile effettuare una trasmissione affidabile.

SOLUZIONE[a.] Yi sono binarie equiprobabili. [b.] Pr{T = m} = (1/2)m, m = 1, 2, . . . . Ne segue che H(T ) =

P1m=1

m(1/2)m = 2

bits. [c.] In generale, per un canale con ingresso U e uscita V vale che C = max I(U ;V ) maxH(U) = log |U| = log k.La trasmissione affidabile e impossibile se H(T ) > log k > C ovvero se k < 4.

Page 8: Esercizi Modulo Teoria Dgergell'Informazione

———————————————————————————————————————————————————

ESERCIZIO 27 Siano p(x) e q(x) due generiche pmf definite sul medesimo alfabeto X , e si assuma che p(x) > 0 e q(x) > 0,8x 2 X . Si consideri inoltre la funzione, definita per t 2 (0, 1),

z(t) = � ln

X

x2X[q(x)]

1�t[p(x)]

t

!

Si valutino le due quantitad z(t)

dt

����t=0

ed z(t)

dt

����t=1

e se ne discuta il significato informazionale.

SOLUZIONEDiciamo z(t) = � lnµ(t), da cui dz(t)/dt = �µ0

(t)/µ(t), ma µ(0) = µ(1) = 1, per cui

d z(t)

dt

����t=0

= �µ0(t)|t=0

= �X

x2X

⇥�q1�t(x)pt(x) ln q(x) + q1�t

(x)pt(x) ln p(x)⇤��

t=0

=

X

x2Xq(x) ln

q(x)

p(x)= D (qkp)

Similmented z(t)

dt

����t=1

= �D (pkq)———————————————————————————————————————————————————

ESERCIZIO 28 Calcolare la capacita di un canale a cancellazione con M > 2 simboli di ingresso e (M + 1) simboli diuscita, generalizzazione del classico BEC.

SOLUZIONEPer richiami sul BEC, si consulti il paragrafo 8.15 p. 187-189 del libro di testo:

T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.Sia a = Pr{Y = k|X = k}, e 1� a = Pr{Y = M + 1|X = k}, con k = 1, 2, . . . ,M . Allora H(Y |X) = Hb(a). Inoltre la

pmf di Y e Pr{Y = k} = aPr{X = k}, k = 1, 2, . . . ,M ; Pr{Y = M + 1} = (1 � a). Quindi H(Y ) = aH(X) +Hb(a).I(X;Y ) = aH(X) ) C = a logM———————————————————————————————————————————————————

ESERCIZIO 29 Un canale discreto senza memoria X ! Y e caratterizzato da alfabeti di ingresso ed uscita X = Y = {0, 1, 2},e dalla matrice

P =

0

@2/3 1/3 0

1/3 1/3 1/30 1/3 2/3

1

A

il cui elemento pxy , x, y = 0, 1, 2, rappresenta la probabilita condizionata p(y|x). Sia C la capacita del canale, misurata inbits/uso, e sia p = Pr{X = 1}.

a. Si valuti l’entropia condizionata H(Y |X), in funzione del parametro p.b. Utilizzando il risultato precedente e la nota relazione H(Y ) log

2

|Y|, si dimostri che I(X;Y ) 2/3.c. Utilizzando i risultati precedenti e ricordando il valore della capacita di un canale BEC, si dica per quale distribuzione

degli ingressi si raggiunge la capacita C, e quanto vale tale capacita.d. Si commenti brevemente il risultato ottenuto al punto precedente.

SOLUZIONEa. Un semplice calcolo diretto fornisce H(Y |X) = (1 � p)(log 3 � 2/3) + p log 3 = log 3 � 2/3(1 � p) () H(Y |X)

log 3�2/3). b. I(X;Y ) = H(Y )�H(Y |X) log 3�H(Y |X) = 2/3(1�p) 2/3. c. Poiche C = maxp(x) I(X;Y ), alloraC = 2/3 se esiste una distribuzione degli ingressi tale che I(X;Y ) = 2/3. Ora C = 2/3 e la capacita del BEC che si ottieneassumendo p = 0 e Pr{X = 0} = Pr{X = 2} = 1/2. Di conseguenza (1/2, 0, 1/2) e la distribuzione cercata e C = 2/3.d. Si scopre che la capacita si ottiene simulando un BEC, l’ingresso X = 1 produce output equiprobabili ed e meglio nonusarlo; notiamo che assumere X con distribuzione (1/2, 0, 1/2) implica sia H(Y ) = log 3 che H(Y |X) = log 3 � 2/3, cioeentrambe le disuguaglianze diventano uguaglianze e in tal caso risulta C = I(X;Y ) = 2/3.

Page 9: Esercizi Modulo Teoria Dgergell'Informazione

———————————————————————————————————————————————————

ESERCIZIO 30 La posizione di un aeromobile e segnalata su uno schermo radar in un sistema di coordinate bidimensionaleopportunamente quantizzato. Dette coordinate, denotate con X e Y , sono dunque modellate come variabili aleatorie indipendentied uniformi, con valori nell’alfabeto A = {1, 2, 3,. . . , N}, con N = 16. La posizione dell’aeromobile deve essere trasmessaL = 10 volte al secondo ad un centro di controllo, e tale trasmissione avviene su un canale AWGN con banda W = 10 Hz.Si assume che le successive trasmissioni siano mutuamente indipendenti ed identicamente distribuite.

Si determini il minimo rapporto segnale rumore di bit �b che consenste, mediante adeguata codifica di canale, la trasmissionedell’informazione al centro di controllo con probabilita di errore piccola a piacere.

SOLUZIONEH(X,Y ) = H(X) + H(Y ) = 2 logN = 8 bits/misura. Quindi Rb = 2L logN = 80 bits/sec, e r = Rb/W = 8. Inoltre

C = W log (1 + �b r) bits/sec. Imponendo �b � (2

r � 1)/r si ha �b ⇡ 32 ⇡ 15 dB.———————————————————————————————————————————————————

ESERCIZIO 31 Sia X = [X1

, X2

, . . . , XN ] un vettore aleatorio le cui componenti sono variabili aleatorie gaussiane Xi ⇠N (µi,�

2

), tali che E [Xi Xj ] = µiµj + �2�ij (�ij = 1 se i = j, e �ij = 0 atrimenti). Calcolare l’entropia differenziale h(X)

del vettore X.

SOLUZIONEIl vettore ha elementi indipendenti, quindi h(X) = Nh(Xi) e calcolo diretto fornisce h(Xi) = 1/2 log

2

�2⇡e�2

�bits.

———————————————————————————————————————————————————

ESERCIZIO 32 Calcolare l’entropia differenziale delle seguenti variabili aleatorie:1) X di tipo esponenziale: f(x) = �e��x, x � 0.2) X di tipo Laplace: f(x) = 1

2

�e��|x|.3) X = X

1

+X2

, dove X1

e X2

sono variabili aleatorie gaussiane indipendenti a media nulla e varianza, rispettivamente,�2

1

e �2

2

.

SOLUZIONE1) Distribuzione esponenziale.

h(X) = �Z

+1

0

�e��x[ln�� �x]dx

= � ln�+ 1

= log

e

�bits

2) Distribuzione Laplace

h(X) = �Z

+1

�1

1

2

�e��|x|[ln

1

2

+ ln�� �|x|]dx

= � ln

1

2

� ln�+ 1

= ln

2e

�nats

= log

2e

�bits

3) Somma di due variabili gaussiane X1

+X2

⇠ N (µ1

+ µ2

,�2

1

+ �2

2

), quindi h(X) =

1

2

log 2⇡e(�2

1

+ �2

2

) bits.

———————————————————————————————————————————————————

ESERCIZIO 33 Siano p e q due pmf definite sullo stesso alfabeto di cardinalita finita, e si consideri la divergenza

f(�) = D ((1� �)p+ �q||p)con � 2 [0, 1]. Si dimostri che f(0) f(�) �f(1) e si diagrammi qualitativamente la funzione f(�).

SOLUZIONE Si tratta essenzialmente della proprieta di convessita della divergenza. Si veda il teorema 2.7.2 p. 30 del libro ditesto:T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.

Page 10: Esercizi Modulo Teoria Dgergell'Informazione

———————————————————————————————————————————————————

ESERCIZIO 34 Siano {Xi, i = 1, 2, 3, . . . } e {Yi, i = 1, 2, 3, . . . } due catene di Markov caratterizzate dalla medesimamatrice di transizione

H =

1

4

✓3 1

1 3

Siano inoltre p1

= (1/2, 1/2)T la distribuzione di X1

, e q1

= (1, 0)T la distribuzione di Y1

. Calcolare:a. l’entropia di Xi, per i = 1, 2, 3;b. l’entropia di Yi, per i = 1, 2, 3;c. la distanza in entropia relativa di Yi rispetto a Xi, sia essa D(qi||pi), per i = 1, 2, 3;d. graficare qualitativamente l’andamento di H(qi) e quello di D(qi||pi), al variare di i = 1, 2, . . . ,1.

SOLUZIONEBisogna ricordare che per una catena Markoviana con matrice di transizione H , si ha pi+1

= H pi. Quindi risulta quantosegue.

[a.] pi = (1/2, 1/2)T , 8i ) H(Xi) = 1 bit 8i. [b.] q2

= (3/4, 1/4)T , q3

= (5/8, 3/8)T ) H(Y1

) = 0, H(Y2

) ⇡ 0.8113bits, H(Y

2

) ⇡ 0.9544 bits. [c.] D(q1

||p1

) = 1 bit; D(q2

||p2

) = 0.1887 bits; D(q3

||p3

) = 0.0456 bits.———————————————————————————————————————————————————

ESERCIZIO 35 In un semplice modello di random walk monodimensionale, la posizione Sn di una certa particella all’istanten e la risultante di singoli passi unitari e indipendenti. In particolare, siano {Xi}1i=1

variabili aleatorie iid con Pr{Xi = 1} = pe Pr{Xi = �1} = q = 1� p (0 < p < 1) e si assuma che la posizione della particella all’istante n sia

Sn =

nX

i=1

Xi

a) Dimostrare che H(Sn) � H(Sn�1

) 8n > 1.b) Dimostrare che H(Sn) � H(Xn) 8n � 1.c) Si calcoli il cosidetto tasso entropico del processo Sn, ovvero il limite

lim

n!1

H(S1

, S2

, . . . , Sn)

n

d) Si commentino brevemente i risultati ottenuti nei punti precedenti, alla luce dell’interpretazione fisica dell’entropia diShannon.

SOLUZIONEPer i primi due quesiti, si noti che Sn = Sn�1

+ Xn, e che Sn�1

e Xn sono indipendenti. Per la somma di variabiliindipendenti si ha che H(Sn) � H(Sn�1

) e H(Sn) � H(Xn) (vedi esercizio 3). Per la soluzione del quesito c e probabilmentenecessaria la lettura del paragrafo 4.2 p. 63-66 del libro di testo:T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.———————————————————————————————————————————————————

ESERCIZIO 36Sia X una variabile aleatoria continua a valori nell’intervallo (0, 1), con densita di probabilita f(x), e sia

h(X) = �Z

1

0

f(x) log [f(x)] dx (2)

la corrispondente entropia differenziale. Detto n un intero positivo, si definisca

x0

= 0, x1

=

1

n, x

2

=

2

n, . . . , xn�1

=

n� 1

n, xn = 1 (3)

La successione di punti {xk}nk=0

in (3) definisce una partizione dell’intervallo (0, 1) in n intervallini di uguale lunghezza1/n. Si puo dunque definire la versione quantizzata della variabile aleatoria X , diciamo eX , con funzione massa di probabilitap(k) = P{ eX = k} = P{X 2 (xk�1

, xk)}, k = 1, 2, . . . , n.a. Approssimando l’integrale (2) mediante la somma di contributi relativi ai singoli intervallini della partizione (3), si scriva

la relazione che sussiste tra l’entropia differenziale h(X) e l’entropia H(

eX) della variabile quantizzata eX .b. Assumendo n � 1, si commenti la seguente affermazione: “l’entropia della versione quantizzata a q bit della variabile

aleatoria continua X vale, approssimativamente, h(X) + q”.

Page 11: Esercizi Modulo Teoria Dgergell'Informazione

c. Assumendo poi n ! 1, si commenti la seguente affermazione: “l’entropia differenziale della variabile discreta eX si puoassumere pari a �1”.

SOLUZIONE

h(X) = �Z

1

0

f(x) log [f(x)] dx = �nX

k=1

Z xk

xk�1

f(x) log [f(x)] dx ⇡ �nX

k=1

np(k) log [np(k)]1

n

= H(

eX)� log n

Si veda anche il paragrafo 9.3, p.228, del libro di testo:T. Cover, J. Thomas Elements of Information Theory, John Wiley & Sons, Inc.. 1991.———————————————————————————————————————————————————

ESERCIZIO 37 Sia g(x) = p(1� p)x�1 la pmf di una variabile aleatoria geometrica G, con alfabeto A = {1, 2, 3, . . . ,1}, emedia E[G], ove 0 < p < 1 e un valore noto. Sia inoltre F un’altra variabile aleatoria con pmf arbitraria f(x), a valori nellostesso alfabeto A, e con la stessa media E[F ] = E[G].

a. Calcolare la media E[G].b. Calcolare l’entropia della variabile aleatoria G, sia essa H(G).c. Giustificare formalmente i passaggi denotati con (i), (ii), e (iii), nell’espressione seguente, ove H(F ) rappresenta

l’entropia di F :

H(F ) = �1X

x=1

f(x) log f(x) = �1X

x=1

f(x) log

✓f(x)g(x)

g(x)

◆(i)

�1X

x=1

f(x) log g(x)

= �1X

x=1

f(x) log�p(1� p)x�1

�= � log p

1X

x=1

f(x)� log(1� p)

1X

x=1

(x� 1)f(x)

(ii)= � log p � log(1� p)

1X

x=1

(x� 1)g(x)(iii)= H(G)

d. In quali condizioni la disuguaglianza (i) diventa un’uguaglianza?e. Enunciare brevemente le implicazioni informazionali della relazione H(F ) H(G).

———————————————————————————————————————————————————

ESERCIZIO 38a. Si calcoli la capacita del canale BSC con probabilita di crossover 0 < ✏ < 1/2, mostrato nello schema (a) della figura.

Sia C tale capacita.b. Il canale mostrato nello schema (b) in figura e costituito dalla cascata di due canali BSC, ciascuno con la stessa probabilita

di crossover ✏ del canale di cui allo schema (a). In relazione al canale mostrato nello schema (b):b1. Calcolare le probabilita condizionate Pr{Y = i |X = j}, con i = 0, 1, e j = 0, 1.b2. Mostrare che il canale e ancora un BSC, e calcolarne la relativa probabilita di crossover ✏⇤.b3. Usando il risultato precedente calcolare la capacita del canale, sia essa C⇤.b4. Mostrare che C⇤ < C.

εεεε

εεεε

1-εεεε

1-εεεε

X Yεεεε

εεεε

1-εεεε

1-εεεε

Xεεεε

εεεε

1-εεεε

1-εεεε

Y

0

1

0

1

0

1

0

1

0

1

schema (a) schema (b)

———————————————————————————————————————————————————

ESERCIZIO 39 Si calcoli la capacita del canale DMC (X , p(y|x),Y), in cui X = Y = {1, 2, 3, . . . , n}, e la cui matrice di

Page 12: Esercizi Modulo Teoria Dgergell'Informazione

transizione p(y|x) e qui sotto rappresentata, con 0 a 1:

X 1 2 3 . . . nY1 1� a a

n�1

an�1

. . . an�1

2

an�1

1� a an�1

. . . an�1

3

an�1

an�1

1� a . . . an�1

...n a

n�1

an�1

an�1

. . . 1� a

Si discutano poi i casi particolari a = 0, a = 1, n = 2, e n ! 1.———————————————————————————————————————————————————

ESERCIZIO 40 Si consideri un canale DMC (X , p(y|x),Y) con capacita C.a. Dimostrare che C min{log |X |, log |Y|}.b. Fornire un esempio di canale per il quale C = min{log |X |, log |Y|}.

SOLUZIONE

a. I(X;Y ) = H(Y )�H(Y |X) H(Y ) log |Y| ) C = maxp(x) I(X;Y ) log |Y|. Analogamente C log |X |, da cuil’asserto.

b. Il canale triviale Y = X .———————————————————————————————————————————————————

ESERCIZIO 41 Si consideri una sorgente di informazione S che emette simboli iid dall’alfabeto binario {x, y} in accordoalla pmf [1� ✏, ✏], con 0 < ✏ < 1.

a. Progettare un codice di Huffman per la sorgente S , e determinarne la lunghezza media L(✏).Si consideri poi la versione estesa della sorgente, sia essa S(2), ottenuta considerando coppie di simboli di S . Sia {a, b, c, d}l’alfabeto di S(2), con a = xx, b = xy, c = yx, d = yy.

b. Determinare la pmf della sorgente S(2).c. Progettare un codice di Huffman per la sorgente S(2), assumendo ✏ sufficientemente piccolo.d. Determinare la lunghezza media del codice di cui al punto precedente, sia essa L

2

(✏).e. Facendo ricorso al primo teorema di Shannon, dimostrare che, per ✏ sufficientemente piccolo, vale la relazione

Hb(✏) >3

2

✏� 1

2

✏2

SOLUZIONE

a. Il codice di Huffman e banale: x ! 0, y ! 1, e ovviamente L(✏) = 1.b. Ai simboli a = xx, b = xy, c = yx, d = yy corrispondono, rispettivamente, le probabilita [(1� ✏)2, ✏(1� ✏), ✏(1� ✏), ✏2].c. Nella procedura per la determinazione del codice si ottengono le seguenti probabilita

(1.1) (1� ✏)2 (2.1) = (1.1) (1� ✏)2 (3.1) = (2.1) (1� ✏)2 (4.1) = (3.1) + (3.2) 1

(1.2) ✏(1� ✏) (2.2) = (1.3) + (1.4) ✏ (3.2) = (2.2) + (2.3) 2✏� ✏2

(1.3) ✏(1� ✏) (2.3) = (1.2) ✏(1� ✏)(1.4) ✏2

ove si e assunto ✏ ⌧ 1 per ordinare le probabilita in modo non ambiguo. In realta basta che risulti

✏ <1

2

per garantire ✏ < (1� ✏)

✏ <3

2

� 1

2

p5 per garantire ✏ < (1� ✏)2

✏ < 1� 1

2

p2 per garantire 2✏� ✏2 < (1� ✏)2

L’ultima condizione e la piu stringente, quindi basterebbe assumere ✏ < 1� 1

2

p2 ⇡ 0.29.

Page 13: Esercizi Modulo Teoria Dgergell'Informazione

Un codice di Huffman e

a ! 1

b ! 00

c ! 011

d ! 010

d. RisultaL2

(✏) = 1 (1� ✏)2 + 2 ✏(1� ✏) + 3 ✏(1� ✏) + 3 ✏2 = 1 + 3✏� ✏2

e. Poiche l’entropia di S vale Hb(✏), il primo teorema di Shannon per codici senza prefisso, applicato all’estensione n-madella sorgente S , afferma che

Hb(✏) Ln(✏)

n< Hb(✏) +

1

n

Nel caso in esame, n = 2, e risulta

Hb(✏) 1 + 3✏� ✏2

2

< Hb(✏) +1

2

) Hb(✏) >3

2

✏� 1

2

✏2

L’assunzione ✏ ⌧ 1 serve qui a garantire che la costruzione del codice sia corretta. In merito alla disuguaglianza finale,vale la pena di osservare che, per ✏ ! 0, Hb(✏) ha derivata infinita.

———————————————————————————————————————————————————

ESERCIZIO 42 Una sorgente di informazione X emette simboli iid in accordo alla pmf

P {X = k} = (1� ↵)↵k, k = 0, 1, 2, . . .

ove 0 < ↵ < 1 e un parametro assegnato.a. Calcolare la media E[X] della variabile aleatoria X .b. Calcolare l’entropia H(X).c. Confrontare H(X) con l’entropia binaria di parametro ↵, Hb(↵). Quale disuguaglianza vale H(X) 7 Hb(↵)?d. Calcolare lim↵!0

H(X) e lim↵!1

H(X).e. Dimotrare che l’entropia H(X) e funzione crescente di ↵, e graficarne qualitativamente l’andamento.

SOLUZIONE

a. E[X] =

P1k=0

k(1� ↵)↵k Poiche1X

k=0

k↵k= ↵

1X

k=0

d

d↵↵k

= ↵d

d↵

1X

k=0

↵k= ↵

d

d↵

1

1� ↵= ↵

1

(1� ↵)2

si ha E[X] = ↵/(1� ↵).(Notiamo che

P1k=0

↵k e una serie di potenze e che pertanto puo essere derivata termine a termine; la serie dd↵

P1k=0

↵k=P1

k=0

dd↵↵

k ha lo stesso raggio di convergenza della serie originariaP1

k=0

↵k.)b.

H(X) = �1X

k=0

(1� ↵)↵klog

⇥(1� ↵)↵k

⇤= �

1X

k=0

(1� ↵)↵k[log(1� ↵) + k log↵]

= �(1� ↵) log(1� ↵)

1X

k=0

↵k � (1� ↵) log↵

1X

k=0

k↵k

Dunque, sapendo cheP1

k=0

k↵k= ↵/(1� ↵)2

H(X) = � log(1� ↵)� ↵

1� ↵log↵ =

Hb(↵)

1� ↵

c. H(X) > Hb(↵), visto che 1� ↵ < 1.d.

lim

↵!0

H(X) = lim

↵!0

Hb(↵)

1� ↵= 0

lim

↵!1

H(X) = lim

↵!1

Hb(↵)

1� ↵= lim

↵!1

log

1�↵↵ log e

�1

= lim

↵!1

log

1� ↵log e = +1

Page 14: Esercizi Modulo Teoria Dgergell'Informazione

e. Conviene assumere che H(↵) sia misurata in nats. Si ha dunque:

d

d↵H(↵) =

d

d↵

Hb(↵)

1� ↵=

H 0b(↵)(1� ↵) +Hb(↵)

(1� ↵)2=

(1� ↵) ln 1�↵↵ +Hb(↵)

(1� ↵)2

=

(1� ↵) ln(1� ↵)� (1� ↵) ln↵� ↵ ln↵� (1� ↵) ln(1� ↵)

(1� ↵)2=

� ln↵

(1� ↵)2> 0

———————————————————————————————————————————————————

ESERCIZIO 43 Si consideri una corsa tra m cavalli in cui l’i-mo cavallo ha probabilita di vincita pari a pi, con 0 pi 1

ePm

i=1

pi = 1. Considerando una successione di n corse iid, uno scommettitore, il cui capitale iniziale ammonta a S0

euro,punta ad ogni corsa una frazione costante bi del proprio capitale sulla vincita del cavallo i-mo, con 0 bi 1 e

Pmi=1

bi = 1.Al termine di ogni corsa le somme di danaro puntate sugli (m�1) cavalli perdenti sono perse, mentre lo scommettitore riceve ildoppio di quanto ha puntato sul cavallo vincente. Dunque, detto Sn�1

il capitale all’inizio dell’n-ma corsa, il capitale possedutodallo scommettitore alla fine dell’n-ma corsa vale Sn = Sn�1

2 bXn

, ove Xn 2 {1, 2, . . . ,m} e una variabile aleatoria, conpmf p = (p

1

, p2

, . . . pm), che rappresenta il cavallo vincente all’n-ma corsa. Lo scommettitore vuole scegliere in modo ottimoil vettore di investimento b = (b

1

, b2

, . . . bm).a. Esprimere il capitale Sn in funzione di S

0

e della successione bX1 , bX2 , . . . , bXn

.b. Calcolare il tasso asintotico di crescita del capitale R(b,p) = limn!1

1

n logSn.c. Determinare qual e il vettore ottimo di investimento b⇤, tale che b⇤

= argmaxb R(b,p). (E’ possibile utilizzare ilmetodo di ottimizzazione di Lagrange, oppure ricorrere a disuguaglianze tra quantita informazionali.)

d. Determinare il valore massimo e il valore minimo del tasso ottimo R(b⇤,p), al variare di p.

SOLUZIONE

a. Sn = Sn�1

2 bXn

= Sn�2

2 bXn�1 2 bXn

= · · · = S0

2

nQn

i=1

bXi

b.

R(b,p) = lim

n!1

1

nlogSn = lim

n!1

1

nS0

+ lim

n!1

1

nlog 2

n+ lim

n!1

1

nlog

nY

i=1

bXi

!

= 1 + lim

n!1

1

n

nX

i=1

log bXi

in prob.�! 1 + E[log bX ] = 1 +

mX

i=1

pi log bi

c. Il funzionale di Lagrange vale J(b) = R(b,p) + � (

Pni=1

bi � 1). Dunque

@

@bkJ(b) = 0 ) pk

bk+ � = 0 ) bk = �pk

�k = 1, 2, . . . ,m

Per determinare �, si ha � : 1 =

Pmi=1

bk = � 1

Pmi=1

pk ) � = �1. Da cui bk = pk: b⇤= p, ovvero l’investimento

proporzionale e log-ottimo.In alternativa,

R(b,p) = 1 +

mX

i=1

pi log bi = 1 +

mX

i=1

pi log

✓pibipi

◆= 1�H(p)�D(p||b) 1�H(p)

L’uguaglianza si ha se e solo se b = p e dunque b⇤= p. Dunque R(b⇤,p) = 1�H(p)

d. 1� logm R(b⇤,p) = 1�H(p) 1

Si vede innanzitutto che l’unico caso in cui vale la pena di scommettere e quando H(p) < 1. Poi, il caso piu vantaggioso equello in cui la corsa e meno entropica: se un cavallo vince con probabilita uno, il capitale cresce esponenzialmente Sn ⇠ 2

n,il che e del tutto ovvio essendo tutto il capitale puntato sul cavallo vincente. Opposta e la situazione in cui la corsa emassimamente entropica: per p uniforme si ha R(b⇤,p) = 1 � logm, e Sn ⇠ 2

�(logm�1), e il capitale dello scommettitoredecresce esponenzialmente per ogni m � 3. Per m = 2 il capitale rimane costante, il che e di ancora ovvio: si punta la metadel capitale su ognuno dei due cavalli e dunque, indipendentemente da p, il capitale deve rimanere costante.———————————————————————————————————————————————————

ESERCIZIO 44 Siano X e Y due variabili aleatorie discrete binarie a valori in {0, 1} e sia:

P(X = 0|Y = 0) = 1� ↵, P(X = 1|Y = 0) = ↵, P(X = 0|Y = 1) = 1� �, P(X = 1|Y = 1) = �,

P(Y = 0) = 1� �, P(Y = 1) = �,

con ↵,�,�, parametri noti 2 (0, 1).a. Calcolare H(X|Y ) e H(X).

Page 15: Esercizi Modulo Teoria Dgergell'Informazione

b. Utilizzando la nota relazione H(X|Y ) H(X), dimostrare che la funzione entropia binaria Hb(z) e funzione concavaT

della variabile z 2 (0, 1).

Generalizzando, sia X una variabile aleatoria discreta con generico alfabeto X . Sia p0

la pmf condizionata della variabilealeatoria X dato che Y = 0, e p

1

la pmf condizionata della variabile aleatoria X dato che Y = 1. Assumendo sempreP(Y = 0) = 1� �, e P(Y = 1) = �:

c. Calcolare H(X|Y ) e H(X).d. Utilizzando la nota relazione H(X|Y ) H(X), dimostrare che l’entropia H(p) e funzione concava

Trispetto alla

pmf p.———————————————————————————————————————————————————

ESERCIZIO 45 Siano X e Y due variabili aleatorie con alfabeto, rispettivamente, X = {1, 2} e Y = {1, 2, 3}. La pmfcongiunta delle due variabili e riportata nella seguente tabella, ove 0 p 1:

X = 1 X = 2

Y = 1 0

1

2

Y = 2

p

4

1� p

4

Y = 3

1� p

4

p

4

a. Calcolare l’entropia congiunta H(X,Y ).b. Calcolare l’entropia H(X) e l’entropia H(Y ).c. Calcolare l’entropia condizionata H(X|Y ) e graficarne l’andamento in funzione di p.d. Calcolare l’entropia condizionata H(Y |X) e graficarne l’andamento in funzione di p.e. Verificare che H(X|Y ) H(X).f. Verificare che H(Y |X) H(Y ).g. Verificare che H(X) +H(Y |X) = H(Y ) +H(X|Y ) = H(X,Y ) e che H(X)�H(X|Y ) = H(Y )�H(Y |X)

(Puo essere utile sapere che Hb(1/4) ⇡ 0.81)

SOLUZIONE

a. H(X,Y ) = Hb(p)/2 + 3/2.b. H(X) = Hb(1/4); H(Y ) = 3/2.c. H(X|Y ) = Hb(p)/2.d. H(Y |X) =

Hb

(p)2

+

3

4

log 3� 1

2

.———————————————————————————————————————————————————

ESERCIZIO 46 Sia P l’insieme di tutte le pmf con alfabeto finito X = {1, 2, 3, . . . , N}. Siano inoltre p 2 P una arbitrariapmf di questa classe, e u 2 P la pmf uniforme.

a. Utilizzando il metodo di ottimizzazione di Lagrange, dimostrare che

u = argmax

p2PH(p)

ovvero, u rappresenta la distribuzione a massima entropia nell’insieme P .b. Ripetere la dimostrazione di cui al punto precedente, utilizzando questa volta il metodo informazionale.

SOLUZIONE

a. Usando l’entropia misurata in nats, si ha

J(p) = �NX

i=1

pi log pi + �

NX

i=1

pi � 1

!

@Jp

@pk= 0 ) � log pk � 1 + � = 0 ) pk = e��1

Page 16: Esercizi Modulo Teoria Dgergell'Informazione

Imponendo il vincolo si ottiene infine pk = 1/N , k = 1, 2, . . . , N , ovvero pk = uk, k = 1, 2, . . . , N .b. Con il metodo informazionale si ha

H(p) = �NX

i=1

pi log pi = �NX

i=1

pi log

✓pi ui

ui

◆= �

NX

i=1

pi log ui �D(p||u)

�NX

i=1

pi log ui = �NX

i=1

pi log1

N= logN = H(u)

con uguaglianza se e solo se p = u.

———————————————————————————————————————————————————

ESERCIZIO 47 Sia p una pmf Bernoulliana di parametro ↵ 2 (0, 1) e q una pmf Bernoulliana di parametro ↵ + ✏, con |✏|sufficientemente piccolo. Si vuole calcolare la divergenza D(p||q) e, tenendo conto del fatto che |✏| ⌧ 1, si approssima taledivergenza con il suo sviluppo in serie arrestato al secondo termine:

D(p||q) ⇡ f(↵, ✏):= D(p||q) |✏=0

+

@D(p||q)@✏

����✏=0

✏+@2D(p||q)

@✏2

����✏=0

✏2

2

a. Si ricavi l’espressione analitica della funzione f(↵, ✏).b. Fissato ✏, qual e il valore di ↵ che rende minima la distanza f(↵, ✏) tra le due pmf?c. Si ripeta l’esercizio considerando la divergenza D(q||p) in luogo della divergenza D(p||q).

SOLUZIONE

a. Si hap ⌘ ↵x

(1� ↵)1�x, q ⌘ (↵+ ✏)x(1� ↵� ✏)1�x, x 2 {0, 1}e dunque, usando i logaritmi in base e per semplicita di calcolo,

D(p||q) = ↵ log↵� ↵ log(↵+ ✏) + (1� ↵) log(1� ↵)� (1� ↵) log(1� ↵� ✏)

Da cui

D(p||q) |✏=0

= D(p||p) = 0

@D(p||q)@✏

= � ↵

↵+ ✏+

1� ↵

1� ↵� ✏) @D(p||q)

@✏

����✏=0

= 0

@2D(p||q)@✏2

=

(↵+ ✏)2� 1� ↵

(1� ↵� ✏)2) @2D(p||q)

@✏2

����✏=0

=

1

↵(1� ↵)

Infinef(↵, ✏) =

✏2

2↵(1� ↵)

b. Fissato ✏, la funzione f(↵, ✏) risulta massima per ↵ = 1/2 e si ha f(1/2, ✏) = ✏2/2.c. Il risultato e lo stesso. Infatti:

D(q||p) = (↵+ ✏) log(↵+ ✏)� (↵+ ✏) log↵+ (1� ↵� ✏) log(1� ↵� ✏)� (1� ↵� ✏) log(1� ↵)

D(q||p) |✏=0

= D(q||q) = 0

@D(q||p)@✏

= log(↵+ ✏) + 1� log↵� log(1� ↵� ✏)� 1 + log(1� ↵) ) @D(q||p)@✏

����✏=0

= 0

@2D(q||p)@✏2

=

1

↵+ ✏+

1

1� ↵� ✏) @2D(p||q)

@✏2

����✏=0

=

1

↵(1� ↵)

———————————————————————————————————————————————————

ESERCIZIO 48 Si consideri un canale DMC X ! Y con alfabeto di ingresso e di uscita X = Y = {0, 1}, tale che

P(Y = 0|X = 0) = 1, P(Y = 1|X = 1) =

1

2

.

Page 17: Esercizi Modulo Teoria Dgergell'Informazione

Calcolare la capacita C del canale e stabilire qual e il valore di p:=P(X = 1) che massimizza la mutua informazione I(X;Y ).

SOLUZIONEIntanto ricaviamo le altre due probabilita che caratterizzano il canale:

P(Y = 1|X = 0) = 1� P(Y = 0|X = 0) = 0 e P(Y = 0|X = 1) = 1� P(Y = 1|X = 1) =

1

2

Si tratta del cosiddetto canale Z. Si ha

H(Y |X = 0) = 0 H(Y |X = 1) = Hb(1/2) = 1 bit) H(Y |X) = pH(Y |X = 1) + (1� p)H(Y |X = 0) = p bits

Inoltre,

P(Y = 1) = P(Y = 1|X = 0)P(X = 0) + P(Y = 1|X = 1)P(X = 1) = (1� p)0 + p1

2

=

p

2

) H(Y ) = Hb(p/2) bits

DunqueI(X;Y ) = H(Y )�H(Y |X) = Hb(p/2)� p bits

Per calcolare la capacita dobbiamo massimizzare l’informazione mutua rispetto a p. Procedendo mediante derivazione si ha(log denota il logaritmo in base 2, ln quello in base e)

d

dpI(X;Y ) =

d

dpHb(p/2)� 1 =

d

dp

h�p

2

log

⇣p2

⌘�⇣1� p

2

⌘log

⇣1� p

2

⌘i� 1

= �1

2

log

⇣p2

⌘� log e

2

+

1

2

log

⇣1� p

2

⌘+

log e

2

� 1

=

1

2

log

✓2� p

p

◆� 1

d

dpI(X;Y ) = 0 ) 1

2

log

2� p

p� 1 = 0 ) 2� p

p= 4 ) p⇤ =

2

5

Quindi p = p⇤ massimizza l’informazione mutua e di conseguenza

C = max

pI(X;Y ) = Hb(p

⇤/2)� p⇤ ⇡ 0.322 bits

———————————————————————————————————————————————————

ESERCIZIO 49 Si consideri una sorgente di informazione senza memoria con alfabeto binario X = {0, 1} e si denoti conH(X) la corrispondente entropia. Si denotino inoltre con x

n= (x

1

, . . . , xn) una generica sequenza di lunghezza n prodottadalla sorgente (cioe una n-sequenza di variabili aleatorie iid binarie), e con tn il numero di 1 presenti nella n-sequenza. Sia0 < p < 1 la probabilita che la singola uscita della sorgente valga 1. Definiamo, per ✏ sufficientemente piccolo,

T (n)✏ :=

⇢x

n:

�����1

nlog

2

P(xn)�H(X)

���� < ✏

�(e il noto set tipico)

S(n)✏ :=

⇢x

n:

����tnn

� p

���� <✏

2

�(viene detto set fortemente tipico)

a. Stabilire per quali valori di p si ha: (a1) T (n)✏ ⇢ S(n)

✏ ; (a2) S(n)✏ ⇢ T (n)

✏ ; (a3) i due insiemi coincidono.b. Si consideri ora il caso particolare p = 1/2. A cosa corrisponde l’insieme tipico T (n)

✏ ? Quale relazione di inclusione valetra i due insiemi?

SOLUZIONEPer brevita, denotiamo con log(·) il logaritmo in base 2. Osserviamo preliminarmente che:

H(X) = Hb(p) = �p log p� (1� p) log(1� p) = �p log p+ p log(1� p)� log(1� p)

P(xn) = ptn(1� p)n�t

n ) � 1

nlogP(xn

) = � tnn

log p� n� tnn

log(1� p) = � tnn

log p+tnn

log(1� p)� log(1� p)

Dunque:

Page 18: Esercizi Modulo Teoria Dgergell'Informazione

�����1

nlog

2

P(xn)�H(X)

���� =

�����tnn

log p+tnn

log(1� p)� log(1� p) + p log p� p log(1� p) + log(1� p)

����

=

����

✓tnn

� p

◆log

1� p

p

���� =����tnn

� p

����↵p, con ↵p:=

����log1� p

p

����

Per cui:T (n)✏ :=

⇢x

n:

�����1

nlog

2

P(xn)�H(X)

���� < ✏

�=

⇢x

n:

����tnn

� p

���� <✏

↵p

Si ha pertanto quanto segue.a1. T (n)

✏ ✓ S(n)✏ equivale a ✏

↵p

< ✏2

, ↵p > 2 , p 2 (0, 1/5) [ (4/5, 1)

a2. S(n)✏ ✓ T (n)

✏ , p 2 (1/5, 4/5)

a3. S(n)✏ ⌘ T (n)

✏ , p = 1/5 e p = 4/5, nel qual caso ↵p = 2.b. Per p = 1/2 si ha P(xn

) =

�1

2

�n e � 1

n logP(xn) = 1 = Hb

�1

2

�, per cui T (n)

✏ ⌘ Xn, mentre ovviamente S(n)✏ ✓ T (n)

✏ :Tutte le sequenze sono tipiche ma non tutte sono fortemente tipiche. Si noti che in questo caso ↵p = 0 e l’espressioneT (n)✏ ⌘ �� tnn � p

�� < ✏↵

p

non ha senso.———————————————————————————————————————————————————

ESERCIZIO 50 Siano X1

, X2

, X3

tre variabili aleatorie binarie definite sull’alfabeto X = {0, 1}. Sia inoltre P(X1

= 1) = p.La variabile X

1

rappresenta l’ingresso di un canale BSC con probabilita di crossover 1/2, la cui uscita e X2

. A sua volta X2

rappresenta l’ingresso di un ulteriore canale BSC con probabilita di crossover ✏, la cui uscita e X3

. Si consideri la sorgente diinformazione S la cui uscita e il vettore X = (X

1

, X2

, X3

). Assumendo 1/2 < p < 2/3, ed ✏ > 0 piccolo a piacere:a. calcolare l’entropia di sorgente H(X);b. progettare un codice di Huffman per la sorgente S , e determinarne la lunghezza media L(p, ✏).c. Ripetere l’esercizio assumendo questa volta ✏ = 0.

SOLUZIONEPreliminarmente, si noti che X

1

e indipendente dalla coppia (X2

, X3

), per effetto del primo canale BSC(1/2). Per lo stessomotivo, l’uscita X

2

del primo canale risulta equiprobabile: P(X2

= 1) = 1/2. Di conseguenza, essendo X2

l’ingresso delsecondo canale BSC(✏), anche X

3

risulta equiprobabile: P(X3

= 1) = 1/2.a. H(X) = H(X

1

) +H(X2

|X1

) +H(X3

|X2

, X1

) = Hb(p) +H(X2

) +H(X3

|X2

) = Hb(p) + 1 +Hb(✏).b. I simboli di sorgente, ordinati in senso decrescente secondo le corrispondenti probabilita (l’ordinamento tiene conto della

condizione 1/2 p 2/3, e del fatto che ✏ puo essere assunto piccolo a piacere), sono:

simbolo probabilita

111 p (1� ✏)/2100 p (1� ✏)/2000 (1� p) (1� ✏)/2011 (1� p) (1� ✏)/2101 p ✏/2110 p ✏/2001 (1� p) ✏/2010 (1� p) ✏/2

Un codice di Huffman si ottiene dallo schema:

(1.1) p (1� ✏)/2 (2.1) = (1.1) p (1� ✏)/2 (3.1) = (2.1) p (1� ✏)/2(1.2) p (1� ✏)/2 (2.2) = (1.2) p (1� ✏)/2 (3.2) = (2.2) p (1� ✏)/2(1.3) (1� p) (1� ✏)/2 (2.3) = (1.3) (1� p) (1� ✏)/2 (3.3) = (2.3) (1� p) (1� ✏)/2(1.4) (1� p) (1� ✏)/2 (2.4) = (1.4) (1� p) (1� ✏)/2 (3.4) = (2.4) (1� p) (1� ✏)/2(1.5) p ✏/2 (2.5) = (1.7) + (1.8) (1� p) ✏ (3.5) = (2.6) + (2.7) p ✏(1.6) p ✏/2 (2.6) = (1.5) p ✏/2 (3.6) = (2.5) (1� p) ✏(1.7) (1� p) ✏/2 (2.7) = (1.6) p ✏/2(1.8) (1� p) ✏/2

Page 19: Esercizi Modulo Teoria Dgergell'Informazione

(4.1) = (3.1) p (1� ✏)/2 (5.1) = (4.1) p (1� ✏)/2(4.2) = (3.2) p (1� ✏)/2 (5.2) = (4.2) p (1� ✏)/2(4.3) = (3.3) (1� p) (1� ✏)/2 (5.3) = (4.4) + (4.5) (1� p) (1� ✏)/2 + ✏(4.4) = (3.4) (1� p) (1� ✏)/2 (5.4) = (4.3) (1� p) (1� ✏)/2(4.5) = (3.5) + (3.6) ✏

(6.1) = (5.3) + (5.4) (1� p) (1� ✏) + ✏ (7.1) = (6.2) + (6.3) p (1� ✏) (8.1) = (7.1) + (7.2) 1

(6.2) = (5.1) p (1� ✏)/2 (7.2) = (6.1) (1� p) (1� ✏) + ✏(6.3) = (5.2) p (1� ✏)/2

Dunque risulta:simbolo probabilita parola codice

111 p (1� ✏)/2 �! 11

100 p (1� ✏)/2 �! 10

000 (1� p) (1� ✏)/2 �! 00

011 (1� p) (1� ✏)/2 �! 011

101 p ✏/2 �! 01011

110 p ✏/2 �! 01010

001 (1� p) ✏/2 �! 01001

010 (1� p) ✏/2 �! 01000

La lunghezza media del codice vale

L(p, ✏) = 2 [p (1� ✏) + (1� p) ✏/2] + 3(1� p) ✏/2 + 5 [p ✏+ (1� p) ✏]

=

1

2

[5� p(1� ✏) + 5✏]

c. Assumendo ✏ = 0, si ha X3

= X2

. Il calcolo dell’entropia fornisce

H(X) = H(X1

) +H(X2

|X1

) +H(X3

|X2

, X1

) = Hb(p) +H(X2

) + 0 = Hb(p) + 1

risultato che si ottiene anche per continuita considerando che lim✏!0

Hb(✏) = 0.Per il codice di Huffman, invece, occorre ora notare che i simboli di sorgente sono solo quattro e, precisamente:

simbolo probabilita

111 p/2100 p/2000 (1� p)/2011 (1� p)/2

Ricaviamo un codice di Huffman:

(1.1) p/2 (2.1) = (1.3) + (1.4) 1� p (3.1) = (2.2) + (2.3) p (4.1) = (3.1) + (3.2) 1

(1.2) p/2 (2.2) = (1.1) p/2 (3.2) = (2.1) 1� p(1.3) (1� p)/2 (2.3) = (1.2) p/2(1.4) (1� p)/2

Quindi:simbolo probabilita parola codice

111 p/2 �! 11

100 p/2 �! 10

000 (1� p)/2 �! 00

011 (1� p)/2 �! 01

La lunghezza media di questo codice e 2. Vale la pena di osservare che la terza cifra binaria del simbolo in uscita allasorgente puo non essere trasmesso, essendo uguale al simbolo che lo precede. Non a caso il codice di Huffman, in questoesempio, e costituito dalle prime due cifre binarie dell’uscita della sorgente. Queste cifre sono indipendenti e estensionin-me di sorgente consentono di ottenere un codice con lunghezza media pari a 1 +Hb(p) per simbolo.Naturalmente, se ora assumessimo p = 1/2, allora l’uscita di sorgente e rappresentata da due cifre binarie indipendenti,ciascuna con distribuzione uniforme, piu una copia della seconda cifra. Il codice corrispondente, ignorando la terza cifra,

Page 20: Esercizi Modulo Teoria Dgergell'Informazione

e l’identita, e la lunghezza media, pari a 2, e uguale a 1 + Hb(1/2), cioe il codice raggiunge il limite entropico anchesenza ricorrere alla rappresentazione estesa della sorgente.

———————————————————————————————————————————————————

ESERCIZIO 51 Utilizzando il metodo del funzionale di Lagrange, si determini la pmf p = (p1

, p2

, . . . , pm), che abbia lamassima entropia compatibilmente con il vincolo p

1

= a, con 0 < a < 1 costante assegnata. Ipotizzando poi m pari, si ripetal’esercizio assumendo questa volta che il vincolo sia

Pm/2k=1

pk = a.

SOLUZIONEIl funzionale di Lagrange per il primo caso e:

J(p) = �mX

k=1

pk log pk + �(p1

� a) + µ

mX

k=2

pk � 1 + a

!,

ove il vincolo implicito ePm

k=2

pk = 1� a. E dunque, assumendo logaritmi in base e per semplificare il conto,

@J(p)

@p1

= 0 ) � log p1

� 1 + � = 0 ) p1

= e��1,

i > 1,@J(p)

@pi= 0 ) � log pi � 1 + µ = 0 ) pi = eµ�1.

Imponendo i vincoli,

p1

= a ) e��1

= a,mX

i=2

pi = 1� a ) eµ�1

(m� 1) = 1� a ) eµ�1

=

1� a

m� 1

.

Dunque:p1

= a, p2

= p3

= · · · = pm =

1� a

m� 1

.

Nel secondo caso, analogamente, si ha:

J(p) = �mX

k=1

pk log pk + �

0

@m/2X

k=1

pk � a

1

A+ µ

0

@mX

k=m

2 +1

pk � 1 + a

1

A ,

Quindi

i = 1, . . . ,m

2

,@J(p)

@pi= 0 ) � log pi � 1 + � = 0 ) pi = e��1

i =m

2

+ 1, . . . ,m,@J(p)

@pi= 0 ) � log pi � 1 + µ = 0 ) pi = eµ�1

Imponendo i vincoli,m/2X

i=1

pi = a ) e��1

m

2

= a ) e��1

=

2a

m,

mX

i=m

2 +1

pi = a ) eµ�1

m

2

= 1� a ) eµ�1

=

2(1� a)

m.

Dunque:

i = 1, . . . ,m

2

, pi =2a

m,

i =m

2

+ 1, . . . ,m, pi =2(1� a)

m.

———————————————————————————————————————————————————