Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… ·...

19
Universit´ e Paris-Dauphine, M1 MMD Contrˆ ole des chaˆ ınes de Markov (2014 – 15) Examen du 22 janvier 2015. Dur´ ee : 2 heures La qualit´ e de la r´ edaction sera prise en compte dans la notation. Indication de barˆ eme : Ex. 1 : 10 pts ; Ex. 2 : 10pts. Exercice 1. Soit x 2 R + et u : N R + ! [0, 1] une fonction (un contrˆ ole Markovien). On consid` ere le syst` eme dynamique al´ eatoire issu de x, contrˆ ol´ e par u et d´ efini par : X 0 = x X n+1 = X n + U n X n n+1 8n 2 N, o` u U n = u(n, X n ) et (n ) n2N sont i.i.d. ` a valeurs dans {-1, 1}, P(1 = 1) = p =1 - P(1 = -1), avec p 2 (0, 1). La quantit´ e X n peut s’interpr´ eter comme la fortune d’un joueur qui au temps 0 poss` ede la somme x et qui ` a chaque ´ etape parie une proportion U n de sa fortune. Avec probabilit´ e p il gagne son pari et re¸ coit l’´ equivalent de la somme pari´ ee. Avec probabilit´ e1 - p il perd son pari, ainsi que la somme pari´ ee. Soit N 2 N. Le joueur d´ ecide d’arrˆ eter son jeu au temps N et souhaite maximiser la quantit´ e E[ln(X N )] (avec la convention ln(0) = -1). Cette esp´ erance est bien d´ efinie et ` a valeurs dans R [ {-1} (on ne demande pas de le d´ emontrer). 1. D´ eterminer la fonction P : R + [0, 1] ! Prob(R + ) dynamique de ce syst` eme (noter qu’elle est homog` ene). 2. D´ eterminer le processus de gain r : N R + [0, 1] ! R associ´ e` a ce probl` eme. 3. Rappeler la d´ efinition de la fonction valeur V (k, ·) pour tout k 2 {0,...,N }. Que vaut, explicitement, V (N, ·)? 4. Montrer que V (k,x) = sup u2[0,1] n pV (k +1, (1 + u)x) + (1 - p)V (k +1, (1 - u)x) o , pour k 2 {0,...,N - 1},x 2 R + . 5. Supposons p 2 [1/2, 1) (le jeu est favorable au joueur). Calculer V (k,x) pour tous k 2 {0,...,N - 1},x 2 R + , et d´ eterminer un contrˆole optimal. 6. Supposons p 2 (0, 1/2) (le jeu est d´ efavorable au joueur). Calculer V (k,x) pour tous k 2 {0,...,N - 1},x 2 R + , et d´ eterminer un contrˆole optimal. 1

Transcript of Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… ·...

Page 1: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Universite Paris-Dauphine, M1 MMDControle des chaınes de Markov (2014 – 15)

Examen du 22 janvier 2015.Duree : 2 heures

La qualite de la redaction sera prise en compte dans la notation.

Indication de bareme : Ex. 1 : 10 pts ; Ex. 2 : 10pts.

Exercice 1. Soit x 2 R+ et u : N R+ ! [0, 1] une fonction (un controle Markovien).On considere le systeme dynamique aleatoire issu de x, controle par u et defini par :

• X0 = x

• Xn+1 = Xn + UnXnn+1 8n 2 N,ou Un = u(n,Xn)

et (n)n2N sont i.i.d. a valeurs dans 1, 1, P(1 = 1) = p = 1 P(1 = 1),avec p 2 (0, 1).

La quantite Xn peut s’interpreter comme la fortune d’un joueur qui au temps 0 possedela somme x et qui a chaque etape parie une proportion Un de sa fortune. Avec probabilitep il gagne son pari et recoit l’equivalent de la somme pariee. Avec probabilite 1 p ilperd son pari, ainsi que la somme pariee.

Soit N 2 N. Le joueur decide d’arreter son jeu au temps N et souhaite maximiser laquantite E[ln(XN)] (avec la convention ln(0) = 1). Cette esperance est bien definie eta valeurs dans R [ 1 (on ne demande pas de le demontrer).

1. Determiner la fonction P : R+ [0, 1] ! Prob(R+) dynamique de ce systeme(noter qu’elle est homogene).

2. Determiner le processus de gain r : N R+ [0, 1] ! R associe a ce probleme.

3. Rappeler la definition de la fonction valeur V (k, ·) pour tout k 2 0, . . . , N. Quevaut, explicitement, V (N, ·) ?

4. Montrer que

V (k, x) = supu2[0,1]

n

pV (k + 1, (1 + u)x) + (1 p)V (k + 1, (1 u)x)o

,

pour k 2 0, . . . , N 1, x 2 R+.

5. Supposons p 2 [1/2, 1) (le jeu est favorable au joueur). Calculer V (k, x) pour tousk 2 0, . . . , N 1, x 2 R+, et determiner un controle optimal.

6. Supposons p 2 (0, 1/2) (le jeu est defavorable au joueur). Calculer V (k, x) pourtous k 2 0, . . . , N 1, x 2 R+, et determiner un controle optimal.

1

Page 2: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

7. Quelle aurait ete la strategie optimale si le joueur avait souhaite maximiser E[XN ] ?(discuter suivant la valeur de p). Comparer aux resultats obtenus pour maximiserE[ln(XN)]. Quel avantage y a-t-il a maximiser E[ln(XN)] plutot que E[XN ] ?

Exercice 2. Soit f : [0, 1] ! R, une fonction integrable :

Z 1

0

|f(x)|dx < 1.

L’objectif de cet exercice est de construire via la theorie des martingales une suite defonctions (fn)n0 constantes par morceaux sur [0, 1] telles que

fn(x) !n!1

f(x),

pour Lebesgue-presque tout x 2 [0, 1] (c’est-a-dire que l’ensemble des x 2 [0, 1] pourlesquels fn(x) ne converge pas vers f(x) est de mesure de Lebesgue nulle). Pour celaconsiderons X une variable uniformement distribuee sur [0, 1] et pour tout n 0, posons

Xn = k2n si k2n X < (k + 1)2n,

Fn = (X0, X1, . . . , Xn) et Yn = E [f(X)|Fn]. Posons egalement F1 = (Xi, i 0).

1. (a) Montrer que pour tout k 2 0, 1, . . . , 2n 1,

E

f(X)|Xn = k2n

= 2nZ k2n+2n

k2n

f(u)du.

(b) Montrer que Fn = (Xn) et en deduire que Yn = 2nR Xn+2n

Xnf(u)du (p.s.).

2. (a) Montrer que (Yn) est une martingale.

(b) Montrer que Yn ! Y1 = E[f(X)|F1] p.s. et dans L1 (enoncer precisement letheoreme utilise).

(c) Montrer que F1 = (Xi, i 0) = (X) et en deduire que Y1 = f(X) (p.s.).

3. Definissons pour n 0, la fonction fn : [0, 1] ! R par

fn(x) = 2nZ (k+1)2n

k2n

f(u)du si x 2 [k2n, (k+1)2n[, k 2 0, 1, . . . , 2n 1,

et fn(1) = 0. Justifier a l’aide des questions precedentes que

(a) pour tout n 0, fn(X) = Yn p.s.,

(b) fn(x) ! f(x) pour Lebesgue-presque tout x 2 [0, 1]

(c) et de plus,Z 1

0

|fn(x) f(x)|dx ! 0 quand n ! 1.

2

Page 3: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Universite Paris–Dauphine, M1 MMDControle des chaınes de Markov (2014 – 15)

Partiel du 19 novembre 2015Duree : 2 heures

La qualite de la redaction sera prise en compte dans la notation.

Indication de bareme : Ex. 1 : 4 points ; Ex. 2 : 2 points ; Probleme : 14 points.

Exercice 1 (Question de cours).

1. Rappeler les deux definitions vues en cours d’uniforme integrabilite.

2. Donner un exemple de suite bornee dans L

1 qui n’est pas uniformement integrable.

3. Soient (Xn

)n2N et (Y

n

)n2N deux suites uniformement integrables. Montrer que la suite

(Xn

+ Y

n

)n2N est aussi uniformement integrable.

Exercice 2. Soit X une variable aleatoire uniformement distribuee sur [1, 1] et Y = X

2.Calculer E[Y |X] et E[X|Y ].

Probleme. N + 1 cartes sont disposees sur une table, numerotees de 0 a N . Le numero dechaque carte est situe sur sa face visible tandis que sur sa face cachee est inscrit un nombrereel positif. Au depart, seul le nombre reel inscrit au dos de la carte n 0 est connu : il estegal a 1, les autres sont inconnus.

La regle du jeu est alors la suivante : vous retournez les cartes une a une, en suivantleur numerotation, d’abord la carte n 1, puis la carte numero n 2, etc. Vous etes obliges deretourner au moins la carte n 1. Ensuite, vous vous arretez lorsque vous pensez avoir trouvele plus grand nombre reel parmi tous ceux inscrits aux dos des N + 1 cartes. Si vous avezraison et que le nombre au dos de la derniere carte retournee est e↵ectivement le plus grand,vous gagnez. Sinon vous avez perdu. Notons que si tous les nombres inscrits aux dos descartes n 1 a N sont strictement plus petits que 1, vous perdez de toute facon, quelque soitvotre strategie. L’objectif est de maximiser la probabilite de victoire.

Afin que vous n’ayez pas d’indication precise sur la valeur maximale possible des reelsinscrits aux dos des cartes, on la choisit aleatoirement : soit M une variable aleatoire reellede densite

f(x) = x

2x>1.

On considere ensuite, conditionnellement a M , N variables aleatoires i.i.d. X1, . . . , XN

uni-formement distribuees sur [0, M ]. Formellement, les X

i

sont definies par leur densite condi-tionnelle sachant M : pour tout x > 1,

f(X1,...,XN )|M=x

(x1, . . . , xN

) =1

x

N

NY

i=1

0xix.

1

Page 4: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Des rappels sur les densites conditionnelles sont faits a la fin de l’enonce si besoin. Du pointde vue de la modelisation, la quantite X

i

correspond au nombre reel inscrit au dos de lacarte numero i, 1 i N . Remarquons que les X

i

ne sont pas independantes.

Pour tout k 2 [[1, N ]], on introduit la tribu Fk

= (X1, . . . , Xk

) et le maximum

M

k

= max1, X1, . . . , Xk

,

correspondant au maximum des nombres aux dos des k + 1 premieres cartes (y compris lacarte 0). Vous observez donc les X

i

dans l’ordre, X1, X2, etc. Si vous decidez de vous arretera l’etape k 1, vous gagnez si et seulement si X

k

= M

N

.

1. Donner (sans calcul, mais en justifiant rapidement votre reponse) la densite condi-tionnelle du k-uplet (X1, . . . , Xk

) sachant M . En deduire la densite du k + 1-uplet(M, X1, . . . , Xk

). Montrer enfin que la densite conditionnelle de M sachant (X1, . . . , Xk

)est la fonction

x 2 R 7! (k + 1)Mk+1k

x

k2x>Mk.

2. On pose Y

k

= P(Xk

= M

N

|X1, . . . , Xk

), 1 k N . Soit T un temps d’arret parrapport a la filtration (F

n

)1nN

, borne par N . Montrer que

E[YT

] = P(XT

= M

N

).

3. On note (Zn

)1nN

la fonction valeur associee au processus (Yn

)1nN

. Rappeler sadefinition et demontrer que c’est une surmartingale.

4. Montrer que pour tout 1 k N

Y

k

=k + 1

N + 1Xk=Mk.

5. On veut montrer que l’evenement Xk

= M

k

est independant de Fk1. Montrer que

P(Xk

= M

k

|X1, . . . , Xk1) =1

k + 1,

et conclure.

6. Calculer E[ZN

|FN1].

7. Rappeler la definition du plus petit temps d’arret optimal T

et du plus grand tempsd’arret optimal T .

8. Deduire des questions precedentes une expression de T

ne faisant intervenir que lesY

k

et les E[Zk

].

9. Montrer qu’il existe un entier r

2 [[1, N 1]] tel qu’une strategie d’arret optimale estde s’arreter au temps T

r

ou T

r

est definie pour tout r 2 [[1, N 1]] par

T

r

= infk r, k N : X

k

= M

k

si cet infimum est defini, et T

r

= N sinon.

2

Page 5: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

10. Montrer que pour tout r 2 [[1, N 1]]

P(XTr = M

N

) =r

N + 1

NX

k=r

1

k

.

11. En supposant que N !1, donner une approximation du temps r

et de la probabilitede victoire maximale.

Rappels : Soient A et B deux variables aleatoires, a valeurs respectivement dans Rp et Rq.On suppose que le couple (A, B) a une densite f(A,B) par rapport a la mesure de Lebesguesur RpRq

. Alors A a une densite f

A

(par rapport a la mesure de Lebesgue sur Rp) donneepour tout x 2 Rp par

f

A

(x) =

Z

Rq

f(A,B)(x, y)dy,

et symetriquement pour B. De plus, la densite conditionnelle de A sachant B est definiepour tout y 2 Rq t.q. f

B

(y) > 0 par

f

A|B=y

(x) =f(A,B)(x, y)

f

B

(y), 8x 2 Rp

.

De facon equivalente, lorsqu’on mentionne la densite de A sachant B on peut l’exprimer sousla forme f

A|B(x) = f(A,B)(x, B)/fB

(B), 8x 2 Rp

. Enfin, on a alors pour toute fonction g

mesurable bornee :

E[g(A)|B] =

Z

Rp

g(x)fA|B(x)dx.

3

Page 6: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Universite Paris-Dauphine, M1 MMDControle des chaınes de Markov (2013 – 14)

Examen du 23 janvier 2014.Duree : 2 heures

La qualite de la redaction sera prise en compte dans la notation.

Indication de bareme : Ex. 1 : 8 points ; Ex. 2 : 6 points ; Ex. 3 : 6 points.

Dans toute la feuille (,F ,P) designe un espace probabilise.

Exercice 1. On dispose au debut de l’annee n, n 2 0, 1, ..., N d’un capital Xn

0. Achaque debut d’annee n N 1, on choisit de depenser une proportion U

n

2 [0, 1] ducapital X

n

et on epargne le reste (1U

n

)Xn

du capital qui, par le biais d’un rendementaleatoire, se fructifie de facon a devenir R

n

(1U

n

)Xn

a la fin de l’annee n, avec Rn

0.On suppose les (R

n

) i.i.d. d’esperance finie m. La Nieme annee, on depense tout cequ’il nous reste. Notre objectif est d’optimiser la somme totale depensee.

1. Determiner l’espace d’etats S et l’espace d’actions A associes au probleme.

2. Determiner la fonction G : S AR+ ! S et la suite de v.a. i.i.d. (n

) qui inter-viennent dans la construction du systeme dynamique controle associe au probleme.

3. Determiner une fonction de gain r : N S A ! R associee au probleme.

4. Rappeler la definition de la fonction valeur V (n, x), n 2 N, x 0 et ecrire l’equationde Bellman verifiee par cette fonction. Preciser V (N, x), x 0.

5. Calculer la fonction x 2 R+ 7! V (n, x) pour tout n. On distinguera trois cas :m < 1,m = 1 et m > 1.

6. Dans chacun de ces trois cas, donner un controle optimal (partant du temps 0).

7. Commenter les resultats obtenus.

Exercice 2. Soit (Yn

, n 1) une suite de variables aleatoires independantes telles quepour tout n 1

P(Yn

= 1) = 1 e

n

, P(Yn

= e

n 1) = e

n

.

On note (Fn

) la tribu engendree par Y1, ..., Yn

, n 1 et F0 = ;,. Puis on definitS

n

, X

n

par :S

n

= Y1 + ...+ Y

n

, n 1, S0 = 0

et

X

n

=Y1 + ...+ Y

n

n

, n 1, X0 = 0.

1

Page 7: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

1. Montrer que (Sn

)n0 et (X

n

)n0 sont des martingales par rapport a la filtration

(Fn

)n0.

2. On considere l’evenement A = \n1 [kn

Yk

6= 1. Montrer que P(A) = 0.

3. En deduire que presque surement Xn

!n!1

1, puis Sn

!n!1

1.

4. Les martingales (Xn

) et (Sn

) sont-elles uniformement integrables ?

5. Rappeler les deux definitions d’uniforme integralite d’une suite de variables aleatoi-res reelles.

Exercice 3. On considere un processus controle d’espace d’etats S = N, d’ensembled’actions A = 0, 1 et de probabilite de transition homogene definie sur S A par

P (x, a) =

a(x+x1)

(il n’y a donc pas d’alea !). On se donne comme fonction de gain la fonction r definie surS A par

r(x, a) = (1 a)

1 1

x

si x 2 N et r(0, 0) = r(0, 1) = 0.

On note V la fonction valeur associee a ce systeme (qui est homogene).

1. Calculer V (0) et montrer que V est une solution de l’equation

W (x) = max

1 1

x

;W (x+ 1)

, x 2 N

.

2. Montrer que W est une solution de l’equation precedente si et seulement si il existeun 1 tel que

W (x) = , 8x 2 N.

3. En deduire la valeur de V (x), 8x 2 N.4. Montrer que pour tout controle u 2 C0, V u(x) < 1 pour tout x 2 N.5. En deduire qu’il n’y a pas de controle optimal.

2

Page 8: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Universite Paris-Dauphine, M1 MMDControle des chaınes de Markov (2013 – 14)

Partiel du 19 novembre 2013Duree : 2 heures

La qualite de la redaction sera prise en compte dans la notation.

Indication de bareme : ex.1 : 2,5 points ; ex. 2 : 5,5 points ; ex. 3 : 9 points ; ex. 4 : 3points.

Dans toute la feuille (,F ,P) designe un espace probabilise.

Exercice 1. Soient X, Y deux variables aleatoires reelles, telles que X 2 L2(). Ondefinit la variance conditionnelle de X sachant Y par

Var(X | Y ) = E(X E[X | Y ])2 | Y

.

Montrer queVar(X) = E [Var(X | Y )] + Var (E[X | Y ]) .

Exercice 2. Soient (Fn)n2N une filtration et (Yn)n2N un processus adapte integrable. SoitN 2 N l’horizon et (Zn)n20,...,N l’enveloppe de Snell du processus (Yn)n2N d’horizon N .

1. Dans ce contexte, rappeler la definition d’un temps d’arret optimal.

2. Soit T un temps d’arret borne par N .

(a) On suppose que ZT = YT et que (ZT^n)n20,...,N est une martingale. Montrerque T est optimal.

(b) Reciproquement, montrer que si T est optimal, alors ZT = YT et (ZT^n)n20,...,Nest une martingale.

Exercice 3. Considerons un lac contenant N 2 N poissons. On note Ti le tempsnecessaire pour attraper le poisson numero i et on suppose que T1, ..., TN sont i.i.d.de loi exponentielle de parametre 1. On verra ci-dessous que les temps T1, ..., TN sontpresque surement tous distincts. Admettons-le pour le moment. On note alors

T(1) < T(2) < ... < T(N)

1

Page 9: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

leur rearrangement croissant, puis

X1 = T(1) et Xi = T(i) T(i1), 2 i N.

La variableXi represente donc le temps qui s’est ecoule entre le (i1)eme et le ieme tempsde peche. Pour 1 n N , on pose Fn = (X1, ..., Xn), et pour n = 0, F0 = ;,.

On s’interesse au theoreme d’arret suivant : au bout de combien de poissons pechesest-il optimal de s’arreter sachant qu’on gagne 1 a chaque fois qu’on attrape un pois-son et qu’on paye c > 0 fois le temps total requis ? Le processus de gain (Yn)n20,...,Ncorrespondant a ce probleme est donc donne par

Yn = n cT(n)

(avec la convention T(0) = 0).

1. Montrer que P(Ti 6= Tj) = 1 lorsque 1 i 6= j N . En deduire que

P9(i, j) 2 [[1, N ]]2, i 6= j : Ti = Tj

= 0

(le rearrangement strictement croissant de T1, ..., TN a donc bien un sens presquesurement).

2. (a) Montrer qu’une densite (par rapport a la mesure de Lebesgue sur RN) duNuplet (T(1), T(2), ..., T(N)) est donnee par

(t1, ..., tN) 7! N ! 0<t1<...<tN exp

NX

i=1

ti

!.

(b) En deduire que les variables Xi, 1 i N sont independantes et que Xi suitune loi exponentielle de parametre N i+ 1.

(c) Montrer que le processus (Yn)n20,...,N est adapte a (Fn)n20,...,N et integrable.

3. On note (Zn)n20,...,N l’enveloppe de Snell du processus (Yn)n20,...,N.

(a) Calculer E[Yn+1 | Fn] en fonction de Yn, c, N et n, pour 0 n N 1.

(b) En deduire que pour tout n, Zn peut s’exprimer comme une fonction mesurable(que l’on precisera) de Yn.

(c) En deduire un temps d’arret optimal.

(d) Ce probleme est-il a structure monotone ? Justifier votre reponse.

Exercice 4. Soit T un temps d’arret d’une filtration (Fn)n2N. On suppose qu’il existe" > 0 tel que pour tout n 2 N on a

P (T n+ 1 | Fn) > " p.s..

Montrer que T est fini p.s. et E[T ] < 1. Indication : on rappelle que pour une v.a. X a

valeurs dans N, E[X] =P1

n=1 P(X n).

2

Page 10: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Contrôle des chaînes de Markov 2008/09 Université Paris-Dauphine Dep. MIDO M1MMD

Rattrapage 2009

[Durée deux heures. Aucun document n’est autorisé. Seule les reponses soigneusement justifiéesseront prise en compte.]

1. Temps d’arrêt.

Soient T et S des temps d’arrêt par rapport à une filtration (Fn)n!1 donnée et soit (Xn)n!1 unprocessus adapté à la même filtration.

a) Montrer que max (T , S) et min (T , S) sont des t.a.s.

b) Montrer que la v.a. XT est FT mesurable.

c) Montrer que si S ! T alors FS ⊆FT .

2. Arrêt optimal en horizon fini.

Soit (Yn)1"n"N le processus des gains pour un problème d’arrêt optimal en horizon fini N pourla filtration (Fn)1"n"N.

a) Donner la définition d’enveloppe de Snell (Zn)n de (Yn)n.

b) Donner la formule récursive satisfaite par l’enveloppe de Snell (Zn)n.

c) Soit T ∗= inf k: 1 ! k ! N etYk = Zk. Montrer que T ∗ est un temps d’arrêt.

d) Montrer que Zn∧T∗ est une martingale.

e) Montrer que E[Z1] = supT E[YT ] =JT , le gain moyen optimal du problème d’arrêt.

3. Le problème de Moser

On considère une suite iid (Xn)1"n"N tel que Xn " 0, Fn = σ(X1, , Xn) la filtration associée etYn =Xn le processus des gains. On veut déterminer le gain optimal moyen JT = supT E[YT ].

a) Montrer que Zn est mesurable par rapport à σ(Xn).

b) Montrer que E[Zn] =E[sup (Xn,E[Zn+1])] pour tout n < N .

c) Montrer que E[Zn] est une fonction décroissante de n.

d) Montrer que une règle optimale est T ∗ = infN k < N : Xk "E[Zk+1] (où infN A = inf A siA=∅ et infN ∅=N).

3. Horizon infini.

On considère un problème d’arrêt en horizon infini. On suppose que E[(supn!1 Yn)+] < ∞. SoitT un t.a et T = inf n " 1:E[YT |Fn] ! Yn(+∞ si l’ensemble est vide). On rappelle que S est untemps d’arrêt regulier si et seulement si pour tout n " 1 on a que E[YS |Fn] > Yn sur l’evenementS > n.

a) Montrer que T !T .

b) Montrer que E[YT ] !E[YT ].

c) Montrer que T est un t.a. régulier.

d) Montrer que si T1 et T2 sont t.a. réguliers alors E[Ymax(T1,T2)] "max (E[YT1],E[YT2]).

Page 11: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Contrôle des chaînes de Markov 2008/09 Université Paris-Dauphine Dep. MIDO M1MMD

Examen 2009

[Durée une heure et demi. Aucun document n’est autorisé. Tous les exercices sont independantes.Seule les reponses soigneusement justifiées seront prise en compte.]

1. Vendre un bien avec actualisation du futureSoit (Xn)n!1 une suite iid avec E[|Xn|] < + ∞ et Fn = σ(X1, , Xn) la filtration associée. Soitβ ∈ ]0, 1[ on veut résoudre le problème d’arrêt optimal pour le processus Yn = βnXn. C’est lasituation où on reçoit des offres Xn pour un bien à vendre et on considère le gain en prenant encompte un facteur d’actualisation β. C’est naturel de poser Y∞= 0.

a) Montrer que E[(supn!1 Yn)+] <∞.

b) Montrer que limn→∞Yn =0.

c) Soit T un t.a., montrer que T = inf n ! 1: E[YT |Fn] " Yn est un t.a. et que E[YT ] !E[YT ].

d) Rappeler la definition de t.a. régulier et montrer que T est régulier.

e) Expliquer pourquoi on est bien dans un cadre Markovien.

f) Soit vn(x) = supT !n E[YT |Xn = x] la fonction valeur. À partir du principe d’optimalitégénérale pour Vn

∗ = esssupT !nE[YT |Fn] retrouver la forme simplifiée du principe d’opti-malité dans le cadre Markovien:

vn(x)=max (yn(x),E[vn+1(Xn+1)|Xn = x]).

g) Montrer que dans ce problème vn(x)= βn−1v1(x).

h) On admet que T ⋆ = inf n ! 1: yn(Xn) = vn(Xn) est un t.a. optimal pour le problème.Montrer qui si T est un autre t.a. optimal, alors on doit avoir T ⋆ " T presque sûrement(suggestion: commencer par montrer que sur l’evenement T =n on a Yn =Vn

⋆).

i) Montrer que dans ce problème le t.a. optimal T ⋆ peut être mis dans la forme

T ⋆ = inf n ! 1: Xn ! ℓ

et que ℓ satisfait ℓ = βE[max (X1, ℓ)].

j) Expliquer le lien entre le seuil ℓ et le gain moyen optimal V ∗= supT !1E[YT ].

k) Donner une expression pour ℓ dans le cas Xn∼U([0, 1]) et β = 1/2.

2. N’est jamais trop tard pour s’arrêter.Soit (Xn)n!1 une suite iid de v.a. Bernoulli(1/2). On considère le processus des gains

Yn = (2n − 1)X1 Xn , Y∞= 0 .

a) Montrer que limsupn→∞ Yn " Y∞ .

b) Montrer que E[supn!1 Yn] = +∞ .

c) Montrer que le problème d’arrêt associé n’admet aucun t.a. optimal.

Page 12: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

MIDO M1 MMD Université Paris-Dauphine 09/10Contrôle des Chaînes de Markov [v.2 20100831]

Rattrapage

[Durée deux heures. Aucun document n’est autorisé. Tous les exercices sont independants. Seule lesreponses soigneusement justifiées seront prise en compte.]

Exercice 1. Soit (Xn)n!1 un processus adapté et S, T deux temps d’arrêt (tout par rapport àune seule et même filtration (Fn)n!0).

a) Montrer que T = inf n ! 1 : Xn ! 5 est un temps d’arrêt .

b) Montrer que T ′= T IT <S + SIT !S est un temps d’arrêt .

c) Donner la définition de la tribu FT .

d) Montrer que T et XT sont FT -mesurables .

e) Donner un exemple pour montrer que en général S ′ = IS!1(S − 1) n’est pas un tempsd’arrêt .

Exercice 2. On suppose la situation suivante: dans un jeux à quiz on doit répondre à N ques-tions différentes, une réponse correcte à la question i-éme rapporte un gain Ri > 0 fixé a-priori.On se donne aussi un modèle probabiliste de notre capacité à donner les réponses correctes: onsuppose que la probabilité de donner la réponse correcte à la i-éme question est pi ∈ ]0, 1[ et queles réponses sont toutes indépendantes. Le jeux termine à la première réponse erroné et à cemoment on gagne la somme des gains des réponses correctes déjà données. On a la possibilité dechoisir la séquence de questions. Notre but sera de déterminer une séquence optimale de ques-tions pour maximiser notre gain moyen.

On considère donc une chaîne de Markov contrôlée (Xn)n!0 sur l’espace M =P(!N") des partiesde l’ensemble !N" = 1, , N qui représentent les questions qui restent à répondre à un certaininstant de temps. Pour formaliser le problème dans le cadre étudié dans le cours on prendcomme espace des actions A l’ensemble !N" des choix possibles des différentes questions (sansconsidérer si la question a été déjà répondue ou pas) et on considère la fonction de transitionhomogène P :A×M →Π(M) suivante

Pi(x, y)=

pi si x = y∪ i1− pi si i∈x et y = ∅

1 si i x et y = ∅

1 six, y = ∅

pour tout i∈A et tout x, y ∈M .

On rappelle que Pi(x, y) est la probabilité que, une fois choisie l’action i-éme on passe de l’étatx à l’état y. Comme d’habitude on dénote aussi

V u(x)=E(0,x)[∑

n!0

c(Xn, Un)], V (x)= supu∈C0

V u(x)

la fonction valeur du problème de contrôle. La fonction c: M ×A→R∪ −∞ est donnée par

c(x, i)=

Ri si i∈ x0 si x= ∅

−∞ si i x

1

Page 13: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

Notre but est de donc de calculer V (!N").

a) Donner une explication intuitive de la forme des fonctions P , c, V (x) et V u(x) et leur lienavec le problème à résoudre.

b) Donner la valeur de V (∅), V (i) et V (i, j) pour tout i, j ∈ !N".

c) En utilisant l’équation de Bellman montrer que V satisfait l’équation

V (x)=maxi∈x

(pi Ri + piV (x\i)) (1)

pour tout x de cardinalité au moins 1. Ici x\z = j ∈x : j z.

d) Expliquer comment à partir de V on peut déterminer une politique markovienne optimaleu: M →A.

e) En iterant une fois l’équation (1) on obtient que

V (x)= maxi∈x,j∈x,j i

(pi Ri + pj piRj + pipjV (x\i, j))

pour tout x de cardinalité au moins 2. En déduire que une suite optimale i1⋆, , iN

⋆ dequestions doit satisfaire l’équation

pik⋆Rik

1− pik⋆

!pik+1

⋆ Rik+1⋆

1− pik+1⋆

et donc que les questions doivent être ordonné en suite décroissante par rapport à lavaleur de la quantité piRi/(1 − pi). [Sugg: comparer la valeur de la stratégie optimale i1

⋆,i1⋆, i2

⋆ , iN⋆ avec la stratégie i2

⋆, i1⋆, , iN

⋆ où on a inversé les deux premiers questions].

2

Page 14: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

MIDO M1 MMD Université Paris-Dauphine 09/10Contrôle des Chaînes de Markov [v.2 20100119]

Examen

[Durée deux heures. Aucun document n’est autorisé. Tous les exercices sont independants. Seule lesreponses soigneusement justifiées seront prise en compte.]

Exercice 1. Soit (Xn)n!0 un processus contrôlée sur l’espace M = 0, , N avec N > 0. Dansl’état x ∈ M ,x 0, N deux actions sont possibles : soit on s’arrête et on gagne la quantité r(x)avec r: M →R+, soit on continue et l’état suivant est choisi parmi x − 1 et x + 1 avec égale pro-babilité (donc 1/2). Dans les états 0, N on s’arrête automatiquement et on perçoit la quantitér(0) où r(N). On considère le problème en horizon fini n (c-à-d, au n-éme pas on est obligé des’arrêter si on l’a pas déjà fait) et aussi le problème en horizon infini. Le but est de trouver legain moyen maximal Vn(x) en horizon fini n et le gain moyen maximal V (x) en horizon infini.L’espace d’action est A = 0, 1 où on convient que 0 représente l’action de continuer et 1 celade s’arrêter. Par simplicité on fait l’hypothèse que r(0) = 0 et que quand on décide de s’arrêteron va à l’état 0. La fonction de transition P : M ×A→M du processus contrôlée est donc homo-gène et donnée par P0(x, x ± 1) = 1/2 pour tout x 0, N , P0(0, 0) = P0(N , N) = 1, P1(x, 0) = 1pour tout x∈M et on a que, pour tout contrôle u∈ C0

Vnu(x)=E(0,x)

u [!

i=0

n−1

1Ui=1 r(Xi)+ r(Xn)] V u(x)=E(0,x)u [

!

i!0

1Ui=1 r(Xi)]

où Un = un(X0, , Xn). On pose aussi

Vn(x)= supu∈C0

Vnu(x) V (x)= sup

u∈C0

V u(x).

a) Donner une explication intuitive de la forme des fonctions Vnu(x) et V u(x). Représentent-

elle bien le gain moyen de la politique u en horizon fini et infini?

b) Soit (Zn)n!1 une suite iid de Bernoulli de paramètre 1/2. Donc Zn: Ω→E = 0, 1 Déter-miner la fonction F : M ×A×E →M qui, étant donné un contrôle u∈ C0, permet d’écrirele processus (Xn)n!0 contrôlé par u comme une récurrence aléatoire contrôlée Xn+1 =F (Xn, un(X0, , Xn), Zn+1).

c) Montrer que Vn(x) satisfait les équations

Vn(x)=max (r(x), (Vn−1(x− 1)+ Vn−1(x+ 1))/2), x 0, N

avec Vn(0)= 0 et Vn(N)= r(N) et que V (x) satisfait

V (x) =max (r(x), (V (x− 1)+V (x +1))/2), x 0, N (1)

avec V (0)= 0 et V (N) = r(N).

d) Justifier que pour tout x ∈ M et pour tout u ∈ C0 limn Vnu(x) = V u(x) et que limn Vn(x) =

V (x).

1

Page 15: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

e) Montrer que V est la plus petite solution de l’équation (1) tel que V (x) ! r(x) pour toutx ∈ M . C-à-d, soit Q(x) ! (Q(x − 1) + Q(x + 1))/2 pour tout 0 < x < N et Q(x) ! r(x)pour tout x∈M , montrer que Q(x) ! V (x) (Indication: montrer que pour tout n ! 1 on aQ(x)! Vn(x)).

f) Expliquer comment à partir de V on peut déterminer une politique markovienne optimaleu: M →A.

g) Calculer la politique optimale dans le cas N = 6 et r(x) =x(6− x).

Exercice 2. Soit (Mn)n!0 une sur-martingale et T = inf n ! 0: Mn > E[Mn+1|Fn] une v.a.telle que P(T < +∞)= 1. Soit Mn = Mn∧T le processus arrête au temps T .

a) Montrer que T est un temps d’arrêt.

b) Montrer que (Mn)n!0 est un processus adapté et intégrable (c-à-d Mn ∈ L1(Ω) pour toutn ! 0).

c) Soient F , G deux v.a. intégrables, on dit que F = G sur B si P(ω ∈ B: F (ω) = G(ω)) =P(B) (c-à-d F 1B = G1B p.s). Montrer que si B ∈Fn et F = G sur B, alors

E[F |Fn] =E[G|Fn] surB.

d) Montrer que (Mn)n!0 est une martingale.

e) Supposons que T est un t.a. borné. Montrer que E[M0] =E[MT ].

f) Supposons que Mn ! 0 pour tout n. Que peut-on dire de la relation entre E[M0] etE[MT ] sans d’autre hypothèse sur T que P(T < +∞)= 1?

2

Page 16: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

MIDO M1 MMD Université Paris-Dauphine 09/10Contrôle des Chaînes de Markov [v.2 20091120]

Corrigé du Partiel

[Durée une heure et demi. Aucun document n’est autorisé. Tous les exercices sont independantes.Seule les reponses soigneusement justifiées seront prise en compte.]

Exercice 1. Soient T , S des temps d’arrêt pour une filtration (Fn)n!0.

a) Montrer que U =min (T , S) est un temps d’arrêt .

b) Montrer que si S(ω)! T (ω) pour tout ω ∈Ω alors FS ⊆FT .

Solution. a) Par hypothèse S " k∈Fk−1 et donc T = k, S " k∈Fk. Bien sûr on a aussi S =k, T " k∈Fk ce qui permet de conclure que

U = k= T = k, S " k∪ S = k, T " k∈Fk

pour tout k " 0.

b) Soit A∈FS on doit montrer que A∩ T = n∈Fn pour tout n" 0. On a que

A∩ T = n=A∩ S !T = n=∪0"k"n (A∩ S = k∩ T = n)

Par hypothèse A∩ S = k∈Fk et donc S = k∩ T = n∈Fn ce qui donne A∩ T = n∈Fn.

Exercice 2. Soit (Xn)n!1 une suite iid à valeurs dans R et g(θ) =E[eθX1] < +∞ pour tout θ ∈R. Soit (Fn)n!0 la filtration naturelle de la suite (Xn)n!1 (c-à-d F0 = ∅, Ω, Fn = σ(X1, , Xn)pour n " 1) et soit S0 =0, Sn = X1 + +Xn la marche aléatoire engendrée par les (Xn)n!1.

a) Montrer que pour tout t.a. T borné associé à la filtration naturelle on a que

E[eλSTg(λ)−T ] = 1, λ∈R.

b) Soit a < 0 < b et T = inf n > 0: Sn∈(a, b). Utiliser le résultat de la question a) pour mon-trer que si θ est tel que g(θ) =1 alors

P(ST ! a)! eθa.

c) Soit Xk = 1 avec probabilité p et Xk =− 1 avec probabilité q = 1− p et p > 1/2. Soit T =inf n > 0: Sn =1. On suppose que P(T < +∞)= 1. Montrer que

1= eθE[g(θ)−T ]

pour tout θ > 0 et utiliser cet équation pour obtenir la fonction génératrice de T ϕ(s) =E[sT ] pour |s|< 1.

Solution. a) Soit T borné par N , alors

E[ eλST

g(λ)T] =

!

k=0

N

E[ eλSk

g(λ)k1T =k] =

!

k=0

N

E[ eλSN

g(λ)N1T =k] =E[ eλSN

g(λ)N] = 1.

1

Page 17: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

b) Si θ > 0 il y a rien a demontrer car P(ST ! a) ! 1 ! e−θa. Supposons que θ < 0 et soit T = infn > 0: Xn∈]a, b[ alors on a que

1=E[eθST ∧N] "E[eθST ∧N1ST ∧N!a] " eθaE[1ST !a,T !N] = eθaP(ST ! a, T !N)

et en prenant la limite (croissante) pour N →∞ on a le résultat.

c) Dans ce cas on a que g(θ) = p eθ + q e−θ. Par la question a) on a que 1 = E[eθST ∧Ng(θ)−T∧N].On remarque que eθST ∧N ! 1 et que g(θ)−T ! p−Tθ ! 1 et donc par convergence dominée onobtient que

E[eθSTg(θ)−T ] = limN→+∞

E[eθST ∧Ng(θ)−T∧N] = 1

mais ST = 1 et donc on a l’équation E[(p eθ + q e−θ)−T ] = e−θ pour tout θ > 0. Soit 1/s = p eθ +q e−θ et z = e−θ alors p− z/s + q z2 = 0 et

z =1/s± 1/s2− 4p q

!

2 q=

1± 1− 4p q s2!

2 q s

ce qui donne

ϕ(s) =E[sT ] =E[(p eθ + q e−θ)−T ] = z = 1± 1− 4p q s2!

2 q s.

Exercice 3. Une chaîne de Markov contrôlée (Xn)n"0 à valeurs dans R évolue selon la récur-rence aléatoire contrôlée

Xn+1 = λXn + Un + εn+1

où Un = un(Xk, , Xn), u un contrôle à valeurs dans R et où (εn)n"1 est une suite des v.a. iidde moyenne nulle et variance σ2>0. On se fixe un horizon fini T > 0 et une constante β ∈ ]0, 1[.On veut trouver un contrôle u qui minimise le coût moyen (actualisé)

WTu(t, x)=E(t,x)

u ["

k=t

T −1

βk−tC(Xk, Uk)+ βT −tR(XT)]

où C(x, u)=#u2 + a x2)/2 et R(x)= a0x2/2 + b0 avec a, a0, b0 constantes fixées et positives.

a) Montrer que la fonction WT(t, x)= infu∈Ct WTu(t, x) satisfait l’équation

WT (t, x)= infu∈R

c(x, u)+ βE[WT (t + 1, λx +u + ε1)].

b) Montrer par récurrence rétrograde que WT (t, x) est de la forme

WT (t, x)= 12aT −tx2 + bT −t

avec (aj)j"0 et (bj)j"0 des constantes à déterminer.

c) Montrer que le contrôle optimal u∗ est Markovien et tel que

ut∗(x)= kT −t x

pour une certaine suite (kj)j"0 de constantes.

2

Page 18: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

d) Calculer les constantes aj , bj , kj pour j ! 0.

Solution. a) Soit

VTu(t, x)= βtWT

u(t, x)=E(t,x)u [

!

k=t

T −1

βkC(Xk, Uk)+ βTR(XT )]

Par l’équation de Bellman le coût moyen optimal VT (t)= infu∈Ck VTu(t) satisfait

VT(t, x)= infu∈R

βtC(x, u)+E[VT(t + 1, λx+ u + ε1)]

pour tout 0" t <T et donc

WT(t, x) = β−t infu∈R

βtC(x, u)+E[VT(t +1, λx+ u+ ε1)]

= infu∈R

C(x, u)+ βE[WT(t +1, λx+ u+ ε1)].

b) On a que WT(T , x) =R(x) = a0x2/2 + b0. Supposons que WT(T −n, x)= anx2/2 + bn alors

WT(T −n− 1, x)= infu∈R

C(x, u)+ βE[WT(T −n, λx+ u + ε1)]

= infu∈R

(u2 + a x2)/2+ βE[an(λx + u+ ε1)2/2 + bn]

par les hypothèses sur ε1 on a

= infu∈R

(u2 + a x2)/2+ βan(λx+ u)2/2+ βanσ2/2+ βbn

= infu∈R

(1+ βan)u2 +(a + βanλ2) x2 + 2βanλ xu/2+ βanσ2/2+ βbn

On doit donc minimiser la fonction ϕ(u)= (1 + βan)u2 + (a + βanλ2) x2 + 2βanλ xu. On a

ϕ′(u) =2(1 + βan)u+ 2βanλx = 0

qui nous donne uT −n∗ =− βanλx/(1 + βan) et donc

ϕ(uT −n∗ ) =− β2an

2λ2x2/(1+ βan) + (a + βanλ2)x2

et alors

WT(t−n− 1)= (a + βanλ2− β2an2λ2/(1+ βan))x2/2+ βanσ2/2 + βbn

=(a + βanλ2/(1+ βan))x2/2+ βanσ2/2+ βbn

= an+1x2/2 + bn+1

an+1 = a + βanλ2/(1+ βan) bn+1 = βanσ2/2 + βbn.

Cela montre au même temps que la stratégie optimale est de la forme souhaitée avec

kn+1 =− βanλ/(1 + β an).

3

Page 19: Universit´e Paris-Dauphine, M1 MMD Controˆle des ...simenhaus/Francois_Simenhaus… · Universit´e Paris-Dauphine, M1 MMD Controˆle des chaˆınes de Markov (2014 – 15) Examen

MIDO M1 MMD Université Paris-Dauphine 09/10Contrôle des Chaînes de Markov [v.1 20091119]

Partiel

[Durée une heure et demi. Aucun document n’est autorisé. Tous les exercices sont independantes.Seule les reponses soigneusement justifiées seront prise en compte.]

Exercice 1. Soient T , S des temps d’arrêt pour une filtration (Fn)n!0.

a) Montrer que U =min (T , S) est un temps d’arrêt .

b) Montrer que si S(ω)! T (ω) pour tout ω ∈Ω alors FS ⊆FT .

Exercice 2. Soit (Xn)n!1 une suite iid à valeurs dans R et g(θ) =E[eθX1] < +∞ pour tout θ ∈R. Soit (Fn)n!0 la filtration naturelle de la suite (Xn)n!1 (c-à-d F0 = ∅, Ω, Fn = σ(X1, , Xn)pour n " 1) et soit S0 =0, Sn = X1 + +Xn la marche aléatoire engendrée par les (Xn)n!1.

a) Montrer que pour tout t.a. T borné associé à la filtration naturelle on a que

E[eλSTg(λ)−T ] = 1, λ∈R.

b) Soit a < 0 < b et T = inf n > 0: Sn∈(a, b). Utiliser le résultat de la question a) pour mon-trer que si θ est tel que g(θ) =1 alors P(ST ! a)! eθa.

c) Soit Xk = 1 avec probabilité p et Xk =− 1 avec probabilité q = 1− p et p > 1/2. Soit T =inf n > 0: Sn =1. On suppose que P(T < +∞)= 1. Montrer que

1= eθE[g(θ)−T ]

pour tout θ > 0 et utiliser cet équation pour obtenir la fonction génératrice de T ϕ(s) =E[sT ] pour |s|< 1.

Exercice 3. Une chaîne de Markov contrôlée (Xn)n!0 à valeurs dans R évolue selon la récur-rence aléatoire contrôlée

Xn+1 = λXn + Un + εn+1

où Un = un(Xk, , Xn), u un contrôle à valeurs dans R et où (εn)n!1 est une suite des v.a. iidde moyenne nulle et variance σ2>0. On se fixe un horizon fini T > 0 et une constante β ∈ ]0, 1[.On veut trouver un contrôle u qui minimise le coût moyen (actualisé)

WTu(t, x)=E(t,x)

u [!

k=t

T −1

βk−tC(Xk, Uk)+ βT −tR(XT)]

où C(x, u)="u2 + a x2)/2 et R(x)= a0x2/2 + b0 avec a, a0, b0 constantes fixées.

a) Montrer que la fonction WT(t, x)= infu∈Ct WTu(t, x) satisfait l’équation

WT (t, x)= infu∈R

c(x, u)+ βE[WT (t + 1, λx +u + ε1)].

b) Montrer par récurrence rétrograde que WT (t) est de la forme WT (t) = 1

2aT −tx2 + bT −t

avec (aj)j!0 et (bj)j!0 des constantes à déterminer.

c) Montrer que le contrôle optimal u∗ est Markovien et tel que ut∗(x) = kT −t x pour une cer-

taine suite (kj)j!0 de constantes.

d) Calculer les constantes aj , bj , kj pour j " 0.

1