Matrices aléatoires et norme L1 pour le compressed...

Mémoire pour le Master 2 de Statistique Mathématique

Matrices aléatoires et norme L1pour le compressed sensing

effectué par Fabrice DURAND

Encadrant : Bernard DelyonAnnée 2012-2013

1

Exercice 1 : qui est qui ?

Dans le désordre : ➢ Terence Tao➢ Emmanuel J. Candès➢ David Donoho➢ Joel A. Tropp➢ Justin Romberg➢ Richard G. Baraniuk

2

Exercice 2 : qui est qui ?

➢ Claude Shannon➢ Stéphane G. Mallat➢ Yves Meyer➢ Ingrid Daubechies➢ Gabriel Peyré➢ Rémi Gribonval➢ Simon Foucart➢ Anna C. Gilbert

3

Table des matièresRemerciements et contexte...............................................................................................................51.Introduction...................................................................................................................................6

1.a)A l'origine : le théorème de l’échantillonnage de Shannon...................................................61.b)Pourquoi aller plus loin ?.......................................................................................................61.c)Nature du problème...............................................................................................................71.d)Un peu d'histoire....................................................................................................................7

2.Idées générales du compressed sensing.........................................................................................92.a)Notion de parcimonie............................................................................................................9

Définition................................................................................................................................9Recherche d'une meilleure représentation parcimonieuse....................................................10

2.b)Notion d'échantillonnage « incohérent ».............................................................................122.c)Un problème d'optimisation sous-contrainte.......................................................................15

3.Conséquences de la propriété d'isométrie restreinte (RIP)..........................................................183.a)Définition de la propriété d'isométrie restreinte..................................................................183.b)Théorèmes de reconstruction dus à Candès dans le cas RIP...............................................19

Reconstruction en situation non bruitée................................................................................19Reconstruction en situation bruitée.......................................................................................20

3.c)Un exemple de matrices aléatoires RIP...............................................................................21Les matrices aléatoires sous-gaussiennes ............................................................................21Autres choix possibles..........................................................................................................22

4.Approches alternatives................................................................................................................234.a)Approche RIPless................................................................................................................234.b)Approche Bayesienne..........................................................................................................25

5.Aperçu des algorithmes de reconstruction..................................................................................265.a)Matching Pursuit (MP)........................................................................................................265.b)Orthogonal Matching Pursuit (OMP)..................................................................................265.c)Stagewise Orthogonal Matching Pursuit (StOMP).............................................................275.d)Gradient Pursuit...................................................................................................................27

6.Simulations..................................................................................................................................286.a)Échantillonnage compressé d'un signal 1D et reconstruction par (Orthogonal) Matching Pursuit........................................................................................................................................286.b)Échantillonnage compressé d'une image et reconstruction.................................................29

7.Applications.................................................................................................................................318.Conclusion et ouvertures.............................................................................................................319.Bibliographie...............................................................................................................................3210.Annexes.....................................................................................................................................34

10.a)Démonstration du théorème sur la faible cohérence.........................................................3410.b)Démonstration de la propriété d'isométrie restreinte pour matrices aléatoires sous-gaussienne..................................................................................................................................40

Variables aléatoires sous-gaussienne....................................................................................40Démonstration du lemme de Johnson-Lindenstrauss ..........................................................41Preuve de la RIP pour matrices sous-gaussiennes................................................................44

10.c)Démonstration des théorèmes de reconstruction de Candès.............................................47

4

Remerciements et contexte

Je tiens premièrement à remercier Bernard Delyon pour m'avoir encadré pour ce stage et laissé libre dans le choix du sujet et des grandes orientations et donné le petit coup de pouce nécessaire quand j'en avais besoin. J'ai choisi le sujet du compressed sensing, suite à un premier travail encadré par Rémi Gribonval, dans le cadre du séminaire au premier semestre. Cela m'a ainsi apporté une culture scientifique dans ce domaine émergent, aujourd'hui devenu incoutournable dans l'univers du traitement du signal et de son enseignement.

Ce travail m'a permis de voir de nouveaux ponts entre des mondes qui se connaissent parfois peu : la théorie et les développements mathématiques pour valider l'intuition des physiciens ; et les explorations des physiciens ayant besoin d'outils mathématiques et donnant naissance à de nouvelles théories mathématiques hors des terrains balisés.

Je remercie également les étudiants du M2 Mathématiques, normaliens, magistériens et autres que j'ai pu cotoyer dans la bibliothèque de l'IRMAR, pour l'émulation apportée dans ce cadre de travail, et leur vision sur la recherche, l'apprentissage et l'enseignement des mathématiques.

Je remercie évidemment tous les mathématiciens et scientifiques dont les visages figuent en pages 2 et 3 et qui m'ont été une source d'inspiration pour ce travail. Merci en particulier à Gabriel Peyré, qui a mis en ligne ses codes Matlab pour la mise en œuvre de différents algorithmes de reconstruction parcimonieuse de signaux sous-échantillonnés. Merci également à Emmanuel Candès qui m'a donné par email un éclaircissement sur la preuve d'un théorème de reconstructon.

Merci à Patrick Perez, du service informatique, qui a bien voulu me donner une connexion filaire à l'internet depuis l'IRMAR et m'a mis en place un accès à un serveur pour utiliser Matlab à distance. Par contre, l'accès avec succès au serveur étant très aléatoire (ça tombe bien pour un stage en statistique) et suivant plutôt une loi des événements rares, j'ai dû me tourner vers une autre solution qui fonctionne avec probabilité 1.

Merci à Marie, mon sucre d'amour, qui partage ma vie.

5

1. Introduction

1.a) A l'origine : le théorème de l’échantillonnage de Shannon

Claude Shannon, ingénieur électricien et mathématicien américain, est considéré comme un

des pères de la théorie de l'information. Son nom est associé au célèbre théorème de

l'échantillonnage également connu comme critère de Shannon-Nyquist, affirmant que si

un signal analogique est échantillonné avec une fréquence F e=1 /T e au mois égale à

deux fois la fréquence maximale du signal 2 F max , alors on peut reconstruire sans perte

d'informations le signal analogique à partir des échantillons. En d'autre termes, un signal

échantillonné à une fréquence prescrite par Shannon contient toute l'information du signal

original et prend beaucoup moins de place.

Démonstration rapide : une démonstration possible repose sur la théorie des distributions. On modélise l'échantillonnage à la période T e du signal analogique par une multiplication par un peigne d'impulsions de Dirac de période T e et de « poids » 1. Ceci se transpose dans le domaine de Fourier par une convolution du spectre du signal avec un peigne de Dirac de période F e=1/T e et de « poids » F e . Le spectre se trouve donc périodisé avec une période F e . Pour éviter le recouvrement de spectre, on doit imposer

F max inférieur à F e/ 2 (faire un dessin). On peut alors reconstruire le signal initial en appliquant un filtre passe bas idéal modélisé par une porte. Dans le domaine temporel, ce filtre se traduit par une interpolation des échantillons avec des sinus cardinaux.

1.b) Pourquoi aller plus loin ?

Ce théorème de l'échantillonnage est à la base de la conception de convertisseurs

analogique-numériques (CAN) gravés sur silicium, et omniprésents dans les systèmes de

télécommunications. Il offre un avantage considérable permettant de stocker et transporter

des informations sous forme compressée, occupant beaucoup moins de place qu'un signal à

temps continu. Cependant, aujourd'hui, avec des besoins de stocker et transmettre des

volumes d'informations de plus en plus importants, cette fréquence d'échantillonnage

minimale F e≥2 F max est une limite face à des besoins de compresser encore plus

l'information et surtout plus rapidement. Donnons à titre d'exemple français, le cas de l'INA

(Institut National de l'Audiovisuel) qui enregistre et stocke les émissions télévisées de

toutes les chaînes et en continu.

6

1.c) Nature du problème

La question soulevée est donc de savoir si l'on peut échantillonner un signal à une

fréquence largement inférieure à la fréquence minimale prescrite par Shannon. Dans le cas

d'un signal numérisé (enregistrement sonore, image ou vidéo numérique), que l'on peut

toujours représenter comme un vecteur x à n composantes, la question revient à savoir si

l'on peut reconstruire parfaitement x à partir d'une observation y=Φ x , où y a un

nombre de composantes m très inférieur à n (au delà des limites de Shannon), et où Φ

est une matrice de taille m*n modélisant un sous-échantillonnage et vérifiant certaines

propriétés. Nous avons ici affaire à un système sous-déterminé ou à un problème dit

extrêmement mal-posé, car on dispose de beaucoup moins d'observations que de données,

ou dit autrement on a affaire à système linéaire avec beaucoup moins d'équations que

d'inconnues. Généralement, un tel système possède soit zéro soit une infinité de solutions.

D'où l'étonnement que peut engendrer la tentative de résoudre un tel problème. Or il se

trouve que sous certaines conditions, on peut reconstruire parfaitement le signal x à partir

de l’observation y.

1.d) Un peu d'histoire

Une anecdote [3] :

Emmanuel Candès, ingénieur français de l’École Polytechnique et docteur de l'Université

Stanford sous la supervision de David Donoho, est professeur de mathématiques et

statistique dans cette même université au cœur de la Silicon Valley au sud de San

Francisco. En 2004, alors qu'Emmanuel Candès travaillait avec une équipe de radiologues

sur l'Imagerie par Résonance Magnétique (IRM), il a réussi à reconstruire une image

fantôme, parfaitement à partir d'une image sous-échantillonnée (c'est à dire ne respectant

pas le critère de Shannon-Nyquist). Ses partenaires ont d'abord pensé qu'il avait truqué ses

résultats. Il a alors commencé par chercher des explications et a fait des avancées pour

7

démontrer sa découverte, mais restait bloqué à un point particulier. Il a alors décidé d'en

parler à Terence Tao, mathématicien médaillé Fields en 2006 et actuellement professeur de

mathématiques à l'Université de Californie à Los Angeles (UCLA). En allant chercher leurs

enfants qui fréquentaient la même école, Candès a parlé à Tao de cette reconstruction trop

belle pour être vraie. Tao a d'abord réagi en mathématicien en cherchant un contre exemple

pour invalider la théorie de Candès, puis ne trouvant aucun contre exemple, il a écouté plus

attentivement les raisonnements de Candès et a alors pensé que ce dernier pouvait avoir

raison. En quelques jours, il l'a aidé à surmonter son obstacle et les deux ont commencé à

dresser les fondements de la théorie générale du compressed sensing. Cette période

constitue en quelque sorte un big-bang de cette théorie qui connaît depuis cette année de

nombreuses évolutions et variantes et s'exprime dans de nombreux domaines d'applications

explorés par les ingénieurs, médecins et scientifiques de tous bords.

Notons que certaines idées du compressed sensing étaient déjà pressenties depuis quelques

décennies dans le domaine de la sismologie [3].

8

2. Idées générales du compressed sensing

2.a) Notion de parcimonie

Définition

Une idée du compressed sensing (ou compressive sensing ou encore compressive

sampling) est d'échantillonner un signal (enregistrement sonore, image numérique ou

vidéo) à une fréquence significativement moins importante que celle prescrite par Shannon,

de façon non régulière et en exploitant son caractère parcimonieux.

Définition 2.1 [12,13]: Un vecteur x∈ℝn est dit k-parcimonieux avec k <n s'il

contient au plus k composantes non nulles, les autres composantes étant

nécessairement nulles. On parlera alors de caractère parcimonieux d'un signal s'il

admet une représentation parcimonieuse dans une certaine base.

En réalité, le caractère parcimonieux des signaux est déjà exploité dans les phases de

compression, survenant après l'acquisition du signal échantillonné. Il s'agit de représenter le

signal dans une certaine base (ou dictionnaire) dans laquelle il se résume à un nombre

limité de coefficients non nuls. C'est ainsi que la base de Fourier permet d'exprimer un

signal comme somme de sinusoïdes à différentes fréquences. De même, les bases à partir

d'ondelettes permettent d'obtenir une représentation du signal comme somme d'ondelettes

localisées à la fois dans le domaine fréquentiel et dans le domaine temporel (ou spatial).

Cette dernière décomposition est utilisée pour la représentation des images suivant le

standard JPEG2000. La performance d'une base orthogonale pour traiter des signaux

dépend de sa capacité à approximer ces signaux avec peu de coefficients non nuls.

Les deux étapes successives d'échantillonnage à la fréquence de Shannon puis de

compression dans une base adaptée sont finalement coûteuse en temps pour ne retenir que

quelques coefficients représentatifs. L'idée novatrice du compressed sensing est d'effectuer

ces deux opérations simultanément, c'est-à-dire échantillonner et compresser en même

temps, grâce au caractère parcimonieux.

9

Recherche d'une meilleure représentation parcimonieuse

Notons enfin qu'un dictionnaire est en quelque sorte une sur-famille d'une base. Elle est

donc constituée de vecteur non nécessairement linéairement indépendant et la représentatifs

parcimonieuse d'un signal dans une telle base n'est donc pas nécessairement unique. Un

dictionnaire peut même être constitué de l'union de plusieurs bases orthonormales, et dans

ce cas, chercher la meilleure représentation parcimonieuse dans un tel dictionnaire revient à

chercher la meilleure base permettant d'exprimer le signal avec le moins de coefficients

non-nuls possibles. Formalisons un peu le problème et annonçons les résultats de l'article

[17] :

Définition 2.2 : Un dictionnaire de H :=ℝnouℂn est une famille de d≥n vecteurs

unitaires (colonnes) {g k } qui engendre H . Nous utilisons la notation matricielle

D=[ g1 , ... , g d] pour un dictionnaire.

Pour représenter un signal x∈H dans D , nous avons besoin d'un vecteur de

coefficients α=(αk )∈ℝd ouℂd tel que x=Dα . Et nous remarquons que si d >n ,

alors les vecteur de D ne sont pas linéairement indépendants et donc la représentation de

x n'est pas unique, c'est-à-dire le vecteur α n'est pas unique. Nous espérons que parmi

toutes les représentations possibles de x se trouve une représentation très parcimonieuse,

c'est-à-dire avec très peu de coefficients non-nuls. L'enjeu est de chercher toutes les

représentations possible de x , d'en garder seulement les parcimonieuses, puis de

déterminer s'il existe une unique représentation la plus parcimonieuse (avec le moins de

coefficients non nuls). Il est possible de mesurer la parcimonie d'une représentation

x=Dα avec deux quantités : les normes l 0 et l 1 de α (la norme l 0 compte le

nombre de composantes non nulles d'un vecteur). Cela conduit aux deux problèmes de

minimisation suivants :

minα∈ℝ

d

∥α∥0 sachant que x=Dα ( l 0 )

minα∈ℝ

d

∥α∥1 sachant que x=Dα ( l 1 )

Il s'agit de problèmes sous-déterminés dont la question délicate de la résolution est discutée

en section 2.c). Il se trouve aussi que le problème ( l 1 ) est plus facile à résoudre

10

algorithmiquement que le problème ( l 0 ). Voir plus de détails à ce sujet dans la section

2.c). Il devient alors important de savoir si des conditions existent pour que les deux

problèmes offrent la même unique solution. Introduisons pour cela le nombre

μ(D) :=maxj≠k∣⟨ g j∣gk ⟩∣ , la cohérence du dictionnaire (voir plus de détails sur les notions

de cohérence et cohérence mutuelle dans la section 2.b). On a alors deux théorèmes

suivants, démontrés dans [17] :

Théorème 2.1 : Pour tout dictionnaire D , si ∥α∥0<12 (1+

1μ(D)) , alors α est la

solution unique aux deux problèmes de minimisation l 0 et l 1 .

Théorème 2.2 : Pour un dictionnaire D formé de la réunion de L≥2 bases

orthonormales, si ∥α∥0<(√2−1+1

2 (L−1))1

μ(D), alors α est la solution unique

aux deux problèmes de minimisation l 0 et l 1 .

Remarque 1 : les conditions sur ∥α∥0 dans ces deux théorèmes assurent que le problème

de minimisation l 0 , plus difficile, a exactement la même unique solution α que le

problème l 1 , plus pratique à implémenter et plus performant sur un ordinateur, voir

section 2.c).

Remarque 2 : Ces résultats sont une amélioration de [5] dans le sens où il se sont pas limités

au cas d'un dictionnaire constitué de seulement deux bases orthonormales. Notons que le

cas de beaucoup de dictionnaires redondants, comme le dictionnaire discret de Gabor, ne

pouvant pas se décrire comme l'union de deux bases orthonormales, n'était pas couvert par

[5] et peut maintenant être soumis aux problèmes ( l 0 ) et ( l 1 ) pour une recherche de

meilleure représentation parcimonieuse. Voir également l'article [24].

11

2.b) Notion d'échantillonnage « incohérent »

Notons x∈ℝn un signal , Ψ∈ℝn×n la matrice de la base orthonormée dans laquelle

x a la meilleure représentation parcimonieuse, et S∈ℝn la meilleure représentation

parcimonieuse de x dans la base Ψ . On a donc x=Ψ S

Notons encore Φ∈ℝm×n une matrice d'échantillonnage ou de projection permettant de

sélectionner seulement m observations rangées dans un vecteur y∈ℝm avec m≪n .

La matrice Φ peut être vue comme une sous-matrice obtenue en sélectionnant m lignes

d'une matrice carrée orthonormale Φn×n∈ℝn×n .

On a alors y=Φ x=ΦΨ S=ΘS avec Θ=ΦΨ .

Fig. 1 : illustration de l'échantillonnage compressé.

Fig. 2 :

Illustration dans le cas particulier

où x est déjà 3-parcimonieux

( Ψ= I , x=S et Θ=Φ )

La question est donc de savoir à quelles conditions on peut reconstruire le signal inconnu

uniquement à partir de l’observation y est de la matrice rectangulaire de projection Φ .

12

On peut montrer [5,13] qu'il est nécessaire d'avoir une faible « cohérence » entre les

matrices Φ et Ψ dans un sens précisé dans la définition 2.2. Précisons ce résultat à

l'aide d'une définition intermédiaire et de deux théorèmes [13] :

Définition 2.3 [13, 17]: Soit une matrice orthogonale U∈ℝn×n avec U∗U=n I . On

définit la cohérence de U comme le plus grand module de ses composantes :

μ(U )= max1≤k , j≤n

∣U k , j∣ , que l'on pourra noter simplement μ .

Théorème 2.3 (sur la cohérence) :

Soit U∈ℝn×n une matrice orthogonale ( U∗U=n I ) avec ∣U k , j∣≤μ(U ) . Fixons

un sous-ensemble T du domaine du signal. Choisissons un sous-ensemble Ω du

domaine de mesures de taille m :=∣Ω∣ , et z une suite de signes (+1 ou -1) répartis

au hasard uniformément sur T ( ∀ i∈T , Pr (z i=1)=Pr (zi=1)=1/2 ).

Supposons que m≥C0.∣T∣.μ2(U ). log ( nδ ) et également que m≥C0 ' . log2( n

δ ) avec

C0 et C0 ' des constantes numériques fixées.

Alors, avec une probabilité supérieure à 1−δ , tout signal x de support T et

dont les signes de composantes correspondent à ceux de z peut être reconstruit à

partir de l'observation y=U Ω . x en résolvant le problème (P1).

Remarque 1 : ce théorème met en évidence, en posant U=Φn×nΨ l'intérêt d'avoir une

faible cohérence mutuelle entre Φn×n∈ℝn×n et Ψ∈ℝn×n . Notons qu'en sélectionnant

m lignes de U pour former U Ω=:Θ ou alors m lignes de Φn×n∈ℝn×n pour

former Φ :=(Φn×n)Ω , nous retrouvons U Ω=(Φn×n)ΩΨ=ΦΨ=:Θ . On a alors de

façon triviale : μ(U )≥μ(U Ω)=μ(Φ ,Ψ) . Ceci conduit à la conséquence voulue du

théorème : plus la cohérence mutuelle μ(Φ ,Ψ) est faible, moins on a besoin

d'observations.

Remarque 2 : Comme chaque ligne (ou chaque colonne) de U a nécessairement une

13

norme l 2 égale à √n , μ sera compris entre 1 et √n . Quand les lignes de U sont

parfaitement « plates » ( ∀ k , j∈{1, ... , n },∣U k , j∣=1 ), on aura μ(U )=1 . Si au

contraire une ligne de U a son énergie concentrée sur une seule composante (toutes les

composantes sauf une sont nulles), alors μ(U )=√n et la condition

m≥C 0.∣T∣.μ2(U ). log ( n

δ ) du théorème n'offre aucune garantie de pouvoir reconstruire le

signal à partir d'un nombre limité d'échantillons. La valeur μ peut donc être interprétée

comme une mesure grossière de la façon dont les lignes sont concentrées, et on préférera

bien sûr une faible concentration.

Cette notion de faible cohérence constitue un critère important pour le choix de Φ en tant

que matrice aléatoire. Nous donnons les grandes lignes de la démonstration de ce

théorème en annexe. La démonstration du théorème 1 fait appel au théorème suivant :

Théorème 2.4 : Soient U , T et Ω définis comme dans le théorème 1. Supposons que le nombre de mesures vérifie :

m≥∣T∣.μ2(U ).max (C1 log∣T∣,C2 log3δ ) avec C1 et C2 constantes positives.

Alors, Pr [∥1m

UΩT∗ UΩT−I∥

2

≥12 ]≤δ où ∥.∥2 est la norme l 2 standard pour les

matrices, ici la plus grande valeur propre (en valeur absolue).

Remarque 1 : Ainsi, pour des petites valeurs de δ , les valeurs propres de U ΩT∗ U ΩT

sont toutes proches de m , avec forte probabilité. Pour voir le principe d'incertitude,

supposons que x∈ℝn soit un signal de support T et tel que ∥ 1m

UΩT∗ UΩ T−I∥

2

≤12

.

Il s'en suit que :m2∥x∥2

2≤∥U Ω x∥2

2≤

3 m2∥x∥2

2 ,

ce qui signifie qu'une faible portion de l'énergie de x sera concentrée sur l'ensemble Ω

dans le domaine de U (l'énergie totale vérifie ∥Ux∥22=n∥x∥2

2 ). Les grandes lignes des

démonstrations des théorèmes 1 et 2 sont données en annexe.

14

Remarque 2 : ces deux théorèmes constituent une avancée par rapport au résultat fourni

dans [16] où on prend pour U la matrice usuelle de Transformée de Fourier Discrète. Le

résultat principal de cet article est que si x∈ℝn est k-parcimonieux, alors il peut être

reconstruit parfaitement à partir de l'ordre de k log n observations, prises dans le domaine

de Fourier.

Remarque 3 : La définition 2.1 et la condition du théorème 2.3 conduisent à définir un lien

entre les matrices de projection et de parcimonie Φ et Ψ . Le nombre de mesures

requis pour reconstruire un signal parcimonieux est donc affecté par le nombre μ qui peut

être redéfini comme suit [13]:

Définition 2.2 : Soient Φ∈ℝn×n une matrice de projection orthogonale (avec

Φ∗Φ=n I ) et Ψ∈ℝn×n une matrice orthonormale de parcimonie ( Ψ

∗Ψ=I ).

La cohérence mutuelle entre Φ et Ψ est définie par :

μ :=μ(Φ ,Ψ)= max1≤k , j≤n

∣⟨Φ j ,Ψ k ⟩∣ .

Remarque : Elle mesure donc la plus grande corrélation entre deux éléments (vecteurs

lignes) de Φ et Ψ . Une conséquence de l'inégalité de Cauchy-Schwarz est que

μ(Φ ,Ψ)∈[1,√n ] .

2.c) Un problème d'optimisation sous-contrainte

Pour simplifier l'exposé, on se place maintenant pour cette section dans une telle situation

où x∈ℝn est k-parcimonieux. Et on va montrer plus loin que si m est légèrement

supérieur (dans un sens à préciser) au nombre k de composantes non nulles dans x et si

Φ∈ℝm×n satisfait certaines propriétés, alors on peut reconstruire parfaitement x en

résolvant le problème d'optimisation sous contrainte suivant :

minx̃∈ℝ n

∥x̃∥ sachant que y=Φ x̃ (P1)

15

Dans une situation plus réaliste où l'observation y est bruitée (bruit de quantification, bruit

thermique des capteurs, etc...), le modèle de l'observation devient :

y=Φ x+ z où z est un terme de bruit inconnu. Le problème à résoudre devient :

minx̃∈ℝ n

∥x̃∥ sachant que ∥y−Φ x̃∥2≤ϵ1(P2)

Une question cruciale arrivant à cette étape est de savoir quelle norme ∥.∥ il convient

d'utiliser dans l'expression ∥x̃∥ pour résoudre les problèmes (P1) et (P2).

Une idée naturelle est de choisir la norme dite l 0 qui compte le nombre de composantes

non-nulles dans un vecteur. Il s'agit en fait d'une pseudo-norme que l'on peut formaliser

ainsi :

∀ x∈ℝn ,∥x∥0=∣supp ( x)∣ ou encore ∀ x∈ℝn ,∥x∥0=∑i=1

n

xi0 en posant 00

=0

Cette norme a l'avantage de conduire à la solution exacte pour (P1) dès que m≥k+1 (voir

[4]) mais a l'inconvénient d'être très coûteuse en complexité algorithmique. En effet, la

résolution de ce problème conduit à tester les Cnk combinaisons possibles de sous-espaces

de ℝn passant par k axes de coordonnées parmi les n . Cette norme n'a donc pas été

retenue.

Une autre idée naïve est de choisir la norme euclidienne l 2 . Malheureusement, résoudre

le problème de minimisation (P1) ou (P2) par cette norme ne conduit presque jamais à une

solution k-parcimonieuse. Voir schéma ci-dessous pour des considérations géométriques en

dimension 3.

Finalement, la norme qui va s'avérer efficace est la norme l 1 . En effet, cette norme a

l'avantage d'être convexe comme la norme l 2 et la boule unité dans cette norme est un

polytope (au sens américain) défini comme une enveloppe convexe d'un polyèdre, et en

grande dimension, il devient tellement pointu que la probabilité que le sous-espace passant

1 Notons la norme l 2 avec juste l'indice 2 pour alléger l'écriture.

16

passant par la bonne solution x soit tangent à une arrête ou une face devient très faible.

C'est ce que Richard Baraniuk appelle le « miracle de la haute dimension » [3]. Voir figure

3.

Fig. 3 : illustration en dimension 3 des avantages et inconvénients de l'utilisation des

normes (a) l 0 , (b) l 2 et (c) l 1 .

De plus, l'utilisation de la norme l 1 conduit à un problème d'optimisation convexe qui

peut se réduire à un programme linéaire connu sous le nom de basis pursuit [11], dont les

fondements mathématiques sont connus depuis quelques décennies. La norme l 1 est

également appelée relaxation convexe ou relâché convexe de l 0 .

Pour conclure, il convient de s'intéresser également au cas où x :=S est seulement

« proche » d'un signal k-parcimonieux. Le cas d'un signal non exactement parcimonieux

mais dont les coefficients ont une décroissance rapide donne lieu à une possibilité de

compression en sélectionnant les composantes les plus importantes avec une petite perte

d'information.

17

3. Conséquences de la propriété d'isométrie restreinte (RIP)

3.a) Définition de la propriété d'isométrie restreinte

Un premier théorème d'unicité [1]: Supposons que Φ∈ℝm×n est telle que chaque

sous-matrice extraite en sélectionnant exactement 2k colonnes soit de rang 2k ,

alors un vecteur k-parcimonieux x∈ℝn peut être reconstruit de manière unique à

partir de l'observation y=Φ x .

Démonstration : Supposons par l'absurde qu'il existe au moins deux vecteurs k-parcimonieux x et x ' tels que Φ x=Φ x ' . Alors Φ(x− x ' )=0 . Comme x− x 'est 2k-parcimonieux, alors 2k colonnes de Φ sont linéairement dépendantes. Contradiction. □

Ainsi, une matrice de projection Φ∈ℝm×n avec m≪n n'est clairement pas de rang

plein. Mais on peut lui imposer que n’importe quelle sous-matrice extraite en choisissant un

certain nombre fixé de colonnes soit de rang plein. Ceci permet alors de résoudre le

problème d'optimisation sous-contrainte décrit ci-dessus. Une propriété étroitement liée à

cette condition est la propriété d'isométrie restreinte décrite ci-dessous :

Définition : On dit qu'une matrice Φ∈ℝm×n satisfait la propriété d'isométrie

restreinte d'ordre k∈ℕ et de constante d'isométrie δk∈]0,1[ , et on notera que

Φ est RIP (k ,δk ) , si pour tout signal k-parcimonieux, soit pour tout signal

x∈Σk :={u∈ℝn:∣supp(u)∣≤k } , on a : (1−δk)∥x∥22≤∥Φ x∥2

2≤(1+δk )∥x∥2

2 .

Remarques :

➢ En réécrivant cet encadrement sous la forme suivante : √1−δk≤∥Φ x∥2

∥x∥2

≤√1+δk ,

cela indique que la matrice Φ doit à peu près préserver les longueurs (au sens de la norme

euclidienne) de ces vecteurs k-parcimonieux. Autrement dit, on souhaite que les valeurs

singulières de Φ soient comprises dans un petit intervalle autour de 1.

➢ Cette définition impose à chaque matrice extraite de k colonnes, d'être de rang k .

➢ La constante d'isométrie restreinte δk∈]0,1[ est donc définie comme le plus petit

nombre tel que cet encadrement reste vrai pour tout vecteur k-parcimonieux x .

18

Une variante du premier théorème : Si Φ∈ℝm×n est RIP (2k ,δ2k) et x∈ℝn est k-

parcimonieux, alors x est solution unique au problème (P1).

Démonstration : Notons x ' une autre solution possible de (P1). Alors y=Φ x=Φ x ' .

Mais comme x− x ' est 2k-parcimonieux et Φ∈ℝm×n est RIP (2k ,δ2k) , on obtient :

(1−δ2k)∥x−x '∥22≤∥Φ x−Φ x '∥2

2≤∥y− y∥2

2=0 .

Enfin comme 1−δ2k>0 , on conclut que x= x ' .□

Remarque: les notions d'isométrie restreinte pour Φ et de faible cohérence entre Φ et

Ψ s'avèrent être combinaison gagnante pour le compressed sensing.

3.b) Théorèmes de reconstruction dus à Candès dans le cas RIP

Reconstruction en situation non bruitée

Théorème 3.1 (Noiseless recovery, Candès, 2008, [2]) :

Supposons que δ2k<√2−1 . Alors la solution x∗ au problème (P1) vérifie :

∥x∗−x∥1≤C0∥x− xk∥1

et

∥x∗−x∥2≤C0 k−1/2∥x−xk∥1

où :

xk désigne la meilleure représentation k-parcimonieuse de x , c'est-à-dire que

xk est le vecteur x où sont conservées les k plus grandes composantes (en

valeur absolue et au mêmes emplacements) de x et toutes les autres sont

composantes sont fixées à zéro.

C0 est une constante explicitée dans la démonstration en annexe.

Remarque : Dans le cas particulier où x est k-parcimonieux, la reconstruction est exacte.

19

Reconstruction en situation bruitée

Théorème 3.2 (Noisy recovery, Candès, 2008, [2]) :

Supposons que δ2k<√2−1 et ∥z∥2≤ϵ . Alors la solution x∗ au problème (P2)

vérifie :

∥x∗−x∥2≤C0 k−1 /2∥x−xk∥1+C1ϵ

avec la même constante C0 que dans le cas non bruité, et C1 explicité dans la

démonstration en annexe.

Remarques :

➢Les constantes C0 et C1 sont assez petites.

➢En revenant au cas non bruité, ϵ=0 , le théorème 2 implique immédiatement le

deuxième résultat du théorème 1.

➢Le terme en C1ϵ indique la stabilité de la reconstruction : une petite augmentation du

niveau du bruit de l'observation n'augmente pas l'erreur de reconstruction de façon

disproportionnée.

20

3.c) Un exemple de matrices aléatoires RIP

Il existe différents types de matrices aléatoires Φ∈ℝm×n dont on peut montrer qu'elles satisfont

avec forte probabilité la propriété d'isométrie restreinte [6, 7]. En voici un premier exemple.

Les matrices aléatoires sous-gaussiennes

Définitions (voir cnx.org):

Une variable aléatoire X est dite sous-gaussienne s'il existe une constante c>0 telle que

∀ t∈ℝ ,E [exp(Xt )]≤ exp[ c2t 2

2 ] . On note alors X∼Sub(c2) .

Une matrice aléatoires Φ∈ℝn×m est dite sous-gaussienne si ses composantes Φ i , j sont

iid et sous-gaussiennes avec Φi , j∼Sub ( 1m ) .

On peut montrer que si Φ∈ℝm×n est sous-gaussienne, alors pour toute matrice orthonormale de

parcimonie Ψ∈ℝn×n , Θ=ΦΨ est aussi sous-gaussienne.

Elle présente également des avantages et inconvénients :

Avantages : Elle correspond à une stratégie d'échantillonnage très générale indépendante de la

base de parcimonie Ψ et on peut aussi montrer [7, 10] qu'elle vérifie la propriété d'isométrie

restreinte RIP (k ,δk ) avec forte probabilité, dès lors que m≥C ste 1δ ²

k ln ( nk ) .

Inconvénients : En pratique, elle n'est pas réellement aléatoire, mais pseudo-aléatoire, construite

à partir de quelques valeurs initiales (ce qui présente donc l'avantage de prendre très peu de

place). La complexité algorithmique de sa construction est élevée, de l’ordre de m×n . Elle est

21

donc inadaptée dans le cas de signaux volumineux comme des images ou des vidéos, la

reconstruction étant très lente.

Autres choix possibles

On peut trouver un « catalogue » [6] de matrices aléatoires vérifiant la propriété d'isométrie

restreinte avec forte probabilité, et faible cohérence avec la matrice de parcimonie, dont on peut

recenser pour chacune : la complexité algorithmique de leur construction , l'ordre de grandeur de

m en fonction de k et à partir duquel la RIP est vérifiée avec forte probabilité, les avantages et

inconvénients et leur utilité dans telle ou telle application. Certaines sont construites à partir de

matrices de Fourier et exploitent le fait que Fourier diagonalise les matrices circulantes.

22

4. Approches alternatives

4.a) Approche RIPless

Une approche alternative de compressed sensing et reconstruction existe [8], ne nécessitant pas la

propriété isométrie restreinte décrite précédemment pour la matrice de projection, mais deux

autres critères : une propriété d'incohérence et une propriété d'isotropie vérifiée par la loi F des

composantes de la matrice de projection. Commençons par décrire ces deux propriétés.

Ecrivons le modèle de l'observation : ∀ k∈{1,... , m}, yk=⟨Φk , x⟩+σ zk où zk est un bruit

blanc avec variance unité et Φk∼iid

F .

Définition de la propriété d'isotropie :

On dit que F vérifie la propriété d'isotropie si E[ΦkΦk*]=I n avec Φk∼

iidF .

En d'autres termes, la condition d'isotropie dit que les composantes de Φk∼iid

F ont une

variance unité et sont décorrélées.

Définition de la propriété d'incohérence : On peut considérer le paramètre de cohérence

μ(F) comme le plus petit nombre tel que max1≤t≤n

∣Φk [ t ]∣2≤μ(F ) est vrai soit de façon

déterministe soit de façon aléatoire dans le sens suivant. Si une borne déterministe n'existe

pas, on peut prendre le plus petit scalaire μ vérifiant :

E[ 1n∥Φk∥221Ec ]≤ 1

20 n3 /2 et Pr [ Ac ]≤ 1nm

où A est l'événement A :={max1≤t≤n

∣Φk [ t ]∣2≤μ }

Nous pouvons alors énoncer un premier théorème de reconstruction au problème (P1) rappelé ici:

(P1) : minx̃∈ℝn

∥x̃∥ sachant que y=Φ x̃ où les lignes de Φ sont des échantillons suivant la loi

F et normalisés.

23

Théorème 1 (Noiseless incoherent sampling) [8]:

Soient x∈ℝn un vecteur fixé et arbitrairement k-parcimonieux et un scalaire β>0 .

Alors, avec probabilité au moins 1−5n−exp (−β) , x est l'unique solution au problème

(P1) avec y=Φ x pourvu que m≥Cβ.μ(F )k log n . Plus précisément, Cβ peut être fixé

à C0(1+β) avec C0 une constante numérique positive.

Remarque : en substance, ce théorème dit qu'un signal k-parcimonieux peut être parfaitement

reconstruit à partir de l'ordre de k log n mesures.

Revenons maintenant au problème (P2) correspondant à la situation bruitée et que nous rappelons ici : nous observons y=Φ x+σm z où z est toujours un bruit blanc de variance unité et avecσm=σ /√m et nous souhaitons résoudre le problème de minimisation suivant :

minx̃∈ℝn

∥x̃∥ sachant que ∥y−Φ x̃∥2≤ϵ (P2)

que l'on peut résoudre en passant par la méthode LASSO [22] , qui revient à résoudre le problème, reformulé sans contrainte, des moindres carrés avec une pénalité de type l1 pour un certain λ>0 :

x l1−l2

*=argmin

x̃∈ℝn

12∥y−Φ x̃∥2

2+λσm∥x̃∥1

2(P2')

qui est parfois appelé problème de minimisation l1−l2 . Avec un choix approprié du paramètreλ , le problème (P2') fournira la même solution que (P2). Cependant, la valeur de λ

correspondant à la valeur de ϵ dans le problème (P2) n'est pas connue en général [23].

Théorème 2 [8]:

Soient un vecteur x∈ℝn et un scalaire β>0 . Alors, avec probabilité au moins

1−6n−6 exp (−β) , la solution x* au problème (P2') avec λ=10√ log n vérifie :

∥x*−x∥2≤ min

1≤k≤kmax

C (1+α){∥x−xk∥1

√k+σ √ k log n

m } pourvu que m≥Cβ.μ(F ). kmax . log n ,

Si l'erreur est mesurée par la norme l1 , cela donne :

∥x*−x∥1≤ min

1≤k≤kmax

C (1+α){∥x−xk∥1+k σ√ log nm } ,

24

où :

C est une constante numérique, Cβ peut être choisi comme précédemment,

α=√ (1+β)kμ log n log m log2 km

et kmax est le niveau maximum de parcimonie pour x

permettant toujours une reconstruction stable et peut être fixé à kmax=m

Cβ .μ(F) . log n.

4.b) Approche Bayesienne

De façon assez surprenante, le problème de minimisation (P2') ci-dessus peut être vu dans le cadre d'une approche Bayesienne comme un estimateur du maximum a posteriori (MAP) lorsque le bruit additif est un bruit blanc gaussien et qu'on impose un prior Laplacien

p(x∣λ)=( λ2 )n

exp(−λ∥x∥1)∝exp (−λ∥x∥1) au vecteur inconnu x∈ℝn , considéré ici dans

une forme parcimonieuse ou compressible [23, 25]. On pourra se référer par exemple à [25, 26, 27] pour plus de détails sur les variantes et évolutions des méthodes d'esimation Bayesienne d'un signal parcimonieux.

25

5. Aperçu des algorithmes de reconstruction

On trouve dans la littérature de nombreuses techniques de reconstruction par résolution des

problèmes (P1) et (P2), avec des spécificité différentes en termes de rapidité, précision [3]. Nous

décrivons succintement les principaux d'entre eux, qualifiés d'algorithmes gloutons.

5.a) Matching Pursuit (MP)

Le MP [28, 23] d'un algorithme itératif. A la première itération, on initialise à zéro toutes les composantes du vecteur x∈ℝn recherché : x(0)=(0, ... ,0)

Ensuite, à chaque itération, le vecteur est mis à jour en lui ajoutant le vecteur 1-parcimonieux qui minimise la nouvelle erreur d'observation :

x( j+1)=x( j)

+v* où v*=arg min∥v∥0=1

∥y−Φ(x( j )+v )∥2 .

Cette mise à jour est calculée par une multiplication terme à terme : v=c id i où :

c=ΦT ( y−Φ x( j))∈ℝn est un vecteur de corrélations, i est l'indice qui maximise la valeur absolue du vecteur de corrélation max

i∣ci∣ et d i est l'impulsion unité (ou Dirac) à l'indice i .

Après M itérations, on aura ainsi ajouté un signal M-parcimonieux.

Il est prouvé dans [28] que la suite des résidus ∥y−Φ x( j )∥2 converge vers 0 quand jaugmente. On peut alors arrêter l'algorithme après un nombre d'itéaration fixée ou à l'aide d'un critère d'arrêt sur l'erreur.

5.b) Orthogonal Matching Pursuit (OMP)

L'OMP [29, 23] est une amélioration du MP en réduisant l'erreur grâce à une projection orthogonale. A une itération j donnée, on effectue une étape standard du MP : x̃=x( j )

+v et l'itération suivante est effectuée en projetant y sur le support connu de x̃ :

x( j+1)=argmin

I( x)=I ( x̃)∥y−Φ x∥2 , où I (x) := {i∈{1, ... , n}: x i≠0 } est le support de la solution.

Cette minimisation l2 peut être résolue par la méthode des moindres carrés comme suit :

x Ij+1=ΦI

+ y où A+=(AT A )−1 AT est la pseudo-inverse, I=I (x) et où on a utilisé la notation

xI=(x i)i∈I et ΦI∈ℝm×∣I∣ est la sous-matrice de Φ obtenue en ne gardant que les colonnes

indicées par I . On montre dans [29] que cet algorithme s'arrête après n itérations, fournissant une erreur nulle : Φ x(m )= y , puisqu'à la différence du MP, il ne sélectionne jamais le même indice deux fois.

26

5.c) Stagewise Orthogonal Matching Pursuit (StOMP)

Le MP et l'OMP ne sélectionnent qu'une seule colonne à chaque itération. Ainsi pour un reconstruire un vecteur k-parcimonieux, ces alogorithmes nécessitent au moins k itérations. L'idée du Stagewise OMP est d'accélérer la convergence en sélectionnant plusieurs colonnes à chaque itération, voir précisions dans [30].

5.d) Gradient Pursuit

Le coût algorithmique de l'OMP est dominé par son étape de projection orthogonale. Pour éviter ceci, l'algorithme Gradient Pursuit [31] remplace cette étape par une mise à jour du vecteur xpar une instruction de type gradient ou gradient conjugué.

27

6. Simulations

Voici les résultats de simulations réalisées à l'aide de Toolbox et codes Matlab mis en ligne par

Gabriel Peyré [32], moyennant des adaptations mineures.

6.a) Échantillonnage compressé d'un signal 1D et reconstruction par (Orthogonal) Matching Pursuit

Nous générons :

➢ une matrice de projection Φ∈ℝm×n , réalisation d'une matrice aléatoire gaussienne,

➢ un vecteur k-parcimonieux x∈ℝn , dont les composantes non nulles valent +1 ou -1.

Puis nous effectuons une observation (basée sur le compressed sensing) contaminée par un bruit gaussien : y=Φ x+z

Nous appliquons alors l'algorithme du Matching Pursuit (MP) sur l'observation. Nous affichons ci dessous (figure 1.a) le vecteur de corrélations obtenu à la première itération et permettant de sélectionner le premier vecteur 1-parcimonieux contribuant à la solution finale, ainsi que la décroissance de l'erreur d'estimation au fur et à mesure des itétations (figure 1.b).

Fig. 1.a – premier vecteur de corrélations Fig. 1.b évolution de l'erreur résiduelle

28

Nous observons maintenant les reconstructions comparées au signal original obtenues par les algorithmes Matching Pursuit (MP, figure 2.a) et Orthogonal Matching Pursuit (OMP, figure 2.b).

Fig. 2.a – signal reconstruit par MP Fig. 2.b - signal reconstruit par OMP

Nous constatons que le signal reconstruit par MP est plus bruité par rapport au signal original. L'algorithme OMP s'avère ici plus efficace.

6.b) Échantillonnage compressé d'une image et reconstruction

Fig. 1 – Décomposition en ondelettes et reconstruction d'une image IRM

Donnons d'abord la décomposition en ondelette d'une image IRM et sa reconstruction à partir des

coefficients basse fréquence de la décomposition (figure 1). La figure reconstruite a ici un RSB

(rapport signal sur bruit) de 27,1 dB.

29

Nous mettons maintenant en œuvre un échantillonnage compressé et une reconstruction par

l'agorithme de Douglas Rachford [33]. La figure 2.a présente l'évolution de la norme L1 du

vecteur parcimonieux reconstruit au fur et à mesure des itérations, et la figure 2.b présente

l'image reconstruite à la fin de l'algorithme.

Fig. 2.a – norme L1 de x Fig. 2.b – image reconstuite par D.R.

L'image reconstruite a ici un RSB de 33,7 dB, ce qui est meilleur que l'image reconstruite à partir

de la décomposition en ondelettes.

Présentons enfin ci-dessous de nouveau l'évolution de la norme L1 et l'image reconstruite avec un

algorithme utilisant la parcimonie par blocs. Nous observons une petite irrégularité dans la

décroissance de la norme L1, mais l'image reconstruite au final est de meilleure qualité avec un

RSB de 36,3 dB.

Fig. 3 – norme L1 et image reconstruite exploitant la parcimonie par blocs

30

7. Applications

Il existe une multitude d'applications de la théorie du compressed sensing, comme la célèbre

« Single pixel camera » conçue par Richard Baraniuk [3], au convertisseurs analogique-

numérique (CAN) plus rapides intégrés dans les systèmes de communication grâce à la

technique du Random Convolution (voir les nombreux articles de Justin Romberg), en passant

par de nombreux le traitement de l'image (temps d'exposition réduit en scanner IRM),

l'acoustique (séparation de sources via la parcimonie) et l'astronomie.

8. Conclusion et ouvertures

Nous avons abordé les notions de compressed sensing et de reconstruction dans le cas où la

matrice de projection est RIP, ou vérifie des proprité d'isotopie et d'incohérence (cas RIPless).

Cependant des approches efficaces existent dans la littérature exploitant d'autres caractéristiques :

➢ la description du signal comme un processus stochastique [voir référence dans 6]

➢ la théorie des graphes [voir référence dans 6]

➢ la projection de polytopes [voir référence dans 6]

➢ les propriétés du noyau de la matrice de projection [voir référence dans 6]

Notons encore qu'il est serait très long en pratique de vérifier la propriété d'isométrie restreinte

(RIP) d'une matrice de projection. Mais heureusement, la plupart des matrices aléatoires

construites selon une certaine classes de lois (les matrices sous-gaussiennes) vérifient cette

propriété avec probabilité écrasante, dans de bonnes hypothèses de travail.

La théorie du compressed sensing est très riche et connaît un essor formidable depuis le « big-

bang » de 2004-2005. Elle trouve des application très variées dans tous les domaines :

communications sans fil, stockage de données, traitement d'image, acoustique. Signalons enfin

que le compressed sensing n'est pas la seule alternative à l'échantillonnage classique.

31

9. Bibliographie

[1] Conférence de Terence Tao en 2008 sur le compressed sensing en sept vidéos de neuf minutes sur https://www.youtube.com/watch?v=i2aY7tZ5S7U

[2] Emmanuel J. Candès ,The Restricted Isometry Property and Its Implications for Compressed Sensing, 2008

[3] Compressed Sensing Makes Every Pixel Count In What's happening in the mathematical sciences (May 2009) by Dana Mackenzie, Society, American Mathematical

[4] Richard G. Baraniuk, Compressive Sensing, lecture NOTES, IEEE Signal Processing Magazine, July 2007

[5] D.L. Donoho and X. Huo, Uncertainty principles and ideal atomic decomposition, IEEE Trans. Inform. Theory, vol 47 no 7 pp 2845-2862, Nov. 2001

[6] Laurant Jacques and Pierre Vandergheynst, Compressive Sensing : « When sparsity meets sampling », February 17, 2010

[7] R. Baraniuk, M. Davenport, R. DeVore aand M. Wakin (2008), A simple proof of the restricted isometry property for random matrices.

[8] Emmanuel J. Candès and Yaniv Plan, A probabilistic and RIPless Theory of Compressed Sensing, November 2010, Revised June 2011

[9] http://dsp.rice.edu/cs ou http://www.compressedsensing.com/ (liste de tuorials et dernières parutions sur le sujet mise à jour par la Rice Univerity)

[10] cnx.org : site de partage de connaissances, initié par Richard Baraniuk, Rice Univerity

[11] Shaobing Chen and David Donoho, Basis Pursuit, 1994

[12] Justin Romberg, Sensing by Random Convolution, Georgia Institute of Technology, School of Electrical and Computer Engineering, Atlanta, Georgia 30332, >= 2007

[13] Emmanuel J. Candès and Justin Romber, Sparsity and Incoherence in Compressive Sampling - Applied and Computational Mathematics, Caltech, Pasadena, CA 91125 – Electrical and Computer Engineering, Georgia Tech, Atlanta, GA 90332, November 2006

[14] Stéphane Mallat, A Wavelet Tour of Signal Processing, Third Edition: The Sparse Way, Third Edition

[15] M. Rudelson. Random vectors in the isotropic position. J. Functional Analysis, 164(1):60-72, 1999

[16] Emmanuel Candès, Justin Romberg and Terence Tao. Robust Uncertainty Principles: Exact Signal Recovery from Highly Incomplete Frequency Information. June 2004; Revised August 2005

[17] Rémi Gribonval and Morten Nielsen. Sparse Representation in Unions of Bases. INRIA, Rapport de recherche N°4642, November 2002

[18] Sanjoy Dasgupta, Anupam Gupta. An Elementary Proof of a Theorem of Johnson and Lindenstrauss. (TR-99-006). Technicl report Univ. of Cal. Berkeley, Comput. Science Division. Accepted 11 July 2002

[19] Sham Kalade and Greg Shakanarovich. Random Projections. CMSC 35900 (Spring 2009)

32

http://cnx.org/

http://www.compressedsensing.com/

http://dsp.rice.edu/cs

https://www.youtube.com/watch?v=i2aY7tZ5S7U

Large Scale Learning

[20] Dimitris Achliopatas. Database-friendly random projections: Johnson-Lindenstrauss with binary coins. Journal of Computer and System Sciences. Received 28 August 2001, revised 19 July 2002.

[21] Simon Foucart : Lectures on compressed sensing, Spring 2009. Graduate course “Notes on Compressed Sensing” in the Department of Mathematics at Vanderbilt, http://www.math.vanderbilt.edu/~foucart/TeachingFiles/S09/CSNotes.pdf

[22] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288).

[23] Kazunori Kayashi, Masaaki Nagahara and Toshiyuki Tanaka. A User's Guide to Compressed Sensing for Communications Systems. IEICE Trans. Commun., Vol. E96-B, No. 3 March 2013

[24] Jean-Jacques Fuchs, member, IEEE. On Sparse Representation in Arbitrary Redundant Bases. IEEE Transactions on Information Theory, Vol. 50, No. 6, June 2004

[25] Shihao Ji, Ya Xue, and Lawrence Carin, Bayesian compressive sensing. (IEEE Trans. on Signal Processing, 56(6) pp. 2346 - 2356, June 2008)

[26] Lihan He and Lawrence Carin, Exploiting structure in wavelet-based bayesian compressed sensing. (Accepted for publication in IEEE Transactions on Signal Processing)

[27] Ahmed A. Quadeer and Tareq Y. Al-Naffouri, Structure-Based Bayesian Sparse Reconstruction. (accepted in IEEE Trans. on Signal Processing) 16 July 2012

[28] S. Mallat and Z. Zhang. Matching Pursuits with Time-Frequency Dictionaries. IEEE Transactions on Signal Processing, Vol. 41, No. 12, Dec. 1993

[29] Y. C. Pati, R. Rezaiifar, Y. C. Pati R. Rezaiifar, P. S. Krishnaprasad. Orthogonal Matching Pursuit: Recursive Function Approximation with Applications to Wavelet Decomposition. (1993) Proceedings of the 27 th Annual Asilomar Conference on Signals, Systems, and Computers

[30] D.L. Donoho, Y. Tsaig, I. Drori and J.L. Starck. Sparse solution of underdetermined linear equations by stagewise orthogonal matching pursuit. 2006, preprint

[31] T. Blumensath and M.E. Davies. Gradient pursuits. IEEE Transactions on Signal Processing, Vol. 56, No. 6, pp. 2370-2382, June 2008

[32] https://www.ceremade.dauphine.fr/~peyre/numerical-tour/tours/ Voyage numérique en Matlab avec Gabriel Peyré comme prolongement du livre de Stéphane Mallat [14].

[33] Patrick L. Combettes, Fellow, IEEE, and Jean-Christophe Pesquet, Senior Member, IEEE . A Douglas-Rachford Splitting Approach to Nonsmooth Convex Variational Signal Recovery . IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 1, NO. 4, DECEMBER 2007

[34] Conférence en vidéo d'Yves Meyer sur le Compressed Sensing dans le traitement d'images. http://www-centre-saclay.cea.fr/fr/Une-avancee-etonnante-en-imagerie-numerique-le-Compressed-Sensing-par-Yves-Meyer-Academie-des-Sciences-et-Centre-de-Mathematiques-video-du-colloque-de-l-Orme-du-18-octobre-2007

[35] Conférence d'Emmanuel Candès sur le Compressed Sensing et la reconstruction L1.

http://videolectures.net/mlss09us_candes_ocsssrl1m/

33

http://videolectures.net/mlss09us_candes_ocsssrl1m/

http://www-centre-saclay.cea.fr/fr/Une-avancee-etonnante-en-imagerie-numerique-le-Compressed-Sensing-par-Yves-Meyer-Academie-des-Sciences-et-Centre-de-Mathematiques-video-du-colloque-de-l-Orme-du-18-octobre-2007



https://www.ceremade.dauphine.fr/~peyre/numerical-tour/tours/

http://www.math.vanderbilt.edu/~foucart/TeachingFiles/S09/CSNotes.pdf

10. Annexes

10.a) Démonstration du théorème sur la faible cohérence

Stratégie générale de la démonstration

Nous allons montrer que x∗ est la solution unique au problème (P1) si et seulement si il existe

un vecteur dual π∈ℝn vérifiant les propriétés suivantes :

➢ π appartient à la co-image de U Ω ,

➢ π(t)=sgn x∗(t) pour t∈T

➢ ∣π(t)∣<1 pour t∈T c

Nous considérons le vecteur candidat π=U Ω∗ UΩ T(UΩ T

∗ U ΩT)−1 z0 où z0 est un vecteur de

taille ∣T∣ et dont les composantes sont les signes de x∗ sur T . Sous les conditions du

théorème, nous montrons alors premièrement que U ΩT∗ U ΩT est inversible et donc π est bien

défini, et deuxièmement que ∣π(t )∣<1 pour t∈T c ( π (t)=sgn x∗(t) pour t∈T est

automatique).

Nous voulons montrer qu'avec le support fixé, un vecteur dual existe avec forte probabilité en

sélectionnant Ω uniformément au hasard. En suivant l'article [16], il est suffisant de montrer les

propriétés désirées lorsque Ω est échantillonné en utilisant un modèle de Bernoulli.

Supposons que Ω1 de taille m est échantillonné uniformément au hasard et Ω2 est

échantillonné en posant Ω2 :={k :δk=1 } ; où δ1 ,δ2 , ... ,δn est une suite iid de variable de

Bernoulli 0/1 avec Pr (δk=1)=mn

.

34

Alors Pr (Echec (Ω1))≤2 Pr (Echec (Ω2)) (voir détails dans [16]). Ceci établi, nous établirons

l'existence d'un vecteur dual de x∗ avec forte probabilité pour Ω échantillonné selon le

modèle de Bernoulli.

La matrice U ΩT∗ U ΩT est maintenant une variable aléatoire qui peut être écrite sous la forme :

U ΩT∗ U ΩT=∑

k=1

n

δk uk×uk

où les uk sont les vecteurs lignes de U T , ie uk=(U t ,k )t∈T .

Nous démontrons d'abord le théorème 2.4 pour en déduire le théorème 2.3.

Démonstration du théorème 2.4 :

Nous utilisons un premier résultat affirmant que si m est assez grand, alors en moyenne la

matrice1m

U ΩT∗ U ΩT diffère peu de l'identité.

Théorème 10.1 :

Soit U une matrice orthogonale vérifiant U∗U=n I . Considérons T un ensemble fixé

et Ω un ensemble aléatoire échantillonné avec le modèle de Bernoulli. Alors :

E∥ 1m

UΩT∗ U ΩT−I∥

2

≤CR . √ log∣T∣

√m. max

1≤k≤n∥uk∥2 avec C R constante positive, pourvu que le

membre de droite soit inférieur à 1.

Puisque la cohérence μ(U ) vérifie max1≤k≤n

∥uk∥2≤μ(U )√∣T∣ , ceci implique

immédiatement :

E∥ 1m

UΩT∗ U ΩT−I∥

2

≤CR . √ log∣T∣

√m. max

1≤k≤n∥uk∥2 .

35

Démonstration : on pose Y=1m∑k=1

n

δk uk∗uk−I , puis pour borner l'espérance de la norme de

Y : E [∥Y∥2 ] , on utilise une technique de symétrisation puis l'inégalité de Jensen, la loi des

espérances itérées et enfin un lemme de Rudelson (voir [15]). □

Le théorème 10.1 donne une borne pour l'espérance de ∥ 1m

UΩT∗ UΩT−I∥

2

.

La preuve du théorème 2 utilise des estimées remarquables sur les grandes déviations de suprema

de sommes de variables aléatoires indépendantes. Soient Y 1 ,... ,Y n une suite de variables

aléatoires indépendantes à valeurs dans un espace de Banach et soit Z le supremun défini par :

Z=supf ∈F∑i=1

n

f (Y i)

où F est une famille dénombrable de fonctions à valeurs réelles. Nous avons maintenant ci-

dessous une inégalité de concentration sur Z :

Théorème 10.2 : Supposons que pour tout f ∈F , on ait ∣ f∣≤B et pour tout i=1, ... , n

, E f (Y i)=0 . Alors, pour tout t≥0 ,

Pr [∣Z−E [Z ]∣>t ]≤3 exp [− tK B

log(1+ Btσ

2+B E[ Z̄ ] )]

où σ2=sup

f ∈F∑i=1

n

E f 2(Y i) , Z̄=sup

f ∈F∣∑

i=1

n

f (Y i)∣ et K est une constante numérique.

Cette inégalité de concentration permet d'achever la preuve du théorème 2.2.

Il reste à dresser les grandes étapes de la preuve du théorème 2.3. Grâce au théorème 2.4, nous

savons qu'avec forte probabilité, les valeurs propres de U ΩT∗ U ΩT sont confinées dans

l'intervalle [m2 ,3m2 ] . Sous ces conditions, non seulement U ΩT

∗ U ΩT est inversible mais nous

pouvons également garantir que ∥(UΩT∗ UΩ T)

−1∥2≤2m

, chose que nous allons utiliser pour

36

montrer que ∣π(t)∣<1 pour t∈T c .

Pour un t 0∈T C , nous pouvons réécrire π (t0) comme :

π (t0)=⟨v0 ,(U ΩT

∗ UΩT )−1 z ⟩=⟨w0 , z ⟩ où v0 est le vecteur ligne de U Ω

∗ UΩT à l'indice de

ligne t 0 , et w0=(U ΩT

∗ U ΩT )−1 v0 . Les trois lemmes suivants donnent des estimées des tailles

de ces vecteurs. Pour simplifier, nous glissons la dépendance en U dans μ(U ) .

Lemme 10.1 : Le moment d'ordre 2 de Z0 :=∥v0∥2 vérifie E [Z0

2 ]≤μ2 m∣T∣ .

Le lemme suivant montre que la queue de Z0 exhibe un comportement gaussien.

Lemme 10.2 : Soient t 0∈T c et Z0 :=∥v0∥2 .

Définissons σ̄ comme σ̄=μ2 m .max(1,

μ∣T∣

√m ) .

Soit a>0 tel que a≤( mμ

2 )1 /4

siμ∣T∣

√m>1 et a≤( m

μ2∣T∣)

1 /2

sinon. Alors :

Pr [Z0≥μ√m∣T∣+a σ̄ ]≤exp [−γa2 ] avec γ>0 .

Preuve : la preuve de ce lemme utilise l'inégalité de concentration du théorème 10.2.□

Lemme 10.3 : Soit w0=(U ΩT

∗ U ΩT )−1 v0 . Avec les même notations et hypothèses que dans le

lemme 10.2, nous avons:

Pr [supt 0∈T C

∥w0∥2≥2μ√∣T∣m

+2a σ̄m ]≤nexp [−γa2 ]+Pr [∥UΩT

∗ UΩT∥2≤m2 ]

37

Preuve :

En notant A et B les événements {∥UΩT∗ U ΩT∥2≥

m2 } et {supt 0∈TC∥v0∥≥μ√m∣T∣+2 a σ̄ } , le

lemme 10.2 fournit Pr (B c)≤n exp [−γa2 ] . Sur l'intersection A∩B , nous avons :

supt0∈Tc

∥w 0∥2≤2m

(μ √m∣T∣+a σ̄ ) . Le résultat s'en suit.□

Lemme 10.4 : Supposons que {z (t)}t∈T est une suite iid de variables aléatoires de

Bernoulli symétriques. Pour tout λ>0 , nous avons :

Pr [supt∈T c

∣π(t )∣>1]≤2 nexp [− 1

2 λ2 ]+Pr [supt0∈Tc

∥w0∥>λ ] .

Preuve : C'est essentiellement une application de l'inégalité de concentration de Hoeffding.□

Les morceaux sont en place pour prouver le théorème 2.3.

Posons λ=2μ √∣T∣m+2a σ̄

m. Combinant les lemmes 10.4 et 10.3, nous avons pour tout a>0

vérifiant les hypothèses du lemme 10.2,

Pr [supt∈T c

∣π(t )∣>1]≤2nexp(− 1

2λ2 )+n exp (−γ a2 )+Pr [∥UΩT

∗UΩT∥≤

m2 ]

Pour que le second terme soit inférieur à δ , nous choisissons a tel que a2=γ

−1 log ( nδ ) .

Le premier terme est inférieur à δ si1

λ2≥2 log(

2 nδ) (*).

Supposons que μ∣T∣≥√m . La condition du lemme 10.2 est alors a≤( mμ

2 )1 /4

ou d'une manière

équivalente m≥μ2 γ−2 log2( nδ ) , où γ est une constante numérique.

38

Dans ce cas, on a a σ̄=μ√m∣T∣ , ce qui donne1

λ2≥

116

m

μ2∣T∣

(**).

Supposons maintenant que μ∣T∣≤√m . La condition du lemme 10.2 est donc a≤( mμ

2∣T∣)1 /2

.

Alors, si ∣T∣≥a2 , on a a σ̄≤μ√m∣T∣ , ci qui donne encore1

λ2≥

116

m

μ2∣T∣

(**).

D'autre part, si ∣T∣≤a , alors λ≤4a σ̄m

et1

λ2≥

116

m

μ2a2

.

Pour vérifier (*), il suffit de prendre m tel quem

16μ2 min( 1∣T∣

,1

a2 )≥2 log ( 2nδ ) .

Cette analyse montre que le second terme est inférieur à δ si

m≥K1μ2 log ( n

δ )max (∣T∣, lognδ ) pour une constante K1 .

Finalement, par le théorème 2.4, le dernier terme sera borné par δ si m≥K2μ2∣T∣log( n

δ )pour une constante K 2 . En conclusion, nous avons prouvé qu'il existe une constante K 3 telle

que la reconstruction est exacte avec probabilité au moins 1−δ pourvu que le nombre de

mesures m vérifie :

m≥K3μ2 log ( n

δ )max(∣T∣, lognδ ) .

Le théorème est prouvé.□

Remarque : il est possible qu'une version du théorème 2.3 existe pour toute suite de signes sur

T , c'est-à-dire sans la condition que les signes soient choisis uniformément au hasard. Ceci

impliquerait de prouver que le vecteur aléatoire w0=(U ΩT

∗ U ΩT )−1 v0 avec v0 défini comme

précédemment ne soit pas aligné avec la suite de signes fixée z . Les auteurs conjecturent que

c'est effectivement vrai, mais prouver un tel résultat serait considérablement plus engageant.

39

10.b) Démonstration de la propriété d'isométrie restreinte pour matrices aléatoires sous-gaussienne

Variables aléatoires sous-gaussienne

Nous rappelons ici la définition d'une variable aléatoire sous-gaussiennes et introduisons

quelques propriétés utiles pour la suite.

Définitions (voir cnx.org): Une variable aléatoire (v.a.) X est dite sous-gaussienne s'il existe

une constante c>0 telle que ∀ t∈ℝ , E [exp (Xt) ]≤exp ( c2t 2

2 ) (1). On note alors

X∼Sub(c2) .

Une v.a. sous-gaussienne est donc une v.a. dont la fonction génératrice des moments est bornée

par celle d'une gaussienne. Il existe une grande quantité de telles distributions en voici quelques

exemples :

Exemple 1 : les v.a. gaussiennes centrées réduites. Si X∼N (0,σ 2) , alors X∼Sub(σ2

) . En

effet, sa fonction génératrice des moment est donnée par E [exp(X t )]=exp(σ2t 2

2 ) et la

condition (1) est trivialement satisfaite.

Exemple 2 : Si une v.a. X est centrée et bornée, ie il existe B>0 tel que ∣X∣≤B avec

probabilité 1, alors X∼Sub(B2) .

Exemple 3 : Les v.a. ou Rademacher valant 1 avec probabilité ½ et -1 avec probabilité ½.

Donnons maintenant une propriété sur l'espérance et la variance d'une v.a. sous-gaussienne.

Lemme 1 (Buldygin-Kozachenko) :

Si X∼Sub(c2) , alors E [X ]=0 et E [X2 ]≤c2 .

Remarque : grâce à ce lemme, il pourra être utile de considérer une classe plus restreinte de v.a.,

celle des v.a. strictement sous-gaussiennes, vérifiant l'égalité E [X2 ]=c2 .

40

Définition 2 : Une v.a. X est dite strictement sous-gaussienne si X∼Sub(σ 2) avec

σ2=E [ X 2

] , c'est-à-dire : l'inégalité E [exp(X t)]=exp(σ2 t2/2) est vraie pour tout

t∈R . Pour une variable X strictement sous-gaussienne de variance σ2 , nous

noterons X∼SSub(σ 2) .

Exemples :

➢ Une variable aléatoire gaussienne centrée de variance σ2 est strictement sous-

gaussienne de paramètre σ2 .

➢ Si X∼U ([−1,1]) , alors X∼SSub(1/3) .

Démonstration du lemme de Johnson-Lindenstrauss

Lemme 2 (inégalités de concentration) : Soit χm2 une variable aléatoire qui, comme son

écriture l'indique, suit une loi du chi-deux à m degrés de liberté. Alors :

Pr [χm2≥(1+ϵ)m ]≤exp[−m

4(ϵ2−ϵ3)] et Pr [χm

2≤(1−ϵ)m ]≤exp [−m4(ϵ2−ϵ3)] .

Démonstration du lemme 2 :

Soient Z1 ,Z2 ,... , Zm m variables aléatoires iid gaussiennes centrées réduites. Alors :

Pr [χm2≥(1+ϵ)m ]=Pr [λ∑

j=1

m

Z j2>(1+ϵ)mλ ]=Pr [exp(λ∑

j=1

m

Z j2)>exp {(1+ϵ)mλ}] ,∀λ>0

Maintenant, l'inégalité de Markov fournit :

Pr [exp(λ∑j=1

m

Z j2)>exp {(1+ϵ)mλ }]≤

E[exp(λ∑j=1

m

Z j2)]

exp {(1+ϵ)mλ}=

Em [exp (λ Z12 ) ]

exp {(1+ϵ)mλ}.

Or la fonction génératrice des moments d'un χ12 est donnée par :

∀λ<12

, E [exp (λ Z12)]=(1−2λ)−1/2 . En effet :

E [exp(λ Z12)]=∫

ℝ

exp (λ x2)exp(−x2

/2)

√2πdx =

y=√1−2λ x∫ℝ

exp (−y2)

√2πdy

√1−2λ=

1√1−2λ

,∀λ<12

41

D'où finalement : Pr [χm2≥(1+ϵ)m ]≤exp {−(1+ϵ)mλ }( 1

1−2λ )m /2

.

Maintenant, en choisissant λ= ϵ2(1+ϵ)

(donc toujours inférieur à ½), on minimise la dernière

expression (facile à vérifier).

On aboutit donc à Pr [χm2≥(1+ϵ)m ]≤((1+ϵ)exp(−ϵ))m /2≤exp (−m

4(ϵ

2−ϵ

3)) , en utilisant la

majoration 1+ϵ≤exp(ϵ−ϵ2−ϵ

3

2 ) . L'autre borne se montre d'une manière similaire.

Lemme 3 (préservation des normes): Soit x∈ℝn . Supposons que les composantes de la matrice Φ∈ℝ

m×n sont tirés indépendamment selon une N (0,1) . Alors :

Pr [(1−ϵ)∥x∥22≤∥(1 /√m)Φ x∥2

2≤(1+ϵ)∥x∥2

2 ]≥1−2exp(−m4(ϵ2−ϵ3)) .

Démonstration du lemme 3 : Premièrement, montrons que E [∥(1/√m)Φ x∥2

2]=∥x∥22 .

En effet, observons le carré de la jème composante de Φ x :

E [(Φ x) j2 ]=E [∑

i=1

n

(Φi , j xi)2]=E [ ∑

i , i '=1

n

Φi , jΦi ' , j x i x i ' ]=E [∑i=1

n

Φi ,i x i2]=∑

i=1

n

x i2=∥x∥2

2 , où la

troisième égalité vient de l'indépendance et de la variance unitaire des composantes de la matrice.

Et notons que ∥(1/√m)Φ x∥2

2=

1m∑j=1

m

(Φ x) j2 . D'où E [∥(1/√m)Φ x∥2

2]= 1m∑j=1

m

E [(Φ x) j2 ]=∥x∥2

2 .

Remarquons maintenant que comme les composantes de Φ sont iid gaussiennes centrées, alors les (Φ x) j sont aussi iid gaussiennes centrées, et de variance ∥x∥2

2 . En conséquence les

variables Z j :=(Φ x) j

∥x∥2

sont iid gaussiennes centrées réduites. Nous avons alors par une borne

d'unions :

Pr [∥(1/√m)Φ x∥2

2>(1+ϵ)∥x∥2

2 ]=Pr [∑j=1

m

Z j2>(1+ϵ)m ]=Pr [χm

2>(1+ϵ)m ]≤exp [−m

4(ϵ

2−ϵ

3)] ,

en utilisant la première inégalité du lemme 2.

On montre de façon similaire et en utilisant la deuxième inégalité du lemme 2 que :

Pr [∥(1/√m)Φ x∥2

2<(1−ϵ)∥x∥2

2 ]≤exp [−m4(ϵ

2−ϵ

3)] .

Ces deux résultats conduisent naturellement à la conclusion du lemme 3 en passant à l'événement complémentaire. □

42

Remarque : nous allons utiliser pour la suite, ie la preuve de la RIP avec forte probabilité pour

matrices sous-gaussiennes, ce lemme d'inégalité de concentration écrite sous la forme suivante :

Pr [∥(1/√m)Φ x∥2

2−∥x∥2

2>ϵ∥x∥2

2 ]≤2exp [−m4(ϵ

2−ϵ

3)] (3)

Énonçons maintenant le théorème de Johnson-Lindenstrauss, tel qu'il est présenté dans [19],

permettant d'envoyer des points d'un espace euclidien de grande dimension n dans un espace

euclidien de dimension m beaucoup plus petite, tout en préservant approximativement les

distances relatives entre les points.

Théorème 2 (lemme de Johnson Lindenstrauss) [19] :

Soit ϵ∈]0,1 /2[ . Pour tout ensemble Q de ∣Q∣ points de ℝn , si m∈ℕ est tel que

m=20 log∣Q∣

ϵ2

, alors il existe un mapping de Lipschitz f :ℝn→ℝ

m tel que pour tout

u , v∈Q : (1−ϵ)∥u−v∥22≤∥ f (u)− f (v)∥2

2≤(1+ϵ)∥u−v∥2

2 (2).

Remarque : la dimension de l'espace d'arrivée dépend donc du nombre de points pris dans

l'espace de départ. Notons enfin que ce théorème est un résultat déterministe alors que sa preuve

repose sur un argument probabiliste (le lemme 2).

Preuve du théorème 2 : la preuve est constructive et fait appel à une méthode probabiliste. Choisissons f une projection aléatoire de x , ie f=(1 /√m)Φ x , avec Φ une matrice aléatoire de taille m×n et dont les composantes sont iid gaussiennes centrées réduites. Notons maintenant que le nombre de paires de vecteurs u , v∈Q est de l'ordre de ∣Q∣2 . Faisons une borne d'union sur ces paires :

Pr [∃u , v∈Q tq Echec ((1−ϵ)∥u−v∥22≤∥(1 /√m)Φ(u−v )∥2

2≤(1+ϵ)∥u−v∥2

2)]≤∑

u ,v∈Q

Pr [Echec ((1−ϵ)∥u−v∥22≤∥(1/√m)Φ(u−v)∥2

2≤(1+ϵ)∥u−v∥2

2 ) ]

≤2∣Q∣exp(−m4(ϵ2−ϵ3))<1

L'avant dernière inégalité venant du lemme 3 et la dernière du choix de m=20 log∣Q∣

ϵ2

.

En conséquence : Pr [∃u , v∈Q :(1−ϵ)∥u−v∥22≤∥(1/√m)Φ(u−v )∥2

2≤(1+ϵ)∥u−v∥2

2 ]>0 .

La probabilité de trouver un mapping f satisfaisant les conditions désirées est strictement positif, donc un tel mapping existe. □

43

Preuve de la RIP pour matrices sous-gaussiennes

Nous pouvons maintenant exploiter l'inégalité de concentration de la mesure vue au lemme 3 :

∀ϵ∈]0,1[ , Pr [∥(1/√m)Φ x∥2

2−∥x∥2

2≥ϵ∥x∥2

2 ]≤2 exp [−mc0(ϵ)] avec c0(ϵ)=14(ϵ

2−ϵ

3)

aux matrices aléatoires sous-gaussienne pour montrer qu'elles vérifient avec forte probabilité la

propriété d'isométrie restreinte. Notons enfin que si Φ est une sous-matrice « plate » de taille

m*n extraite d'une matrice orthonormale, alors le facteur 1/√m disparaît et l'inégalité devient :

(3) ∀ϵ∈]0,1[ ,Pr [∥Φ x∥22−∥x∥2

2≥ϵ∥x∥2

2 ]≤2exp [−mc0(ϵ)] avec c0(ϵ)=14(ϵ

2−ϵ

3) ,

Notations :

Pour T un ensemble d'indices de cardinal ∣T∣≤k , notons X T l'ensemble des vecteurs de

ℝn nuls en dehors de T , c'est-à-dire X T :={s∈ℝn:∀ i∈T c , si=0 } .

X T est donc un sous-ensemble des vecteurs k-parcimonieux de ℝn .

Lemme 3 : Soit Φ :Ω→ℝm×n une matrice aléatoire construite selon une distribution

vérifiant l'inégalité de concentration de la mesure (3). Alors pour tout ensemble de points

T de cardinal k <m et tout δ∈]0,1[ nous avons :

pour tout x∈X T , (1−δ)∥x∥22≤∥Φ x∥2

2≤(1+δ)∥x∥2

2 (4)

avec probabilité supérieure à 1−2( 12δ )

k

exp (− cOδm

2 ) (5)

Démonstration : Comme Φ est linéaire, nous pouvons nous contenter de montrer le résultat

dans le cas ∥x∥2=1 . Ensuite, choisissons un ensemble de points QT⊆X T tel que pour tout

q∈QT , ∥q∥2=1 et pour tout x∈X T avec ∥x∥2=1 , on ait minq∈QT

∥x−q∥2≤δ4

. Nous

44

pouvons alors choisir un tel ensemble QT de cardinal ∣QT∣≤(12δ )

k

(voir théorie des nombres

de recouvrement). Nous utilisons alors une borne d'union pour appliquer l'inégalité (3) à cet

ensemble de points et avec ϵ=δ/2 .

Ainsi avec une probabilité supérieure à (5), nous avons pour tout q∈QT :

(1−δ/2)∥q∥22≤∥Φ q∥2

2≤(1+δ/2)∥q∥2

2 , ce qui donne (1−δ /2)∥q∥2≤∥Φ q∥2≤(1+δ/2)∥q∥2 ,

puisque ∀ a>1,√a<a et ∀ a∈]0,1[ ,√a>a .

Définissons maintenant A comme le plus petit nombre tel que ∀ x∈X T ,∥Φ x∥2≤(1+A)∥x∥2

.

Montrons que A≤δ . Pour cela, rappelons que nous pouvons choisir un q∈QT tel que

∥x−q∥2≤δ4

et dans ce cas nous avons : ∥Φ x∥2≤∥Φ q∥2+∥Φ(x−q)∥2≤1+ δ2+(1+A) δ

4.

Comme ∥x∥2=1 , la définition de A implique A≤δ2+(1+A) δ

4=

3δ4+

A4

, ce qui donne

bien A≤δ , et l'inégalité supérieure de (4) est prouvée. L'inégalité inférieure découle de :

∥Φ x∥2≥∥Φ q∥2−∥Φ(x−q)∥2≥1−δ2−(1+δ) δ

4≥1−δ , ce qui achève la preuve.□

Théorème 4 : Soient m , n∈ℕ avec m<n et δ∈]0,1[ . Si une matrice aléatoire

Φ∈ℝm×n est générée selon une distribution satisfaisant l'inégalité de concentration (3),

alors il existe des constantes c1 , c2>0 dépendant seulement de δ telle que Φ vérifie la

propriété d'isométrie restreinte RIP (k ,δ) avec le δ prescrit et tout k≤c1m

log navec

une probabilité supérieure à 1−2exp (−c2 n) .

Démonstration : Nous avons vu que pour chaque espace X T de dimension k , la matrice

Φ ne vérifiera pas (4) avec une probabilité inférieure à 2(12δ )

k

exp(−cOδm2 ) . Le nombre de

45

tels sous-espaces est : (nk )=n (n−1)(n−2)...(n−k+1)

k !≤

nk

k !≤( e n

k )k

, la dernière inégalité

venant de la formule de Stirling. Donc sur l'ensemble de ces sous-espaces (c'est-à-dire dire

l'ensemble des signaux k-parcimonieux de ℝn ), (4) ne sera pas vérifiée avec une probabilité

inférieure à :

2( enk )

k

(12δ )

k

exp(−c0δm2 )=2exp {−c0

δm2+k ( log

e nk+ log

12δ )} .

On vérifie maintenant que pour tout c1>0 fixé, nous pourrons toujours avoir

−c0δm2+k {log( e n

k )+ log (12δ )}≤−c2m pourvu que c2≤c0 (δ2 )−c1(1+1+ log(12/δ)

log(n/ k ) ) .

Il suffit alors de choisir c1 suffisamment petit pour assurer cette condition sur c2 . Ceci

montre qu'avec une probabilité supérieure à 1−2exp (−c2 n) , la matrice Φ va satisfaire (4)

pour tout signal k-parcimonieux x , ce qui achève la preuve du théorème.□

46

Matrices aléatoires et norme L1 pour le compressed...

Documents

Transcript of Matrices aléatoires et norme L1 pour le compressed...