Matrices aléatoires et norme L1 pour le compressed...
Transcript of Matrices aléatoires et norme L1 pour le compressed...
Mémoire pour le Master 2 de Statistique Mathématique
Matrices aléatoires et norme L1pour le compressed sensing
effectué par Fabrice DURAND
Encadrant : Bernard DelyonAnnée 2012-2013
1
Exercice 1 : qui est qui ?
Dans le désordre : ➢ Terence Tao➢ Emmanuel J. Candès➢ David Donoho➢ Joel A. Tropp➢ Justin Romberg➢ Richard G. Baraniuk
2
Exercice 2 : qui est qui ?
➢ Claude Shannon➢ Stéphane G. Mallat➢ Yves Meyer➢ Ingrid Daubechies➢ Gabriel Peyré➢ Rémi Gribonval➢ Simon Foucart➢ Anna C. Gilbert
3
Table des matièresRemerciements et contexte...............................................................................................................51.Introduction...................................................................................................................................6
1.a)A l'origine : le théorème de l’échantillonnage de Shannon...................................................61.b)Pourquoi aller plus loin ?.......................................................................................................61.c)Nature du problème...............................................................................................................71.d)Un peu d'histoire....................................................................................................................7
2.Idées générales du compressed sensing.........................................................................................92.a)Notion de parcimonie............................................................................................................9
Définition................................................................................................................................9Recherche d'une meilleure représentation parcimonieuse....................................................10
2.b)Notion d'échantillonnage « incohérent ».............................................................................122.c)Un problème d'optimisation sous-contrainte.......................................................................15
3.Conséquences de la propriété d'isométrie restreinte (RIP)..........................................................183.a)Définition de la propriété d'isométrie restreinte..................................................................183.b)Théorèmes de reconstruction dus à Candès dans le cas RIP...............................................19
Reconstruction en situation non bruitée................................................................................19Reconstruction en situation bruitée.......................................................................................20
3.c)Un exemple de matrices aléatoires RIP...............................................................................21Les matrices aléatoires sous-gaussiennes ............................................................................21Autres choix possibles..........................................................................................................22
4.Approches alternatives................................................................................................................234.a)Approche RIPless................................................................................................................234.b)Approche Bayesienne..........................................................................................................25
5.Aperçu des algorithmes de reconstruction..................................................................................265.a)Matching Pursuit (MP)........................................................................................................265.b)Orthogonal Matching Pursuit (OMP)..................................................................................265.c)Stagewise Orthogonal Matching Pursuit (StOMP).............................................................275.d)Gradient Pursuit...................................................................................................................27
6.Simulations..................................................................................................................................286.a)Échantillonnage compressé d'un signal 1D et reconstruction par (Orthogonal) Matching Pursuit........................................................................................................................................286.b)Échantillonnage compressé d'une image et reconstruction.................................................29
7.Applications.................................................................................................................................318.Conclusion et ouvertures.............................................................................................................319.Bibliographie...............................................................................................................................3210.Annexes.....................................................................................................................................34
10.a)Démonstration du théorème sur la faible cohérence.........................................................3410.b)Démonstration de la propriété d'isométrie restreinte pour matrices aléatoires sous-gaussienne..................................................................................................................................40
Variables aléatoires sous-gaussienne....................................................................................40Démonstration du lemme de Johnson-Lindenstrauss ..........................................................41Preuve de la RIP pour matrices sous-gaussiennes................................................................44
10.c)Démonstration des théorèmes de reconstruction de Candès.............................................47
4
Remerciements et contexte
Je tiens premièrement à remercier Bernard Delyon pour m'avoir encadré pour ce stage et laissé libre dans le choix du sujet et des grandes orientations et donné le petit coup de pouce nécessaire quand j'en avais besoin. J'ai choisi le sujet du compressed sensing, suite à un premier travail encadré par Rémi Gribonval, dans le cadre du séminaire au premier semestre. Cela m'a ainsi apporté une culture scientifique dans ce domaine émergent, aujourd'hui devenu incoutournable dans l'univers du traitement du signal et de son enseignement.
Ce travail m'a permis de voir de nouveaux ponts entre des mondes qui se connaissent parfois peu : la théorie et les développements mathématiques pour valider l'intuition des physiciens ; et les explorations des physiciens ayant besoin d'outils mathématiques et donnant naissance à de nouvelles théories mathématiques hors des terrains balisés.
Je remercie également les étudiants du M2 Mathématiques, normaliens, magistériens et autres que j'ai pu cotoyer dans la bibliothèque de l'IRMAR, pour l'émulation apportée dans ce cadre de travail, et leur vision sur la recherche, l'apprentissage et l'enseignement des mathématiques.
Je remercie évidemment tous les mathématiciens et scientifiques dont les visages figuent en pages 2 et 3 et qui m'ont été une source d'inspiration pour ce travail. Merci en particulier à Gabriel Peyré, qui a mis en ligne ses codes Matlab pour la mise en œuvre de différents algorithmes de reconstruction parcimonieuse de signaux sous-échantillonnés. Merci également à Emmanuel Candès qui m'a donné par email un éclaircissement sur la preuve d'un théorème de reconstructon.
Merci à Patrick Perez, du service informatique, qui a bien voulu me donner une connexion filaire à l'internet depuis l'IRMAR et m'a mis en place un accès à un serveur pour utiliser Matlab à distance. Par contre, l'accès avec succès au serveur étant très aléatoire (ça tombe bien pour un stage en statistique) et suivant plutôt une loi des événements rares, j'ai dû me tourner vers une autre solution qui fonctionne avec probabilité 1.
Merci à Marie, mon sucre d'amour, qui partage ma vie.
5
1. Introduction
1.a) A l'origine : le théorème de l’échantillonnage de Shannon
Claude Shannon, ingénieur électricien et mathématicien américain, est considéré comme un
des pères de la théorie de l'information. Son nom est associé au célèbre théorème de
l'échantillonnage également connu comme critère de Shannon-Nyquist, affirmant que si
un signal analogique est échantillonné avec une fréquence F e=1 /T e au mois égale à
deux fois la fréquence maximale du signal 2 F max , alors on peut reconstruire sans perte
d'informations le signal analogique à partir des échantillons. En d'autre termes, un signal
échantillonné à une fréquence prescrite par Shannon contient toute l'information du signal
original et prend beaucoup moins de place.
Démonstration rapide : une démonstration possible repose sur la théorie des distributions. On modélise l'échantillonnage à la période T e du signal analogique par une multiplication par un peigne d'impulsions de Dirac de période T e et de « poids » 1. Ceci se transpose dans le domaine de Fourier par une convolution du spectre du signal avec un peigne de Dirac de période F e=1/T e et de « poids » F e . Le spectre se trouve donc périodisé avec une période F e . Pour éviter le recouvrement de spectre, on doit imposer
F max inférieur à F e/ 2 (faire un dessin). On peut alors reconstruire le signal initial en appliquant un filtre passe bas idéal modélisé par une porte. Dans le domaine temporel, ce filtre se traduit par une interpolation des échantillons avec des sinus cardinaux.
1.b) Pourquoi aller plus loin ?
Ce théorème de l'échantillonnage est à la base de la conception de convertisseurs
analogique-numériques (CAN) gravés sur silicium, et omniprésents dans les systèmes de
télécommunications. Il offre un avantage considérable permettant de stocker et transporter
des informations sous forme compressée, occupant beaucoup moins de place qu'un signal à
temps continu. Cependant, aujourd'hui, avec des besoins de stocker et transmettre des
volumes d'informations de plus en plus importants, cette fréquence d'échantillonnage
minimale F e≥2 F max est une limite face à des besoins de compresser encore plus
l'information et surtout plus rapidement. Donnons à titre d'exemple français, le cas de l'INA
(Institut National de l'Audiovisuel) qui enregistre et stocke les émissions télévisées de
toutes les chaînes et en continu.
6
1.c) Nature du problème
La question soulevée est donc de savoir si l'on peut échantillonner un signal à une
fréquence largement inférieure à la fréquence minimale prescrite par Shannon. Dans le cas
d'un signal numérisé (enregistrement sonore, image ou vidéo numérique), que l'on peut
toujours représenter comme un vecteur x à n composantes, la question revient à savoir si
l'on peut reconstruire parfaitement x à partir d'une observation y=Φ x , où y a un
nombre de composantes m très inférieur à n (au delà des limites de Shannon), et où Φ
est une matrice de taille m*n modélisant un sous-échantillonnage et vérifiant certaines
propriétés. Nous avons ici affaire à un système sous-déterminé ou à un problème dit
extrêmement mal-posé, car on dispose de beaucoup moins d'observations que de données,
ou dit autrement on a affaire à système linéaire avec beaucoup moins d'équations que
d'inconnues. Généralement, un tel système possède soit zéro soit une infinité de solutions.
D'où l'étonnement que peut engendrer la tentative de résoudre un tel problème. Or il se
trouve que sous certaines conditions, on peut reconstruire parfaitement le signal x à partir
de l’observation y.
1.d) Un peu d'histoire
Une anecdote [3] :
Emmanuel Candès, ingénieur français de l’École Polytechnique et docteur de l'Université
Stanford sous la supervision de David Donoho, est professeur de mathématiques et
statistique dans cette même université au cœur de la Silicon Valley au sud de San
Francisco. En 2004, alors qu'Emmanuel Candès travaillait avec une équipe de radiologues
sur l'Imagerie par Résonance Magnétique (IRM), il a réussi à reconstruire une image
fantôme, parfaitement à partir d'une image sous-échantillonnée (c'est à dire ne respectant
pas le critère de Shannon-Nyquist). Ses partenaires ont d'abord pensé qu'il avait truqué ses
résultats. Il a alors commencé par chercher des explications et a fait des avancées pour
7
démontrer sa découverte, mais restait bloqué à un point particulier. Il a alors décidé d'en
parler à Terence Tao, mathématicien médaillé Fields en 2006 et actuellement professeur de
mathématiques à l'Université de Californie à Los Angeles (UCLA). En allant chercher leurs
enfants qui fréquentaient la même école, Candès a parlé à Tao de cette reconstruction trop
belle pour être vraie. Tao a d'abord réagi en mathématicien en cherchant un contre exemple
pour invalider la théorie de Candès, puis ne trouvant aucun contre exemple, il a écouté plus
attentivement les raisonnements de Candès et a alors pensé que ce dernier pouvait avoir
raison. En quelques jours, il l'a aidé à surmonter son obstacle et les deux ont commencé à
dresser les fondements de la théorie générale du compressed sensing. Cette période
constitue en quelque sorte un big-bang de cette théorie qui connaît depuis cette année de
nombreuses évolutions et variantes et s'exprime dans de nombreux domaines d'applications
explorés par les ingénieurs, médecins et scientifiques de tous bords.
Notons que certaines idées du compressed sensing étaient déjà pressenties depuis quelques
décennies dans le domaine de la sismologie [3].
8
2. Idées générales du compressed sensing
2.a) Notion de parcimonie
Définition
Une idée du compressed sensing (ou compressive sensing ou encore compressive
sampling) est d'échantillonner un signal (enregistrement sonore, image numérique ou
vidéo) à une fréquence significativement moins importante que celle prescrite par Shannon,
de façon non régulière et en exploitant son caractère parcimonieux.
Définition 2.1 [12,13]: Un vecteur x∈ℝn est dit k-parcimonieux avec k <n s'il
contient au plus k composantes non nulles, les autres composantes étant
nécessairement nulles. On parlera alors de caractère parcimonieux d'un signal s'il
admet une représentation parcimonieuse dans une certaine base.
En réalité, le caractère parcimonieux des signaux est déjà exploité dans les phases de
compression, survenant après l'acquisition du signal échantillonné. Il s'agit de représenter le
signal dans une certaine base (ou dictionnaire) dans laquelle il se résume à un nombre
limité de coefficients non nuls. C'est ainsi que la base de Fourier permet d'exprimer un
signal comme somme de sinusoïdes à différentes fréquences. De même, les bases à partir
d'ondelettes permettent d'obtenir une représentation du signal comme somme d'ondelettes
localisées à la fois dans le domaine fréquentiel et dans le domaine temporel (ou spatial).
Cette dernière décomposition est utilisée pour la représentation des images suivant le
standard JPEG2000. La performance d'une base orthogonale pour traiter des signaux
dépend de sa capacité à approximer ces signaux avec peu de coefficients non nuls.
Les deux étapes successives d'échantillonnage à la fréquence de Shannon puis de
compression dans une base adaptée sont finalement coûteuse en temps pour ne retenir que
quelques coefficients représentatifs. L'idée novatrice du compressed sensing est d'effectuer
ces deux opérations simultanément, c'est-à-dire échantillonner et compresser en même
temps, grâce au caractère parcimonieux.
9
Recherche d'une meilleure représentation parcimonieuse
Notons enfin qu'un dictionnaire est en quelque sorte une sur-famille d'une base. Elle est
donc constituée de vecteur non nécessairement linéairement indépendant et la représentatifs
parcimonieuse d'un signal dans une telle base n'est donc pas nécessairement unique. Un
dictionnaire peut même être constitué de l'union de plusieurs bases orthonormales, et dans
ce cas, chercher la meilleure représentation parcimonieuse dans un tel dictionnaire revient à
chercher la meilleure base permettant d'exprimer le signal avec le moins de coefficients
non-nuls possibles. Formalisons un peu le problème et annonçons les résultats de l'article
[17] :
Définition 2.2 : Un dictionnaire de H :=ℝnouℂn est une famille de d≥n vecteurs
unitaires (colonnes) {g k } qui engendre H . Nous utilisons la notation matricielle
D=[ g1 , ... , g d] pour un dictionnaire.
Pour représenter un signal x∈H dans D , nous avons besoin d'un vecteur de
coefficients α=(αk )∈ℝd ouℂd tel que x=Dα . Et nous remarquons que si d >n ,
alors les vecteur de D ne sont pas linéairement indépendants et donc la représentation de
x n'est pas unique, c'est-à-dire le vecteur α n'est pas unique. Nous espérons que parmi
toutes les représentations possibles de x se trouve une représentation très parcimonieuse,
c'est-à-dire avec très peu de coefficients non-nuls. L'enjeu est de chercher toutes les
représentations possible de x , d'en garder seulement les parcimonieuses, puis de
déterminer s'il existe une unique représentation la plus parcimonieuse (avec le moins de
coefficients non nuls). Il est possible de mesurer la parcimonie d'une représentation
x=Dα avec deux quantités : les normes l 0 et l 1 de α (la norme l 0 compte le
nombre de composantes non nulles d'un vecteur). Cela conduit aux deux problèmes de
minimisation suivants :
minα∈ℝ
d
∥α∥0 sachant que x=Dα ( l 0 )
minα∈ℝ
d
∥α∥1 sachant que x=Dα ( l 1 )
Il s'agit de problèmes sous-déterminés dont la question délicate de la résolution est discutée
en section 2.c). Il se trouve aussi que le problème ( l 1 ) est plus facile à résoudre
10
algorithmiquement que le problème ( l 0 ). Voir plus de détails à ce sujet dans la section
2.c). Il devient alors important de savoir si des conditions existent pour que les deux
problèmes offrent la même unique solution. Introduisons pour cela le nombre
μ(D) :=maxj≠k∣⟨ g j∣gk ⟩∣ , la cohérence du dictionnaire (voir plus de détails sur les notions
de cohérence et cohérence mutuelle dans la section 2.b). On a alors deux théorèmes
suivants, démontrés dans [17] :
Théorème 2.1 : Pour tout dictionnaire D , si ∥α∥0<12 (1+
1μ(D)) , alors α est la
solution unique aux deux problèmes de minimisation l 0 et l 1 .
Théorème 2.2 : Pour un dictionnaire D formé de la réunion de L≥2 bases
orthonormales, si ∥α∥0<(√2−1+1
2 (L−1))1
μ(D), alors α est la solution unique
aux deux problèmes de minimisation l 0 et l 1 .
Remarque 1 : les conditions sur ∥α∥0 dans ces deux théorèmes assurent que le problème
de minimisation l 0 , plus difficile, a exactement la même unique solution α que le
problème l 1 , plus pratique à implémenter et plus performant sur un ordinateur, voir
section 2.c).
Remarque 2 : Ces résultats sont une amélioration de [5] dans le sens où il se sont pas limités
au cas d'un dictionnaire constitué de seulement deux bases orthonormales. Notons que le
cas de beaucoup de dictionnaires redondants, comme le dictionnaire discret de Gabor, ne
pouvant pas se décrire comme l'union de deux bases orthonormales, n'était pas couvert par
[5] et peut maintenant être soumis aux problèmes ( l 0 ) et ( l 1 ) pour une recherche de
meilleure représentation parcimonieuse. Voir également l'article [24].
11
2.b) Notion d'échantillonnage « incohérent »
Notons x∈ℝn un signal , Ψ∈ℝn×n la matrice de la base orthonormée dans laquelle
x a la meilleure représentation parcimonieuse, et S∈ℝn la meilleure représentation
parcimonieuse de x dans la base Ψ . On a donc x=Ψ S
Notons encore Φ∈ℝm×n une matrice d'échantillonnage ou de projection permettant de
sélectionner seulement m observations rangées dans un vecteur y∈ℝm avec m≪n .
La matrice Φ peut être vue comme une sous-matrice obtenue en sélectionnant m lignes
d'une matrice carrée orthonormale Φn×n∈ℝn×n .
On a alors y=Φ x=ΦΨ S=ΘS avec Θ=ΦΨ .
Fig. 1 : illustration de l'échantillonnage compressé.
Fig. 2 :
Illustration dans le cas particulier
où x est déjà 3-parcimonieux
( Ψ= I , x=S et Θ=Φ )
La question est donc de savoir à quelles conditions on peut reconstruire le signal inconnu
uniquement à partir de l’observation y est de la matrice rectangulaire de projection Φ .
12
On peut montrer [5,13] qu'il est nécessaire d'avoir une faible « cohérence » entre les
matrices Φ et Ψ dans un sens précisé dans la définition 2.2. Précisons ce résultat à
l'aide d'une définition intermédiaire et de deux théorèmes [13] :
Définition 2.3 [13, 17]: Soit une matrice orthogonale U∈ℝn×n avec U∗U=n I . On
définit la cohérence de U comme le plus grand module de ses composantes :
μ(U )= max1≤k , j≤n
∣U k , j∣ , que l'on pourra noter simplement μ .
Théorème 2.3 (sur la cohérence) :
Soit U∈ℝn×n une matrice orthogonale ( U∗U=n I ) avec ∣U k , j∣≤μ(U ) . Fixons
un sous-ensemble T du domaine du signal. Choisissons un sous-ensemble Ω du
domaine de mesures de taille m :=∣Ω∣ , et z une suite de signes (+1 ou -1) répartis
au hasard uniformément sur T ( ∀ i∈T , Pr (z i=1)=Pr (zi=1)=1/2 ).
Supposons que m≥C0.∣T∣.μ2(U ). log ( nδ ) et également que m≥C0 ' . log2( n
δ ) avec
C0 et C0 ' des constantes numériques fixées.
Alors, avec une probabilité supérieure à 1−δ , tout signal x de support T et
dont les signes de composantes correspondent à ceux de z peut être reconstruit à
partir de l'observation y=U Ω . x en résolvant le problème (P1).
Remarque 1 : ce théorème met en évidence, en posant U=Φn×nΨ l'intérêt d'avoir une
faible cohérence mutuelle entre Φn×n∈ℝn×n et Ψ∈ℝn×n . Notons qu'en sélectionnant
m lignes de U pour former U Ω=:Θ ou alors m lignes de Φn×n∈ℝn×n pour
former Φ :=(Φn×n)Ω , nous retrouvons U Ω=(Φn×n)ΩΨ=ΦΨ=:Θ . On a alors de
façon triviale : μ(U )≥μ(U Ω)=μ(Φ ,Ψ) . Ceci conduit à la conséquence voulue du
théorème : plus la cohérence mutuelle μ(Φ ,Ψ) est faible, moins on a besoin
d'observations.
Remarque 2 : Comme chaque ligne (ou chaque colonne) de U a nécessairement une
13
norme l 2 égale à √n , μ sera compris entre 1 et √n . Quand les lignes de U sont
parfaitement « plates » ( ∀ k , j∈{1, ... , n },∣U k , j∣=1 ), on aura μ(U )=1 . Si au
contraire une ligne de U a son énergie concentrée sur une seule composante (toutes les
composantes sauf une sont nulles), alors μ(U )=√n et la condition
m≥C 0.∣T∣.μ2(U ). log ( n
δ ) du théorème n'offre aucune garantie de pouvoir reconstruire le
signal à partir d'un nombre limité d'échantillons. La valeur μ peut donc être interprétée
comme une mesure grossière de la façon dont les lignes sont concentrées, et on préférera
bien sûr une faible concentration.
Cette notion de faible cohérence constitue un critère important pour le choix de Φ en tant
que matrice aléatoire. Nous donnons les grandes lignes de la démonstration de ce
théorème en annexe. La démonstration du théorème 1 fait appel au théorème suivant :
Théorème 2.4 : Soient U , T et Ω définis comme dans le théorème 1. Supposons que le nombre de mesures vérifie :
m≥∣T∣.μ2(U ).max (C1 log∣T∣,C2 log3δ ) avec C1 et C2 constantes positives.
Alors, Pr [∥1m
UΩT∗ UΩT−I∥
2
≥12 ]≤δ où ∥.∥2 est la norme l 2 standard pour les
matrices, ici la plus grande valeur propre (en valeur absolue).
Remarque 1 : Ainsi, pour des petites valeurs de δ , les valeurs propres de U ΩT∗ U ΩT
sont toutes proches de m , avec forte probabilité. Pour voir le principe d'incertitude,
supposons que x∈ℝn soit un signal de support T et tel que ∥ 1m
UΩT∗ UΩ T−I∥
2
≤12
.
Il s'en suit que :m2∥x∥2
2≤∥U Ω x∥2
2≤
3 m2∥x∥2
2 ,
ce qui signifie qu'une faible portion de l'énergie de x sera concentrée sur l'ensemble Ω
dans le domaine de U (l'énergie totale vérifie ∥Ux∥22=n∥x∥2
2 ). Les grandes lignes des
démonstrations des théorèmes 1 et 2 sont données en annexe.
14
Remarque 2 : ces deux théorèmes constituent une avancée par rapport au résultat fourni
dans [16] où on prend pour U la matrice usuelle de Transformée de Fourier Discrète. Le
résultat principal de cet article est que si x∈ℝn est k-parcimonieux, alors il peut être
reconstruit parfaitement à partir de l'ordre de k log n observations, prises dans le domaine
de Fourier.
Remarque 3 : La définition 2.1 et la condition du théorème 2.3 conduisent à définir un lien
entre les matrices de projection et de parcimonie Φ et Ψ . Le nombre de mesures
requis pour reconstruire un signal parcimonieux est donc affecté par le nombre μ qui peut
être redéfini comme suit [13]:
Définition 2.2 : Soient Φ∈ℝn×n une matrice de projection orthogonale (avec
Φ∗Φ=n I ) et Ψ∈ℝn×n une matrice orthonormale de parcimonie ( Ψ
∗Ψ=I ).
La cohérence mutuelle entre Φ et Ψ est définie par :
μ :=μ(Φ ,Ψ)= max1≤k , j≤n
∣⟨Φ j ,Ψ k ⟩∣ .
Remarque : Elle mesure donc la plus grande corrélation entre deux éléments (vecteurs
lignes) de Φ et Ψ . Une conséquence de l'inégalité de Cauchy-Schwarz est que
μ(Φ ,Ψ)∈[1,√n ] .
2.c) Un problème d'optimisation sous-contrainte
Pour simplifier l'exposé, on se place maintenant pour cette section dans une telle situation
où x∈ℝn est k-parcimonieux. Et on va montrer plus loin que si m est légèrement
supérieur (dans un sens à préciser) au nombre k de composantes non nulles dans x et si
Φ∈ℝm×n satisfait certaines propriétés, alors on peut reconstruire parfaitement x en
résolvant le problème d'optimisation sous contrainte suivant :
minx̃∈ℝ n
∥x̃∥ sachant que y=Φ x̃ (P1)
15
Dans une situation plus réaliste où l'observation y est bruitée (bruit de quantification, bruit
thermique des capteurs, etc...), le modèle de l'observation devient :
y=Φ x+ z où z est un terme de bruit inconnu. Le problème à résoudre devient :
minx̃∈ℝ n
∥x̃∥ sachant que ∥y−Φ x̃∥2≤ϵ1(P2)
Une question cruciale arrivant à cette étape est de savoir quelle norme ∥.∥ il convient
d'utiliser dans l'expression ∥x̃∥ pour résoudre les problèmes (P1) et (P2).
Une idée naturelle est de choisir la norme dite l 0 qui compte le nombre de composantes
non-nulles dans un vecteur. Il s'agit en fait d'une pseudo-norme que l'on peut formaliser
ainsi :
∀ x∈ℝn ,∥x∥0=∣supp ( x)∣ ou encore ∀ x∈ℝn ,∥x∥0=∑i=1
n
xi0 en posant 00
=0
Cette norme a l'avantage de conduire à la solution exacte pour (P1) dès que m≥k+1 (voir
[4]) mais a l'inconvénient d'être très coûteuse en complexité algorithmique. En effet, la
résolution de ce problème conduit à tester les Cnk combinaisons possibles de sous-espaces
de ℝn passant par k axes de coordonnées parmi les n . Cette norme n'a donc pas été
retenue.
Une autre idée naïve est de choisir la norme euclidienne l 2 . Malheureusement, résoudre
le problème de minimisation (P1) ou (P2) par cette norme ne conduit presque jamais à une
solution k-parcimonieuse. Voir schéma ci-dessous pour des considérations géométriques en
dimension 3.
Finalement, la norme qui va s'avérer efficace est la norme l 1 . En effet, cette norme a
l'avantage d'être convexe comme la norme l 2 et la boule unité dans cette norme est un
polytope (au sens américain) défini comme une enveloppe convexe d'un polyèdre, et en
grande dimension, il devient tellement pointu que la probabilité que le sous-espace passant
1 Notons la norme l 2 avec juste l'indice 2 pour alléger l'écriture.
16
passant par la bonne solution x soit tangent à une arrête ou une face devient très faible.
C'est ce que Richard Baraniuk appelle le « miracle de la haute dimension » [3]. Voir figure
3.
Fig. 3 : illustration en dimension 3 des avantages et inconvénients de l'utilisation des
normes (a) l 0 , (b) l 2 et (c) l 1 .
De plus, l'utilisation de la norme l 1 conduit à un problème d'optimisation convexe qui
peut se réduire à un programme linéaire connu sous le nom de basis pursuit [11], dont les
fondements mathématiques sont connus depuis quelques décennies. La norme l 1 est
également appelée relaxation convexe ou relâché convexe de l 0 .
Pour conclure, il convient de s'intéresser également au cas où x :=S est seulement
« proche » d'un signal k-parcimonieux. Le cas d'un signal non exactement parcimonieux
mais dont les coefficients ont une décroissance rapide donne lieu à une possibilité de
compression en sélectionnant les composantes les plus importantes avec une petite perte
d'information.
17
3. Conséquences de la propriété d'isométrie restreinte (RIP)
3.a) Définition de la propriété d'isométrie restreinte
Un premier théorème d'unicité [1]: Supposons que Φ∈ℝm×n est telle que chaque
sous-matrice extraite en sélectionnant exactement 2k colonnes soit de rang 2k ,
alors un vecteur k-parcimonieux x∈ℝn peut être reconstruit de manière unique à
partir de l'observation y=Φ x .
Démonstration : Supposons par l'absurde qu'il existe au moins deux vecteurs k-parcimonieux x et x ' tels que Φ x=Φ x ' . Alors Φ(x− x ' )=0 . Comme x− x 'est 2k-parcimonieux, alors 2k colonnes de Φ sont linéairement dépendantes. Contradiction. □
Ainsi, une matrice de projection Φ∈ℝm×n avec m≪n n'est clairement pas de rang
plein. Mais on peut lui imposer que n’importe quelle sous-matrice extraite en choisissant un
certain nombre fixé de colonnes soit de rang plein. Ceci permet alors de résoudre le
problème d'optimisation sous-contrainte décrit ci-dessus. Une propriété étroitement liée à
cette condition est la propriété d'isométrie restreinte décrite ci-dessous :
Définition : On dit qu'une matrice Φ∈ℝm×n satisfait la propriété d'isométrie
restreinte d'ordre k∈ℕ et de constante d'isométrie δk∈]0,1[ , et on notera que
Φ est RIP (k ,δk ) , si pour tout signal k-parcimonieux, soit pour tout signal
x∈Σk :={u∈ℝn:∣supp(u)∣≤k } , on a : (1−δk)∥x∥22≤∥Φ x∥2
2≤(1+δk )∥x∥2
2 .
Remarques :
➢ En réécrivant cet encadrement sous la forme suivante : √1−δk≤∥Φ x∥2
∥x∥2
≤√1+δk ,
cela indique que la matrice Φ doit à peu près préserver les longueurs (au sens de la norme
euclidienne) de ces vecteurs k-parcimonieux. Autrement dit, on souhaite que les valeurs
singulières de Φ soient comprises dans un petit intervalle autour de 1.
➢ Cette définition impose à chaque matrice extraite de k colonnes, d'être de rang k .
➢ La constante d'isométrie restreinte δk∈]0,1[ est donc définie comme le plus petit
nombre tel que cet encadrement reste vrai pour tout vecteur k-parcimonieux x .
18
Une variante du premier théorème : Si Φ∈ℝm×n est RIP (2k ,δ2k) et x∈ℝn est k-
parcimonieux, alors x est solution unique au problème (P1).
Démonstration : Notons x ' une autre solution possible de (P1). Alors y=Φ x=Φ x ' .
Mais comme x− x ' est 2k-parcimonieux et Φ∈ℝm×n est RIP (2k ,δ2k) , on obtient :
(1−δ2k)∥x−x '∥22≤∥Φ x−Φ x '∥2
2≤∥y− y∥2
2=0 .
Enfin comme 1−δ2k>0 , on conclut que x= x ' .□
Remarque: les notions d'isométrie restreinte pour Φ et de faible cohérence entre Φ et
Ψ s'avèrent être combinaison gagnante pour le compressed sensing.
3.b) Théorèmes de reconstruction dus à Candès dans le cas RIP
Reconstruction en situation non bruitée
Théorème 3.1 (Noiseless recovery, Candès, 2008, [2]) :
Supposons que δ2k<√2−1 . Alors la solution x∗ au problème (P1) vérifie :
∥x∗−x∥1≤C0∥x− xk∥1
et
∥x∗−x∥2≤C0 k−1/2∥x−xk∥1
où :
xk désigne la meilleure représentation k-parcimonieuse de x , c'est-à-dire que
xk est le vecteur x où sont conservées les k plus grandes composantes (en
valeur absolue et au mêmes emplacements) de x et toutes les autres sont
composantes sont fixées à zéro.
C0 est une constante explicitée dans la démonstration en annexe.
Remarque : Dans le cas particulier où x est k-parcimonieux, la reconstruction est exacte.
19
Reconstruction en situation bruitée
Théorème 3.2 (Noisy recovery, Candès, 2008, [2]) :
Supposons que δ2k<√2−1 et ∥z∥2≤ϵ . Alors la solution x∗ au problème (P2)
vérifie :
∥x∗−x∥2≤C0 k−1 /2∥x−xk∥1+C1ϵ
avec la même constante C0 que dans le cas non bruité, et C1 explicité dans la
démonstration en annexe.
Remarques :
➢Les constantes C0 et C1 sont assez petites.
➢En revenant au cas non bruité, ϵ=0 , le théorème 2 implique immédiatement le
deuxième résultat du théorème 1.
➢Le terme en C1ϵ indique la stabilité de la reconstruction : une petite augmentation du
niveau du bruit de l'observation n'augmente pas l'erreur de reconstruction de façon
disproportionnée.
20
3.c) Un exemple de matrices aléatoires RIP
Il existe différents types de matrices aléatoires Φ∈ℝm×n dont on peut montrer qu'elles satisfont
avec forte probabilité la propriété d'isométrie restreinte [6, 7]. En voici un premier exemple.
Les matrices aléatoires sous-gaussiennes
Définitions (voir cnx.org):
Une variable aléatoire X est dite sous-gaussienne s'il existe une constante c>0 telle que
∀ t∈ℝ ,E [exp(Xt )]≤ exp[ c2t 2
2 ] . On note alors X∼Sub(c2) .
Une matrice aléatoires Φ∈ℝn×m est dite sous-gaussienne si ses composantes Φ i , j sont
iid et sous-gaussiennes avec Φi , j∼Sub ( 1m ) .
On peut montrer que si Φ∈ℝm×n est sous-gaussienne, alors pour toute matrice orthonormale de
parcimonie Ψ∈ℝn×n , Θ=ΦΨ est aussi sous-gaussienne.
Elle présente également des avantages et inconvénients :
Avantages : Elle correspond à une stratégie d'échantillonnage très générale indépendante de la
base de parcimonie Ψ et on peut aussi montrer [7, 10] qu'elle vérifie la propriété d'isométrie
restreinte RIP (k ,δk ) avec forte probabilité, dès lors que m≥C ste 1δ ²
k ln ( nk ) .
Inconvénients : En pratique, elle n'est pas réellement aléatoire, mais pseudo-aléatoire, construite
à partir de quelques valeurs initiales (ce qui présente donc l'avantage de prendre très peu de
place). La complexité algorithmique de sa construction est élevée, de l’ordre de m×n . Elle est
21
donc inadaptée dans le cas de signaux volumineux comme des images ou des vidéos, la
reconstruction étant très lente.
Autres choix possibles
On peut trouver un « catalogue » [6] de matrices aléatoires vérifiant la propriété d'isométrie
restreinte avec forte probabilité, et faible cohérence avec la matrice de parcimonie, dont on peut
recenser pour chacune : la complexité algorithmique de leur construction , l'ordre de grandeur de
m en fonction de k et à partir duquel la RIP est vérifiée avec forte probabilité, les avantages et
inconvénients et leur utilité dans telle ou telle application. Certaines sont construites à partir de
matrices de Fourier et exploitent le fait que Fourier diagonalise les matrices circulantes.
22
4. Approches alternatives
4.a) Approche RIPless
Une approche alternative de compressed sensing et reconstruction existe [8], ne nécessitant pas la
propriété isométrie restreinte décrite précédemment pour la matrice de projection, mais deux
autres critères : une propriété d'incohérence et une propriété d'isotropie vérifiée par la loi F des
composantes de la matrice de projection. Commençons par décrire ces deux propriétés.
Ecrivons le modèle de l'observation : ∀ k∈{1,... , m}, yk=⟨Φk , x⟩+σ zk où zk est un bruit
blanc avec variance unité et Φk∼iid
F .
Définition de la propriété d'isotropie :
On dit que F vérifie la propriété d'isotropie si E[ΦkΦk*]=I n avec Φk∼
iidF .
En d'autres termes, la condition d'isotropie dit que les composantes de Φk∼iid
F ont une
variance unité et sont décorrélées.
Définition de la propriété d'incohérence : On peut considérer le paramètre de cohérence
μ(F) comme le plus petit nombre tel que max1≤t≤n
∣Φk [ t ]∣2≤μ(F ) est vrai soit de façon
déterministe soit de façon aléatoire dans le sens suivant. Si une borne déterministe n'existe
pas, on peut prendre le plus petit scalaire μ vérifiant :
E[ 1n∥Φk∥221Ec ]≤ 1
20 n3 /2 et Pr [ Ac ]≤ 1nm
où A est l'événement A :={max1≤t≤n
∣Φk [ t ]∣2≤μ }
Nous pouvons alors énoncer un premier théorème de reconstruction au problème (P1) rappelé ici:
(P1) : minx̃∈ℝn
∥x̃∥ sachant que y=Φ x̃ où les lignes de Φ sont des échantillons suivant la loi
F et normalisés.
23
Théorème 1 (Noiseless incoherent sampling) [8]:
Soient x∈ℝn un vecteur fixé et arbitrairement k-parcimonieux et un scalaire β>0 .
Alors, avec probabilité au moins 1−5n−exp (−β) , x est l'unique solution au problème
(P1) avec y=Φ x pourvu que m≥Cβ.μ(F )k log n . Plus précisément, Cβ peut être fixé
à C0(1+β) avec C0 une constante numérique positive.
Remarque : en substance, ce théorème dit qu'un signal k-parcimonieux peut être parfaitement
reconstruit à partir de l'ordre de k log n mesures.
Revenons maintenant au problème (P2) correspondant à la situation bruitée et que nous rappelons ici : nous observons y=Φ x+σm z où z est toujours un bruit blanc de variance unité et avecσm=σ /√m et nous souhaitons résoudre le problème de minimisation suivant :
minx̃∈ℝn
∥x̃∥ sachant que ∥y−Φ x̃∥2≤ϵ (P2)
que l'on peut résoudre en passant par la méthode LASSO [22] , qui revient à résoudre le problème, reformulé sans contrainte, des moindres carrés avec une pénalité de type l1 pour un certain λ>0 :
x l1−l2
*=argmin
x̃∈ℝn
12∥y−Φ x̃∥2
2+λσm∥x̃∥1
2(P2')
qui est parfois appelé problème de minimisation l1−l2 . Avec un choix approprié du paramètreλ , le problème (P2') fournira la même solution que (P2). Cependant, la valeur de λ
correspondant à la valeur de ϵ dans le problème (P2) n'est pas connue en général [23].
Théorème 2 [8]:
Soient un vecteur x∈ℝn et un scalaire β>0 . Alors, avec probabilité au moins
1−6n−6 exp (−β) , la solution x* au problème (P2') avec λ=10√ log n vérifie :
∥x*−x∥2≤ min
1≤k≤kmax
C (1+α){∥x−xk∥1
√k+σ √ k log n
m } pourvu que m≥Cβ.μ(F ). kmax . log n ,
Si l'erreur est mesurée par la norme l1 , cela donne :
∥x*−x∥1≤ min
1≤k≤kmax
C (1+α){∥x−xk∥1+k σ√ log nm } ,
24
où :
C est une constante numérique, Cβ peut être choisi comme précédemment,
α=√ (1+β)kμ log n log m log2 km
et kmax est le niveau maximum de parcimonie pour x
permettant toujours une reconstruction stable et peut être fixé à kmax=m
Cβ .μ(F) . log n.
4.b) Approche Bayesienne
De façon assez surprenante, le problème de minimisation (P2') ci-dessus peut être vu dans le cadre d'une approche Bayesienne comme un estimateur du maximum a posteriori (MAP) lorsque le bruit additif est un bruit blanc gaussien et qu'on impose un prior Laplacien
p(x∣λ)=( λ2 )n
exp(−λ∥x∥1)∝exp (−λ∥x∥1) au vecteur inconnu x∈ℝn , considéré ici dans
une forme parcimonieuse ou compressible [23, 25]. On pourra se référer par exemple à [25, 26, 27] pour plus de détails sur les variantes et évolutions des méthodes d'esimation Bayesienne d'un signal parcimonieux.
25
5. Aperçu des algorithmes de reconstruction
On trouve dans la littérature de nombreuses techniques de reconstruction par résolution des
problèmes (P1) et (P2), avec des spécificité différentes en termes de rapidité, précision [3]. Nous
décrivons succintement les principaux d'entre eux, qualifiés d'algorithmes gloutons.
5.a) Matching Pursuit (MP)
Le MP [28, 23] d'un algorithme itératif. A la première itération, on initialise à zéro toutes les composantes du vecteur x∈ℝn recherché : x(0)=(0, ... ,0)
Ensuite, à chaque itération, le vecteur est mis à jour en lui ajoutant le vecteur 1-parcimonieux qui minimise la nouvelle erreur d'observation :
x( j+1)=x( j)
+v* où v*=arg min∥v∥0=1
∥y−Φ(x( j )+v )∥2 .
Cette mise à jour est calculée par une multiplication terme à terme : v=c id i où :
c=ΦT ( y−Φ x( j))∈ℝn est un vecteur de corrélations, i est l'indice qui maximise la valeur absolue du vecteur de corrélation max
i∣ci∣ et d i est l'impulsion unité (ou Dirac) à l'indice i .
Après M itérations, on aura ainsi ajouté un signal M-parcimonieux.
Il est prouvé dans [28] que la suite des résidus ∥y−Φ x( j )∥2 converge vers 0 quand jaugmente. On peut alors arrêter l'algorithme après un nombre d'itéaration fixée ou à l'aide d'un critère d'arrêt sur l'erreur.
5.b) Orthogonal Matching Pursuit (OMP)
L'OMP [29, 23] est une amélioration du MP en réduisant l'erreur grâce à une projection orthogonale. A une itération j donnée, on effectue une étape standard du MP : x̃=x( j )
+v et l'itération suivante est effectuée en projetant y sur le support connu de x̃ :
x( j+1)=argmin
I( x)=I ( x̃)∥y−Φ x∥2 , où I (x) := {i∈{1, ... , n}: x i≠0 } est le support de la solution.
Cette minimisation l2 peut être résolue par la méthode des moindres carrés comme suit :
x Ij+1=ΦI
+ y où A+=(AT A )−1 AT est la pseudo-inverse, I=I (x) et où on a utilisé la notation
xI=(x i)i∈I et ΦI∈ℝm×∣I∣ est la sous-matrice de Φ obtenue en ne gardant que les colonnes
indicées par I . On montre dans [29] que cet algorithme s'arrête après n itérations, fournissant une erreur nulle : Φ x(m )= y , puisqu'à la différence du MP, il ne sélectionne jamais le même indice deux fois.
26
5.c) Stagewise Orthogonal Matching Pursuit (StOMP)
Le MP et l'OMP ne sélectionnent qu'une seule colonne à chaque itération. Ainsi pour un reconstruire un vecteur k-parcimonieux, ces alogorithmes nécessitent au moins k itérations. L'idée du Stagewise OMP est d'accélérer la convergence en sélectionnant plusieurs colonnes à chaque itération, voir précisions dans [30].
5.d) Gradient Pursuit
Le coût algorithmique de l'OMP est dominé par son étape de projection orthogonale. Pour éviter ceci, l'algorithme Gradient Pursuit [31] remplace cette étape par une mise à jour du vecteur xpar une instruction de type gradient ou gradient conjugué.
27
6. Simulations
Voici les résultats de simulations réalisées à l'aide de Toolbox et codes Matlab mis en ligne par
Gabriel Peyré [32], moyennant des adaptations mineures.
6.a) Échantillonnage compressé d'un signal 1D et reconstruction par (Orthogonal) Matching Pursuit
Nous générons :
➢ une matrice de projection Φ∈ℝm×n , réalisation d'une matrice aléatoire gaussienne,
➢ un vecteur k-parcimonieux x∈ℝn , dont les composantes non nulles valent +1 ou -1.
Puis nous effectuons une observation (basée sur le compressed sensing) contaminée par un bruit gaussien : y=Φ x+z
Nous appliquons alors l'algorithme du Matching Pursuit (MP) sur l'observation. Nous affichons ci dessous (figure 1.a) le vecteur de corrélations obtenu à la première itération et permettant de sélectionner le premier vecteur 1-parcimonieux contribuant à la solution finale, ainsi que la décroissance de l'erreur d'estimation au fur et à mesure des itétations (figure 1.b).
Fig. 1.a – premier vecteur de corrélations Fig. 1.b évolution de l'erreur résiduelle
28
Nous observons maintenant les reconstructions comparées au signal original obtenues par les algorithmes Matching Pursuit (MP, figure 2.a) et Orthogonal Matching Pursuit (OMP, figure 2.b).
Fig. 2.a – signal reconstruit par MP Fig. 2.b - signal reconstruit par OMP
Nous constatons que le signal reconstruit par MP est plus bruité par rapport au signal original. L'algorithme OMP s'avère ici plus efficace.
6.b) Échantillonnage compressé d'une image et reconstruction
Fig. 1 – Décomposition en ondelettes et reconstruction d'une image IRM
Donnons d'abord la décomposition en ondelette d'une image IRM et sa reconstruction à partir des
coefficients basse fréquence de la décomposition (figure 1). La figure reconstruite a ici un RSB
(rapport signal sur bruit) de 27,1 dB.
29
Nous mettons maintenant en œuvre un échantillonnage compressé et une reconstruction par
l'agorithme de Douglas Rachford [33]. La figure 2.a présente l'évolution de la norme L1 du
vecteur parcimonieux reconstruit au fur et à mesure des itérations, et la figure 2.b présente
l'image reconstruite à la fin de l'algorithme.
Fig. 2.a – norme L1 de x Fig. 2.b – image reconstuite par D.R.
L'image reconstruite a ici un RSB de 33,7 dB, ce qui est meilleur que l'image reconstruite à partir
de la décomposition en ondelettes.
Présentons enfin ci-dessous de nouveau l'évolution de la norme L1 et l'image reconstruite avec un
algorithme utilisant la parcimonie par blocs. Nous observons une petite irrégularité dans la
décroissance de la norme L1, mais l'image reconstruite au final est de meilleure qualité avec un
RSB de 36,3 dB.
Fig. 3 – norme L1 et image reconstruite exploitant la parcimonie par blocs
30
7. Applications
Il existe une multitude d'applications de la théorie du compressed sensing, comme la célèbre
« Single pixel camera » conçue par Richard Baraniuk [3], au convertisseurs analogique-
numérique (CAN) plus rapides intégrés dans les systèmes de communication grâce à la
technique du Random Convolution (voir les nombreux articles de Justin Romberg), en passant
par de nombreux le traitement de l'image (temps d'exposition réduit en scanner IRM),
l'acoustique (séparation de sources via la parcimonie) et l'astronomie.
8. Conclusion et ouvertures
Nous avons abordé les notions de compressed sensing et de reconstruction dans le cas où la
matrice de projection est RIP, ou vérifie des proprité d'isotopie et d'incohérence (cas RIPless).
Cependant des approches efficaces existent dans la littérature exploitant d'autres caractéristiques :
➢ la description du signal comme un processus stochastique [voir référence dans 6]
➢ la théorie des graphes [voir référence dans 6]
➢ la projection de polytopes [voir référence dans 6]
➢ les propriétés du noyau de la matrice de projection [voir référence dans 6]
Notons encore qu'il est serait très long en pratique de vérifier la propriété d'isométrie restreinte
(RIP) d'une matrice de projection. Mais heureusement, la plupart des matrices aléatoires
construites selon une certaine classes de lois (les matrices sous-gaussiennes) vérifient cette
propriété avec probabilité écrasante, dans de bonnes hypothèses de travail.
La théorie du compressed sensing est très riche et connaît un essor formidable depuis le « big-
bang » de 2004-2005. Elle trouve des application très variées dans tous les domaines :
communications sans fil, stockage de données, traitement d'image, acoustique. Signalons enfin
que le compressed sensing n'est pas la seule alternative à l'échantillonnage classique.
31
9. Bibliographie
[1] Conférence de Terence Tao en 2008 sur le compressed sensing en sept vidéos de neuf minutes sur https://www.youtube.com/watch?v=i2aY7tZ5S7U
[2] Emmanuel J. Candès ,The Restricted Isometry Property and Its Implications for Compressed Sensing, 2008
[3] Compressed Sensing Makes Every Pixel Count In What's happening in the mathematical sciences (May 2009) by Dana Mackenzie, Society, American Mathematical
[4] Richard G. Baraniuk, Compressive Sensing, lecture NOTES, IEEE Signal Processing Magazine, July 2007
[5] D.L. Donoho and X. Huo, Uncertainty principles and ideal atomic decomposition, IEEE Trans. Inform. Theory, vol 47 no 7 pp 2845-2862, Nov. 2001
[6] Laurant Jacques and Pierre Vandergheynst, Compressive Sensing : « When sparsity meets sampling », February 17, 2010
[7] R. Baraniuk, M. Davenport, R. DeVore aand M. Wakin (2008), A simple proof of the restricted isometry property for random matrices.
[8] Emmanuel J. Candès and Yaniv Plan, A probabilistic and RIPless Theory of Compressed Sensing, November 2010, Revised June 2011
[9] http://dsp.rice.edu/cs ou http://www.compressedsensing.com/ (liste de tuorials et dernières parutions sur le sujet mise à jour par la Rice Univerity)
[10] cnx.org : site de partage de connaissances, initié par Richard Baraniuk, Rice Univerity
[11] Shaobing Chen and David Donoho, Basis Pursuit, 1994
[12] Justin Romberg, Sensing by Random Convolution, Georgia Institute of Technology, School of Electrical and Computer Engineering, Atlanta, Georgia 30332, >= 2007
[13] Emmanuel J. Candès and Justin Romber, Sparsity and Incoherence in Compressive Sampling - Applied and Computational Mathematics, Caltech, Pasadena, CA 91125 – Electrical and Computer Engineering, Georgia Tech, Atlanta, GA 90332, November 2006
[14] Stéphane Mallat, A Wavelet Tour of Signal Processing, Third Edition: The Sparse Way, Third Edition
[15] M. Rudelson. Random vectors in the isotropic position. J. Functional Analysis, 164(1):60-72, 1999
[16] Emmanuel Candès, Justin Romberg and Terence Tao. Robust Uncertainty Principles: Exact Signal Recovery from Highly Incomplete Frequency Information. June 2004; Revised August 2005
[17] Rémi Gribonval and Morten Nielsen. Sparse Representation in Unions of Bases. INRIA, Rapport de recherche N°4642, November 2002
[18] Sanjoy Dasgupta, Anupam Gupta. An Elementary Proof of a Theorem of Johnson and Lindenstrauss. (TR-99-006). Technicl report Univ. of Cal. Berkeley, Comput. Science Division. Accepted 11 July 2002
[19] Sham Kalade and Greg Shakanarovich. Random Projections. CMSC 35900 (Spring 2009)
32
Large Scale Learning
[20] Dimitris Achliopatas. Database-friendly random projections: Johnson-Lindenstrauss with binary coins. Journal of Computer and System Sciences. Received 28 August 2001, revised 19 July 2002.
[21] Simon Foucart : Lectures on compressed sensing, Spring 2009. Graduate course “Notes on Compressed Sensing” in the Department of Mathematics at Vanderbilt, http://www.math.vanderbilt.edu/~foucart/TeachingFiles/S09/CSNotes.pdf
[22] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288).
[23] Kazunori Kayashi, Masaaki Nagahara and Toshiyuki Tanaka. A User's Guide to Compressed Sensing for Communications Systems. IEICE Trans. Commun., Vol. E96-B, No. 3 March 2013
[24] Jean-Jacques Fuchs, member, IEEE. On Sparse Representation in Arbitrary Redundant Bases. IEEE Transactions on Information Theory, Vol. 50, No. 6, June 2004
[25] Shihao Ji, Ya Xue, and Lawrence Carin, Bayesian compressive sensing. (IEEE Trans. on Signal Processing, 56(6) pp. 2346 - 2356, June 2008)
[26] Lihan He and Lawrence Carin, Exploiting structure in wavelet-based bayesian compressed sensing. (Accepted for publication in IEEE Transactions on Signal Processing)
[27] Ahmed A. Quadeer and Tareq Y. Al-Naffouri, Structure-Based Bayesian Sparse Reconstruction. (accepted in IEEE Trans. on Signal Processing) 16 July 2012
[28] S. Mallat and Z. Zhang. Matching Pursuits with Time-Frequency Dictionaries. IEEE Transactions on Signal Processing, Vol. 41, No. 12, Dec. 1993
[29] Y. C. Pati, R. Rezaiifar, Y. C. Pati R. Rezaiifar, P. S. Krishnaprasad. Orthogonal Matching Pursuit: Recursive Function Approximation with Applications to Wavelet Decomposition. (1993) Proceedings of the 27 th Annual Asilomar Conference on Signals, Systems, and Computers
[30] D.L. Donoho, Y. Tsaig, I. Drori and J.L. Starck. Sparse solution of underdetermined linear equations by stagewise orthogonal matching pursuit. 2006, preprint
[31] T. Blumensath and M.E. Davies. Gradient pursuits. IEEE Transactions on Signal Processing, Vol. 56, No. 6, pp. 2370-2382, June 2008
[32] https://www.ceremade.dauphine.fr/~peyre/numerical-tour/tours/ Voyage numérique en Matlab avec Gabriel Peyré comme prolongement du livre de Stéphane Mallat [14].
[33] Patrick L. Combettes, Fellow, IEEE, and Jean-Christophe Pesquet, Senior Member, IEEE . A Douglas-Rachford Splitting Approach to Nonsmooth Convex Variational Signal Recovery . IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 1, NO. 4, DECEMBER 2007
[34] Conférence en vidéo d'Yves Meyer sur le Compressed Sensing dans le traitement d'images. http://www-centre-saclay.cea.fr/fr/Une-avancee-etonnante-en-imagerie-numerique-le-Compressed-Sensing-par-Yves-Meyer-Academie-des-Sciences-et-Centre-de-Mathematiques-video-du-colloque-de-l-Orme-du-18-octobre-2007
[35] Conférence d'Emmanuel Candès sur le Compressed Sensing et la reconstruction L1.
http://videolectures.net/mlss09us_candes_ocsssrl1m/
33
10. Annexes
10.a) Démonstration du théorème sur la faible cohérence
Stratégie générale de la démonstration
Nous allons montrer que x∗ est la solution unique au problème (P1) si et seulement si il existe
un vecteur dual π∈ℝn vérifiant les propriétés suivantes :
➢ π appartient à la co-image de U Ω ,
➢ π(t)=sgn x∗(t) pour t∈T
➢ ∣π(t)∣<1 pour t∈T c
Nous considérons le vecteur candidat π=U Ω∗ UΩ T(UΩ T
∗ U ΩT)−1 z0 où z0 est un vecteur de
taille ∣T∣ et dont les composantes sont les signes de x∗ sur T . Sous les conditions du
théorème, nous montrons alors premièrement que U ΩT∗ U ΩT est inversible et donc π est bien
défini, et deuxièmement que ∣π(t )∣<1 pour t∈T c ( π (t)=sgn x∗(t) pour t∈T est
automatique).
Nous voulons montrer qu'avec le support fixé, un vecteur dual existe avec forte probabilité en
sélectionnant Ω uniformément au hasard. En suivant l'article [16], il est suffisant de montrer les
propriétés désirées lorsque Ω est échantillonné en utilisant un modèle de Bernoulli.
Supposons que Ω1 de taille m est échantillonné uniformément au hasard et Ω2 est
échantillonné en posant Ω2 :={k :δk=1 } ; où δ1 ,δ2 , ... ,δn est une suite iid de variable de
Bernoulli 0/1 avec Pr (δk=1)=mn
.
34
Alors Pr (Echec (Ω1))≤2 Pr (Echec (Ω2)) (voir détails dans [16]). Ceci établi, nous établirons
l'existence d'un vecteur dual de x∗ avec forte probabilité pour Ω échantillonné selon le
modèle de Bernoulli.
La matrice U ΩT∗ U ΩT est maintenant une variable aléatoire qui peut être écrite sous la forme :
U ΩT∗ U ΩT=∑
k=1
n
δk uk×uk
où les uk sont les vecteurs lignes de U T , ie uk=(U t ,k )t∈T .
Nous démontrons d'abord le théorème 2.4 pour en déduire le théorème 2.3.
Démonstration du théorème 2.4 :
Nous utilisons un premier résultat affirmant que si m est assez grand, alors en moyenne la
matrice1m
U ΩT∗ U ΩT diffère peu de l'identité.
Théorème 10.1 :
Soit U une matrice orthogonale vérifiant U∗U=n I . Considérons T un ensemble fixé
et Ω un ensemble aléatoire échantillonné avec le modèle de Bernoulli. Alors :
E∥ 1m
UΩT∗ U ΩT−I∥
2
≤CR . √ log∣T∣
√m. max
1≤k≤n∥uk∥2 avec C R constante positive, pourvu que le
membre de droite soit inférieur à 1.
Puisque la cohérence μ(U ) vérifie max1≤k≤n
∥uk∥2≤μ(U )√∣T∣ , ceci implique
immédiatement :
E∥ 1m
UΩT∗ U ΩT−I∥
2
≤CR . √ log∣T∣
√m. max
1≤k≤n∥uk∥2 .
35
Démonstration : on pose Y=1m∑k=1
n
δk uk∗uk−I , puis pour borner l'espérance de la norme de
Y : E [∥Y∥2 ] , on utilise une technique de symétrisation puis l'inégalité de Jensen, la loi des
espérances itérées et enfin un lemme de Rudelson (voir [15]). □
Le théorème 10.1 donne une borne pour l'espérance de ∥ 1m
UΩT∗ UΩT−I∥
2
.
La preuve du théorème 2 utilise des estimées remarquables sur les grandes déviations de suprema
de sommes de variables aléatoires indépendantes. Soient Y 1 ,... ,Y n une suite de variables
aléatoires indépendantes à valeurs dans un espace de Banach et soit Z le supremun défini par :
Z=supf ∈F∑i=1
n
f (Y i)
où F est une famille dénombrable de fonctions à valeurs réelles. Nous avons maintenant ci-
dessous une inégalité de concentration sur Z :
Théorème 10.2 : Supposons que pour tout f ∈F , on ait ∣ f∣≤B et pour tout i=1, ... , n
, E f (Y i)=0 . Alors, pour tout t≥0 ,
Pr [∣Z−E [Z ]∣>t ]≤3 exp [− tK B
log(1+ Btσ
2+B E[ Z̄ ] )]
où σ2=sup
f ∈F∑i=1
n
E f 2(Y i) , Z̄=sup
f ∈F∣∑
i=1
n
f (Y i)∣ et K est une constante numérique.
Cette inégalité de concentration permet d'achever la preuve du théorème 2.2.
Il reste à dresser les grandes étapes de la preuve du théorème 2.3. Grâce au théorème 2.4, nous
savons qu'avec forte probabilité, les valeurs propres de U ΩT∗ U ΩT sont confinées dans
l'intervalle [m2 ,3m2 ] . Sous ces conditions, non seulement U ΩT
∗ U ΩT est inversible mais nous
pouvons également garantir que ∥(UΩT∗ UΩ T)
−1∥2≤2m
, chose que nous allons utiliser pour
36
montrer que ∣π(t)∣<1 pour t∈T c .
Pour un t 0∈T C , nous pouvons réécrire π (t0) comme :
π (t0)=⟨v0 ,(U ΩT
∗ UΩT )−1 z ⟩=⟨w0 , z ⟩ où v0 est le vecteur ligne de U Ω
∗ UΩT à l'indice de
ligne t 0 , et w0=(U ΩT
∗ U ΩT )−1 v0 . Les trois lemmes suivants donnent des estimées des tailles
de ces vecteurs. Pour simplifier, nous glissons la dépendance en U dans μ(U ) .
Lemme 10.1 : Le moment d'ordre 2 de Z0 :=∥v0∥2 vérifie E [Z0
2 ]≤μ2 m∣T∣ .
Le lemme suivant montre que la queue de Z0 exhibe un comportement gaussien.
Lemme 10.2 : Soient t 0∈T c et Z0 :=∥v0∥2 .
Définissons σ̄ comme σ̄=μ2 m .max(1,
μ∣T∣
√m ) .
Soit a>0 tel que a≤( mμ
2 )1 /4
siμ∣T∣
√m>1 et a≤( m
μ2∣T∣)
1 /2
sinon. Alors :
Pr [Z0≥μ√m∣T∣+a σ̄ ]≤exp [−γa2 ] avec γ>0 .
Preuve : la preuve de ce lemme utilise l'inégalité de concentration du théorème 10.2.□
Lemme 10.3 : Soit w0=(U ΩT
∗ U ΩT )−1 v0 . Avec les même notations et hypothèses que dans le
lemme 10.2, nous avons:
Pr [supt 0∈T C
∥w0∥2≥2μ√∣T∣m
+2a σ̄m ]≤nexp [−γa2 ]+Pr [∥UΩT
∗ UΩT∥2≤m2 ]
37
Preuve :
En notant A et B les événements {∥UΩT∗ U ΩT∥2≥
m2 } et {supt 0∈TC∥v0∥≥μ√m∣T∣+2 a σ̄ } , le
lemme 10.2 fournit Pr (B c)≤n exp [−γa2 ] . Sur l'intersection A∩B , nous avons :
supt0∈Tc
∥w 0∥2≤2m
(μ √m∣T∣+a σ̄ ) . Le résultat s'en suit.□
Lemme 10.4 : Supposons que {z (t)}t∈T est une suite iid de variables aléatoires de
Bernoulli symétriques. Pour tout λ>0 , nous avons :
Pr [supt∈T c
∣π(t )∣>1]≤2 nexp [− 1
2 λ2 ]+Pr [supt0∈Tc
∥w0∥>λ ] .
Preuve : C'est essentiellement une application de l'inégalité de concentration de Hoeffding.□
Les morceaux sont en place pour prouver le théorème 2.3.
Posons λ=2μ √∣T∣m+2a σ̄
m. Combinant les lemmes 10.4 et 10.3, nous avons pour tout a>0
vérifiant les hypothèses du lemme 10.2,
Pr [supt∈T c
∣π(t )∣>1]≤2nexp(− 1
2λ2 )+n exp (−γ a2 )+Pr [∥UΩT
∗UΩT∥≤
m2 ]
Pour que le second terme soit inférieur à δ , nous choisissons a tel que a2=γ
−1 log ( nδ ) .
Le premier terme est inférieur à δ si1
λ2≥2 log(
2 nδ) (*).
Supposons que μ∣T∣≥√m . La condition du lemme 10.2 est alors a≤( mμ
2 )1 /4
ou d'une manière
équivalente m≥μ2 γ−2 log2( nδ ) , où γ est une constante numérique.
38
Dans ce cas, on a a σ̄=μ√m∣T∣ , ce qui donne1
λ2≥
116
m
μ2∣T∣
(**).
Supposons maintenant que μ∣T∣≤√m . La condition du lemme 10.2 est donc a≤( mμ
2∣T∣)1 /2
.
Alors, si ∣T∣≥a2 , on a a σ̄≤μ√m∣T∣ , ci qui donne encore1
λ2≥
116
m
μ2∣T∣
(**).
D'autre part, si ∣T∣≤a , alors λ≤4a σ̄m
et1
λ2≥
116
m
μ2a2
.
Pour vérifier (*), il suffit de prendre m tel quem
16μ2 min( 1∣T∣
,1
a2 )≥2 log ( 2nδ ) .
Cette analyse montre que le second terme est inférieur à δ si
m≥K1μ2 log ( n
δ )max (∣T∣, lognδ ) pour une constante K1 .
Finalement, par le théorème 2.4, le dernier terme sera borné par δ si m≥K2μ2∣T∣log( n
δ )pour une constante K 2 . En conclusion, nous avons prouvé qu'il existe une constante K 3 telle
que la reconstruction est exacte avec probabilité au moins 1−δ pourvu que le nombre de
mesures m vérifie :
m≥K3μ2 log ( n
δ )max(∣T∣, lognδ ) .
Le théorème est prouvé.□
Remarque : il est possible qu'une version du théorème 2.3 existe pour toute suite de signes sur
T , c'est-à-dire sans la condition que les signes soient choisis uniformément au hasard. Ceci
impliquerait de prouver que le vecteur aléatoire w0=(U ΩT
∗ U ΩT )−1 v0 avec v0 défini comme
précédemment ne soit pas aligné avec la suite de signes fixée z . Les auteurs conjecturent que
c'est effectivement vrai, mais prouver un tel résultat serait considérablement plus engageant.
39
10.b) Démonstration de la propriété d'isométrie restreinte pour matrices aléatoires sous-gaussienne
Variables aléatoires sous-gaussienne
Nous rappelons ici la définition d'une variable aléatoire sous-gaussiennes et introduisons
quelques propriétés utiles pour la suite.
Définitions (voir cnx.org): Une variable aléatoire (v.a.) X est dite sous-gaussienne s'il existe
une constante c>0 telle que ∀ t∈ℝ , E [exp (Xt) ]≤exp ( c2t 2
2 ) (1). On note alors
X∼Sub(c2) .
Une v.a. sous-gaussienne est donc une v.a. dont la fonction génératrice des moments est bornée
par celle d'une gaussienne. Il existe une grande quantité de telles distributions en voici quelques
exemples :
Exemple 1 : les v.a. gaussiennes centrées réduites. Si X∼N (0,σ 2) , alors X∼Sub(σ2
) . En
effet, sa fonction génératrice des moment est donnée par E [exp(X t )]=exp(σ2t 2
2 ) et la
condition (1) est trivialement satisfaite.
Exemple 2 : Si une v.a. X est centrée et bornée, ie il existe B>0 tel que ∣X∣≤B avec
probabilité 1, alors X∼Sub(B2) .
Exemple 3 : Les v.a. ou Rademacher valant 1 avec probabilité ½ et -1 avec probabilité ½.
Donnons maintenant une propriété sur l'espérance et la variance d'une v.a. sous-gaussienne.
Lemme 1 (Buldygin-Kozachenko) :
Si X∼Sub(c2) , alors E [X ]=0 et E [X2 ]≤c2 .
Remarque : grâce à ce lemme, il pourra être utile de considérer une classe plus restreinte de v.a.,
celle des v.a. strictement sous-gaussiennes, vérifiant l'égalité E [X2 ]=c2 .
40
Définition 2 : Une v.a. X est dite strictement sous-gaussienne si X∼Sub(σ 2) avec
σ2=E [ X 2
] , c'est-à-dire : l'inégalité E [exp(X t)]=exp(σ2 t2/2) est vraie pour tout
t∈R . Pour une variable X strictement sous-gaussienne de variance σ2 , nous
noterons X∼SSub(σ 2) .
Exemples :
➢ Une variable aléatoire gaussienne centrée de variance σ2 est strictement sous-
gaussienne de paramètre σ2 .
➢ Si X∼U ([−1,1]) , alors X∼SSub(1/3) .
Démonstration du lemme de Johnson-Lindenstrauss
Lemme 2 (inégalités de concentration) : Soit χm2 une variable aléatoire qui, comme son
écriture l'indique, suit une loi du chi-deux à m degrés de liberté. Alors :
Pr [χm2≥(1+ϵ)m ]≤exp[−m
4(ϵ2−ϵ3)] et Pr [χm
2≤(1−ϵ)m ]≤exp [−m4(ϵ2−ϵ3)] .
Démonstration du lemme 2 :
Soient Z1 ,Z2 ,... , Zm m variables aléatoires iid gaussiennes centrées réduites. Alors :
Pr [χm2≥(1+ϵ)m ]=Pr [λ∑
j=1
m
Z j2>(1+ϵ)mλ ]=Pr [exp(λ∑
j=1
m
Z j2)>exp {(1+ϵ)mλ}] ,∀λ>0
Maintenant, l'inégalité de Markov fournit :
Pr [exp(λ∑j=1
m
Z j2)>exp {(1+ϵ)mλ }]≤
E[exp(λ∑j=1
m
Z j2)]
exp {(1+ϵ)mλ}=
Em [exp (λ Z12 ) ]
exp {(1+ϵ)mλ}.
Or la fonction génératrice des moments d'un χ12 est donnée par :
∀λ<12
, E [exp (λ Z12)]=(1−2λ)−1/2 . En effet :
E [exp(λ Z12)]=∫
ℝ
exp (λ x2)exp(−x2
/2)
√2πdx =
y=√1−2λ x∫ℝ
exp (−y2)
√2πdy
√1−2λ=
1√1−2λ
,∀λ<12
41
D'où finalement : Pr [χm2≥(1+ϵ)m ]≤exp {−(1+ϵ)mλ }( 1
1−2λ )m /2
.
Maintenant, en choisissant λ= ϵ2(1+ϵ)
(donc toujours inférieur à ½), on minimise la dernière
expression (facile à vérifier).
On aboutit donc à Pr [χm2≥(1+ϵ)m ]≤((1+ϵ)exp(−ϵ))m /2≤exp (−m
4(ϵ
2−ϵ
3)) , en utilisant la
majoration 1+ϵ≤exp(ϵ−ϵ2−ϵ
3
2 ) . L'autre borne se montre d'une manière similaire.
Lemme 3 (préservation des normes): Soit x∈ℝn . Supposons que les composantes de la matrice Φ∈ℝ
m×n sont tirés indépendamment selon une N (0,1) . Alors :
Pr [(1−ϵ)∥x∥22≤∥(1 /√m)Φ x∥2
2≤(1+ϵ)∥x∥2
2 ]≥1−2exp(−m4(ϵ2−ϵ3)) .
Démonstration du lemme 3 : Premièrement, montrons que E [∥(1/√m)Φ x∥2
2]=∥x∥22 .
En effet, observons le carré de la jème composante de Φ x :
E [(Φ x) j2 ]=E [∑
i=1
n
(Φi , j xi)2]=E [ ∑
i , i '=1
n
Φi , jΦi ' , j x i x i ' ]=E [∑i=1
n
Φi ,i x i2]=∑
i=1
n
x i2=∥x∥2
2 , où la
troisième égalité vient de l'indépendance et de la variance unitaire des composantes de la matrice.
Et notons que ∥(1/√m)Φ x∥2
2=
1m∑j=1
m
(Φ x) j2 . D'où E [∥(1/√m)Φ x∥2
2]= 1m∑j=1
m
E [(Φ x) j2 ]=∥x∥2
2 .
Remarquons maintenant que comme les composantes de Φ sont iid gaussiennes centrées, alors les (Φ x) j sont aussi iid gaussiennes centrées, et de variance ∥x∥2
2 . En conséquence les
variables Z j :=(Φ x) j
∥x∥2
sont iid gaussiennes centrées réduites. Nous avons alors par une borne
d'unions :
Pr [∥(1/√m)Φ x∥2
2>(1+ϵ)∥x∥2
2 ]=Pr [∑j=1
m
Z j2>(1+ϵ)m ]=Pr [χm
2>(1+ϵ)m ]≤exp [−m
4(ϵ
2−ϵ
3)] ,
en utilisant la première inégalité du lemme 2.
On montre de façon similaire et en utilisant la deuxième inégalité du lemme 2 que :
Pr [∥(1/√m)Φ x∥2
2<(1−ϵ)∥x∥2
2 ]≤exp [−m4(ϵ
2−ϵ
3)] .
Ces deux résultats conduisent naturellement à la conclusion du lemme 3 en passant à l'événement complémentaire. □
42
Remarque : nous allons utiliser pour la suite, ie la preuve de la RIP avec forte probabilité pour
matrices sous-gaussiennes, ce lemme d'inégalité de concentration écrite sous la forme suivante :
Pr [∥(1/√m)Φ x∥2
2−∥x∥2
2>ϵ∥x∥2
2 ]≤2exp [−m4(ϵ
2−ϵ
3)] (3)
Énonçons maintenant le théorème de Johnson-Lindenstrauss, tel qu'il est présenté dans [19],
permettant d'envoyer des points d'un espace euclidien de grande dimension n dans un espace
euclidien de dimension m beaucoup plus petite, tout en préservant approximativement les
distances relatives entre les points.
Théorème 2 (lemme de Johnson Lindenstrauss) [19] :
Soit ϵ∈]0,1 /2[ . Pour tout ensemble Q de ∣Q∣ points de ℝn , si m∈ℕ est tel que
m=20 log∣Q∣
ϵ2
, alors il existe un mapping de Lipschitz f :ℝn→ℝ
m tel que pour tout
u , v∈Q : (1−ϵ)∥u−v∥22≤∥ f (u)− f (v)∥2
2≤(1+ϵ)∥u−v∥2
2 (2).
Remarque : la dimension de l'espace d'arrivée dépend donc du nombre de points pris dans
l'espace de départ. Notons enfin que ce théorème est un résultat déterministe alors que sa preuve
repose sur un argument probabiliste (le lemme 2).
Preuve du théorème 2 : la preuve est constructive et fait appel à une méthode probabiliste. Choisissons f une projection aléatoire de x , ie f=(1 /√m)Φ x , avec Φ une matrice aléatoire de taille m×n et dont les composantes sont iid gaussiennes centrées réduites. Notons maintenant que le nombre de paires de vecteurs u , v∈Q est de l'ordre de ∣Q∣2 . Faisons une borne d'union sur ces paires :
Pr [∃u , v∈Q tq Echec ((1−ϵ)∥u−v∥22≤∥(1 /√m)Φ(u−v )∥2
2≤(1+ϵ)∥u−v∥2
2)]≤∑
u ,v∈Q
Pr [Echec ((1−ϵ)∥u−v∥22≤∥(1/√m)Φ(u−v)∥2
2≤(1+ϵ)∥u−v∥2
2 ) ]
≤2∣Q∣exp(−m4(ϵ2−ϵ3))<1
L'avant dernière inégalité venant du lemme 3 et la dernière du choix de m=20 log∣Q∣
ϵ2
.
En conséquence : Pr [∃u , v∈Q :(1−ϵ)∥u−v∥22≤∥(1/√m)Φ(u−v )∥2
2≤(1+ϵ)∥u−v∥2
2 ]>0 .
La probabilité de trouver un mapping f satisfaisant les conditions désirées est strictement positif, donc un tel mapping existe. □
43
Preuve de la RIP pour matrices sous-gaussiennes
Nous pouvons maintenant exploiter l'inégalité de concentration de la mesure vue au lemme 3 :
∀ϵ∈]0,1[ , Pr [∥(1/√m)Φ x∥2
2−∥x∥2
2≥ϵ∥x∥2
2 ]≤2 exp [−mc0(ϵ)] avec c0(ϵ)=14(ϵ
2−ϵ
3)
aux matrices aléatoires sous-gaussienne pour montrer qu'elles vérifient avec forte probabilité la
propriété d'isométrie restreinte. Notons enfin que si Φ est une sous-matrice « plate » de taille
m*n extraite d'une matrice orthonormale, alors le facteur 1/√m disparaît et l'inégalité devient :
(3) ∀ϵ∈]0,1[ ,Pr [∥Φ x∥22−∥x∥2
2≥ϵ∥x∥2
2 ]≤2exp [−mc0(ϵ)] avec c0(ϵ)=14(ϵ
2−ϵ
3) ,
Notations :
Pour T un ensemble d'indices de cardinal ∣T∣≤k , notons X T l'ensemble des vecteurs de
ℝn nuls en dehors de T , c'est-à-dire X T :={s∈ℝn:∀ i∈T c , si=0 } .
X T est donc un sous-ensemble des vecteurs k-parcimonieux de ℝn .
Lemme 3 : Soit Φ :Ω→ℝm×n une matrice aléatoire construite selon une distribution
vérifiant l'inégalité de concentration de la mesure (3). Alors pour tout ensemble de points
T de cardinal k <m et tout δ∈]0,1[ nous avons :
pour tout x∈X T , (1−δ)∥x∥22≤∥Φ x∥2
2≤(1+δ)∥x∥2
2 (4)
avec probabilité supérieure à 1−2( 12δ )
k
exp (− cOδm
2 ) (5)
Démonstration : Comme Φ est linéaire, nous pouvons nous contenter de montrer le résultat
dans le cas ∥x∥2=1 . Ensuite, choisissons un ensemble de points QT⊆X T tel que pour tout
q∈QT , ∥q∥2=1 et pour tout x∈X T avec ∥x∥2=1 , on ait minq∈QT
∥x−q∥2≤δ4
. Nous
44
pouvons alors choisir un tel ensemble QT de cardinal ∣QT∣≤(12δ )
k
(voir théorie des nombres
de recouvrement). Nous utilisons alors une borne d'union pour appliquer l'inégalité (3) à cet
ensemble de points et avec ϵ=δ/2 .
Ainsi avec une probabilité supérieure à (5), nous avons pour tout q∈QT :
(1−δ/2)∥q∥22≤∥Φ q∥2
2≤(1+δ/2)∥q∥2
2 , ce qui donne (1−δ /2)∥q∥2≤∥Φ q∥2≤(1+δ/2)∥q∥2 ,
puisque ∀ a>1,√a<a et ∀ a∈]0,1[ ,√a>a .
Définissons maintenant A comme le plus petit nombre tel que ∀ x∈X T ,∥Φ x∥2≤(1+A)∥x∥2
.
Montrons que A≤δ . Pour cela, rappelons que nous pouvons choisir un q∈QT tel que
∥x−q∥2≤δ4
et dans ce cas nous avons : ∥Φ x∥2≤∥Φ q∥2+∥Φ(x−q)∥2≤1+ δ2+(1+A) δ
4.
Comme ∥x∥2=1 , la définition de A implique A≤δ2+(1+A) δ
4=
3δ4+
A4
, ce qui donne
bien A≤δ , et l'inégalité supérieure de (4) est prouvée. L'inégalité inférieure découle de :
∥Φ x∥2≥∥Φ q∥2−∥Φ(x−q)∥2≥1−δ2−(1+δ) δ
4≥1−δ , ce qui achève la preuve.□
Théorème 4 : Soient m , n∈ℕ avec m<n et δ∈]0,1[ . Si une matrice aléatoire
Φ∈ℝm×n est générée selon une distribution satisfaisant l'inégalité de concentration (3),
alors il existe des constantes c1 , c2>0 dépendant seulement de δ telle que Φ vérifie la
propriété d'isométrie restreinte RIP (k ,δ) avec le δ prescrit et tout k≤c1m
log navec
une probabilité supérieure à 1−2exp (−c2 n) .
Démonstration : Nous avons vu que pour chaque espace X T de dimension k , la matrice
Φ ne vérifiera pas (4) avec une probabilité inférieure à 2(12δ )
k
exp(−cOδm2 ) . Le nombre de
45
tels sous-espaces est : (nk )=n (n−1)(n−2)...(n−k+1)
k !≤
nk
k !≤( e n
k )k
, la dernière inégalité
venant de la formule de Stirling. Donc sur l'ensemble de ces sous-espaces (c'est-à-dire dire
l'ensemble des signaux k-parcimonieux de ℝn ), (4) ne sera pas vérifiée avec une probabilité
inférieure à :
2( enk )
k
(12δ )
k
exp(−c0δm2 )=2exp {−c0
δm2+k ( log
e nk+ log
12δ )} .
On vérifie maintenant que pour tout c1>0 fixé, nous pourrons toujours avoir
−c0δm2+k {log( e n
k )+ log (12δ )}≤−c2m pourvu que c2≤c0 (δ2 )−c1(1+1+ log(12/δ)
log(n/ k ) ) .
Il suffit alors de choisir c1 suffisamment petit pour assurer cette condition sur c2 . Ceci
montre qu'avec une probabilité supérieure à 1−2exp (−c2 n) , la matrice Φ va satisfaire (4)
pour tout signal k-parcimonieux x , ce qui achève la preuve du théorème.□
46