Robustesse......en Analyse Spatiale Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France...

Post on 04-Apr-2015

123 views 9 download

Transcript of Robustesse......en Analyse Spatiale Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France...

Robustesse...

...en Analyse Spatiale

Didier JOSSELINESPACE, UMR 6012, CNRS, Avignon, France

didier.josselin@univ-avignon.frTél.: 04 90 16 26 93

PLAN

-Qu’est-ce que la robustesse ?

-La qualité dans les données

-La robustesse des méthodes statistiques : appréhension empirique avec la Médienne

-La robustesse de la décision

-Conclusions à travers quelques applications

Le processus d’analyse (spatiale)

EXPERTOUTILS

STATISTIQUESDonnées

(Spatiales)

Décision, RèglesConnaissance...

Approche Analyse

Qu’est-ce que la robustesse (au sens large) ?

Tronc

Racine

Branches

Feuilles

La robustesse

augmente...

Avoir ou montrer une force, une vigueurEtre résistant aux maladies et aux

perturbations

Besoin de robustesse ?

...à différents niveaux du processus d’analyse :

1- Données : « Qualité »2- Méthodes statistiques : « Robustesse, résistance »

3- Aide à la décision « ? »

Plusd’interventionDe l’expert

ZAPP

ER

1 – Robustesse des données : qualité

(Goodchild, Gopal, 1989, Goodchild, Jeansoulin, 1998)

Structure de donnéesBase de donnéesMétadonnées

DonnéesComplétudePrécisionFiabilitéAdéquationetc.

“Bruit” ?

Qualité des données : notre proposition

Fournir à l’expert desindicateurs et des cartesduals pour évaluer la qualité de l’information

Question :la moyenne est-elle robuste ?

Question :la médiane est-elle robuste ?

Manipulation de la robustesse,de la moyenne, de la

médiane…

2 – Robustesse des outils statistiques

Fouille de données :Capacité de généralisationDétection des dépendances statistiquesConservation de toutes les données Elimination du bruit

Outils statistiques :Résistance aux outliers“Adéquation”“Justesse”Hypothèses...

Robustesse d’un outil statistique / estimateur : définition

(Andrews et al., 1972, Huber, 1981, Hoaglin, Mosteller, Tukey, 1983, Hampel et al., 1986, Lecoutre et Tassi, 1987)

Un estimateur est dit Un estimateur est dit resistantresistant s’il est peu affectés’il est peu affectépar un petit nombre de grosses erreurs par un petit nombre de grosses erreurs

ou par un grand nombre de petites erreurs ou par un grand nombre de petites erreurs

Un estimateur est dit Un estimateur est dit robusterobuste s’il est peu affecté s’il est peu affectépar un écart aux hypothèses sous-jacentes du modèlepar un écart aux hypothèses sous-jacentes du modèle

Exemple d’indice robuste : construction empirique

de la médienne

Un problème concret posé :Conserver les zones homogènes et les zones hétérogènes ou de gradients (écotones) ….

Différentes distributions de groupes de pixels

Données : vignes en Languedoc-Roussillon, France, INRA, Jean-Marc Robbez-Masson

ZAPP

ER

Quels filtres sont couramment utilisés ?

Données brutes Filtre médian

Filtre moyen Filtre moyen pondéré

Données : pullulation des campagnols, DRAF-SRPV Franche-Comté

)()2()1( ,...,, nxxx : un échantillon de données ordonnées

n

iix

nx

1

1

2 if2

12 if)1()(

)1(

pnxx

pnxM

pp

p

: sa médiane

: sa moyenne

Associer la moyenne et la médianepour définir la médienne ...

Comportement de la moyenne et de la médiane face aux outliers et « inliers »

Outlier

« Inlier »

Définition de la médienne

Une mesure de centralité qui s'adapte aux distributions

locales

Une combinaison linéaire des normes L1 et L2

(Dodge, 1987, 2000)

... combinaison liée aux résistances de la moyenne

et la médiane

Les résistances étant estimées par un bootstrap

But et principe de la médienne(Josselin, 2000, Josselin et Ladiray, 2001)

Calcul de la médienne (simple)

Quand la médiane est plus résistante que la moyennela médienne tend vers la médiane

vers la moyenne dans le cas inverse

)()(

)( )(

)(

1

)(

1)()(

MVxV

MxVxMV

MVxV

MV

M

xV

x

M

V/1 Mesure la résistance d'un estimateur

)()(

)(

MVxV

xVC

CMxCM )1(

  with

L’idée : une métrique qui s’adapte à la distribution locale en combinant les normes L1 et L2

Formulation de la médienne de Laplace( Laplace 1818, Stigler, 1973, 1986, Josselin et Ladiray, 2001,

2002)

 

avec

CMxCM )1(

),(2)()(

),()(

MxCovMVxV

MxCovxVC

Comment estimer les variances de la moyenne et de la médiane ?

la voie du bootstrap (Efron, Tibshirani, 1993, Shao, Tu, 1995)

Le Bootstrap pour estimer la résistance

X=(x1,x2,…,xN)

X*1 X*2 X*b…

Soit un échantillon de données

Un ensemble de B échantillons« bootstrappés » (tirage avec remise)

F (X*1) F (X*2) F (X*b)…Un ensemble de B estimateurs

pour chaque « fonction F » appliquée (moyenne, médiane…)

Estimation de la variance de chaque estimateur F

21

**2

)()()(

1

1ˆ *

B

b

bb

XFXFXF

Bs b

Bootstrap : application à la médienne

2

1

**2

1

B

bX

bX

mXB

s

B

b

bX

XB

m1

** 1

2

1

*)(

*2 )(1

B

bXmed

bmed mXmed

Bs

B

b

bXmed Xmed

Bm

1

**)( )(

1

Estimateur :Estimateur : Variance de l’estimateur : Variance de l’estimateur : avec :avec :

Et covariance moyenne-médiane (pour médienne de Laplace) :Et covariance moyenne-médiane (pour médienne de Laplace) :

B

bXmed

bX

bXmed mXmedmX

B 1

*)(

***, )(

1

1ovc

Application de la médienne au filtrage spatial :

le cas de la pullulation du campagnol (Josselin, Ladiray, 2002)

Degré de Contiguïté 1

Application de la médienne au filtrage spatial :

le cas de la pullulation du campagnol

Degré de Contiguïté 2

Application de la médienne au filtrage spatial :

comparaison aux M estimateurs ZAPP

E 2

ZAPPE 1

Propriétés de la médienne

La médienne confrontée à 4 distributions typiques

Panel 1: Moyenne, médiane et médienne sont presque identiques  

Panel 2: Médiane et médienne sont plus résistantes aux outliers  

Panel 3: Distribution asymétrique où la médienne est proche de la médiane  

Panel 4: Distribution bimodale où moyenne et médienne sont plus robustes  

 

Mean

MeadiansMedian

Comportement spécifique de la médienne de Laplace

DN

MxCovMVxV

MxCovxVC

),(2)()(

),()(

Résultats :simulations et filtrage spatial

on choisit un ensemble de lois statistiques

pour chaque distribution, on calcule son Efficacité Relative : le rapport entre la variance du meilleur estimateur testé et la variance de l'estimateur considéré (permutations de type Monte-Carlo)

le meilleur estimateur est celui qui possède :

Le plus petit Ecart-type d'efficacité relative pour les diverses distributions

Le plus grand Minimum d'efficacité relative (Robustesse)

Evaluation de l'efficacité de la médienne (Hoaglin, Tukey, Mosteller, 1983 )

Efficacité relative et robustesse de la moyenne, la médiane et des médiennes selon différentes lois et l'effectif de la distribution.

Estimateur n Gauss One-out One-wild Cont5 Cont10 Dexp Logistic Slash Cauchy MIN ECT

Moyenne 10 100 71,9 11,8 85,6 75,7 70,1 94 0 0 0 40,8 Médiane 10 72,3 81,1 76,6 80,1 84 96,7 83,9 90,1 91,8 72,3 7,7 Médienne 10 93,7 87,1 66,5 92,3 90,3 94,6 97,8 90,1 91,9 66,5 9,1 Médienne L 10 100 87,5 77,6 92,4 90,7 98,1 98,4 90,1 91,9 77,6 6,9

Moyenne 20 100 82,5 19,2 84 73,8 63,8 92,8 0 0 0 39,9 Médiane 20 68,1 73,4 70,9 74,5 78 95,7 79,8 85,8 89,5 68,1 9,2 Médienne 20 92,9 88,3 64,4 89,7 87,3 92,6 96,4 85,8 89,4 64,4 9,2 Médienne L 20 100 88,7 71 90,1 87,4 97,1 97,3 85,8 89,4 71 8,6

Moyenne 50 100 92,1 35,6 82,5 72,2 58,5 92 0 0 0 38,9 Médiane 50 65,5 68,1 67 70,5 73,7 96 77,2 82,1 87,3 65,5 10,3 Médienne 50 92,3 90,5 67,1 87,5 84,6 91 95,4 82,2 87,3 67,1 8,3 Médienne L 50 99,9 93,7 69,9 88,2 84,6 96,7 96,5 82,2 87,3 69,9 9,3

Moyenne 100 100 96,1 52,2 82,3 71,4 55,9 92 0 0 0 38,4 Médiane 100 64,6 66,1 65,8 69,4 72,2 96,8 76,4 80,5 86,4 64,6 10,9 Médienne 100 92,2 91,5 73 86,8 83,5 90,5 95,2 80,3 86,4 73 6,9 Médienne L 100 100 96,7 73,6 87,6 83,5 97,3 96,4 80,3 86,4 73,6 9

Moyenne 1000 100 100 91,8 82,2 71,1 51,7 91,8 0 0 0 40,1 Médiane 1000 63,6 64,2 64,3 68,7 71 98,5 75,5 79,3 85,6 63,6 11,7 Médienne 1000 91,9 92,3 89 86,6 82,8 90 95,4 79,3 85,6 79,3 5,1 Médienne L 1000 99,9 100 93,1 87,5 82,8 98,7 96,7 79,3 85,6 79,3 7,9

Réflexions autour de la médienne et des normes

Lp

Les normes Lp et leurs méthodes de minimisation découlent du

modèle général de régression :

(Dodge and Jurecková, 2000)(Dodge and Jurecková, 2000)Modèle de régression

Où Y est une variable à expliquer

par X1, X

2, ...,X

j, ..., X

k variables explicatives

Pour n données observées (i=1,2,...,n), le modèle est :

ZXXXY kk ...2211

iikkiiizxxxy ...2211

k ,...,, 21Où les coefficients sont inconnus ,

Z un terme d'erreur avec z1, z2, ..., zn les résidus.

Norme L1 :

p=1 ; objectif : minimiser les écarts absolus

Métrique de Minkowsky ou Norme Lp

Avec pp

iZ1

1p

iZ

Norme L2 :

p=2 ; méthodes des moindres carrés 2

12 iZ

Norme L :

p= ; minimiser le résidu absolu maximum (minmax)

Transcription graphique

Norme L1 : distance de Manhattan : H

1+H

3

Norme L2 : distance euclidienne :

H2 = (H

12 + H

32 )1/2

Norme L : H

1 = max ( H

1 ; H

3 )

A

BC

H 1 H

2

H 3

La médiane minimise la norme L1

La moyenne minimise la norme L2

La moyenne des deux valeurs extrêmes

minimise la norme L

ZAPP

ER

Y aurait-il un couple robuste (p, valeur centrale) ?Et pourrait-il correspondre à la médienne ?

Médiane

Moyenne

Exposant p

Médiennes ?

Valeur centrale

Norme Lp

Distribution gaussienne

Cas où médiane < médienne < moyenne et 1 < pmédienne< 2

Médiane (p=1)

Moyenne (p=2)

Valeur de P de la norme Lp

Médienne ( p 1,8 )

Valeur centrale minimisant la norme Lp

Cas où médienne > moyenne et pmédienne > 2

Valeur de P de la norme Lp

Valeur centrale minimisant la norme Lp

Médienne ( p )

La médienne est très proche du couple (p,valeur centrale) le plus robuste

Cas où médienne < médiane et pmédienne ??

Valeur de P de la norme Lp

Valeur centrale minimisant la norme Lp

Médienne (p?)

La médienne est différente du couple (p,valeur centrale) le plus robuste : p=6

Robustesse des outils statistiques : notre proposition exploratoire

Ne jamais accepter “par défaut”la méthode la plus utilisée,

mais rechercher la plus pertinente.

Trouver des méthodes robustescapables de généraliser

et qui s’adaptent aux configurationslocales des distributions statistiques et spatiales,

tout conservant tous les individus...

3 – Robustesse dans l’aide à la décision

Objectivité :La part de la connaissancequi est indépendante de l’expert ?

Subjectivité : La pensée et la vision de l’expert ?

EfficiencePertinenceDurabilité« Incontestabilité »« Consensualité »« Généricité »Transposabilité ….. ?« Emergenciabilité »« Adaptabilité » dans le temps« Souplesse »

Aide à la décision et modélisation :quelques mots-clés et quelques pistes...

Déductive

InductiveAbductive Individus Résidus

La tendance

Micro-modèles Hypothético

déductifExploratoire

Confirmatoire

Aide à la décision, notre proposition :

Une modélisation locale instruiteinsérée dans une analyse globale

Avec l’E(S)DA

CONCLUSION

et exemples d’application

Quand on a des objectifs à atteindre et des données à

traiter ...

... à l’aide d’outils et de méthodes statistiques plus

ou moins appropriés...

La voie de l’EDA...

On porte un regard critique sur les outils et les

méthodes ...

… que nous choisissons les plus robustes possible pour

analyser les données ...

... sur lesquelles nous formulons des hypothèses

sans a priori.

On souhaite maîtriser le temps de l’analyse spatiale et faire partie intégrante du

processus ...

Le Distogramme

DoubleDistributions et Discontinuités

statistiques et spatialesDynamiqueDistorsion de Données

… tout en restant en permanence proche

des données ... en considérant que les individus ne sont pas interchangeables ...

... que nous éclairons par des représentations multiples ...

Lavstat(Josselin, Chatonnay, Guerre, Dancuo, 1999)

... grâce aux liens dynamiques et à

l’interactivité.

On recherche la tendance comme la marge … et l’on regarde de plus près les écarts au modèle,

les résidus

Modèle gravitaire des échanges commerciaux (Josselin, Nicot, 2001)

… et les relations entre les objets géographiques.

ARPEGE’ (Josselin, 2000)

L’analyse doit être globale etlocale ...à travers les

échelles.

Analyse exploratoire multiscalaire (Foltête, Josselin, 2001)

… la validation des résultats mathématique

etempirique. dxxxf .)(

On cherche aussi à appréhender le qualitatif et

le quantitatif en même temps ...Q

QQ

… la sémantique, la géométrie et la topologie ...

… en considérant bien que la “densité” de la mesure n’est

pas constante.

…Si vous faites de l’explo, attention à …

sion l ’explo toirera combina