DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu...
-
Upload
hortense-barbier -
Category
Documents
-
view
111 -
download
2
Transcript of DEA instrumentation et commande Reconnaissance des formes Erreurs et coûts des algorithmes S. Canu...
DEA instrumentation et commande
Reconnaissance des formes
Erreurs et coûts des algorithmes
S. Canu
http://psichaud.insa-rouen.fr/~scanu/RdF
Buts de la RdFD : Algorithme
de Reconnaissance
des Formes
Une forme x(vecteur forme
des caractéristiques)
C’est la forme
« y=D(x) »
classe" vraiela" ,
)( ,...,,...,1 : RdF
décisions des ensemble ,...,2,1tiquescaractéris des espace
D(x)Rx
xDxLlRD
LyRx
d
d
d
Nous voulons un algorithme de RdF performant
K
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJD
1 ,)(,)(,)(
)(min décision de règle uned'Cout D
RdF et apprentissage
D : Algorithme de
Reconnaissancedes Formes
Une forme x(vecteur forme
des caractéristiques)
C’est la forme
« y=D(x) »
A : Algorithme d’apprentissage
niyxS iin ,1 , Ensemble d’apprentissage (échantillon)
)(,)(C,et )(
:couts les
XDSCEDJDJ
A priorisur la
nature de la solution
2
1
3
Les problèmes PYXP ,
Grandes déviations
P 1
n erri i1
n EP
Z E(Z)
Fréquence Probabilitéd’erreur d’erreur
précision confiance
1
n erri i1
n EP
La moyennen’est pas
l’espérance
prise en comptede l’enchantillonnage
Grandes déviationsBienaimé
Tchebitchev– pour tout P
– Démonstration
P X E(X) 2
2
précision confiance
Hypothèse X v.a. centrée E(X) 0
2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx
x
2 x2 P(x)dx x 2 P(x) dx
x 2 P x
Grande déviation
P X E(X) 2
2
P1
nXi
i1
n p
p(1 p)
n 2
1
4n 2
-6 -4 -2 0 2 4 60
confiance = (4n)-1/2 précision
p : probabilité d’erreur
Xi = 1 si on c’est trompé, = 0 sinon
Application :comparaison d’algorithmesAlgorithme 1 (adaline)
Algorithme 2 (perceptron)
m exemplespour le test
ˆ p 2 nb err
m
ˆ p 1 ˆ p 2
ˆ p 1 nb err
m
Donc l’algorithme 1est meilleur que l’algorithme 2
Application :comparaison d’algorithmesAlgorithme 1 (adaline)
Algorithme 2 (perceptron)
m exemplespour le test
ˆ p 2 nb err
m
ˆ p 1 ˆ p 2
ˆ p 1 nb err
m
Donc l’algorithme 1est meilleur que l’algorithme 2
ˆ p 1 ˆ p 2 2 1
nssi
Application :Choix de la taille de l’ensemble
testAlgorithme 1 (adaline)m exemples
pour le testˆ p
nb err
m
1
mXi
i1
m
Comment choisir m pour que probabilité d’erreur = ?ˆ p
P ˆ p p 1
4m 2
m 1
4 2
m 0,05 0,1 500 0,01 50.000
Comment améliorer cette borne ?
Comment améliorer cette borne ?
– Améliorer l’inégalité des grandes déviations.
– Inégalité de markov
– Hoeffding erreur bornée
– Chernov Classification
– Bernstein
– Bennet
Grandes déviationsgénéralisation de
Bienaimé Tchebitchev– pour tout P
– Démonstration
P X E(X) 2
2
Fonctionpositiveh(x)>0
Hypothèse X v.a. centrée E(X) 0
2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx
x
2 x2 P(x)dx x 2 P(x) dx
x 2 P x
Lemme de Markov– soit (A,,D) un espace probabilisé
– soit X une v.a. sur (A,)
– soit > 0
– Alors :
– Démonstration– comme Bienaymé Tchébychev
P X E(X) E h(x)
h() x, h(x) 0
E h(X) h(x) P(x)dx h( ) P(x)dxx
Comment choisir h(x) ? h est la fonction génératrice des moments : h(X) et(X)
(comment choisir t?)
P X E(X) 2e 2
h(x) e x 2 sur 0,1
P ˆ p n p 2e n 2
P ˆ p n p 2e n h1 (n )
h1(x) = (1+ x) log(x) - x
xP ˆ p n p 2e n h2 (n )
h2 (x) x
1 x / 3
Hoeffding
Bennett
Bernstein
Récapitulons
181log8
11
2
1
3/1
2
1
2
1
21
21
21
21
21
(erreur) sinon 1
(ok) )( si 0)(
2
2
mm
ii
mm
ii
mm
ii
m
ii
iiiii
epem
P
epem
P
epem
P
npe
mP
yxfyxfe
Approximation normale
Hoeffding (1963)
Bernstein (1946)
Bennett (1962)
Taille de l’échantillon pour une précision
81log(8/11)log(2
2
3/1)log(
2
)log(
4
1
1
22
22
n
nn
nn
Exemples
0.02 0.04 0.06 0.08 0.1 0.12 0.140
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
n ta
ille
de l'
éch
antil
lon
Grandes dé viations pour =0.05, p=.5
Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett
0.02 0.04 0.06 0.08 0.1 0.12 0.14
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
n ta
ille
de l'
éch
antil
lon
Grandes dé viations pour =0.05, p=.5
Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett
Exemples
320018001000600500
Estimation de l’erreur d’un classifieur
Avec un ensemble de test
Avec des exemples – validation croisée– bootstrap
Indépendamment des exemples– il faut une borne
– Beaucoup d’exemples : ensemble test DONNEES
– Peu d’exemples : le rééchantillonnage TEMPS– Validation croisée
– Jackknife
– Bootstrap
– Analyse théorique : PRECISION
Estimation de l’erreur facture
Ensemble test
– grandes déviations
Rééchantillonnage– Validation croisée
– Jackknife
– Bootstrap
X1
X2
X3
.Xi
.Xn
Bootstrap
Young G.A. (1994) Bootstrap: More than a stab in the Dark, Statistical Science 9 pp 382-415
Quelle est la loi de ? (comment estimer le biais et la variance d’un estimateur ?)
Idée : « observer » la distribution deon tire plusieurs échantillonson calcule plusieurs réalisations de
nouvelle idée : créer des échantillons « fictifs »
ˆ*1
- ˆ
Éch
an
tillo
n in
itial
X*1 X*2 X*3 … X*i … X*n
Tirage de n points AVEC REMISE
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
pri
nci
pe
ˆ*2
ˆ*b
ˆ*B
Bootstrap
X1
X2
X3
.Xi
.Xn
ˆ*1
Éch
an
tillo
n in
itial
X*1 X*2 X*3 … X*i … X*n
Tirage de n points AVEC REMISE
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
ˆ*2
ˆ*b
ˆ*B
Biais :
Variance : ˆˆ1
ˆˆ1
1
2*
1
*
B
bb
B
bb
B
B
0.3 0.4 0.5 0.6 0.70
10
20
30
40
Exemple de Bootstrapn = 20;xi=rand(n,1);
m = mean(xi); % 0.528
B=200;for b=1:B ind = round(n*rand(n,1)+1/2); mb(b)=mean(xi(ind));end
hist(mb);
std(mb) % 0.0676
sqrt(1/12/n) % 0.0645
ind = 13 17 13 8 9 11 5 8 14 19 2 20 4 8 3 1 19 4 16 6
(Fractiles)
r(x) estimateur P.M.C. + I. B sur l’échantillon initial (x )
Innovation équivalente : = x - r(x )
Validation par Bootstrap
t t+1 t
Erreur initiale
Erreur BS1
Echantillon BS2
P.M.C.
(
((b (B
(x*1 ... (x*b (x* B
r*1(x) ... r*b(x) ... r*B(x)
^ t
t
t t t
t t t
^ ^ ^
^
Validation par Bootstrap
– Faire B fois (B 50)
– 1 : Générer un nouvel échantillon : x*b(t) ; t = 1:T
x*b(t+1) = r(x*b(t)) + b(t)
– 2 : Apprendre ce nouvel échantillon : r*b(x)
– Biais b : � (x(t+1) - r*b(x(t))) -
� (x*b(t+1) - r*b(x*b(t)))
2
t=1
T-11T-1
2
t=1
1T-1
^
^
^
^
-10 -5 0 5 10 15-4
-3
-2
-1
0
1
2
3
4
5
6
Exemple de bootstrap
– Avec une probabilité (1 - ), pour tous les :
EP(w) < Cemp(w) + (VCdim(B), Cemp(w), n, )
erreur < coût visible + complexité, nb d’exemples, précision
– mesure de complexité :
– Taille de B ?
– Nombre de paramètres ?
– dimension de Vapnik - Chervonenkis (pire des cas)
– e.g. Dim VC d'un ensemble de fonctions à seuil = taille du plus grand ensemble S pour lequel le système peut implémenter les 2|S| dichotomies sur S.
w B
Théorie des bornes
Un exemple
de grande déviation
– T une v.a.
de bernouilli
P(T 0) 1 P(t K )
p E(T) 1 0 K K
ˆ p 1
nTi
i1
n P ˆ p 0 1 n
P ˆ p p K 1 n
P ˆ p p ' 1 '
K
n
n log
log 1 '
K
Convergence uniforme
P, f F P Cemp ( f ) EP( f ) (n,, taille de F )
P supf F Cemp ( f ) EP( f )
cas simple card(F ) = F <
P Cemp ( f1) EP( f1) ou ... ou Cemp ( f F ) EP( f F ) F P Cemp ( f ) EP( f ) 2 F e n 2
cas général card(F ) = F = 2 VCF e n 2
Borne sur l’erreur d’apprentissage
Théorème (Vapnik & Chervonenkis, 1974)
)22(log)1(2
1
(erreur) sinon 1
(ok) )( si 0)(
1
dndn
ppE
pen
P
yxfyxfe
bayes
n
ii
iiiii