Sur l’equivalence entre la R´ egression Logistique´ a base ...

Post on 29-Jan-2022

3 views 0 download

Transcript of Sur l’equivalence entre la R´ egression Logistique´ a base ...

Sur l’equivalence entre la Regression Logistique a basede Splines et l’Apprentissage Profond

Marie Guyomard1, Cyprien Gilet1, Susana Barbosa2, Lionel Fillatre1

1 Universite Cote d’Azur, CNRS, I3S2 Universite Cote d’Azur, CNRS, IPMC

Contacts: guyomard@i3s.unice.fr

CJC-MAEcole Polytechnique

Paris, France

27-29 Octobre 2021

1 OBJECTIFS• Probleme de classification

• Capter des effets non lineaires

• Discretiser les variables descriptives

Y Y

X

Y

Classe 1 Classe 2 Règle de décision

Régression Logistique Classique

Régression Logistique Segmentée

Régression Logistique Splines

a b a b

Noeuds

⇒ Automatisation de la discretisation par Deep Learning

2 REGRESSION LOGISTIQUEDefinition : Probleme de classification

Y = f (X) (1)

avec Y les etiquettes (1, . . . , K) et X les variables explicatives (X = (X1, . . . , Xp)).

Modele :

P (Y = 1|X) = σ (fθ(X)) =1

1 + exp (−fθ(X)), (2)

ou la fonction σ : R→ [0, 1] est la fonction sigmoıde

σ(t) =1

1 + e−t, (3)

et ou la fonction fθ(X) est definie par

fθ(X) := θ0 + θ1X1 + · · · + θdXd.

3 METHODESSplines

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

Soit hj(Xj) = [P0(Xj), P1(Xj), . . . , Pd(Xj)]. la base de splines a d + 1 degres de libertes de Xj

• Cas Univarie :

fθ(X) = θ0 + h1(X1)Tθ1 + · · · + hp(Xp)

Tθp

• Cas Multivarie (p=2):

fθ(X1, X2) =∑d

j=1

∑dk=1 θj,kPj(X1)Pk(X2)

Reseaux de Neurones

Entrées

X1

Xp−1

Xp

Couches cachées

Transformations non-linéaires

Sortie

σ

Classification

Definition : Reseau de neurones

Ψ : X −→ Y

X −→ σ f (L−1)

θ(L−1) · · · f (1)

θ(1).

avec σ definie par (2).

Definition : Couche du reseau

f(l)

θ(l)= ρ

(A(l)f

(l−1)

θ(l−1)+ B(l)

).

avec ρ une fonction d’activation.

4 APPROXIMATION SPLINESIdees :• Partitionner x ∈ Rp en un espace Ω en R regions : Ω = ω1, . . . , ωR.• Utiliser des fonctions continues et affines par morceau.

Definition : Splines affines multivariees

s[a, b,Ω](x) =

R∑r=1

([a]r,· xT + [b]r)1x∈ωr. (4)

avec a ∈ RR×p la matrice des pentes et b ∈ Rp+1 la matrice de biais.

Definition : Fonction Max Affine Spline (MAS)

S[A,B,Ω](x) = maxr=1,...,R

[A]r,· xT + [B]r (5)

Definition : Operateurs Max Affine Spline (MASO)

M [A,B](x) =

maxr=1,...,R [A1]r,· xT + [B1]r...

maxr=1,...,R [Aq]r,· xT + [Bq]r

avecA = A1, . . . , Aq tel que Ak ∈ RR×pB = B1, . . . , Bq tel que Bk ∈ RR.

(6)

Propriete : les MASO sont toujours affines par morceau et globalement convexes.

5 RESEAUX DE NEURONES MASOProposition : Couche MASOPreciser composition de q mas Une couche d’un reseau de neurones construite a partir d’une compo-sition d’operateurs d’activation ReLU est un MASO S[A(l), B(l),Ω] tel que :

f (l)(z(l−1)(x)) = A(l)[x]z(l−1)(x) + B(l)[x] avec A[x] = [A]r,· quand x ∈ ωr (7)

Theoremes :• Ce reseau de neurones est une composition de MASO et donc par consequent un operateur glob-

alement affine spline.

• Ce reseau de neurones est globalement convexe respectivement a chacune de ses dimensions desortie, si les poids des couches ReLU l = 2, . . . , L sont non-negatifs.

6 REPRESENTATION PARTITIONLa partition de l’espace d’entree de chaque couche MASO est un dia-gramme de Laguerre-Voronoi (power diagram), avec µr le centroıdeet radr le radius :

P(x) = arg minr=1,...,R

‖x− [µ]r,·‖2 − [rad]r.

Theoreme : Partition du ke neurone MAS[µ]r,· = [Ak]r,· et [rad]r = 2[Bk]r + ‖[Ak]r,·‖22.

Theoreme : Partition d’une couche MASOµr =

∑qk=1[Ak][I−1(r)]k,· et radr = 2

∑qk=1[Bk][I−1(r′)]k + ‖µr‖2.

avec I(r) =∑qk=1R

k([r]k − 1).

et [r]k = arg maxr=1,...,R[Ak]r,· xT + [Bk]r.

Source : Max-Affine Splines Insights IntoDeep Learning, R. Balestriero, 2021.

7 EXPERIENCES

0.6 0.4 0.2 0.0 0.2 0.4 0.6X1

0.6

0.4

0.2

0.0

0.2

0.4

0.6

0.8

X2

Frontières de décision

Classe 1Classe 2

Frontieres des decisions : LR classique, LR Univariees, LRMultivariees, NN.

LR Lineaire LR Univariee LR Multivariee DNAccuracy 0.64 0.77 0.77 0.92Accuracy 1 0.55 0.61 0.61 0.88Accuracy 2 0.71 0.93 0.93 0.96

Couches du Reseau de Neurones : Couche 1, Couche 2, Couche 3.

8 REFERENCES

• Hastie, Trevor and Tibshirani, Robert and Friedman,Jerome (2009).The elements of statistical learning:data mining, inference, and prediction. Springer Sci-ence & Business Media.

• Balestriero, R. (2018). A spline theory of deep learn-ing. In International Conference on Machine Learning(pp. 374-383). PMLR.

• Balestriero, R., Paris, S., & Baraniuk, R. (2020). Max-affine spline insights into deep generative networks.arXiv preprint arXiv:2002.11912.

This work has been supported by the French government, through the UCA DS4H Investments in the Future project managed by the National Research Agency (ANR) with the reference number ANR-17-EURE-0004.