Soutenance de thèse - ENSEAjerofell/pdf/thesis_pres_jfellus.pdfJérôme Fellus Encadrant : David...

Jérôme Fellus

Encadrant : David PicardDirecteur de thèse : Philippe-Henri Gosselin

Mardi 3 octobre 2017

Soutenance de thèse

Algorithmes décentralisés et asynchrones pour l'apprentissage statistique large échelle et

application à l'indexation multimédia

Apprentissage statistique

OUISTITI ?

Modèle Fonction de coût

Optimisation Numérique

● Suite de modèles

● Procédure séquentielle● Produit un unique résultat

Parallélisation et Optimisation stochastique

● Problèmes

– Si grand et/ou a beaucoup de paramètres → étapes coûteuses

– Que faire si dépasse la capacité mémoire ?

● Problèmes

Parallelisation/Distribution Optimisation stochastique

Partitionner en sous-ensembles confiés à processeurs distincts

Utiliser un sous-ensemble aléatoire de à chaque étape

● Solutions

● Problèmes

Complexité d'une étape

Coût d’agrégation des résultats intermédiaires

Nombre d'étapes

● Solutions

● Problèmes

Nombre d'étapes

Nœud maître

● Solutions

● Problèmes

Nombre d'étapes

Nœud maîtreGoulot d'étranglement Point de faiblesse

● Solutions

Optimisation par consensus● Système décentralisé

– Chaque processeur (nœud) i possède un jeu de données et un modèle local

– Tous les nœuds sont identiques (exécutent la même procédure)

– Le réseau a une connectivité arbitraire (graphe connexe)

Contrainte de consensus

Minimiser

« Modèle consensus »

● Fonction de coût

Contrainte de consensus

Minimiser

« Modèle consensus »

Risque empirique Risque structurel Contrainte de consensus

Phénomène de Synchronisation

● Consensus : Idée générale = moyenner les modèles entre nœuds

● Moyenner = relation symétrique → exige des communications synchrones

● Synchronisation locale → synchronisation globale

Système Asynchrone● Interdire l'attente entre nœuds

● Les nœuds émettent sans se préoccuper des conditions de réception de leur message

● 100% du temps est passé à calculer ou communiquer

● Protocole asymétrique : interdit le moyennage entre nœuds → solutions alternatives

Résumé : Décentralisation et Asynchronisme

Système centralisé synchrone Système décentralisé synchrone

Système décentralisé asynchrone

Introduction

Analyse théorique

Contributions algorithmiques

Application à l'indexation multimédia distribuée

Séparabilité

● Fonction de coût séparable

Séparabilité

● Règles d'apprentissage séparables

Séparabilité

● Règles d'apprentissage séparables

– Les opérations non-linéaires restent locales

– Les échanges entre nœuds sont linéaires

Moyennage décentralisé et asynchrone

→ centralisé, synchrone

→ décentralisé, synchrone

– → décentralisé, synchrone

– → décentralisé, asynchrone

Paradigme proposé :Protocoles Gossip asynchrones perturbés

● Fonction non-linéaire locale (<=> programme)

● Combinaisons linéaires asynchrones entre nœuds

→ Converge vers la bonne solution si la règle d'apprentissage est séparable !

● Propriétés– Les opérations non-linéaires et les mélanges linéaires se déroulent en même temps (algorithmique non-conventionnelle)

– Non seulement les opérateurs sont calculés de manières asynchrone, mais c'est l'ensemble du schéma algorithmique qui devient asynchrone

– Tolère les convergences partielles : une approximation grossière de chaque opération est souvent suffisante pour garantir la convergence globale du processus

● Propriétés– Les opérations non-linéaires et les mélanges linéaires se déroulent en même temps (algorithmique non-conventionnelle)

– Non seulement les opérateurs sont calculés de manières asynchrone, mais c'est l'ensemble du schéma algorithmique qui devient asynchrone

– Tolère les convergences partielles : une approximation grossière de chaque opération est souvent suffisante pour garantir la convergence globale du processus

Lien avec Chaine de Markov

Intuitionpetit

« couplage »

linéarité « REGIME CONVERGENT »

Intuitionpetit

« couplage »

linéarité

Perturbations non-linéaires

« REGIME CONVERGENT »

« REGIME CHAOTIQUE»

Intuitionpetit

« couplage »

linéarité

Perturbations non-linéaires

Transition de phase

« REGIME CONVERGENT »

« REGIME CHAOTIQUE»

Ergodicité

Si (Chaîne de Markov)

● Cas où constante :

Théorie spectrale de Perron-Frobenius (puissances de matrices)

irréductible et apériodique

Ergodicité

● Extension aux matrices aléatoires (i.i.d.)

Ergodicité

et(e.g.,

« doublement stochastique » )

Ergodicité

Ergodicité forte(rang 1 constante)

Ergodicité

et(e.g.,

Ergodicité

et(e.g.,

Ergodicité

Ergodicité faible(rang 1 pas constante)

Ergodicité

et(e.g.,

« simplement stochastique » )

CAS ASYNCHRONE

Ergodicité

Ergodicité faible(rang 1 pas constante)

Ergodicité

et(e.g.,

« simplement stochastique » )

CAS ASYNCHRONE

Ergodicité

Ergodicité faible

● On peut se contenter de l'ergodicité faible ! [Kempe03, Iutzeler13]

Procotoles Gossip Sum-Weight

→ Vitesse de convergence vers rang 1

Ergodicité faible

● Caractérisation de l'ergodicité faible

– Coefficients d’ergodicité (e.g., Dobrushin-Seneta)

Ergodicité faible

● Caractérisation de l'ergodicité faible

– Coefficients d’ergodicité (e.g., Dobrushin-Seneta)

● Convergence asymptotique

● On perd la borne explicite du cas fortement ergodique → pas d'info sur ● Pas suffisant dans notre cas !

Ergodicité faible

Ce que l’on ne sait pas :Convergence non-asymptotique

● But :

● But : ● Borne :

Numérateur ok : Coefficient de Seneta de ● Borne inférieure sur dénominateur ?

Numérateur ok : Coefficient de Seneta de ● Borne inférieure sur dénominateur ?● Comportement imprévisible

si j→*

si k→j

Formulation comme un problème de croissance de population

Chaine de Markov homogène sur {1,…,n}

Question : Combien d'étapes faut-il pour que tous les nœuds soient atteints au moins une fois ?

Difficultés: Probabilité de croissance non-homogène Dépend de la structure du réseau !

Cas du graphe complet

● Fonction génératrice des probabilité de T

Cas du graphe complet

● Fonction génératrice des probabilité de T

● Inégalité de concentration (Markov, Chernoff, ...)

avec un probabilité au moins

Cas général : constante de Cheeger

● faible → goulot d'étranglement● élevé → bonne « conductance »

● Géométrie Riemannienne : constante isopérimétrique de Cheeger

● Directement liée à→ Borné par un processus de Bernoulli

→ Distribution géométrique

● Inégalité de Cheeger :

– Relation entre conductance et spectre d'un graphe

● Inégalité de Cheeger :

– Relation entre conductance et spectre d'un graphe

Contribution théorique

● TODO : THEOREME 1

Introduction

Analyse théorique

K-Means

K catégories

K-Means

K catégories

minimiser

K-Means

K catégories

minimiser

K centroïdes

Todo gif animé KMeans

K-Means

K catégories

minimiser

K centroïdes

Assignation :

Mise à jour :

Todo gif animé KMeans

K-means décentralisé

Epidemic K-Means [DiFatta, 2011]

TODOCONVERGENCE EPIDEMIC KMEANS

Perturber plutôt qu'écraser

● Newscast EM : Self-correction mechanism [Kowalczyk, 2005]

– Initialement : astuce d’accélération en environnement synchrone

– Finalement : indispensable au fonctionnement asynchrone !

AGKM : Asynchronous Gossip K-Means

AGKM : Analyse de convergence● Question : "Pour quelles valeurs de AGKM converge-t-il ?"

● Dépend :

– Des données

– Du réseau

– De l’ordonnancement

● Dépend :

– Des données

– Du réseau

● Dépend :

– Des données

– Du réseau

1. Lorsque se stabilise sur minimum local, converge spontanément vers 0

2. Condition suffisante pour que décroisse :

AGKM : Résultats expérimentaux

Analyse en Composantes Principales (PCA)

● Conserve le maximum de variance● Conserve au mieux la distance euclidienne● Conserve au mieux le produit scalaire (utile pour classification)

PCA décentralisée et asynchrone

Late PCA [Ordonez, 2014]

Algorithme non-iteratif → ok pour fonctionnement asynchrone

Late PCA

Early PCA

[Ordonez, 2014]

Late PCA

Early PCA

Échanges restreints à des matrices Dxq

[Ordonez, 2014]

Schéma Early PCAAstuce : décomposition en valeurs singulières (SVD)

Solution naïve : reconstruire A+B

Astuce :

AGPCA : Asynchronous Gossip PCA

Astuce SVD (pas de matrice DxD)

Décomposition de A+B par Iterations Orthogonales (OI) « dans l’espace compressé »

AGPCA : Analyse théorique

● Scenario avec pertes

● Scenario sans pertes

AGPCA : Résultats expérimentaux

Gradients stochastiques moyennés● Descente de Gradient

Complet (FG)

Complet (FG)● Descente de Gradient

Stochastique (SGD)

● Méthodes proximales

Stochastique (SGD)

● Méthodes proximales ● Descente de gradients moyennés

Stochastique (SGD)

● Méthodes proximales ● Descente de gradients moyennés

STAG : Short-Term Averaged Gradient

● Idée : Moyenner les L derniers gradients (mémoire limitée)

● Structure du problème : exemple de la SVM (primale)

● Rayon de convergence ? Vitesse de convergence ? L optimal selon le problème ?

● Structure du problème : exemple de la SVM (primale)

AGSTAG : Asynchronous Gossip Short-Term Averaged Gradient

AGSVM : Asynchronous Gossip SVM

Astuces (structure du problème SVM)● On insère uniquement les gradients

non-nuls (exemples mal classés)● On ne mémorise pas les gradients,

seulement l'indice de l'exemple mal classé

● Possible que si le régularisateur n'est pas moyenné (régularisation explicite)

✔ Faible empreinte mémoire✔ Coût de communication réduit

AGSTAG : Résultats expérimentaux

Préférer une régularisation expliciteavec tirage sans remise desexemples d'apprentissage

Si tolérance élevée : préférer SGD (pas constant)Si tolérance faible : préférer L=n/2

Sur cette tache, convergence acceptable en moins d'une époque ! (redondance)

AGSTAG : Résultats expérimentaux (2)

Moyenner seulement les gradients→ Divergence !

Il faut moyenner aussiles paramètres w (hyperplans)

Introduction

Analyse théorique

Application à l'indexation multimédia● Recherche multimédia par le contenu (dataset INRIA Holidays, 1491 images)

● Classification d'images (dataset PASCAL VOC2007, 9963 images)

Pipeline

Initialisations multiples + moyennage des modèles = meilleure catégorisation

Combat les minima locaux ?

Recherche par similarité (Holidays dataset)

Recherche par similarité (Holidays dataset) (2)

On peut réduire drastiquement les coûts de communication sans impacter

significativement les résultats de recherche

Classification d'images (VOC2007 dataset)

Pas de moyennage local → convergence plus rapide

Réduction des coûts de communication → Convergence plus lente mais même résultat

Conclusion et perspectives● Système d'apprentissage décentralisé et asynchrone : Protocoles Gossip Asynchrones Perturbés– Étude théorique

● Application à l'indexation multimédia– Recherche par similarité

● Validation dans le contexte du projet financeur PIA Culture3DCloud– Plateforme d'indexation décentralisée et asynchrone pour les collections

patrimoniales (images, modèles 3D)

● LibAGML : une librairie logicielle de machine learning sous licence GPL pour illustrer/explorer les capacités des protocoles Gossip asynchrones

● Perspectives– Borne étroite sur les protocoles sum-weight

– Étude pratique de large systèmes hétérogènes en environnement réel (réseaux, algorithmes, architectures machine)

– Données « vivantes » (non-stationnaires) : en flux, intermittentes, volatiles, développementales

– Développement d'accelerateurs matériels sur FPGA

– Contributions algorithmiques (AGKM, AGPCA, AGSTAG)

– Classification d'images

Publications● Revues

– Jérôme Fellus, David Picard et Philippe-Henri Gosselin. Asynchronous Gossip Principal Components Analysis. in Neurocomputing, 2015

– Jérôme Fellus, David Picard et Philippe-Henri Gosselin. Indexation multimédia par dictionnaires visuels en environnement décentralisé : Une approche par protocoles Gossip, in Traitement du Signal, 2015

● Conférences– Jérôme Fellus, David Picard et Philippe-Henri Gosselin. Asynchronous decentralized convex optimization through short-term gradient averaging. in European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN). Avril 2015, Bruges, Belgique

– Jérôme Fellus, David Picard et Philippe-Henri Gosselin. Dimensionality reduction in decentralized networks by Gossip aggregation of principal components analyzers. in European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN). Avril 2014, Bruges, Belgique.

– Jérôme Fellus, David Picard et Philippe-Henri Gosselin. Decentralized K-means using randomized Gossip protocols for clustering large datasets. in ICDM Workshop on Knowledge Discovery Using Cloud and Distributed Computing Platforms, Dec 2013, Dallas,Texas, États-Unis

– Jérôme Fellus, David Picard et Philippe-Henri Gosselin. Calcul décentralisé de dictionnaires visuels pour l’indexation multimédia dans les bases de données réparties sur les réseaux. in Orasis, Congrès des jeunes chercheurs en vision par ordinateur (ORASIS), Juin 2013, Cluny, France.

Soutenance de thèse - ENSEAjerofell/pdf/thesis_pres_jfellus.pdfJérôme Fellus Encadrant : David...

Documents

Transcript of Soutenance de thèse - ENSEAjerofell/pdf/thesis_pres_jfellus.pdfJérôme Fellus Encadrant : David...

Soutenance de la thèse professionnelle - Inbound Marketing

Soutenance de thèse - LIA LCMQ

Soutenance thèse professionnelle 12 octobre 2012

Florence Pasche Guignard, Soutenance de thèse de doctorat

Soutenance de thèse à mi-parcours

Soutenance de thèse de Doctorat Dimitre Kostadinov

1 Soutenance de thèse de Directeur de thèse: Paul INDELICATO Laboratoire Kastler-Brossel.

Elisabeth Raynaud - Soutenance de thèse - 3 octobre 2003 - Observatoire de Paris - Université Paris 7 - n° 1Elisabeth Raynaud - Soutenance de thèse - 3.

Soutenance de thèse de doctorat

Soutenance de thèse au CNAM

Soutenance de thèse Michele Schiavoni 7 Juillet 2003

Soutenance de thèse blog

Soutenance (thèse de doctorat de Aymen BAOUAB)

Soutenance thèse mohamed djouani

Soutenance thèse octobre 2012

Soutenance thèse marc lacoste presse & enjeu digital

Soutenance de thèse - IRCAMrepmus.ircam.fr/_media/moreno/presentation_gregoire.pdf · 2017-10-26 · Soutenance de thèse Etude de deux concepts mathématico-musicaux : l'homométrie

Stéphanie Renard Soutenance de Thèse Directeurs de thèse :

Soutenance de thèse professionnelle

présentation RSE : soutenance de thèse