Euratech'trends : Machine Learning
-
Upload
euratechnologies -
Category
Technology
-
view
210 -
download
2
Transcript of Euratech'trends : Machine Learning
Le machine learning ou apprentissage automatiqueretrouve depuis quelques années un regain d'intérêt (cf.Hype Cycle de Gartner ci-après), lié en partie au développe-ment des technologies du Big Data. Comme bon nombre detechnologies, le Machine Learning existait déjà dans l'espritd'Alan Turing ("Computing Machinery and intelligence",1950) ou d'Arthur Samuel ("Some studies un MachineLearning, Using the game of checkers", 1959) comme unmoyen de dépasser les limites de l'informatique naissante.
Dans un traitement habituel, déterministe, on applique àun jeu de données, une suite d'opérations ou algorithme,pour obtenir un résultat, un objectif; exemple le plus trivial,un tri par couleur et / ou taille.Dans le cas du machine learning, on dispose de données
que l'on appelle communément jeu d'entrainement, dont levolume et la qualité sont cruciaux pour l'atteinte de l'objec-tif. L'enjeux va être de trouver par apprentissage (par itéra-tion) à partir de ce jeu d'entrainement un modèle ouprogramme, afin d'atteindre un objectif et / ou découvrirune relation. Pour parer à l'explosion combinatoire del'analyse de l'ensemble des solutions possibles et proposerdans un temps contraint (bien souvent en temps réel) lameilleure solution, on s'appuie sur des lois statistique et deprobabilité.
Le travail du Data Scientist va consister à s'assurer de laqualité du jeu d'entrainement, à choisir un ou plusieurs al-gorithmes, à choisir les valeurs des variables de risque oud'incertitude en fonction des objectifs à atteindre et enfin àcréer un ou plusieurs modèles qui seront ensuite utilisés demanière opérationnelle. Afin d'optimiser ce processus, leData Scientist doit également posséder des connaissancesmétier.
Le choix de l'algorithme est un des éléments primordiauxdans le processus de réalisation du modèle. Il existe au-jourd'hui une multitude d'algorithme. La multiplication desdomaines d'applications implique également la création denouveaux algorithme, adaptée aux besoins du domaine, ens'appuyant notamment sur la recherche.
24 mars 2016 Édition 1 Numéro 8
euratech trends
Statistiques, Probabilitéset Algorithmique ...et Data Scientist
" Le Machine Learning est le champs d'étude quidonne aux ordinateurs la capacité d'apprendre sans
être explicitement programmés"Arthur Samuel 1959
EuraTechnologies +(33) 320 191 855
"Most of the knowledgein the world in thefuture is going to beextracted by machinesand will reside in ma-
chines."
Yann LeCunDirector of AI Research,
Facebooks.
Machine Learning, algorithme à tout faire...
"It is probably wise toinclude a random
element in a learningmachine"
Alan Turing
23% des data scientist travaillent dans l'industrie du logicielpour seulement 1% en cybersécurité ‐ "2015 Data Science Salary Survey”,O'Reilly, 2015.
euratech trends
Il existe plusieurs méthodes d'apprentissage auxquellessont associées des familles d'algorithme. Ces méthodes etalgorithmes évoluent au grès des besoins et demandes in-duites par la diffusion du Machine Learning dans de nom-breux secteurs d'activités. Nous ne présenteronsci-dessous que quelques exemples, n'ayant pas la préten-tion de pouvoir être exhaustif, tant ce champ est vaste àexplorer.
L’apprentissage supervisé consiste à créer des modèlesprédictifs à partir de jeux de données d’entrée et de sortiesconnues. Il est appliqué dans les problématiques de clas-sification ou de régression (relation entre deux ouplusieurs variables). Quelques algorithmes associés :
- arbres de décision boostés et agrégés- machines à vecteur de support- classifieur bayésien naïf- classification des k plus proches voisins- analyse discriminante- réseaux de neurones
L’apprentissage non supervisé permets de détecter desmotifs cachés ou des structures intrinsèques propres aujeux de données. Quelques algorithmes associés :
- k-means et groupement hiérarchique- mélanges gaussiens (utilisant la maximisation del’espérance conditionnelle)- chaînes de Markov cachées- cartes auto-organisatrices (SOM)- réseaux de neurones par couche compétitive- réseaux de neurones d’apprentissage par quantificationde vecteur (LVQ)
En complément, citons l'apprentissage semi-supervisé(jeux de données connues et inconnues), l'apprentissagepar renforcement (récompense) ou encore l'apprentissageprofond (Deep Learning).L'avenir se dessine avec le mariage de l'informatique
quantique et du machine learning, on parle déjà deQuantum Machine Learning. Par ailleurs certains commen-cent à imaginer l'algorithme ultime, capable de tout ap-prendre, de tout comprendre, de tout résoudre, "The MasterAlgorithm"!!! (Pedro Domingos, 2015)
Les usages sont multiples, et chacun d'entre nous l'aexpérimenté, souvent sans en avoir vraiment conscience!Que ce soit le logiciel anti-spam d'une boîte mails, le logi-ciel de reconnaissance de caractères d'un scanner, lemoteur de recommandations d'un site marchand ou"Translate" de Google, tous utilisent le Machine Learning.Son utilisation s'étend au domaine de la finance, pour lecalcul de risque d'emprunt, la détection de fraude ou letrading; en médecine, dans l'imagerie médicale ou pour lediagnostic préventif du cancer; dans les Télécoms, réseauxinformatiques et la logistique pour l'optimisation des flux(données ou véhicules); en robotique, en vision artificielleet encore bien d'autres.
L'un des derniers domaines investit par le MachineLearning est l'usine. En effet, la diffusion de milliers decapteurs dans les sites de production et par voie deconséquence l'enregistrement de millions de données sontun nouveau terrain de jeu pour le Machine Learning,notamment pour le suivi de la qualité, de la production, dela planification ou de la maintenance en temps réel (projetiPRODICT, Industry 4.0, Fraunhofer-Institut).
02
Kaggle, une plateforme dédiée auxchallenges Machine Learning
Kaggle ( www.kaggle.com) propose aux entre-prises, laboratoires de recherche ou universités d'orga-niser des challenges primés ou non sur la base de leurjeux de données. Santander Bank y propose par exempleun challenge primé de 60 000$ dont l'objectif est de ré-pondre à la question "Quels clients sont des clientsheureux?"Kaggle est également le partenaire de The National Insti-tutes of Health lors d'un concours dont la finalité est decréer un algorithme pour automatiser le diagnostic cardi-aque sur la base de données recueillies auprès de plusde 1000 patients.
Apprentissage et algorithme
USAGES
Les outils informatiques du Data Scientist
La région des Hauts-de-France ne compte pasmoins de 6 équipes de recherche, soit prèsd'une centaine de chercheurs et doctorantsqui travaillent sur le Machine Learning et sesapplications.
Magnet - "MAchine learninG in informationNETworks" - team.inria.fr/magnetMagnet s'intéresse à la définition de méthodeset modèles d'apprentissage automatique ausein de réseaux d'informations, en particulierceux présents sur Internet : réseaux d'interac-tions, hyperliens ou réseaux sociaux. Cesréseaux sont constitués d'informations engrand volume, hétérogènes, principalementtextuelles, organisées sous forme de grandsgraphes dont les liens sont explicites ouinduits. Les objectifs envisagés sont lessystèmes de veille, de recherche etd'extraction d'informations, et de recom-mandation.
Les axes de recherche se décomposent en:- découverte de structures pour la prédictionstructurée pour les textes, prédiction de liens,clustering, evaluation de densités dans lesgraphes;- association de représentations et de
méthodes d'apprentissage pour lamanipulation de données hétérogènes;- structuration en graphes des données pourla classification, la diffusion et la recom-mandation.
Partenariats industriels : SAP, Music Story,Clic and Walk, Pôle de compétitivité PICOM
SequeL - "Sequential Learning" -sequel.lille.inria.frSequeL développe des concepts et al-gorithmes fiables pour répondre auxproblématiques de systèmes artificiels traitant,par exemple, des pages web créées, modifiéesou supprimées du web ou des mesures decapteurs acquises par un système passif ouactif (interagissant sur son environnement, telque agent logiciel ou robot matériel). À partirde ces données, ces systèmes extraient des
informations, pour repérer des objets(classification), pour évaluer les paramètresd'un processus (estimation), pour interagiravec son environnement (décisionséquentielle). Ces algorithmes sont égalementutilisables dans le cadre de traitement par lot degros volume de données.
Ces travaux ont des applications dans lessystèmes de recommendation ou le jeu de Go( Crazy Stone, logiciel primé à de nombreusesreprises).
Les axes de recherche couverts sont :- apprentissage séquentiel;- prise de décision dans l'incertain;- problèmes de bandits;- apprentissage par renforcement;.
Partenariats industriels : France Telecom,Oranges Labs, Intel, Nuukik, ...
Dolphin - "Discrete multiobjective Optimization
for Large-scale Problems with Hybrid
dIstributed techNiques" - dolphin.lille.inria.frDOLPHIN a pour objectif la modélisation et larésolution parallèle de problèmesd'optimisation combinatoire (multi-objectifs)de grande taille. Des méthodes parallèlescoopératives efficaces sont développées àpartir de l'analyse de la structure du problèmetraité. Les problèmes ciblés sont aussi bien
AGENDAMachine Learning
Conference :
15 avril - New York7 octobre, Londreshmlconf.com
12th International
Conference on
Machine Learning and
DataMining :
du 16 au 21 juin, New
York
www.mldm.de
33rd International
Conference on
Machine Learning
(ICML 2016) :
du 19 au 24 juin, New
York
icml.cc/2016
Conférence
francophone sur
l’apprentissage
automatique (CAp
2016):
du 4 au 7 juillet , Mar-
seille
cap16.lif.univ-mrs.fr
European Conference
onMachine Learning
and Principles and
Practice of Knowledge
Discovery :
du 19 au 23 septembre
- Rival del Garda
www.ecmlpkdd2016.org
IEEE International
Conference on
Machine Learning and
Applications
(ICMLA'16) :du 18 au 20 décembre,Los Angeles
03euratech trends
SQL reste un outil indispensable : 70 % des répondants du sondage O'reilly ("2015 DataScience Salary Survey”, 2015) déclarent l'utiliser et qu'une étude de CrowdFlower ( "What skillsshould data scientists have in 2016?", 2016) indique qu'il est une compétence demandée dansprès de 60% des offres d'emploi.
Logiciels conçus par les équipes derecherche, à découvrir!!
Crazy Stone - www.remi-coulom.-fr/CrazyStone
JProGraM - goo.gl/FislJeParadisEO - paradiseo.gforge.inria.fr
Mixmod - www.mixmod.orgSTKK++ - www.stkpp.org
Packages pour R disponibles sur cran.r-project.org et r-forge.r-project.org :BlockCluster, Clustericat, CoModes, CorReg,
FunFEM, FunHDDC, HDPenReg, MPAGenomics,MetaMA, MetaRNASeq, MixAll, MixCluster,
RankCluster, clere, rtkore
Les Hauts de France, leMachine Learning dans la peau
des problèmes génériques (ordonnancement flow-shop,élaboration de tournées, etc.) que des problèmesindustriels de logistique, transport, énergie ou de bioin-formatique.
Les axes de recherche sont :- Analyse de la structure d'un problème d'optimisationcombinatoire, où plusieurs indicateurs sont utilisés pourétudier le contexte du problème. Ceci a permis laconception d'opérateurs, fonctions objectifs et deméthodes hybrides efficaces pour la résolution deproblèmes mono-objectif et multi-objectif;- hybridation de méthodes aux comportementscomplémentaires (métaheuristiques et/ou méthodes exact-es);- méthodes d'optimisation parallèles, pour accélérer lestemps de recherche, résoudre des problèmes de grandetaille, améliorer la robustesse et la qualité des solutions ob-tenues.
Partenariats industriels : EDF, GDF-Suez, Tasker, énergie(électricité, cloud); Genes Diffusion, Alicante, bioinform-atique; DHL, Vekia, Opalean, logistique et transport.
MODAL - "MOdel for Data Analysis and Learning" -sequel.lille.inria.frMODAL développe de modèles génératifs pour l'analyse dedonnées hétérogènes et / ou complexes multivariées. lesexemples typiques de ce type de données sont des covari-ables nominales multivariées ou la combinaison de vari-ables continues et nominales hétérogènes.Bien évidemment, le traitement d'autres covariables com-plexes - ordinales, de rapport ou d'intervalle - est envis-ageable.
A partir de ces modèles génératifs, une analyse statistiquepertinente permet ensuite d'obtenir l'analyse visuelle et laclassification supervisée, semi-supervisée ou à l'estimationde densité.
les axes de recherche se concentre sur les modèlesgénératifs, qui sont des modèles décrivant le processus degénération des données, à la différence des modèlesprédictifs.
Relations industriels : PGXIS UK, PharmacoGenomicInnovative Solutions, Institut Pasteur de Paris, IBL InstitutBiologique de Lille, Rouge gorge, PIXEO
INOCS - "INtegrated Optimization with ComplexStructure" - team.inria.fr/inocs
INOCS travaille sur la modélisation et la résolution desproblèmes d’optimisation de grande taille avec structurecomplexe. L’optimisation consiste à trouver une meilleuresolution parmi un ensemble de solutions possibles. Samodélisation peut être un programme mathématique où lesvariables de décisions doivent satisfaire un ensemble decontraintes définissant la réalisabilité de la solution etoptimiser une ou plusieurs fonctions objectifs.Elle est dite à structure complexe quand il comprend desdécisions de type/nature différentes (par exemplestratégique, tactique ou opérationnelle) et/ou des décisionsprésentant une structure hiérarchique du type meneur-suiveur (problèmes bi-niveau) et/ou des décisions prisesdans un environnement incertain.
Les axes de recherche sont :- utiliser la structure de façon explicite pour déterminer lesmodèles les plus appropriés- méthodes de résolutions intégrées basées sur laprogrammaition mathématique- outil de détection de structure dans les modèles- boîte à outils de méthodes pour résoudre des problèmesd'optimisation avec structure complexe.
Partenariats industriels : EDF, DHL, Alcatel, Eurocontrol,Coliweb
HEUDIASYC - " Heuristique et Diagnostic des SystèmesComplexes" - www.hds.utc.fr/heudiasyc/recher-che/equipe-diL'équipe DI (Décision, Image) concentre son activité sur ledéveloppement de nouvelles méthodes d'analyse et de fu-sion de données, le raisonnement dans l'incertain,l'apprentissage statistique, l'analyse d'images et la visionpar ordinateur.
Les axes de recherches sont :- théorie des fonctions de croyance- fusion, estimation d’état- régression, discrimination, classification automatique- apprentissage faiblement supervisé- classification croisée- pénalités parcimonieuses- perception 3D référencée vision et image
Les applications se font dans les secteurs de l'environ-nement, de la santé, des transports, du diagnostic industri-el, la bioinformatique et l'aide au diagnostic médical.
04 euratech trends
Retrouvez‐nous sur le Web!www.euratechnologies.com
EuraTechnologies
165 avenue de Bretagne
59000 Lille
Equipe Développement économique : 03.20.19.18.55
Accueil EuraTechnologies : 03.59.08.32.30