Union Européenne et aide au développement - réalités et perspectives
Data Science & Big Data, réalités et perspectives.
-
Upload
aleph-technologies -
Category
Technology
-
view
701 -
download
0
description
Transcript of Data Science & Big Data, réalités et perspectives.
Data Science & Big Data Umons – 12/3/2014 Alexis Gil Gonzales
Agenda
1. Synopsis historique 2. Data Science – principes 3. Big Data 4. Réalités & PerspecHves
Synopsis historique
• 1900’s : StaHsHques • 1960’s : Pêche aux données (dredging) • 1962 : John Tukey « The Future of Data Analysis »
• 1974 : Peter Naur « Concise Survey of Computer Methods »
• 1989 : Gregory Piatetsky-‐Shapiro : Knowledge Discovery in Database (KDD) Workshop
Synopsis historique
• 1990’s : Data Mining • 1996 : Fayyad, Piatetsky-‐Shapiro, Smyth « From Data Mining to Knowledge Discovery in Databases »
• 1997 : Data Mining and Knowledge Discovery journal
• 2001 : William Cleveland « Data Science : An acHon plan for expanding the technical areas of the field of staHsHcs »
Synopsis historique
• 2002/2003 : Data Science Journal, Journal of Data Science
• 2004 : Dean, Ghemawat (Google) : « MapReduce : Simplified Data Processing on Large Clusters »
• 2005 : Davenport, Cohen, Jacobson « CompeHng on AnalyHcs »
• 2005 : Hadoop naît chez Yahoo • 2006 : Google AnalyHcs • 2007 : Analyse predicHve • 2007 : Research Center for Datalogy and Data Science – Shanghai (China)
Synopsis historique
• 2008 : J. Hammerbacher, DJ PaHl (Facebook, Linkedin) uHlisent pour la première fois le rôle « Data ScienHst »
• 2009 : Kirk Borne « The RevoluHon in Astronomy EducaHon : Data Science for the Masses »
• 2009 : Mathew Graham « The Art of Data Science »
Data Science -‐ Principes
Défini&on
Extrac'on de patrons ou modèles u'les à par'r de vastes sources de données (Fayyad, Piatetsky, Shapiro, Smyth 1996)
Data Science -‐ Principes
Concepts divers
Extraire de la connaissance u'le à par'r de grands volumes de données pour résoudre des problèmes d’entreprise peut être réalisé en suivant un processus en étapes bien définies. Example : CRISP-‐DM
Data Science -‐ Principes
Concepts divers
A par'r de grands volumes de données, technologies de l’informa'on peuvent être u'lisées pour trouver des aAributs descrip'fs et informa'fs d’en'tés d’intérêt.
Data Science -‐ Principes
Concepts divers
Si vous regardez assez longtemps un ensemble de données vous pourriez trouver quelque chose, mais ce ne peut pas être généralisé au délà de l’ensemble de données ini'al. Overfiong
Data Science -‐ Principes
Classifica&on
Prédire, pour chaque élément d’une populaHon, à quelle classe il apparHent.
Scoring Prédit, pour chaque élément d’une populaHon, la probabilité d’appartenance à chaque classe.
Data Science -‐ Principes
Régression
Prédire, pour chaque élément d’une populaHon, la valeur numérique d’une variable donnée.
Correspondance de similarités IdenHfie des éléments similaires à parHr de données connues sur ceux-‐ci. classe.
Data Science -‐ Principes
Clustering
Grouper des éléments d’une populaHon ensemble par leur similarité, mais sans objecHf bien défini.
Groupage de co-‐occurrence Trouve des associaHons entre des éléments basées sur des transacHons les impliquant. (Market basket analysis)
Data Science -‐ Principes
Profiling
CaractérisaHon du comportement typique d’un élément, groupe ou populaHon.
Prédic&on de lien Prédire l’existence de liens entre deux éléments et éventuellement esHmer la force du lien.
Data Science -‐ Principes
Réduc&on de données
ConverHr un grand ensemble de données en un autre plus peHt en conservant le max. d’informaHon du premier.
Modélisa&on causale Comprendre quels événements ou acHons influencent d’autres.
Data Science -‐ Principes
CRISP-‐DM
Data Science -‐ Principes
Autres ou'ls analy'ques
ApprenHssage Machine InterrogaHon BBDD
Data Warehousing Analyse de régression
StaHsHques
Data Science -‐ Principes
Data Mining Supvervisé Classifica'on et Régression
• SélecHon d’arributs • ClassificaHon par arbres (inducHon) • ClassificaHon par opHmisaHon (foncHon linéaire, foncHon objecHf)
• Support Vector Machines • Classificateurs Bayesiens • Réseaux neuronaux
Data Science -‐ Principes
Similarités et voisins • Similarités entre éléments d’un ensemble • Distance • Instances similaires -‐> distance minimale • Nearest Neighbor • ClassificaHon • Diverses mesures de distance ! (Manharan, Jaccard, Cosinus, distance d’édiHon, ...)
Data Science -‐ Principes
Clustering • SegmentaHon non supervisée • « groupes naturels », sans cible connue • Clustering hiérarchique
Data Science -‐ Principes
Co-‐occurrence • Découverte d’associaHons entre éléments d’une populaHon sur base des transacHons passées.
• Recherche combinaison d’éléments aux staHsHques intéressantes.
• Grand nombre de co-‐occurrences ! • Hasard • Support de l’associaHon
Data Science -‐ Principes
Profiling • Comportement-‐type • DistribuHon normale/log-‐normale • Gaussian Mixture Models • Clusters « mous »
Big Data
• Très grands volumes de données • 3 « V »
• Volume • Vitesse • Variabilité
Big Data Paysage
Big Data
Big Data
Technologies
• Au début : MapReduce (Google), puis Hadoop (Yahoo), vers 2004.
• MapReduce : Algorithme distribué. • Hadoop : plate-‐forme distribuée.
Big Data
Hadoop • Architecture en Cluster: NameNode, DataNode. Secondary NameNode
• HDFS : Distributed FS. Data Block • Data écrite 1 seule fois, lue plusieurs. • Hadoop core en java • MapReduce inside • Hbase : BD en colonnes. Flexible, Compression • ZooKeeper : GesHon de configuraHon • Hive : analyse de données, proche de SQL, scriptable • Pig : analyse de données, laHn.
Big Data
Hadoop (cont) • Flume : traitement de flux, logfiles • SolR : Basé sur project Lucene. Recherche textuelle sur grands volumes de documents. • Mahout : Librairie d’apprenHssage machine pour grands volumes de données. UHlise MapReduce.
• Giraph/Hama : Traitement itéraHf de graphes. Basé sur Pregel (Google), BSP.
• Ambari : provision, gesHon, mgmt hadoop • Squoop : connecteurs de données. • Oozie : ordonnanceur de jobs.
Big Data
Hadoop (cont)
• WebHDFS : REST API • Hcatalog : expose Hive métadonnées. « schéma »
• WebHCatalog : REST API • YARN : MapReduce 2.0, généralisaHon • Tez : Nouveau framework exécuHon de tâches • Storm : Temps réel
Big Data
Evolu'on Hadoop
Big Data
Quelques examples concrets Avec flume, pig, hive et mahout
Big Data
Réalités
Big Data
Enquête Gartner 2013 (US)
• 64% entreprises invesHssent ou vont le faire dans des technologies Big Data
• Mais uniquement 8% de ces derniers ont pris des acHons concrètes
• Principaux secteurs : Banque, médias, services • Problème 1 : quanHficaHon de la valeur du BD • Problème 2 : manque de talents à <> niveaux
Big Data
Réalités
Big Data
Enquête EMC 2012
Big Data
Enquête EMC 2012
Big Data
Enquête EMC 2012
The End
Merci !