Panorama des solutions analytiques existantes
SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives
Arnaud LAROCHE
Julien DAMON
3
Outils d’exploitation de l’information
Modèle de programmation parallèle
Système de fichiersdistribués
Un nouveau paradigme de stockage de données,
massivement “scalable”
Un nouveau paradigme de traitement de données massivement « parallélisable »
Bases de données Nosql, outils de transformation,
outils de requêtage, reporting, datamining,
machine-learning…
Plus de volume
Moins de structure
Plus de vitesse
Plus d’analyses
Ne sont ici considérés que les solutions autour de l’environnement Hadoop
Action
Décision
Information
Données
Axe « Analytique » : La possibilité d’opérer des analyses statistiques complexes et des calculs mathématiques en des temps réduits sur de plus grands volumes de données, et sur des données de nature différente (non structurées)
Axe « Opérationnel » : La possibilité de placer des fonctions analytiques complexes au cœur d’applications opérationnelles temps-réel (notion de Data-Centric Applications permettant d’imaginer de nouveaux produits et services)
Axe « Financier » : La promesse de réduction de coûts liée à la possible mutualisation des infrastructures techniques (data-centers) et à la « scalabilité » desdites infrastructures 4
5
<Bear, 1><Bear, 1>
Deer Bear BeerDear Bear BeerDear Deer Beer
Dear BearBeer
Deer BearBeer
Dear DeerBeer
<Dear, 1><Deer, 1><Beer, 1>
<Dear, 1><Bear,1><Beer, 1>
<Deer, 1><Bear, 1><Beer,1>
<Beer, 1><Beer, 1><Beer, 1>
<Dear, 1><Dear, 1>
<Deer, 1><Deer, 1>
<Bear, 2>
<Beer, 3>
<Dear, 2>
<Deer, 2>
<Bear,2><Beer,3><Dear,2><Deer,2>
Entrée Répartition Map Assortiment Reduce Sortie
Complexitéalgorithmique
Latence liée à l’architecture
Concevoir desalgorithmes adaptés
Certains algorithmesn’existent pas
Exemple simplifié de traitement Map Reduce
IN HADOOP
Traitements réalisés sur le cluster Hadoop avec le
framework Hadoop
Échanges de données
Paradigme map reduce(distribué ou non)
Possibilité de traitements intensifs (forte volumétrie, modélisation multiple)
ON HADOOP
Extractions des données pour traitement analytiques
Échanges de données extra-cluster (hdfs, hive, hbase, …)
Paradigmes non mapreduce (distribué ou non)
Espace spécialisé pour les traitements analytiques
« SIDE BY SIDE »
Mutualisation de l’environnement Hadoop
avec la solution analytique
Échanges de données intra-cluster (hdfs, hive, hbase, …)
Paradigmes non mapreduce (distribué ou non)
Partage de ressources
Possibilité d’approches « in memory » 6
7
(Seuls les usages et la démarche changent réellement)
RAS
Statistique & Dataminingvs
Informatique & Machine-learning
9
Apache
MapReduce
Simplicité d’utilisation
La solution standard de Hadoop pour réaliser
des traitements dans le cluster. Elle n’est en rien
spécifique à des traitements analytiques.http://hadoop.apache.org
Standard Tarification Volumétrie manipulable
Points Forts
Coût réel Latence Complexité Besoin de tout implémenter
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Map Reduce
Java
Apache Streaming
Simplicité d’utilisation
Intégration sous la forme d’un flux (stdin, stdout)
de la fonctionnalité MapReduce pour tous les
langages pouvant fonctionner sous ce mode.http://hadoop.apache.org/docs/stable1/streami
ng.html
Standard Tarification Souplesse sur le langage à utiliser Possibilité d’utiliser des
bibliothèques d’analyse (scikit, …)
Points Forts
Comme MapReduce + Besoin de parsing des fichiers à
chaque étape
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Map Reduce
Python, C++, R, …
10
Apache Mahout
Simplicité d’utilisation
Solution proposée standard par la fondation
Apache pour réaliser des traitements
analytiques. Un grand nombre d’algorithme sont
implémentés.http://mahout.apache.org/
Standard Tarification Algorithmes déjà programmés
Points Forts
Java ou ligne de commande « complexe »
Documentation Régression fonctionnelle
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Java
RHadoop
Simplicité d’utilisation
Solution open source réalisée par Revolution
Analytics permettant de réaliser les traitement
map reduce (rmr2), hdfs (rhdfs), et hbase
(rhbase) directement sous R.https://github.com/RevolutionAnalytics/RHado
op/wiki
Programmation sous R Tarification Réutilisation des bibliothèques
R possible
Points Forts
Aucun algorithme fourni Latence Conversion des données
souvent nécessaire
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Map Reduce
11
Spark
Simplicité d’utilisation
Solution permettant d’accélérer les traitements map
reduce en utilisant les ressources mémoire du cluster
(c’est en fai tune alternative à map Reduce). Elle peut
être utilisée avec Scala, Java, Python et bientôt R.http://spark.incubator.apache.org
Performances Diversité des langages utilisables Tarification Algorithmes existants Adapté à la propagation de scores
Points Forts
Pas adapté pour l’inférence En cours de développement
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Map Reduce
In Memory
RHive
Simplicité d’utilisation
Intégration de R avec Hive. Dans un sens,
permet de réaliser des requêtes HQL en R, dans
l’autre sens, permet d’utiliser des fonctions R
sous Hive.http://nexr.github.io/RHive/
Programmation en R Requêtes Hive Adapté à la propagation de
scores Tarification
Points Forts
Repose sur Hive Pas adapté pour l’inférence
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Interaction avec Hive
12
Storm
Simplicité d’utilisation
Solution adaptée à la réalisation de traitements
temps réel. Peut être interfacé avec un grand
nombre de langages : Ruby, Python,
Javascript, Perl, PHP, et R (avec storm-r)http://storm-project.net
Performances Diversité des langages utilisables Tarification Adapté à la propagation de scores
simples
Points Forts
Pas adapté pour l’inférence Non spécifique analytique
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Java
0xdata H2O
Simplicité d’utilisation
Solution in memory déployée sur cluster
Hadoop. Permet de réaliser certains traitements
analytiques classiques sur des données
structurées.http://0xdata.com
Performances (réactivité) IHM agréable (Web) Algorithme existants
Points Forts
Contraintes hardware Limites du « In Memory » Méthodes limités (en
développement) Pas de flux de traitement
Points Faibles
Fonctionnalités
Volumétrie
Open source
In Hadoop
Non Map Reduce
In Memory
13
ORACLE R Entreprise
Simplicité d’utilisation
Solution comprenant :
ORCH, un connecteur Hadoop pour R ayant des
fonctionnalités proches de Rhadoop
ORE, l’intégration de R dans Oracle
http://www.oracle.com/technetwork/database/
options/advanced-analytics/r-
enterprise/index.html
Programmation sous R Réutilisation des bibliothèques
R possible Utilisation de Oracle pour les
données volumineuses
Points Forts
Tarification Aucun algorithme fourni Latence Conversion des données
souvent nécessaire
Points Faibles
Fonctionnalités
Volumétrie
Commercial
In Hadoop
Map Reduce
Wibidata
Simplicité d’utilisation
Solution s’appuyant sur Kiji (open source)
permettant de réaliser des traitement
analytiques simples en HQL.http://www.wibidata.com
Performances Algorithmes existants Adapté à la propagation de
scores
Points Forts
Pas adapté pour l’inférence Peu d’algorithmes existant Structuration des données
Points Faibles
Fonctionnalités
Volumétrie
Commercial
On Hadoop
Interaction avec Hive
Java
14
Datameer
Simplicité d’utilisation
Plateforme intégrée permettant de faire des
reporting, de la visualisation, et de la
propagation de modèles PMML via Zementis.
Performances (réactivité) IHM agréable (Web) Datavisualisation Adapté à de la propagation de
modèles
Points Forts
Tarification (si > 1 To) Pas adapté pour l’inférence
Points Faibles
Fonctionnalités
Volumétrie
Solution commerciale
In Hadoop
Non Map Reduce
Statistica / Statsoft
Simplicité d’utilisation
Plateforme Wintel adossée à un cluster Hadoop,
permettant de réaliser des traitements Hive
simplement, des modélisations sur données
distillées, et du scoring via une solution dédiée.http://www.statsoft.fr/
Simplification des manipulation sous Hive
De nombreux algorithmes Datavisualisation Scoring parallélisés
Points Forts
Tarification Besoin de structurer les
données sous Hive Estimation sur données
réduites
Points Faibles
Fonctionnalités
Volumétrie
Solution commerciale
On Hadoop
Distribué non Map
Reduce
http://www.datameer.com
15
SAS High-Performance
Data Mining
Simplicité d’utilisation
Solution in memory déployée sur cluster
Hadoop. Permet de réaliser l’ensemble des
traitements analytiques classiques sur des
données structurées,http://www.sas.com/offices/europe/france/solu
tions/high-performance-analytics/
Performances (réactivité) Programmation « classique » IHM agréable (Flowchart) Datavisualisation
Points Forts
Tarification Contraintes hardware Limites du « In Memory » Structuration des données
Points Faibles
Fonctionnalités
Volumétrie
Commercial
In Hadoop
Non Map Reduce
In Memory
Revolution Analytics
Simplicité d’utilisation
Adaptation de R à l’utilisation des volumes
importants de données. Permet de réaliser des
traitements « side by side » avec Hadoop. Un
nombre important d’algorithmes est disponible.http://www.revolutionanalytics.com/
Performances Programmation style R Datavisualisation (non
interactive) De nombreux algorithmes
Points Forts
Tarification Absence de certains
algorithmes de machine learning
Architecture
Points Faibles
Fonctionnalités
Volumétrie
Solution commerciale
On Hadoop
Distribué non Map
Reduce
16
IBM SPSS Modeler
Simplicité d’utilisation
Solution analytique de IBM combinant la
possibilité de traitements Map Reduce en JAQL
avec du streaming avec SPSS Modelerhttp://www-01.ibm.com/
software/analytics/spss/products/modeler
Intégration de composants multiples
Intégration possible de R Méthodes « classiques » (SPSS)
Points Forts
Eco système complet Tarification
Points Faibles
Fonctionnalités
Volumétrie
Commercial
In & On Hadoop
Non Map Reduce
Dataiku
Simplicité d’utilisation
Plateforme intégrée rassemblant des solutions
open source (Pig, Hive) permettant de faire des
reporting, de la visualisation et des traitements
analytiques en python (R et Mahout à venir)http://www.dataiku.com
Programmation « classique » IHM agréable (Web, Flowchart) Facilité à mixer les outils (Pig +
Scikit + Datavisualisation, …)
Points Forts
Non map reduce Architecture
Points Faibles
Fonctionnalités
Volumétrie
Solution commerciale
In & On Hadoop
Non Map Reduce
17
Alpine
Simplicité d’utilisation
Solution analytique construite sur Hive et Hbase
permettant de réaliser des traitements
analytiques via une interface de workflowhttp://alpinenow.com
IHM agréable (Flowchart) Datavisualisation Déploiement de modèles
Points Forts
Approche base de données Estimation de données Données à inclure dans Hive ou
HBase
Points Faibles
Fonctionnalités
Volumétrie
Commercial
On Hadoop
Non Map Reduce
Skytree
Simplicité d’utilisation
Solution analytique prenant la forme d’un web
service pouvant être interfacé avec R, Weka,
C++ et Python.http://www.skytree.net
Facilitateur d’accès Nombreux algorithmes
Points Forts
Sans IHM Hors Hadoop
Points Faibles
Fonctionnalités
Volumétrie
Commercial
On Hadoop
Non Map Reduce
TEMPS RÉEL
Détection des Fraudes
Targeting dynamique
Personnalisation de l’offre
…
REPORTING
Anticipation de surcharge serveurs
Suivi d’indicateurs agrégés (courbes de charges, flux, …)
…
SCORING
Segmentation clients
Valorisation
Next best offert
…
19
Outils légers temps réel
Solutions Web et in memory
Solutions les plus complètes
Intégration avec l’existantFormat de stockage des donnéesMutualisation de la plateforme hadoop…
Combiner des outilsSous forme intégrée
En mutualisant les compétencesEn minimisant les transformations de
données…
Avec des
moyens
adaptés
Spécificité des analysesAlgorithmes standards ?Approche industrielle ou R&D ?…
Dimensionnement des données analyséesAnalyse sur échantillonnage ?
Calcul segmenté ?…
PérennitéChoix d’un éditeur
Développement interne…
EvolutivitéAnticiper les besoins à venirEviter le patchwork…
Gestion des données
ETLDistillation
Prise en charge des données non structurées
…
20
21
Tarification de la solution
+ Montée en compétence des équipes
+ Accompagnement
+ Développement d’algorithmes
+ Contraintes hardware
+ Impact sur les traitements existants
+ Montés de version
+ …
=
Analyses poussées sur des volumes importants
Analyses simples sur des volumes morcelés
Outils riches et complexes
Solutions simples et rapides à mettre en œuvre
Merci !
Présentation à retrouver sur : http://datascience.bluestone.fr/
Top Related