Bluestone - Panorama des solutions analytiques existantes

24
Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Arnaud LAROCHE Julien DAMON

description

La Société Française de Statistique (SFdS) nous a fait le plaisir de convier Bluestone, le 16 janvier 2014, à son Rendez-Vous Méthodes et Logiciels consacré au Big Data. Bluestone y a présenté un “Panorama des solutions analytiques existantes”.

Transcript of Bluestone - Panorama des solutions analytiques existantes

Page 1: Bluestone - Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes

SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives

Arnaud LAROCHE

Julien DAMON

Page 2: Bluestone - Panorama des solutions analytiques existantes
Page 3: Bluestone - Panorama des solutions analytiques existantes

3

Outils d’exploitation de l’information

Modèle de programmation parallèle

Système de fichiersdistribués

Un nouveau paradigme de stockage de données,

massivement “scalable”

Un nouveau paradigme de traitement de données massivement « parallélisable »

Bases de données Nosql, outils de transformation,

outils de requêtage, reporting, datamining,

machine-learning…

Plus de volume

Moins de structure

Plus de vitesse

Plus d’analyses

Ne sont ici considérés que les solutions autour de l’environnement Hadoop

Page 4: Bluestone - Panorama des solutions analytiques existantes

Action

Décision

Information

Données

Axe « Analytique » : La possibilité d’opérer des analyses statistiques complexes et des calculs mathématiques en des temps réduits sur de plus grands volumes de données, et sur des données de nature différente (non structurées)

Axe « Opérationnel » : La possibilité de placer des fonctions analytiques complexes au cœur d’applications opérationnelles temps-réel (notion de Data-Centric Applications permettant d’imaginer de nouveaux produits et services)

Axe « Financier » : La promesse de réduction de coûts liée à la possible mutualisation des infrastructures techniques (data-centers) et à la « scalabilité » desdites infrastructures 4

Page 5: Bluestone - Panorama des solutions analytiques existantes

5

<Bear, 1><Bear, 1>

Deer Bear BeerDear Bear BeerDear Deer Beer

Dear BearBeer

Deer BearBeer

Dear DeerBeer

<Dear, 1><Deer, 1><Beer, 1>

<Dear, 1><Bear,1><Beer, 1>

<Deer, 1><Bear, 1><Beer,1>

<Beer, 1><Beer, 1><Beer, 1>

<Dear, 1><Dear, 1>

<Deer, 1><Deer, 1>

<Bear, 2>

<Beer, 3>

<Dear, 2>

<Deer, 2>

<Bear,2><Beer,3><Dear,2><Deer,2>

Entrée Répartition Map Assortiment Reduce Sortie

Complexitéalgorithmique

Latence liée à l’architecture

Concevoir desalgorithmes adaptés

Certains algorithmesn’existent pas

Exemple simplifié de traitement Map Reduce

Page 6: Bluestone - Panorama des solutions analytiques existantes

IN HADOOP

Traitements réalisés sur le cluster Hadoop avec le

framework Hadoop

Échanges de données

Paradigme map reduce(distribué ou non)

Possibilité de traitements intensifs (forte volumétrie, modélisation multiple)

ON HADOOP

Extractions des données pour traitement analytiques

Échanges de données extra-cluster (hdfs, hive, hbase, …)

Paradigmes non mapreduce (distribué ou non)

Espace spécialisé pour les traitements analytiques

« SIDE BY SIDE »

Mutualisation de l’environnement Hadoop

avec la solution analytique

Échanges de données intra-cluster (hdfs, hive, hbase, …)

Paradigmes non mapreduce (distribué ou non)

Partage de ressources

Possibilité d’approches « in memory » 6

Page 7: Bluestone - Panorama des solutions analytiques existantes

7

(Seuls les usages et la démarche changent réellement)

RAS

Statistique & Dataminingvs

Informatique & Machine-learning

Page 8: Bluestone - Panorama des solutions analytiques existantes
Page 9: Bluestone - Panorama des solutions analytiques existantes

9

Apache

MapReduce

Simplicité d’utilisation

La solution standard de Hadoop pour réaliser

des traitements dans le cluster. Elle n’est en rien

spécifique à des traitements analytiques.http://hadoop.apache.org

Standard Tarification Volumétrie manipulable

Points Forts

Coût réel Latence Complexité Besoin de tout implémenter

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

Java

Apache Streaming

Simplicité d’utilisation

Intégration sous la forme d’un flux (stdin, stdout)

de la fonctionnalité MapReduce pour tous les

langages pouvant fonctionner sous ce mode.http://hadoop.apache.org/docs/stable1/streami

ng.html

Standard Tarification Souplesse sur le langage à utiliser Possibilité d’utiliser des

bibliothèques d’analyse (scikit, …)

Points Forts

Comme MapReduce + Besoin de parsing des fichiers à

chaque étape

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

Python, C++, R, …

Page 10: Bluestone - Panorama des solutions analytiques existantes

10

Apache Mahout

Simplicité d’utilisation

Solution proposée standard par la fondation

Apache pour réaliser des traitements

analytiques. Un grand nombre d’algorithme sont

implémentés.http://mahout.apache.org/

Standard Tarification Algorithmes déjà programmés

Points Forts

Java ou ligne de commande « complexe »

Documentation Régression fonctionnelle

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Java

RHadoop

Simplicité d’utilisation

Solution open source réalisée par Revolution

Analytics permettant de réaliser les traitement

map reduce (rmr2), hdfs (rhdfs), et hbase

(rhbase) directement sous R.https://github.com/RevolutionAnalytics/RHado

op/wiki

Programmation sous R Tarification Réutilisation des bibliothèques

R possible

Points Forts

Aucun algorithme fourni Latence Conversion des données

souvent nécessaire

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

Page 11: Bluestone - Panorama des solutions analytiques existantes

11

Spark

Simplicité d’utilisation

Solution permettant d’accélérer les traitements map

reduce en utilisant les ressources mémoire du cluster

(c’est en fai tune alternative à map Reduce). Elle peut

être utilisée avec Scala, Java, Python et bientôt R.http://spark.incubator.apache.org

Performances Diversité des langages utilisables Tarification Algorithmes existants Adapté à la propagation de scores

Points Forts

Pas adapté pour l’inférence En cours de développement

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

In Memory

RHive

Simplicité d’utilisation

Intégration de R avec Hive. Dans un sens,

permet de réaliser des requêtes HQL en R, dans

l’autre sens, permet d’utiliser des fonctions R

sous Hive.http://nexr.github.io/RHive/

Programmation en R Requêtes Hive Adapté à la propagation de

scores Tarification

Points Forts

Repose sur Hive Pas adapté pour l’inférence

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Interaction avec Hive

Page 12: Bluestone - Panorama des solutions analytiques existantes

12

Storm

Simplicité d’utilisation

Solution adaptée à la réalisation de traitements

temps réel. Peut être interfacé avec un grand

nombre de langages : Ruby, Python,

Javascript, Perl, PHP, et R (avec storm-r)http://storm-project.net

Performances Diversité des langages utilisables Tarification Adapté à la propagation de scores

simples

Points Forts

Pas adapté pour l’inférence Non spécifique analytique

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Java

0xdata H2O

Simplicité d’utilisation

Solution in memory déployée sur cluster

Hadoop. Permet de réaliser certains traitements

analytiques classiques sur des données

structurées.http://0xdata.com

Performances (réactivité) IHM agréable (Web) Algorithme existants

Points Forts

Contraintes hardware Limites du « In Memory » Méthodes limités (en

développement) Pas de flux de traitement

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Non Map Reduce

In Memory

Page 13: Bluestone - Panorama des solutions analytiques existantes

13

ORACLE R Entreprise

Simplicité d’utilisation

Solution comprenant :

ORCH, un connecteur Hadoop pour R ayant des

fonctionnalités proches de Rhadoop

ORE, l’intégration de R dans Oracle

http://www.oracle.com/technetwork/database/

options/advanced-analytics/r-

enterprise/index.html

Programmation sous R Réutilisation des bibliothèques

R possible Utilisation de Oracle pour les

données volumineuses

Points Forts

Tarification Aucun algorithme fourni Latence Conversion des données

souvent nécessaire

Points Faibles

Fonctionnalités

Volumétrie

Commercial

In Hadoop

Map Reduce

Wibidata

Simplicité d’utilisation

Solution s’appuyant sur Kiji (open source)

permettant de réaliser des traitement

analytiques simples en HQL.http://www.wibidata.com

Performances Algorithmes existants Adapté à la propagation de

scores

Points Forts

Pas adapté pour l’inférence Peu d’algorithmes existant Structuration des données

Points Faibles

Fonctionnalités

Volumétrie

Commercial

On Hadoop

Interaction avec Hive

Java

Page 14: Bluestone - Panorama des solutions analytiques existantes

14

Datameer

Simplicité d’utilisation

Plateforme intégrée permettant de faire des

reporting, de la visualisation, et de la

propagation de modèles PMML via Zementis.

Performances (réactivité) IHM agréable (Web) Datavisualisation Adapté à de la propagation de

modèles

Points Forts

Tarification (si > 1 To) Pas adapté pour l’inférence

Points Faibles

Fonctionnalités

Volumétrie

Solution commerciale

In Hadoop

Non Map Reduce

Statistica / Statsoft

Simplicité d’utilisation

Plateforme Wintel adossée à un cluster Hadoop,

permettant de réaliser des traitements Hive

simplement, des modélisations sur données

distillées, et du scoring via une solution dédiée.http://www.statsoft.fr/

Simplification des manipulation sous Hive

De nombreux algorithmes Datavisualisation Scoring parallélisés

Points Forts

Tarification Besoin de structurer les

données sous Hive Estimation sur données

réduites

Points Faibles

Fonctionnalités

Volumétrie

Solution commerciale

On Hadoop

Distribué non Map

Reduce

http://www.datameer.com

Page 15: Bluestone - Panorama des solutions analytiques existantes

15

SAS High-Performance

Data Mining

Simplicité d’utilisation

Solution in memory déployée sur cluster

Hadoop. Permet de réaliser l’ensemble des

traitements analytiques classiques sur des

données structurées,http://www.sas.com/offices/europe/france/solu

tions/high-performance-analytics/

Performances (réactivité) Programmation « classique » IHM agréable (Flowchart) Datavisualisation

Points Forts

Tarification Contraintes hardware Limites du « In Memory » Structuration des données

Points Faibles

Fonctionnalités

Volumétrie

Commercial

In Hadoop

Non Map Reduce

In Memory

Revolution Analytics

Simplicité d’utilisation

Adaptation de R à l’utilisation des volumes

importants de données. Permet de réaliser des

traitements « side by side » avec Hadoop. Un

nombre important d’algorithmes est disponible.http://www.revolutionanalytics.com/

Performances Programmation style R Datavisualisation (non

interactive) De nombreux algorithmes

Points Forts

Tarification Absence de certains

algorithmes de machine learning

Architecture

Points Faibles

Fonctionnalités

Volumétrie

Solution commerciale

On Hadoop

Distribué non Map

Reduce

Page 16: Bluestone - Panorama des solutions analytiques existantes

16

IBM SPSS Modeler

Simplicité d’utilisation

Solution analytique de IBM combinant la

possibilité de traitements Map Reduce en JAQL

avec du streaming avec SPSS Modelerhttp://www-01.ibm.com/

software/analytics/spss/products/modeler

Intégration de composants multiples

Intégration possible de R Méthodes « classiques » (SPSS)

Points Forts

Eco système complet Tarification

Points Faibles

Fonctionnalités

Volumétrie

Commercial

In & On Hadoop

Non Map Reduce

Dataiku

Simplicité d’utilisation

Plateforme intégrée rassemblant des solutions

open source (Pig, Hive) permettant de faire des

reporting, de la visualisation et des traitements

analytiques en python (R et Mahout à venir)http://www.dataiku.com

Programmation « classique » IHM agréable (Web, Flowchart) Facilité à mixer les outils (Pig +

Scikit + Datavisualisation, …)

Points Forts

Non map reduce Architecture

Points Faibles

Fonctionnalités

Volumétrie

Solution commerciale

In & On Hadoop

Non Map Reduce

Page 17: Bluestone - Panorama des solutions analytiques existantes

17

Alpine

Simplicité d’utilisation

Solution analytique construite sur Hive et Hbase

permettant de réaliser des traitements

analytiques via une interface de workflowhttp://alpinenow.com

IHM agréable (Flowchart) Datavisualisation Déploiement de modèles

Points Forts

Approche base de données Estimation de données Données à inclure dans Hive ou

HBase

Points Faibles

Fonctionnalités

Volumétrie

Commercial

On Hadoop

Non Map Reduce

Skytree

Simplicité d’utilisation

Solution analytique prenant la forme d’un web

service pouvant être interfacé avec R, Weka,

C++ et Python.http://www.skytree.net

Facilitateur d’accès Nombreux algorithmes

Points Forts

Sans IHM Hors Hadoop

Points Faibles

Fonctionnalités

Volumétrie

Commercial

On Hadoop

Non Map Reduce

Page 18: Bluestone - Panorama des solutions analytiques existantes
Page 19: Bluestone - Panorama des solutions analytiques existantes

TEMPS RÉEL

Détection des Fraudes

Targeting dynamique

Personnalisation de l’offre

REPORTING

Anticipation de surcharge serveurs

Suivi d’indicateurs agrégés (courbes de charges, flux, …)

SCORING

Segmentation clients

Valorisation

Next best offert

19

Outils légers temps réel

Solutions Web et in memory

Solutions les plus complètes

Page 20: Bluestone - Panorama des solutions analytiques existantes

Intégration avec l’existantFormat de stockage des donnéesMutualisation de la plateforme hadoop…

Combiner des outilsSous forme intégrée

En mutualisant les compétencesEn minimisant les transformations de

données…

Avec des

moyens

adaptés

Spécificité des analysesAlgorithmes standards ?Approche industrielle ou R&D ?…

Dimensionnement des données analyséesAnalyse sur échantillonnage ?

Calcul segmenté ?…

PérennitéChoix d’un éditeur

Développement interne…

EvolutivitéAnticiper les besoins à venirEviter le patchwork…

Gestion des données

ETLDistillation

Prise en charge des données non structurées

20

Page 21: Bluestone - Panorama des solutions analytiques existantes

21

Tarification de la solution

+ Montée en compétence des équipes

+ Accompagnement

+ Développement d’algorithmes

+ Contraintes hardware

+ Impact sur les traitements existants

+ Montés de version

+ …

=

Page 22: Bluestone - Panorama des solutions analytiques existantes
Page 23: Bluestone - Panorama des solutions analytiques existantes

Analyses poussées sur des volumes importants

Analyses simples sur des volumes morcelés

Outils riches et complexes

Solutions simples et rapides à mettre en œuvre

Page 24: Bluestone - Panorama des solutions analytiques existantes

Merci !

Présentation à retrouver sur : http://datascience.bluestone.fr/