Bluestone - Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes

SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives

Arnaud LAROCHE

Julien DAMON

3

Outils d’exploitation de l’information

Modèle de programmation parallèle

Système de fichiersdistribués

Un nouveau paradigme de stockage de données,

massivement “scalable”

Un nouveau paradigme de traitement de données massivement « parallélisable »

Bases de données Nosql, outils de transformation,

outils de requêtage, reporting, datamining,

machine-learning…

Plus de volume

Moins de structure

Plus de vitesse

Plus d’analyses

Ne sont ici considérés que les solutions autour de l’environnement Hadoop

Action

Décision

Information

Données

Axe « Analytique » : La possibilité d’opérer des analyses statistiques complexes et des calculs mathématiques en des temps réduits sur de plus grands volumes de données, et sur des données de nature différente (non structurées)

Axe « Opérationnel » : La possibilité de placer des fonctions analytiques complexes au cœur d’applications opérationnelles temps-réel (notion de Data-Centric Applications permettant d’imaginer de nouveaux produits et services)

Axe « Financier » : La promesse de réduction de coûts liée à la possible mutualisation des infrastructures techniques (data-centers) et à la « scalabilité » desdites infrastructures 4

5

<Bear, 1><Bear, 1>

Deer Bear BeerDear Bear BeerDear Deer Beer

Dear BearBeer

Deer BearBeer

Dear DeerBeer

<Dear, 1><Deer, 1><Beer, 1>

<Dear, 1><Bear,1><Beer, 1>

<Deer, 1><Bear, 1><Beer,1>

<Beer, 1><Beer, 1><Beer, 1>

<Dear, 1><Dear, 1>

<Deer, 1><Deer, 1>

<Bear, 2>

<Beer, 3>

<Dear, 2>

<Deer, 2>

<Bear,2><Beer,3><Dear,2><Deer,2>

Entrée Répartition Map Assortiment Reduce Sortie

Complexitéalgorithmique

Latence liée à l’architecture

Concevoir desalgorithmes adaptés

Certains algorithmesn’existent pas

Exemple simplifié de traitement Map Reduce

IN HADOOP

Traitements réalisés sur le cluster Hadoop avec le

framework Hadoop

Échanges de données

Paradigme map reduce(distribué ou non)

Possibilité de traitements intensifs (forte volumétrie, modélisation multiple)

ON HADOOP

Extractions des données pour traitement analytiques

Échanges de données extra-cluster (hdfs, hive, hbase, …)

Paradigmes non mapreduce (distribué ou non)

Espace spécialisé pour les traitements analytiques

« SIDE BY SIDE »

Mutualisation de l’environnement Hadoop

avec la solution analytique

Échanges de données intra-cluster (hdfs, hive, hbase, …)

Paradigmes non mapreduce (distribué ou non)

Partage de ressources

Possibilité d’approches « in memory » 6

7

(Seuls les usages et la démarche changent réellement)

RAS

Statistique & Dataminingvs

Informatique & Machine-learning

9

Apache

MapReduce

Simplicité d’utilisation

La solution standard de Hadoop pour réaliser

des traitements dans le cluster. Elle n’est en rien

spécifique à des traitements analytiques.http://hadoop.apache.org

Standard Tarification Volumétrie manipulable

Points Forts

Coût réel Latence Complexité Besoin de tout implémenter

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

Java

Apache Streaming


Intégration sous la forme d’un flux (stdin, stdout)

de la fonctionnalité MapReduce pour tous les

langages pouvant fonctionner sous ce mode.http://hadoop.apache.org/docs/stable1/streami

ng.html

Standard Tarification Souplesse sur le langage à utiliser Possibilité d’utiliser des

bibliothèques d’analyse (scikit, …)

Points Forts

Comme MapReduce + Besoin de parsing des fichiers à

chaque étape

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

Python, C++, R, …

http://hadoop.apache.org/

http://hadoop.apache.org/docs/stable1/streaming.html

10

Apache Mahout


Solution proposée standard par la fondation

Apache pour réaliser des traitements

analytiques. Un grand nombre d’algorithme sont

implémentés.http://mahout.apache.org/

Standard Tarification Algorithmes déjà programmés

Points Forts

Java ou ligne de commande « complexe »

Documentation Régression fonctionnelle

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Java

RHadoop


Solution open source réalisée par Revolution

Analytics permettant de réaliser les traitement

map reduce (rmr2), hdfs (rhdfs), et hbase

(rhbase) directement sous R.https://github.com/RevolutionAnalytics/RHado

op/wiki

Programmation sous R Tarification Réutilisation des bibliothèques

R possible

Points Forts

Aucun algorithme fourni Latence Conversion des données

souvent nécessaire

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

http://mahout.apache.org/

https://github.com/RevolutionAnalytics/RHadoop/wiki

11

Spark


Solution permettant d’accélérer les traitements map

reduce en utilisant les ressources mémoire du cluster

(c’est en fai tune alternative à map Reduce). Elle peut

être utilisée avec Scala, Java, Python et bientôt R.http://spark.incubator.apache.org

Performances Diversité des langages utilisables Tarification Algorithmes existants Adapté à la propagation de scores

Points Forts

Pas adapté pour l’inférence En cours de développement

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Map Reduce

In Memory

RHive


Intégration de R avec Hive. Dans un sens,

permet de réaliser des requêtes HQL en R, dans

l’autre sens, permet d’utiliser des fonctions R

sous Hive.http://nexr.github.io/RHive/

Programmation en R Requêtes Hive Adapté à la propagation de

scores Tarification

Points Forts

Repose sur Hive Pas adapté pour l’inférence

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Interaction avec Hive

http://spark.incubator.apache.org/

http://nexr.github.io/RHive/

12

Storm


Solution adaptée à la réalisation de traitements

temps réel. Peut être interfacé avec un grand

nombre de langages : Ruby, Python,

Javascript, Perl, PHP, et R (avec storm-r)http://storm-project.net

Performances Diversité des langages utilisables Tarification Adapté à la propagation de scores

simples

Points Forts

Pas adapté pour l’inférence Non spécifique analytique

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Java

0xdata H2O


Solution in memory déployée sur cluster

Hadoop. Permet de réaliser certains traitements

analytiques classiques sur des données

structurées.http://0xdata.com

Performances (réactivité) IHM agréable (Web) Algorithme existants

Points Forts

Contraintes hardware Limites du « In Memory » Méthodes limités (en

développement) Pas de flux de traitement

Points Faibles

Fonctionnalités

Volumétrie

Open source

In Hadoop

Non Map Reduce

In Memory

http://storm-project.net/

http://0xdata.com/

13

ORACLE R Entreprise


Solution comprenant :

ORCH, un connecteur Hadoop pour R ayant des

fonctionnalités proches de Rhadoop

ORE, l’intégration de R dans Oracle

http://www.oracle.com/technetwork/database/

options/advanced-analytics/r-

enterprise/index.html

Programmation sous R Réutilisation des bibliothèques

R possible Utilisation de Oracle pour les

données volumineuses

Points Forts

Tarification Aucun algorithme fourni Latence Conversion des données

souvent nécessaire

Points Faibles

Fonctionnalités

Volumétrie

Commercial

In Hadoop

Map Reduce

Wibidata


Solution s’appuyant sur Kiji (open source)

permettant de réaliser des traitement

analytiques simples en HQL.http://www.wibidata.com

Performances Algorithmes existants Adapté à la propagation de

scores

Points Forts

Pas adapté pour l’inférence Peu d’algorithmes existant Structuration des données

Points Faibles

Fonctionnalités

Volumétrie

Commercial

On Hadoop

Interaction avec Hive

Java

http://www.oracle.com/technetwork/database/options/advanced-analytics/r-enterprise/index.html

http://www.wibidata.com/

14

Datameer


Plateforme intégrée permettant de faire des

reporting, de la visualisation, et de la

propagation de modèles PMML via Zementis.

Performances (réactivité) IHM agréable (Web) Datavisualisation Adapté à de la propagation de

modèles

Points Forts

Tarification (si > 1 To) Pas adapté pour l’inférence

Points Faibles

Fonctionnalités

Volumétrie

Solution commerciale

In Hadoop

Non Map Reduce

Statistica / Statsoft


Plateforme Wintel adossée à un cluster Hadoop,

permettant de réaliser des traitements Hive

simplement, des modélisations sur données

distillées, et du scoring via une solution dédiée.http://www.statsoft.fr/

Simplification des manipulation sous Hive

De nombreux algorithmes Datavisualisation Scoring parallélisés

Points Forts

Tarification Besoin de structurer les

données sous Hive Estimation sur données

réduites

Points Faibles

Fonctionnalités

Volumétrie


On Hadoop

Distribué non Map

Reduce

http://www.datameer.com

http://www.statsoft.fr/

http://www.datameer.com/

15

SAS High-Performance

Data Mining


Solution in memory déployée sur cluster

Hadoop. Permet de réaliser l’ensemble des

traitements analytiques classiques sur des

données structurées,http://www.sas.com/offices/europe/france/solu

tions/high-performance-analytics/

Performances (réactivité) Programmation « classique » IHM agréable (Flowchart) Datavisualisation

Points Forts

Tarification Contraintes hardware Limites du « In Memory » Structuration des données

Points Faibles

Fonctionnalités

Volumétrie

Commercial

In Hadoop

Non Map Reduce

In Memory

Revolution Analytics


Adaptation de R à l’utilisation des volumes

importants de données. Permet de réaliser des

traitements « side by side » avec Hadoop. Un

nombre important d’algorithmes est disponible.http://www.revolutionanalytics.com/

Performances Programmation style R Datavisualisation (non

interactive) De nombreux algorithmes

Points Forts

Tarification Absence de certains

algorithmes de machine learning

Architecture

Points Faibles

Fonctionnalités

Volumétrie


On Hadoop

Distribué non Map

Reduce

http://www.sas.com/offices/europe/france/solutions/high-performance-analytics/

http://www.revolutionanalytics.com/

16

IBM SPSS Modeler


Solution analytique de IBM combinant la

possibilité de traitements Map Reduce en JAQL

avec du streaming avec SPSS Modelerhttp://www-01.ibm.com/

software/analytics/spss/products/modeler

Intégration de composants multiples

Intégration possible de R Méthodes « classiques » (SPSS)

Points Forts

Eco système complet Tarification

Points Faibles

Fonctionnalités

Volumétrie

Commercial

In & On Hadoop

Non Map Reduce

Dataiku


Plateforme intégrée rassemblant des solutions

open source (Pig, Hive) permettant de faire des

reporting, de la visualisation et des traitements

analytiques en python (R et Mahout à venir)http://www.dataiku.com

Programmation « classique » IHM agréable (Web, Flowchart) Facilité à mixer les outils (Pig +

Scikit + Datavisualisation, …)

Points Forts

Non map reduce Architecture

Points Faibles

Fonctionnalités

Volumétrie


In & On Hadoop

Non Map Reduce

http://www-01.ibm.com/software/analytics/spss/products/modeler

http://www-01.ibm.com/software/analytics/spss/products/modeler

http://www.dataiku.com/

17

Alpine


Solution analytique construite sur Hive et Hbase

permettant de réaliser des traitements

analytiques via une interface de workflowhttp://alpinenow.com

IHM agréable (Flowchart) Datavisualisation Déploiement de modèles

Points Forts

Approche base de données Estimation de données Données à inclure dans Hive ou

HBase

Points Faibles

Fonctionnalités

Volumétrie

Commercial

On Hadoop

Non Map Reduce

Skytree


Solution analytique prenant la forme d’un web

service pouvant être interfacé avec R, Weka,

C++ et Python.http://www.skytree.net

Facilitateur d’accès Nombreux algorithmes

Points Forts

Sans IHM Hors Hadoop

Points Faibles

Fonctionnalités

Volumétrie

Commercial

On Hadoop

Non Map Reduce

http://alpinenow.com/

http://www.skytree.net/

TEMPS RÉEL

Détection des Fraudes

Targeting dynamique

Personnalisation de l’offre

…

REPORTING

Anticipation de surcharge serveurs

Suivi d’indicateurs agrégés (courbes de charges, flux, …)

…

SCORING

Segmentation clients

Valorisation

Next best offert

…

19

Outils légers temps réel

Solutions Web et in memory

Solutions les plus complètes

Intégration avec l’existantFormat de stockage des donnéesMutualisation de la plateforme hadoop…

Combiner des outilsSous forme intégrée

En mutualisant les compétencesEn minimisant les transformations de

données…

Avec des

moyens

adaptés

Spécificité des analysesAlgorithmes standards ?Approche industrielle ou R&D ?…

Dimensionnement des données analyséesAnalyse sur échantillonnage ?

Calcul segmenté ?…

PérennitéChoix d’un éditeur

Développement interne…

EvolutivitéAnticiper les besoins à venirEviter le patchwork…

Gestion des données

ETLDistillation

Prise en charge des données non structurées

…

20

21

Tarification de la solution

+ Montée en compétence des équipes

+ Accompagnement

+ Développement d’algorithmes

+ Contraintes hardware

+ Impact sur les traitements existants

+ Montés de version

+ …

=

Analyses poussées sur des volumes importants

Analyses simples sur des volumes morcelés

Outils riches et complexes

Solutions simples et rapides à mettre en œuvre

Merci !

Présentation à retrouver sur : http://datascience.bluestone.fr/

http://datascience.bluestone.fr/

Bluestone - Panorama des solutions analytiques existantes

Technology

Transcript of Bluestone - Panorama des solutions analytiques existantes