Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf ·...
Transcript of Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf ·...
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data : utilisation d’un clusterHadoop
Cécile Cavetcecile.cavet at apc.univ-paris7.fr
Centre François Arago (FACe), Laboratoire APC, Université Paris DiderotLabEx UnivEarthS
14 Janvier 2014
C. Cavet Big Data: cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Plan
1 Motivations
2 Cluster Hadoop
3 Déploiement d’un cluster Hadoop sur le Cloud
4 Tests et utilisation réelle
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data
Problématique :Ù Gestion des grandes masses de données.
Collecte.Stockage.Traitement.Visualisation.Analyse.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Goulot d’étranglement : les VVVV...
4V des données numériques :Volume.Vitesse d’accumulation et de traitement.Variété (diversité, hétérogénéité).Véracité (bruit, précision).
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data en Astronomie
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data en Astronomie
Figure: Projets qui génèrent/vont générer des grands volumes de données.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data en Astronomie
Dans un futur très proche (∼2020) :Projets visant à étudier l’énergie noire :
LSST (info@E. Gangler) :∼100 PB d’archives finales d’images.40 × 109 objets Ù Table de 100-200 TB.5000 × 109 observations Ù Table de 1-3 PB.
Euclid (info@S. Colzy) :∼4,4 PB d’archives finales d’images.10 × 109 objets.42000 observations.
Actions en cours :R&T du CNES.PetaSky (MASTODONS) au CNRS.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Technologies liées au Big Data
Hadoop.NoSQL.Cloud computing.Data warehouse (entrepôts de base de données) /data smart.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Histoire synthétique d’Hadoop1
Google en 2004 : solution propriétaire.GFS (Google FS) : stockage distribué.The Google File System, S. Ghemawat, H. Gobioff& S. Leung.Google Map/Reduce : calcul distribué.MapReduce: Simplified Data Processing on LargeClusters, J. Dean & S. Ghemawat.BigTable : SGBD (Système de Gestion de Basesde Données) basé sur GFS.BigTable: A Distributed Storage System forStructured Data.
Ù Calcul et stockage distribué, tolérant aux pannes.1Les base de données NoSQL, R. Bruchez, Eyrolles (2013)
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Histoire synthétique d’Hadoop
Apache en 2008 : solution open-source.
http://hadoop.apache.org/
HDFS (Hadoop Distributed FS) : stockagedistribué.Hadoop Map/Reduce : calcul distribué.HBase : SGBD NoSQL.
Ù Cluster Hadoop.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Cluster Hadoop
1 Infrastructure :Machinesphysiquesdédiées.Machinesvirtuelles duCloud.
2 Distribution :MapR.Cloudera.HortonWorks.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Cluster Hadoop : Cloud computing
Peu (pas) présent dans le monde académique cartechnologie trop récente Ù Cluster MPI engénérale.Déjà présent sur l’infrastructure de Cloud :
Sur AWS EC2 et S3 Ù Amazon ElasticMapReduce (Cloud de type PaaS).http://aws.amazon.com/fr/elasticmapreduce/
Nécessite une infrastructure de calcul distribuéspécifique (CPU, mémoire, stockage et réseau) Ùapplication "challenging" pour le Cloud.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
CDH (Cloudera’s Distribution includingApache Hadoop)
Composants Apache :HDFS : système de fichier distribué.MapReduce : framework de traitement parallélisé.HBase : SGBD NoSQL.Hive : Rrequêtage de type SQL.Pig : scripting et requêtage Hadoop.ZooKeeper : coordination des appli. distribuées.Mahout : framework d’apprentissage et dedatamining pour Hadoop.
Composants Cloudera :Oozie : workflow et planification de jobs Hadoop.Sqoop : intégration de bases SQL.Flume : exploitation de fichiers (log) Hadoop.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
CDH
Figure: Fonctionnement de la distribution Cloudera.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HDFS
Système de fichiers distribué :En Java.Stocke des données structurées ou non sur unensemble de serveurs distribués.Redondant, résilient.Découpage et distribution en blocks des données :
Blocksize : taille unitaire de stockage(généralement 64 Mo ou 128 Mo).Replication factor : nombre de copies d’unedonnées devant être réparties sur les différentsnoeuds.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HDFS
Figure: Fonctionnement de HDFS.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Map/Reduce
Algorithme de traitement de données :Natif :
JAVA (bientôt C++).Autres possibilités (en streaming) :
Python, Ruby, Perl...Fonctionnement :
1 Load input data as key/values.2 Distribute them to computing node.3 Map(): transform to new key/values pairs.4 Reduce(): combine values having the same key.5 Write to output file.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Map/Reduce
Figure: Fonctionnement de Map/Reduce.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HBase
SGBD NoSQL :En Java.SGBD non relationnelles.Orientée colonne.Manipulation de grand volume de données sur desarchitectures distribuées.Utilisation conjointe avec HDFS.Gère les accès read/write aléatoires.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HBase
Figure: Fonctionnement de HBase.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Base de données NoSQL
NoSQL : Not Only SQL (2009).SGBD NoSQL Ù permet la gestion des grands volumesde données en passant à l’échelle et en fournissant desmeilleurs performance d’accès aux données.
Large volumes of structured, semi-structured, andunstructured dataAgile sprints, quick iteration, and frequent codepushesObject-oriented programming that is easy to useand flexibleEfficient, scale-out architecture instead of expensive,monolithic architecture
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Base de données NoSQL
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Déploiement d’un cluster Hadoop sur leCloud : étapes
1 Installation de Hadoop.2 Configuration de Hadoop.3 Tests et utilisation réelle Ù en cours...
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Cluster virtuel
OS :Image disque customisée
CentOS 6.4.Espace disque de 24 GB.Contextualisation : StratusLab et CloudInit.
Cluster :2 MV : 1 master + 1 worker.chaque MV : 2 CPU, 4 GB de RAM, 40 GB (1TBcomme objectif) de disque persistent.
Cloudera manager :Oracle Java JDK 1.6.0_33cloudera-manager-*Base de données PostgreSQL.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
API de Cloudera manager
Hadoop v1.0.3 :HDFSMap/Reduce...
Entités présentes sur les noeuds :Master : NameNode, SecondaryNameNode etJobTracker.Worker : TaskTracker et DataNode.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
API de Cloudera manager
Figure: Interface Web permettant de contrôler les différents services.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : WordCount
HelloWorld de Map/Reduce Ù test HDFS etMap/Reduce.Calcul :
Compte le nombre d’apparition d’un mot.Fichiers Map et Reduce en Python Ù Hadoopstreaming.
Données en entrée :$ cat input.txtfoo foo quux labs foo bar quuxCopié sur HDFS.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : WordCount
Job Map/Reduce :
$ hadoop jar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.2.0.jar-file mapper.py -mapper mapper.py-file reducer.py -reducer reducer.py-input /user/cloudera/data/input.txt-output result.txt
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : WordCount
Map :$ cat input.txt | ./mapper.pyfoo 1foo 1quux 1labs 1foo 1bar 1quux 1
Ù association (clé, valeur).
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : WordCount
Traitement interne :$ cat input.txt | ./mapper.py | sort -k1,1bar 1foo 1foo 1foo 1labs 1quux 1quux 1
Ù ordonne alphabétiquement la première colonne.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : WordCount
$ cat input.txt | ./mapper.py | sort -k1,1 |./reducer.pybar 1foo 3labs 1quux 2
Ù compte le nombre d’apparition d’un mot.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : algorithmes simples
Srirama et al., FGCS (2012).Algorithmes qui peuvent être adaptés à l’exécutiond’un modèle de Map/Reduce :
Conjugate Gradient (CG) Ù one iteration.Two different k-medoid clustering algorithms:
Partitioning Around Medoids (PAM) Ù oneiteration.Clustering Large Application (CLARA) Ùsequential execution.
Factoring integers Ù single execution,embarrassingly parallel algorithms.
Ù test HDFS et Map/Reduce.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : algorithmes simples
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Bilan de Map/Reduce
Avantages :Bonne montée en charge.
Inconvénients :Structure des applications Map/Reduce est trèsstricte.Réduire un algorithme complexe à un modèleMap/Reduce n’est pas triviale.Pas de garantie que l’algorithme Map/Reducerésultant soit effectif.
Ù Nécessité de bien choisir les applications.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Utilisation réelle : données SDSS
Mesmoudi & Hacid, ACM (2013).Etude PetaSky Ù test HadoopDB et Hive.Données en entrée :
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Utilisation réelle : données SDSS
Figure: Test de requête.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Bilan des bases de données NoSQL
Avantages :Passe à l’échelle.Full-scan performant.En plein essor (gestion des index, inclusionSGDB...)
Inconvénients :Jointures inefficaces (et interdites si > 2 tables).Paramétrisation difficile.
Ù Nécessité de bien choisir les applications.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Merci pour votre attention.
C. Cavet Big Data : cluster Hadoop
AnnexesSGBD
Type de données
SQL vs NoSQL
C. Cavet Big Data : cluster Hadoop
AnnexesSGBD
Type de données
SQL vs NoSQL
C. Cavet Big Data : cluster Hadoop
AnnexesSGBD
Type de données
Type de données
Type de données
Acquisi0on Stockage Traitement Visualisa0on
Structurées Réplica/on Extrac/on Mise en forme Flots d’évènements
BD Mul/ples formats de données et de stockage transac/onnel
Requêtes et traitement sur les BD (SQL/OLAP) Fédéra/on de requêtes sur des BD ou des systèmes de fichiers distribués Traitements légers
Pas mal d’ou/ls de visualisa/on
Non structurées Transfert de fichiers Extrac/on à par/r de sources différentes
Systèmes de fichier distribués Stockage des fichiers ini/aux
Pré-‐traitement / Map-‐Reduce SQL difficile à définir Workflows de traitement pour produire de l’informa/on Traitements lourds
Besoins en post-‐traitements rapides et parallèles
Des ou/ls de visualisa/on commencent à émerger
Figure: Type de données (Deprez et al. (2012)).C. Cavet Big Data : cluster Hadoop