Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf ·...

41
Motivations Les VVVV... En Astronomie Technologies Hadoop Cluster Hadoop Cloud computing Cloudera HDFS Map/Reduce HBase Déploiement d’un cluster Hadoop sur le Cloud Étapes Cluster API Tests et utilisation réelle Tests : WordCount Tests : algorithmes simples Utilisation réelle Big Data : utilisation d’un cluster Hadoop Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet Big Data: cluster Hadoop

Transcript of Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf ·...

Page 1: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Big Data : utilisation d’un clusterHadoop

Cécile Cavetcecile.cavet at apc.univ-paris7.fr

Centre François Arago (FACe), Laboratoire APC, Université Paris DiderotLabEx UnivEarthS

14 Janvier 2014

C. Cavet Big Data: cluster Hadoop

Page 2: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Plan

1 Motivations

2 Cluster Hadoop

3 Déploiement d’un cluster Hadoop sur le Cloud

4 Tests et utilisation réelle

C. Cavet Big Data : cluster Hadoop

Page 3: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Big Data

Problématique :Ù Gestion des grandes masses de données.

Collecte.Stockage.Traitement.Visualisation.Analyse.

C. Cavet Big Data : cluster Hadoop

Page 4: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Goulot d’étranglement : les VVVV...

4V des données numériques :Volume.Vitesse d’accumulation et de traitement.Variété (diversité, hétérogénéité).Véracité (bruit, précision).

C. Cavet Big Data : cluster Hadoop

Page 5: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Big Data en Astronomie

C. Cavet Big Data : cluster Hadoop

Page 6: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Big Data en Astronomie

Figure: Projets qui génèrent/vont générer des grands volumes de données.

C. Cavet Big Data : cluster Hadoop

Page 7: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Big Data en Astronomie

Dans un futur très proche (∼2020) :Projets visant à étudier l’énergie noire :

LSST (info@E. Gangler) :∼100 PB d’archives finales d’images.40 × 109 objets Ù Table de 100-200 TB.5000 × 109 observations Ù Table de 1-3 PB.

Euclid (info@S. Colzy) :∼4,4 PB d’archives finales d’images.10 × 109 objets.42000 observations.

Actions en cours :R&T du CNES.PetaSky (MASTODONS) au CNRS.

C. Cavet Big Data : cluster Hadoop

Page 8: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Technologies liées au Big Data

Hadoop.NoSQL.Cloud computing.Data warehouse (entrepôts de base de données) /data smart.

C. Cavet Big Data : cluster Hadoop

Page 9: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Histoire synthétique d’Hadoop1

Google en 2004 : solution propriétaire.GFS (Google FS) : stockage distribué.The Google File System, S. Ghemawat, H. Gobioff& S. Leung.Google Map/Reduce : calcul distribué.MapReduce: Simplified Data Processing on LargeClusters, J. Dean & S. Ghemawat.BigTable : SGBD (Système de Gestion de Basesde Données) basé sur GFS.BigTable: A Distributed Storage System forStructured Data.

Ù Calcul et stockage distribué, tolérant aux pannes.1Les base de données NoSQL, R. Bruchez, Eyrolles (2013)

C. Cavet Big Data : cluster Hadoop

Page 10: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Histoire synthétique d’Hadoop

Apache en 2008 : solution open-source.

http://hadoop.apache.org/

HDFS (Hadoop Distributed FS) : stockagedistribué.Hadoop Map/Reduce : calcul distribué.HBase : SGBD NoSQL.

Ù Cluster Hadoop.

C. Cavet Big Data : cluster Hadoop

Page 11: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Cluster Hadoop

1 Infrastructure :Machinesphysiquesdédiées.Machinesvirtuelles duCloud.

2 Distribution :MapR.Cloudera.HortonWorks.

C. Cavet Big Data : cluster Hadoop

Page 12: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Cluster Hadoop : Cloud computing

Peu (pas) présent dans le monde académique cartechnologie trop récente Ù Cluster MPI engénérale.Déjà présent sur l’infrastructure de Cloud :

Sur AWS EC2 et S3 Ù Amazon ElasticMapReduce (Cloud de type PaaS).http://aws.amazon.com/fr/elasticmapreduce/

Nécessite une infrastructure de calcul distribuéspécifique (CPU, mémoire, stockage et réseau) Ùapplication "challenging" pour le Cloud.

C. Cavet Big Data : cluster Hadoop

Page 13: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

CDH (Cloudera’s Distribution includingApache Hadoop)

Composants Apache :HDFS : système de fichier distribué.MapReduce : framework de traitement parallélisé.HBase : SGBD NoSQL.Hive : Rrequêtage de type SQL.Pig : scripting et requêtage Hadoop.ZooKeeper : coordination des appli. distribuées.Mahout : framework d’apprentissage et dedatamining pour Hadoop.

Composants Cloudera :Oozie : workflow et planification de jobs Hadoop.Sqoop : intégration de bases SQL.Flume : exploitation de fichiers (log) Hadoop.

C. Cavet Big Data : cluster Hadoop

Page 14: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

CDH

Figure: Fonctionnement de la distribution Cloudera.

C. Cavet Big Data : cluster Hadoop

Page 15: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

HDFS

Système de fichiers distribué :En Java.Stocke des données structurées ou non sur unensemble de serveurs distribués.Redondant, résilient.Découpage et distribution en blocks des données :

Blocksize : taille unitaire de stockage(généralement 64 Mo ou 128 Mo).Replication factor : nombre de copies d’unedonnées devant être réparties sur les différentsnoeuds.

C. Cavet Big Data : cluster Hadoop

Page 16: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

HDFS

Figure: Fonctionnement de HDFS.

C. Cavet Big Data : cluster Hadoop

Page 17: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Map/Reduce

Algorithme de traitement de données :Natif :

JAVA (bientôt C++).Autres possibilités (en streaming) :

Python, Ruby, Perl...Fonctionnement :

1 Load input data as key/values.2 Distribute them to computing node.3 Map(): transform to new key/values pairs.4 Reduce(): combine values having the same key.5 Write to output file.

C. Cavet Big Data : cluster Hadoop

Page 18: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Map/Reduce

Figure: Fonctionnement de Map/Reduce.

C. Cavet Big Data : cluster Hadoop

Page 19: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

HBase

SGBD NoSQL :En Java.SGBD non relationnelles.Orientée colonne.Manipulation de grand volume de données sur desarchitectures distribuées.Utilisation conjointe avec HDFS.Gère les accès read/write aléatoires.

C. Cavet Big Data : cluster Hadoop

Page 20: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

HBase

Figure: Fonctionnement de HBase.

C. Cavet Big Data : cluster Hadoop

Page 21: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Base de données NoSQL

NoSQL : Not Only SQL (2009).SGBD NoSQL Ù permet la gestion des grands volumesde données en passant à l’échelle et en fournissant desmeilleurs performance d’accès aux données.

Large volumes of structured, semi-structured, andunstructured dataAgile sprints, quick iteration, and frequent codepushesObject-oriented programming that is easy to useand flexibleEfficient, scale-out architecture instead of expensive,monolithic architecture

C. Cavet Big Data : cluster Hadoop

Page 22: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Base de données NoSQL

C. Cavet Big Data : cluster Hadoop

Page 23: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Déploiement d’un cluster Hadoop sur leCloud : étapes

1 Installation de Hadoop.2 Configuration de Hadoop.3 Tests et utilisation réelle Ù en cours...

C. Cavet Big Data : cluster Hadoop

Page 24: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Cluster virtuel

OS :Image disque customisée

CentOS 6.4.Espace disque de 24 GB.Contextualisation : StratusLab et CloudInit.

Cluster :2 MV : 1 master + 1 worker.chaque MV : 2 CPU, 4 GB de RAM, 40 GB (1TBcomme objectif) de disque persistent.

Cloudera manager :Oracle Java JDK 1.6.0_33cloudera-manager-*Base de données PostgreSQL.

C. Cavet Big Data : cluster Hadoop

Page 25: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

API de Cloudera manager

Hadoop v1.0.3 :HDFSMap/Reduce...

Entités présentes sur les noeuds :Master : NameNode, SecondaryNameNode etJobTracker.Worker : TaskTracker et DataNode.

C. Cavet Big Data : cluster Hadoop

Page 26: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

API de Cloudera manager

Figure: Interface Web permettant de contrôler les différents services.

C. Cavet Big Data : cluster Hadoop

Page 27: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : WordCount

HelloWorld de Map/Reduce Ù test HDFS etMap/Reduce.Calcul :

Compte le nombre d’apparition d’un mot.Fichiers Map et Reduce en Python Ù Hadoopstreaming.

Données en entrée :$ cat input.txtfoo foo quux labs foo bar quuxCopié sur HDFS.

C. Cavet Big Data : cluster Hadoop

Page 28: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : WordCount

Job Map/Reduce :

$ hadoop jar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.2.0.jar-file mapper.py -mapper mapper.py-file reducer.py -reducer reducer.py-input /user/cloudera/data/input.txt-output result.txt

C. Cavet Big Data : cluster Hadoop

Page 29: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : WordCount

Map :$ cat input.txt | ./mapper.pyfoo 1foo 1quux 1labs 1foo 1bar 1quux 1

Ù association (clé, valeur).

C. Cavet Big Data : cluster Hadoop

Page 30: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : WordCount

Traitement interne :$ cat input.txt | ./mapper.py | sort -k1,1bar 1foo 1foo 1foo 1labs 1quux 1quux 1

Ù ordonne alphabétiquement la première colonne.

C. Cavet Big Data : cluster Hadoop

Page 31: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : WordCount

$ cat input.txt | ./mapper.py | sort -k1,1 |./reducer.pybar 1foo 3labs 1quux 2

Ù compte le nombre d’apparition d’un mot.

C. Cavet Big Data : cluster Hadoop

Page 32: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : algorithmes simples

Srirama et al., FGCS (2012).Algorithmes qui peuvent être adaptés à l’exécutiond’un modèle de Map/Reduce :

Conjugate Gradient (CG) Ù one iteration.Two different k-medoid clustering algorithms:

Partitioning Around Medoids (PAM) Ù oneiteration.Clustering Large Application (CLARA) Ùsequential execution.

Factoring integers Ù single execution,embarrassingly parallel algorithms.

Ù test HDFS et Map/Reduce.

C. Cavet Big Data : cluster Hadoop

Page 33: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Tests : algorithmes simples

C. Cavet Big Data : cluster Hadoop

Page 34: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Bilan de Map/Reduce

Avantages :Bonne montée en charge.

Inconvénients :Structure des applications Map/Reduce est trèsstricte.Réduire un algorithme complexe à un modèleMap/Reduce n’est pas triviale.Pas de garantie que l’algorithme Map/Reducerésultant soit effectif.

Ù Nécessité de bien choisir les applications.

C. Cavet Big Data : cluster Hadoop

Page 35: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Utilisation réelle : données SDSS

Mesmoudi & Hacid, ACM (2013).Etude PetaSky Ù test HadoopDB et Hive.Données en entrée :

C. Cavet Big Data : cluster Hadoop

Page 36: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Utilisation réelle : données SDSS

Figure: Test de requête.

C. Cavet Big Data : cluster Hadoop

Page 37: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Bilan des bases de données NoSQL

Avantages :Passe à l’échelle.Full-scan performant.En plein essor (gestion des index, inclusionSGDB...)

Inconvénients :Jointures inefficaces (et interdites si > 2 tables).Paramétrisation difficile.

Ù Nécessité de bien choisir les applications.

C. Cavet Big Data : cluster Hadoop

Page 38: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

MotivationsLes VVVV...

En Astronomie

Technologies

Hadoop

Cluster HadoopCloud computing

Cloudera

HDFS

Map/Reduce

HBase

Déploiement d’uncluster Hadoopsur le CloudÉtapes

Cluster

API

Tests etutilisation réelleTests : WordCount

Tests : algorithmessimples

Utilisation réelle

Merci pour votre attention.

C. Cavet Big Data : cluster Hadoop

Page 39: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

AnnexesSGBD

Type de données

SQL vs NoSQL

C. Cavet Big Data : cluster Hadoop

Page 40: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

AnnexesSGBD

Type de données

SQL vs NoSQL

C. Cavet Big Data : cluster Hadoop

Page 41: Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing

AnnexesSGBD

Type de données

Type de données

Type  de  données  

Acquisi0on   Stockage   Traitement   Visualisa0on  

Structurées   Réplica/on  Extrac/on    Mise  en  forme  Flots  d’évènements  

BD  Mul/ples  formats  de  données  et  de  stockage  transac/onnel  

Requêtes  et  traitement  sur  les  BD  (SQL/OLAP)  Fédéra/on  de  requêtes  sur  des  BD  ou  des  systèmes  de  fichiers  distribués  Traitements  légers  

Pas  mal  d’ou/ls  de  visualisa/on  

Non  structurées   Transfert  de  fichiers  Extrac/on  à  par/r  de  sources  différentes  

Systèmes  de  fichier  distribués  Stockage  des  fichiers  ini/aux  

Pré-­‐traitement  /  Map-­‐Reduce  SQL  difficile  à  définir  Workflows  de  traitement  pour  produire  de  l’informa/on  Traitements  lourds  

Besoins  en  post-­‐traitements  rapides  et  parallèles  

Des  ou/ls  de  visualisa/on  commencent  à  émerger  

Figure: Type de données (Deprez et al. (2012)).C. Cavet Big Data : cluster Hadoop