Hadoop MapReduce and Apache Spark on EMR: comparing performance for distributed workloads (1)

Hadoop MapReduce and Apache Spark: Comparing Performance for Distributed

WorkloadsFelipe Almeida (falmeida1988@gmail.com)

Rosângela Oliveira (rosangelaoliveira4@yahoo.com.br)

Bancos de Dados não Convencionais 2015/02Prof. Alexandre Assis

Estrutura

● Motivação● Ambiente● Trabalho Preliminar● Dados utilizados● Pré-processamento● Experimentos● Experimento 1● Experimento 2● Conclusões● Lições aprendidas 2

Motivação

Comparar Hadoop MapReduce e Spark em tarefas distribuídas, em especial workloads iterativos.

1ª tarefa: Wordcount distribuído2ª tarefa: Clusterização K-means (ingênua)

Ambiente

Os experimentos foram executados em instâncias EC2 do tipo m3.xlarge com:● 4 processadores● 15GB RAM● 80GB de SSD storage.

Ambiente

Configuração de cada nó Hadoop

YARN_RESOURCEMANAGER_HEAPSIZE 2396

YARN_PROXYSERVER_HEAPSIZE 2396

YARN_NODEMANAGER_HEAPSIZE 2048

HADOOP_JOB_HISTORYSERVER_HEAPSIZE 2396

HADOOP_NAMENODE_HEAPSIZE 1740

HADOOP_DATANODE_HEAPSIZE 757

mapreduce.map.java.opts -Xmx1152m

mapreduce.reduce.java.opts -Xmx2304m

mapreduce.map.memory.mb 1440

mapreduce.reduce.memory.mb 2880

Ambiente

Configuração de cada nó Spark (Setup 1)

Configuração de cada nó Spark (Setup 2)

A configuração com a alocação dinâmica habilitada só é possivel no Yarn.

spark.dynamicAllocation.enabled true

--num-executors 2

spark.executor.cores 1

spark.executor.memory 4096

spark.dynamicAllocation.enabled false

Trabalho Preliminar

Dois datasets foram utilizados com o objetivo de fixar o entendimento do ambiente Hadoop e Spark.

● Text 8: dataset de +- 100Mb, utilizado para executar o Wordcount local.

● Billion word - dataset de +- 4Gb, utilizado para executar o Wordcount local e no ambiente EMR da Amazon.

Dados utilizados: Wordcount

Na fase 1 foi utilizado um dataset composto por:● Informações de pesquisas efetuadas na internet;● 408 arquivos.txt;● Tamanho total de 18Gb.

Estrutura das Linhas

Dados Utilizados: K-means

Dataset de avalização de produtos vendidos na Amazon. Originado na UCSD; o dataset é composto por:

● Tamanho total de 60Gb+ (nós usamos 15Gb)● Total de 24 categorias de produtos (usamos 1 - livros)● Formato Json● Abrangendo o período de maio 1996 - julho 2014.

Exemplo de uma review

Pré-processamento

Normalização e limpeza no dataset das reviews da Amazon, com o objetivo de:

● Obter features das avaliações● Agrupar características consideradas relevantes● Adequar os dados para o K-means

● Featurização● Normalização

Foi usado SparkSQL para a limpeza e formatação dos dados.

Pré-processamento

Features númericas selecionadas: 1. Média da avaliação 2. Tamanho do texto da avalição3. Número de “estrelas” dado4. Review feita em dia útil5. Review feita em fim de semana6. Review feita durante o dia7. Review feita durante a noite

Pré-processamento

Usamos também o Spark para o pré-processamento:

Cria um novo DataFrame com os dados pré-tratados

Experimentos

Os experimentos foram feitos com o intuito de comparar o Hadoop MapReduce com o Spark no que tange à performance e na capacidade de lidar com grande volume de dados.

Foi usado Amazon EMR para ajudar na reprodutibilida- de e para facilitar o desenvolvimento dos programas.

Experimentos

Script para criar um cluster na Amazon EMR Interface da Amazon EMR

Experimento 1

15Execução do Wordcount Distribuido - UMBC DATASET 18Gb

Experimento 1

Ao utilizar a opção Dynamic Allocation do spark, o mesmo demonstrou uma melhora significativa de desempenho:

Experimento 1

Experimento 2

O K-means pode ser distribuído da seguinte forma:

Em cada iteração, cada nó pega as suas amostras e os centros dos clusters atuais para decidir a que cluster cada amostra pertence. (mapper)

Feito isso, os reducers pegam os centros dos clusters e as respectivas amostras e calculam novos centros para os clusters.

Experimento 2

Conclusões

Em geral, mais nós apresentaram um ganho grande em perfor-mance, como era esperado.

O Spark tem, em geral, performance superior ao Hadoop, sobre-tudo em tarefas iterativas, mas também em tarefas de poucas passadas (como o WordCount).

Utilizar uma configuração com mais nós pode, a partir de um determinado momento, não causar muita melhora, principalmen- te quando se analisa o custo-benefício.

Conclusões

O algoritmo K-means convergiu relativamente rápido;● Em geral, menos de 10 iterações

Lições Aprendidas

● Configurações podem fazer muita diferença.

● Se o seu projeto usa outras bibliotecas, precisa colocar todas dentro do Jar que você manda para o cluster.● Usamos sbt-assembly para montar os Jars do Spark e do

Hadoop

● As versões adequadas devem ser utilizadas a fim de evitar quebra de pacote.

Lições Aprendidas

● Em vez de baixar arquivos grandes para a sua máquina e fazer upload para o S3, é melhor criar uma outra máquina EC2, baixar o arquivo nessa máquina e fazer o upload de lá pois, se os dois estiverem na mesma área AWS, a transferência é muito mais rápida.

● Testes locais devem ser feitos com pelo menos duas threads, pois há muitos erros que só aparecem quando há mais de um nó.

Lições Aprendidas

● UDFs (User-defined Functions) são formas ótimas de se ir incrementando um DataFrame e podem ser usadas para vários fins:● Extração de features derivadas● Adição de dados● Normalização● etc.

Referências

O código utilizado em todas as etapas está em https://github.com/queirozfcom/hadoop_spark_ml_comparison

Hadoop MapReduce and Apache Spark on EMR: comparing performance for distributed workloads (1)

Technology

Transcript of Hadoop MapReduce and Apache Spark on EMR: comparing performance for distributed workloads (1)

EMR 12393 Madagascar...76 Trombones (Willson) N° EMR Blasorchester Concert Band EMR 12408 EMR 12379 EMR 12380 EMR 12383 EMR 12390 EMR 12393 EMR 12394 EMR 12396 EMR 12403 Time 3’00

Introduction to Amazon Web Services and MapReduce Jobs · 1.1.1 Hadoop Programming on Amazon Elastic MapReduce Amazon EMR makes it easy to spin up a set of Amazon EC2 instances as

The Research Study on DynamoDB Database · PDF fileDynamoDB also integrates with Amazon Elastic MapReduce (Amazon EMR). Amazon EMR allows businesses to perform complex analytics of

HadoopDB: An Architectural Hybrid of MapReduce and … An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads Azza Abouzeid1, Kamil Bajda-Pawlikowski1,

Big Data Bench 30prof.ict.ac.cn/BigDataBench/wp-content/uploads/...analytics workloads using MapReduce, MPI, Spark, DataMPI, interactive analytics and OLAP workloads using Shark, Impala,

HadoopDB : An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads

· Concerto N° 1 Trumpet, Piano (continued) EMR 666 EMR 676 EMR 665 EMR 663 EMR 641 EMR 679 EMR 682 EMR 6098 EMR 644 EMR 6075 EMR 6061 EMR 6012 EMR 6065 EMR 683 EMR 6021 EMR 6026

DISCOGRAPHY - Amazon S3 · 2020. 6. 9. · Brass Band EMR 1433 EMR 1241 EMR 2507 EMR 2760 EMR 2753 EMR 2574 EMR 1424 EMR 2622 EMR 1240 EMR 1886 EMR 2634 EMR 2551 EMR 1693 EMR 2761

HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads Azza Abouzeid1, Kamil BajdaPawlikowski1, Daniel Abadi1, Avi.

Introduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals

Interactive Analytical Processing in Big Data Systems: A Cross-Industry Study of MapReduce Workloads Jackie.

Amazon Elastic MapReduce (EMR): Hadoop as a Service

[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)

· trumpet solo emr 6001 emr 639 emr 677 trumpet, piano emr 625 emr 624 emr 626 emr 693 emr 640 emr 615 emr 617 emr 618 emr 619 emr 678 emr 6060 emr 6016 emr 616 emr 6066 emr 6067

DISCOGRAPHY · Take Five N° EMR Brass Band EMR 3619 EMR 3620 EMR 3621-EMR 3622 EMR 3623 EMR 3624 EMR 3625 EMR 3626 EMR 3627 EMR 3628 EMR ... HARMONIE – BLASORCHESTER TRUMPET &

DISCOGRAPHY - alle-noten.de · Concerto N° 1 Trumpet, Piano (continued) EMR 666 EMR 676 EMR 665 EMR 663 EMR 641 EMR 679 EMR 682 EMR 6098 EMR 644 EMR 6075 EMR 6061 EMR 6012 EMR 6065

Multi-constraint scheduling of MapReduce workloads

BigDataBench Technical Report - ict.ac.cnprof.ict.ac.cn/BigDataBench/wp-content/uploads/... · analytics workloads using MapReduce, MPI, Spark, DataMPI, interactive an-alytics and

A Storage-Centric Analysis of MapReduce Workloads: File … · 1 A Storage-Centric Analysis of MapReduce Workloads: File Popularity, Temporal Locality and Arrival Patterns Cristina

MapReduce)Extension) - Brown Universitycs.brown.edu/courses/cs195w/slides/mrextensions.pdf · • Scien7ﬁc)Workloads))=)Hadoop’s)Adolescence:)An)Analysis)of)Hadoop)Usage)in)Scien7ﬁc)Workloads)