Hadoop java tdc 2014

download Hadoop java   tdc 2014

If you can't read please download the document

Transcript of Hadoop java tdc 2014

Java para Lderes e Gerentes

Hadoop para Programadores Java

Aldrin Leal

Agenda

Introduo

Overview da Plataforma Hadoop

As APIs Core

Montando o seu Ambiente

Estudo de Caso

Concluso

Introduo

Aldrin Leal

Protroll

Projetos / Experincia em Hadoop

Outras reas:

Cloud

ALM / Release Engineering

Falando nisso

Meu curso hardcore modafoca turbinado de Servios Web Amaznicos (AWS):http://www.soaexpert.com.br/education/cloud

Hadoop em Breve!!!1! \o/

Sobre esta Palestra

Java (1.6, nvel SCJP hardcore)Foi malA Culpa do Cutting!!!1!

Maven-fuProperties, Dependency Plugin, busca de artefatos

Mas... eu j falei sobre tudo isso antes:http://www.slideshare.net/aldrinleal

Overview da Plataforma Hadoop

Natureza da Informao

Volume de Coleta de Dados

Embaraosamente Paralelo (Map Reduce)

Storage de Alta Disponibilidade (HDFS)

Distros: HDP CDH AWS/EMR Outros

Overview da Plataforma Hadoop

Servios

HDFS: Namenode, Journal Node (ou 2NDD), DataNode

MapReduce: Job Tracker, Task Tracker (yarn: RM, RS, PS, HS)

HA: Zookeeper

MapReduce

Mappers

Reducers

Combiners / Partitioners

As APIs Core

Client / Common

Configuration: Leitura de Configurao

IO: Aspectos Comuns

DFS Client (HDFS)

Job Client (MapReduce)

Preparando Ambiente Local

CDH5:http://bit.ly/cdh5-install-guide

Daemons

HDFS: NN, JN, http://localhost:50070

MR (Yarn): http://localhost:19888/

Na verdade, tudo pode rodar local e sem daemon

til para prototipar

Rode em Modo PseudoDistribudo pra conferir

Exemplo

Rei do Camarote

Exemplo

Rei do Camarote

Configurao

Leitura / Escrita

Cmputo da Conta

Criando a Massa de Teste (API Client)

Modelo MapReduce

Modelo MapReduce

Driver, Tool, Configurable, ToolRunner

Job, JobConf

Mapper

Reducer

Combiner

InputFormat

InputSplit

RecordReaders

OutputFormat

Writable / WritableComparable

Counters

Gerando a Massa de Dados

Job MapReduce

Cirurgias no POM

Maven Assembly Plugin

(ou shade)

PegadinhasInputFormat define formato de K/V do Mapper

Use o pacote .mapreduce (o .mapred legado) sempre que possvel

hadoop jar != java jar

Jobs Map Only so mais rpidos

Relacionado: Reducers s rodam quando os maps terminam

Driver

Mapper

Reducer

Rodando

hadoop fs -rmr exemplo-tdc-2014/output

hadoop jar target/hadoop-tdc-2014-job.jar exemplo-tdc-2014/input/01 exemplo-tdc-2014/output/01

Debugging:HADOOP_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005"

-Dmapreduce.jobtracker.address=local

-Dmapreduce.framework.name=local

Ciclo

Crie sua verso

Opcional: MRUnit para Testes

Rode o job localmente (com o filesystem local talvez)

Yarn (bem) mais dolorido :)

Cheque seu classpath e faa testes no modo pseudodistribudo

Assemblies

Maven Shade Plugin

???

Lucro!

Limitaes bvias

Baixo Nvel de API, especialmente para MR

Serializao e Infinidade de problemas com o Writable e amigos

Gerir o Workflow de forma Prtica

Gerir o Schema de Forma Prtica

Solues

Fluxo do Job: Cascading, Crunch, Kite, CDK

Serializao: Thrift, Avro, ProtocolBuffers, Parquet

Malditos Usurios: Hive / Pig

Fluxo Macro: Oozie, Azkaban

HCatalog

Concluso:

Hadoop e seus servios

HDFS e MapReduce

Limitaes e Abstraes

Referncias

Este projeto:

$ hg clone https://bitbucket.org/aldrinleal/hadoop-tdc-2014

Plataforma Hadoop: QCon 2014http://pt.slideshare.net/thiagosantiago25/hadoop-ryu-completeversion

Data-Intensive Text Processing with MapReducehttp://lintool.github.io/MapReduceAlgorithms/

MapReduce Design Patternshttp://www.slideshare.net/DonaldMiner/mapreduce-design-patterns

Dvidas?

Pensamento Final

People prefer remembering to imagining. Memory deals with familiar things; imagination deals with the unknown. Imagination can be frightening it requires risking a departure from the familiar (Shimon Peres)

Obrigado

Globalcode Open4education