Hadoop java tdc 2014
-
Upload
aldrin-leal -
Category
Documents
-
view
795 -
download
0
Transcript of Hadoop java tdc 2014
Java para Lderes e Gerentes
Hadoop para Programadores Java
Aldrin Leal
Agenda
Introduo
Overview da Plataforma Hadoop
As APIs Core
Montando o seu Ambiente
Estudo de Caso
Concluso
Introduo
Aldrin Leal
Protroll
Projetos / Experincia em Hadoop
Outras reas:
Cloud
ALM / Release Engineering
Falando nisso
Meu curso hardcore modafoca turbinado de Servios Web Amaznicos (AWS):http://www.soaexpert.com.br/education/cloud
Hadoop em Breve!!!1! \o/
Sobre esta Palestra
Java (1.6, nvel SCJP hardcore)Foi malA Culpa do Cutting!!!1!
Maven-fuProperties, Dependency Plugin, busca de artefatos
Mas... eu j falei sobre tudo isso antes:http://www.slideshare.net/aldrinleal
Overview da Plataforma Hadoop
Natureza da Informao
Volume de Coleta de Dados
Embaraosamente Paralelo (Map Reduce)
Storage de Alta Disponibilidade (HDFS)
Distros: HDP CDH AWS/EMR Outros
Overview da Plataforma Hadoop
Servios
HDFS: Namenode, Journal Node (ou 2NDD), DataNode
MapReduce: Job Tracker, Task Tracker (yarn: RM, RS, PS, HS)
HA: Zookeeper
MapReduce
Mappers
Reducers
Combiners / Partitioners
As APIs Core
Client / Common
Configuration: Leitura de Configurao
IO: Aspectos Comuns
DFS Client (HDFS)
Job Client (MapReduce)
Preparando Ambiente Local
CDH5:http://bit.ly/cdh5-install-guide
Daemons
HDFS: NN, JN, http://localhost:50070
MR (Yarn): http://localhost:19888/
Na verdade, tudo pode rodar local e sem daemon
til para prototipar
Rode em Modo PseudoDistribudo pra conferir
Exemplo
Rei do Camarote
Exemplo
Rei do Camarote
Configurao
Leitura / Escrita
Cmputo da Conta
Criando a Massa de Teste (API Client)
Modelo MapReduce
Modelo MapReduce
Driver, Tool, Configurable, ToolRunner
Job, JobConf
Mapper
Reducer
Combiner
InputFormat
InputSplit
RecordReaders
OutputFormat
Writable / WritableComparable
Counters
Gerando a Massa de Dados
Job MapReduce
Cirurgias no POM
Maven Assembly Plugin
(ou shade)
PegadinhasInputFormat define formato de K/V do Mapper
Use o pacote .mapreduce (o .mapred legado) sempre que possvel
hadoop jar != java jar
Jobs Map Only so mais rpidos
Relacionado: Reducers s rodam quando os maps terminam
Driver
Mapper
Reducer
Rodando
hadoop fs -rmr exemplo-tdc-2014/output
hadoop jar target/hadoop-tdc-2014-job.jar exemplo-tdc-2014/input/01 exemplo-tdc-2014/output/01
Debugging:HADOOP_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005"
-Dmapreduce.jobtracker.address=local
-Dmapreduce.framework.name=local
Ciclo
Crie sua verso
Opcional: MRUnit para Testes
Rode o job localmente (com o filesystem local talvez)
Yarn (bem) mais dolorido :)
Cheque seu classpath e faa testes no modo pseudodistribudo
Assemblies
Maven Shade Plugin
???
Lucro!
Limitaes bvias
Baixo Nvel de API, especialmente para MR
Serializao e Infinidade de problemas com o Writable e amigos
Gerir o Workflow de forma Prtica
Gerir o Schema de Forma Prtica
Solues
Fluxo do Job: Cascading, Crunch, Kite, CDK
Serializao: Thrift, Avro, ProtocolBuffers, Parquet
Malditos Usurios: Hive / Pig
Fluxo Macro: Oozie, Azkaban
HCatalog
Concluso:
Hadoop e seus servios
HDFS e MapReduce
Limitaes e Abstraes
Referncias
Este projeto:
$ hg clone https://bitbucket.org/aldrinleal/hadoop-tdc-2014
Plataforma Hadoop: QCon 2014http://pt.slideshare.net/thiagosantiago25/hadoop-ryu-completeversion
Data-Intensive Text Processing with MapReducehttp://lintool.github.io/MapReduceAlgorithms/
MapReduce Design Patternshttp://www.slideshare.net/DonaldMiner/mapreduce-design-patterns
Dvidas?
Pensamento Final
People prefer remembering to imagining. Memory deals with familiar things; imagination deals with the unknown. Imagination can be frightening it requires risking a departure from the familiar (Shimon Peres)
Obrigado
Globalcode Open4education