Lightning talk on RHadoop at the January meetup of BURN

15
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék RHadoop: MapReduce R-ben Kocsis Imre ikocsis @mit.bme.hu BURN Meetup, 2014.01.15.
  • date post

    21-Oct-2014
  • Category

    Technology

  • view

    321
  • download

    2

description

My lightning talk on RHadoop at the 2014 January meetup of the Budapest Users of R Network (BURN).

Transcript of Lightning talk on RHadoop at the January meetup of BURN

Page 1: Lightning talk on RHadoop at the January meetup of BURN

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

RHadoop: MapReduce R-ben

Kocsis Imre

[email protected]

BURN Meetup, 2014.01.15.

Page 2: Lightning talk on RHadoop at the January meetup of BURN

Egy/A Big Data probléma

Elosztott tárolás

„Computation to data”

„At rest Big Data”

o Nincs update

o „Mindent” elemzünk

„Not true, but a very, very good lie!”(T. Pratchett, Nightwatch)

Page 3: Lightning talk on RHadoop at the January meetup of BURN

MapReduce

Distributed File System

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

SHUFFLE

Map

Reduce

[ , ] [ , ] [ , ] [ , ] [ , ]

Page 4: Lightning talk on RHadoop at the January meetup of BURN

Szószámlálás

Page 5: Lightning talk on RHadoop at the January meetup of BURN

MapReduce stílusban szervezhető…

Ami „zavarbaejtően párhuzamos”o „embarrassingly parallel”

„Statistical Query Model”o Locally Weighted Linear Regression, Naive Bayes, Gaussian

Discriminative Analysis, k-means, Logistic Regression, Neural Network, PCA, ICA, EM, SVM, …

„Generalized Iterative Matrix-Vector mult.”o PageRank, gráfátmérő, összefüggő komponensek, …

Page 6: Lightning talk on RHadoop at the January meetup of BURN

RHadoop = Hadoop + R

Hadoop

HDFS

[ , ] [ , ] [ , ]

SHUFFLE

Map

Red

uce map(k,v)

reduce(k,vv)

mapreduce(...)

Page 7: Lightning talk on RHadoop at the January meetup of BURN

RHadoop

github.com/RevolutionAnalytics/RHadoop/

„The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012)

rmr: mapreduce

rhdfs: HDFS állománykezelés

rhbase, plyrmr

Page 8: Lightning talk on RHadoop at the January meetup of BURN

rmr: mapreduce

Page 9: Lightning talk on RHadoop at the January meetup of BURN

Local backend

rmr.options(backend="local")

Helyi állományrendszer

Szekvenciális végrehajtás

Debug!

Input/output itt is állományrendszer

Page 10: Lightning talk on RHadoop at the January meetup of BURN

Input/output format

text

json

csv

native (R sorosítás)

sequence.typedbytes (Hadoop)

pig.hive

hbase

Page 11: Lightning talk on RHadoop at the January meetup of BURN

Előnyök

Map és Reduce: R-ben

o Csomagok!

oMR algoritmus-prototipizálás

+ a vezérlés is: kényelem

Hadoop Job: egy függvényhívás!

o Pl. iteratív MapReduce teljesen R-ben

o Map és Reduce: ~a hívó környezetben

Page 12: Lightning talk on RHadoop at the January meetup of BURN

Hogyan lehet ilyenem?

Local backend, sandbox VM-ek

o Cloudera, Hortonworks

Saját Hadoop klaszter

Amazon Elastic MapReduce (EMR)

o Bérelhető Hadoop klaszter

Saját felhő megoldás

Page 13: Lightning talk on RHadoop at the January meetup of BURN

Rhadoop az Apache Virtual Computing Lab-ban

Előnyök és hátrányok

Page 14: Lightning talk on RHadoop at the January meetup of BURN

Hátrányok?

Nehézkes debug

+1 hangolási réteg

MAHOUT-klón

Sok Hadoop funkc.

Kevés példa

Page 15: Lightning talk on RHadoop at the January meetup of BURN

Ritka események kategorizálása RHadooppal

Infrastr.-adatok

Salánki Ágnes

Működik.

Jópár „gotcha”

De inkább, mint Java-ban