Lightning talk on RHadoop at the January meetup of BURN

Post on 21-Oct-2014

321 views 2 download

Tags:

description

My lightning talk on RHadoop at the 2014 January meetup of the Budapest Users of R Network (BURN).

Transcript of Lightning talk on RHadoop at the January meetup of BURN

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

RHadoop: MapReduce R-ben

Kocsis Imre

ikocsis@mit.bme.hu

BURN Meetup, 2014.01.15.

Egy/A Big Data probléma

Elosztott tárolás

„Computation to data”

„At rest Big Data”

o Nincs update

o „Mindent” elemzünk

„Not true, but a very, very good lie!”(T. Pratchett, Nightwatch)

MapReduce

Distributed File System

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

SHUFFLE

Map

Reduce

[ , ] [ , ] [ , ] [ , ] [ , ]

Szószámlálás

MapReduce stílusban szervezhető…

Ami „zavarbaejtően párhuzamos”o „embarrassingly parallel”

„Statistical Query Model”o Locally Weighted Linear Regression, Naive Bayes, Gaussian

Discriminative Analysis, k-means, Logistic Regression, Neural Network, PCA, ICA, EM, SVM, …

„Generalized Iterative Matrix-Vector mult.”o PageRank, gráfátmérő, összefüggő komponensek, …

RHadoop = Hadoop + R

Hadoop

HDFS

[ , ] [ , ] [ , ]

SHUFFLE

Map

Red

uce map(k,v)

reduce(k,vv)

mapreduce(...)

RHadoop

github.com/RevolutionAnalytics/RHadoop/

„The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012)

rmr: mapreduce

rhdfs: HDFS állománykezelés

rhbase, plyrmr

rmr: mapreduce

Local backend

rmr.options(backend="local")

Helyi állományrendszer

Szekvenciális végrehajtás

Debug!

Input/output itt is állományrendszer

Input/output format

text

json

csv

native (R sorosítás)

sequence.typedbytes (Hadoop)

pig.hive

hbase

Előnyök

Map és Reduce: R-ben

o Csomagok!

oMR algoritmus-prototipizálás

+ a vezérlés is: kényelem

Hadoop Job: egy függvényhívás!

o Pl. iteratív MapReduce teljesen R-ben

o Map és Reduce: ~a hívó környezetben

Hogyan lehet ilyenem?

Local backend, sandbox VM-ek

o Cloudera, Hortonworks

Saját Hadoop klaszter

Amazon Elastic MapReduce (EMR)

o Bérelhető Hadoop klaszter

Saját felhő megoldás

Rhadoop az Apache Virtual Computing Lab-ban

Előnyök és hátrányok

Hátrányok?

Nehézkes debug

+1 hangolási réteg

MAHOUT-klón

Sok Hadoop funkc.

Kevés példa

Ritka események kategorizálása RHadooppal

Infrastr.-adatok

Salánki Ágnes

Működik.

Jópár „gotcha”

De inkább, mint Java-ban