第一回Hadoop会at tenjin 20100625

第１回 Hadoop会＠ Tenjin

クラウドのコア技術

Hadoooopについて

2010年06月25日橋本　司

2010年6月27日日曜日

分散処理

分散処理とはどういったものか

分散処理

1台で5時間かかる処理を5台で行えば、1時間で終わる

1台の処理量を 1/5 にする

１時間

５時間

分散処理の利点分散処理を行う事でどういった利点があるか

○ 処理の高速化 → 処理を早く終わらせる事ができる例) Yahoo!の試験分散処理 5分34秒 19台

従来の処理 6時間6分35秒 1台○ リスク分散 → 障害リスクを軽減できる

一台停止しても処理続行できる

分散処理の代表例分散処理を採用／提供している企業

Google MapReduce Googleが論文で発表したモデル

Yahoo! Hadoop MapReduceモデルを元にオープンソースとして開発が進められたもの

Amazon Hadoop Elastic MapReduceとして提供

Microsoft Dryad Bing(ビング)で活用Windows Azureに組み込まれると言われている

並列／分散といえば点スパコンではMPI

MPI=Message Passing Interface

問題点

実装の難易度高い耐障害性も自分でチェックポイントを設けて対処

通信パターンの考慮も必要で工数増大

Hadoop

OSSの分散プラットホーム Hadoopとは

簡単比較的簡単に導入できる安価特殊なハードウェアを必要としない

高いスケーラビリティ効率的に拡張が可能

大量データを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォーム

プログラミングモデル Hadoopで使われるプログラミングモデル

MapReduce

・Map … 置換処理・Reduce … まとめ処理開発者はMap関数とReduce関数を記述するだけで実装可能

システム構成例 Hadoopのインストール環境

必要な環境分散処理 Apache Hadoop

JDK Java5以降

OS Ubuntu、Fedoraなど

分散処理

アプリケーション

特殊な環境は必要なく、Linux系のOSにJDKという環境そこにHadoopだけで実行環境が整う

サーバー構成 Hadoopのサーバー構成

Master Slave １

Slave ２

jobtracker

tasktracker

MasterからSlaveへjob trackerがjobを分割したtaskを分配

task trackerはtaskを処理

各ノード間の通信で空のパスワードでのssh通信が必要

jarとデータをセットで渡す

Hadoopファミリー Hadoopの仲間たち

HBase MapReduce

Pig HiveZookeeper Mahout

Chukwa

Hadoopの用途

利用範囲 Hadoopが活躍するアプリケーション

大規模データ(数G～数Tバイトやそれ以上)を扱う処理サイト巡回や巡回結果の解析大量のデータを解析する経営分析夜間処理などのバッチ処理

データマイニング、クラスタリング、情報検索、文章要約

医療データ、気象データなどの解析WikiPedia、ソーシャルメディアなどの解析

RelationalDataBase(RDB)の代替システム

特定のデータベースベンダーからの脱却KeyValueStoreなどNoSQL

アカデミック視点アカデミックな視点からみたHadoop利用

MapReduceの説明へ

MapReduceとは Hadoopで使われるプログラミングモデル

MapReduce

・Map … 置換処理・Reduce … まとめ処理開発者はMap関数とReduce関数を記述するだけで実装可能

MapReduce

MapReduceの基本的な動き

[hoge, 1][hoge, 1][hoge, 1][fuga, 1][fuga, 1]

[hoge, [1, 1, 1]][fuga, [1, 1]]

hoge, hoge, hoge, fuga, fuga

Map Reduce

[hoge, 3][fuga, 2]

[hoge, [1, 1, 1]][fuga, [1, 1]]

key value

複数のTaskで処理を分散実行

output

Shuffle & Sort協調動作複数のTaskで

処理を分散実行

MapReduceの入出力 HDFS上のファイルとKey Valueデータ

XML、CSVなどのファイル

MapReduce

KeyとValueペアMap

KeyとValueペアReduce

TextInputFormat

TextOutputFormat

多段のMapReduce

多段MapReduce

複数MapReduceを組み合わせ可能

KeyValueMap Reduce

Output

Map Reduce

多段の例「Grep」をみる Hadoopサンプル「Grep」の動作

$ hadoop jar hadoop-example.jar grep [入力ファイル] [出力先 ] [正規表現]

引数

Reduce

行の読み込み正規表現での抽出

カウント

Reduce

KeyとValueの入替

文字列生成

入力ファイル

出力ファイル22

grep-serch Job grep-sort Job

「Grep」ソース解説Hadoopサンプル「Grep」の動作

MapReduceの活用

Wikipediaの解析を行うプログラムを作成

Wikipediaデータの解析 Wikipedia解析ツール

Wik-IE リンク取得機能、リンク間情報など情報抽出機能を持つツール

WikiのWebサイト

圧縮されたXML

Wik-IE

D/L エントリーIDと文章文字列の抽出

Mapから渡された KeyValueをファイルへ出力

Reduce

解析結果CSV

Hadoopの可能性

既存システムとの連動を想定したシステム構成

想定システム構成

Hadoop

分散処理

add 中間層

既存システム

既存システムとHadoopを結ぶ機能重要な開発ポイント

OUTPUT

データベース

BI (経営分析等)集計

データ収集データレプリケート

vision of Hadoop-based Application

Hadoop Application

BigTable

Hadoop

internet

internalexternal

data replicateKVS

Hadoopの実例紹介

Hadoop実例実例紹介

Yahoo! ログ解析、レコメンデーションなど

Facebook DWHとして利用、Hive

VISA リスク分析

楽天商品のレコメンデーション

クックパッドマーケティングデータの解析に利用

はやぶさ科学衛星運用解析

今後の課題 Hadoopの今後の課題

・SQLとの親和性

・既存システムとのシームレスな連携

・技術者育成

・運用監視ツール

・開発/デバッグツール

・認証方法の確立

・帯域を占有してしまう2010年6月27日日曜日

Hadoopビール Hadooper垂涎のHadoopビール

第一回Hadoop会at tenjin 20100625

Technology

Transcript of 第一回Hadoop会at tenjin 20100625

Hadoop Hadoop & Spark meetup - Altiscale

· (Page views ? Hourly? Monthly Hadoop Node Hadoop Node Hadoop Camus Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Hadoop Node Ad-Hoc Analysis External Datastores Trends

Hadoop Present - Open Enterprise Hadoop

20100625 Oh Ontbijtbijeenkomst De Brinken

Hue: The Hadoop UI - Hadoop Singapore

Hadoop Conf 2014 - Hadoop BigQuery Connector

Tenjin Hidetaka Valkyries Artbook

Tenjin - the fastest template engine in the world

27...repayment of TL38/39A ( ¥6.5Bn) Payment (Public Offering) "Himonya shopping center" renewal open The building of "the b fukuoka tenjin" completed "the b fukuoka tenjin" opens

PROFESSIONAL HADOOP® SOLUTIONS - Startseite€¦ · The Hadoop Ecosystem 7 Hadoop Core Components 7 Hadoop Distributions 10 Developing Enterprise Applications with Hadoop 12 Summary

Domino AWS 20100625 V2.3

Hadoop Online Tutorials - indiatrainings.in · Menu Search Hadoop Online Tutorials Author REPLY #1825 Hadoop Eco System › Forums › Hadoop Discussion Forum › 250 Hadoop Interview

Tenjin Shinyo Ryu Article

Hadoop Operations Powered By ... Hadoop (Hadoop Summit 2014 Amsterdam)

General Information · Fukuoka Tenjin Bldg. Tenjin Subway Station Mina Tenjin Futata Fukuoka Bank Main Branch Fukuoka City Hall Tenjin Central Park Daimaru Fukuoka Tenjin Saiseikai

Huawei GSM Handover Algorithm I 20100625

Nishitetsu Tenjin Expressway Bus Terminal 西鉄天神高速バス …

1-minute walk from 5 Exit of Tenjin-minami Station . Let ...

Mobile Growth Summit 2017 Tenjin data warehouse presentation

Hadoop 3 (2017 hadoop taiwan workshop)