Post on 12-Jan-2020
Copyright 2012 FUJITSU LABORATORIES LTD. 0 0
Copyright 2012 FUJITSU LABORATORIES LTD.
ビッグデータを活用する 情報センター向け技術
2012年10月26日
株式会社富士通研究所
フェロー 坂下善隆
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
1.はじめに ビッグデータ時代の到来
企業活動、社会生活で発生する多様かつ大量のデータを
ビジネスに活用するニーズが高まっている
<ビッグデータ市場規模の拡大> <データの急激な増加>
出典:IDC 「IDC Predictions 2012: Competing for 2020」
(#231720、2011/12)
2012年
2.7ZB
2015年
8ZB
1ZB=100万PB
2010 出典:IDC「Worldwide Big Data Technology and Services 2012–2015 Forecast」
(#233485、2012/3)
2011 2012 2013 2014 2015
[$B]
CAGR39.4%
データ量の急増に伴ってビッグデータの利活用が拡大
Worldwide Big Data Technology and Services Revenue by Segment
1
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
M2M SNS ツイッター
スマートフォン
モノ・コト
個人の嗜好や
潜在需要など
ビッグデータの活用の背景
多様なデータを組み合わせた、より深い分析が可能に
変化する世界の最新の傾向を、即座に把握し活用する
モノ・コト
商品の売上や ウェブページの
ランキングなど
ツイッター
口コミ SNS
GPS情報
鉄道乗降
趣味
クレジット情報
ネット購買
コン
テキ
スト
コンテキスト (人の状態や周辺の事象) に 依存する傾向などの分析
POS Webサイト オンラインショップ
2
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
ビッグデータ活用例
[Volume] 1日数千万件から数十億件への高速処理
[Variety] SNSなど多様なデータの組み合わせ分析
[Velocity] デバイスから発生する高頻度データを即時処理
流通:数億件のデータ処理で店舗毎の売れ筋商品を予測
流通:位置情報を利用したクーポン配信サービス
医療:電子カルテから生活習慣と病気の相関分析
製造:クレームや口コミを分析して企業リスクを回避
製造:複合プリンタの故障予測と予防保守
金融:帳票バッチ処理の飛躍的な時間短縮
これまでにないデータ活用が可能に
3
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
先行商談状況
<2011年10月~>
新ビジネスへのチャレンジ
情報系システムの 戦略的活用を深化
35%
31%
30%
4%
SNS情報を分析して企業リスクを回避
企業活動のあらゆるシーンで期待が高まっている
基幹システムのプロセスを革新 店舗毎の売れ筋商品を予測
位置情報を利用したクーポン配信サービス
4
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
富士通研究所での主なビッグデータへの取り組み
収集から活用まで、“より速く”、“より賢く”
各種センサー
携帯機器
ソーシャルメディア
企業内データ
データ
Twitterなど
分析 テキスト分析
シミュレーション
最適化技術
予測
ソーシャルメディア分析
リスクシナリオ分析
マルチエージェントシミュレーション
最適領域発見
分散収集処理技術
データ処理 並列インクリメンタル処理
並列イベント処理 大量データ処理技術 既発表技術
収集
センサー
ワイヤレス
データ最適化
セキュリティ
活用 社会問題
(エネルギー、人口等)
災害予防、医療
マーケティング
リコール予測技術
ピーク電力削減技術
交通シミュレータ
自律負荷分散ストレージ
分析シナリオを自動推薦
ビッグデータ統合開発環境
5
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
2.分析・活用の最新技術
各種センサー
携帯機器
ソーシャルメディア
企業内データ
データ
Twitterなど
分析 テキスト分析
シミュレーション
最適化技術
予測
データ処理 大量データ処理技術
収集
センサー
ワイヤレス
データ最適化
セキュリティ
活用 社会問題
(エネルギー、人口等)
災害予防、医療
マーケティング
①分析シナリオを自動推薦
②ビッグデータ統合開発環境
ビッグデータの各種処理を統合的に開発・実行する環境を開発
ビッグデータを利活用するための分析シナリオを自動的に推薦する技術
6
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
①分析シナリオを自動推薦
活用
大量・多様なデータを 高頻度で収集可能
高度な分析技術を 使いこなすことが難しい
複合的なデータの 組み合わせが重要
ビッグデータ利活用を実現するためには、分析シナリオ(データの組み合わせ、分析プロセス)がポイント
→ 分析の専門家が創出した分析シナリオの蓄積・再利用
→ 蓄積された分析シナリオから目的に合ったものを推薦
(分析シナリオを創出できる分析の専門家の育成の支援にもなる)
分析 収集
分析技術やツールが 整ってきている
ビジネス活用への ニーズが高まっている
7
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
解決のアプローチ
分析の専門家が、分析シナリオを分析テンプレートとして設計・蓄積
→ 蓄積された分析テンプレートが増えてくると、探すことが困難
従来の方法=業種・業務や分析目的で絞り込む方法が一般的
→ 分析目的が明確になっていないビッグデータ利活用には不向き
本技術の方法=分析対象データの内容・特性に合わせて自動推薦
分析の専門家
ビッグデータ 分析シナリオ の自動推薦
新たな分析 シナリオの創出
既存の分析 シナリオの再利用
分析シナリオ(=分析テンプレート) データの組み合わせ、分析プロセス(手順)
分析シナリオがない 新たな分析課題
分析シナリオがある 定式化された分析課題
お客様 SE、コンサル
分析対象データの内容・特性に合わせて 適合する分析シナリオを自動推薦
8
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
技術ポイント
分析テンプレートをデータモデルと対応付けて管理
データプロファイリングにより分析対象データの内容・特性を推定
プロファイリングされた内容・特性を、分析テンプレートと対応付けられているデータモデルとマッチングすることで分析テンプレートを推薦
【データモデル】 データの内容(項目)や特性(値の形式、範囲など)の標準モデル
【分析テンプレート】 分析プロセス(分析の処理手順)を分析部品を組み合わせて設計
対応付けて管理 (どのようなデータにどのような分析シナリオが適用可能か?)
【 POS】 • 年月日 • レシート番号 • 分類名 • 商品名 • 売上金額 • 売上点数 • 店舗名 …
【顧客管理】 • 年齢 • 性別 • 居住エリア • 既婚・未婚 • カード保有 …
【労災事故】 • 業種 • 発生年月日 • 発生場所 • 事象分類 • 事象詳細 • 原因分類 • 原因詳細 …
【イベント情報】 • イベント発生日 • イベント発生場所 • イベント期間 • 対象人数 • 内容詳細 …
分析対象 データ
【データプロファイリング】 •データの内容・特性を推定 •データモデルとマッチング
故障発生予測 のテンプレート
労災事故分析 のテンプレート
イベント発生予測 のテンプレート
9
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
効果
データプロファイリングによる自動推薦により、分析対象データさえあれば、業務・業種や分析に関する深い知識やノウハウがなくても分析プロセスをスパイラルに回していくことが可能
分析シナリオの再利用により、高度な知識やノウハウを持っていなくても簡単に分析業務を実施可能
分析対象データ を指定 データの内容や特性を解析
データの内容や特性に 適合するテンプレートを推薦
追加データ候補を提示
(データの組み合わせを推薦)
データモデル DB
分析結果を提示
データを追加
テンプレート DB
10
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
ビッグデータ処理では、異なるデータ処理タイプを使いこなす、 複数の分析者や開発者(スキル)が必要
リアルタイム処理 バッチ処理
Hadoopスキル 開発者
CEPスキル 開発者
並列設計 スキル開発者
分析の専門家 業務責任者 (ビジネスユーザ)
相談
別々の 記述言語、 異なるUI バッチ用
記述言語
イベント処理用 記述言語
並列 アプリ設計
Hadoop: オープンソースの並列バッチ処理基盤 CEP: Complex Event Processing 複合イベント処理
②ビッグデータ統合開発環境
11
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
異なるデータ処理をつなぐ開発実行環境
開発・実行環境の統合機能 データ流れ図で、バッチ処理とリアルタイム処理を連携した開発が簡単・短期間に
複合イベント処理の並列性抽出機能: リアルタイム処理プログラムから並列性を抽出し、自動的に処理効率を向上
複合イベント処理 (CEP)
蓄積データ処理 (Hadoop)
配備/実行
②複合イベント処理の並列性抽出機能
①開発・実行環境の統合機能
配備/実行
Hadoop: オープンソースの並列バッチ処理基盤 CEP: Complex Event Processing 複合イベント処理
データ流れ図
購買分析 ターゲット 絞込み
位置情報 POS クーポン発行
分析 活用 分析結果を反映
12
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
開発実行環境の統合機能:解決技術
プログラムの自動生成、配備/実行技術 データ流れ図とプロパティの定義から、プログラムを自動生成。
プログラム及びデータを各実行環境へ配備して実行。
プロパティ
業務責任者
(ビジネスユーザ)
処理定義
バッチ処理プログラム
各処理の
パラメータを定義
自動生成
パターン群
プログラムを自動生成
処理内容に応じて処理を補完
データ流れ図
リアルタイム処理実行環境 (CEP)
バッチ処理実行環境 (Hadoop)
配備/実行
リアルタイム処理プログラム
配備/実行
代表的な処理を含む
60種類以上のパターン
・リアル処理 ⇒ 蓄積データ
・バッチ処理 ⇒ イベントデータ
・蓄積データとイベントデータの結合
・・・
処理種別判定
リアルタイム処理
バッチ処理
Hadoop: オープンソースの並列バッチ処理基盤 CEP: Complex Event Processing 複合イベント処理
13
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
開発実行環境の統合機能:効果
POS分析によるクーポン発行の事例で、開発作業を評価
総作業期間: 8週間 ⇒ 1.5週間 に短縮
適用前 適用後
8週間 1.5週間
実装技術習得
分析手順定義
システム実装
2週間
2週間
4週間 不要
不要
①開発・実行環境の
統合機能
並列設計 数日間 ②並列性抽出機能
分析手順定義 個別実装
データ 流れ図
購買動向 分析
位置と好みで クーポン発行
バッチ リアル
業務責任者 開発者 業務責任者
購買動向 分析
開発者
位置と好みで クーポン発行
異なる 記述
並列 アプリ設計
バッチ リアル
開発者
14
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
3.データ処理技術
各種センサー
携帯機器
ソーシャルメディア
企業内データ
データ
Twitterなど 分析 テキスト分析
シミュレーション
最適化技術
予測
データ処理 並列インクリメンタル処理
並列イベント処理 大量データ処理技術
収集
センサー
ワイヤレス
データ最適化
セキュリティ
活用 社会問題(エネルギー、人口等)
災害予防、医療
マーケティング
自律負荷分散ストレージ
その他
15
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
ビッグデータ処理技術
①.「大量」のためのバッチ : Hadoop (MapReduce)
②.「即応性」のためのリアルタイム : CEP (複合イベント処理)
③.並列バッチの「即応性」を向上するインクリメンタル(順次)方式
④.自律負荷分散ストレージ
⑤.高速ファイル転送
大量
リアルタイム μ秒 m秒 秒 分 時
GB
TB
PB
ディス
ク
メモ
リ
センサー
イベント
ストリーム処理 CEP*
業務ログ
SNS
インメモリ処理 インメモリDB、分散キャッシュ
並列分散処理 Hadoop
非構造データ
従来技術
(RDB等)
CEP: Complex Event Processing インクリメンタル バッチ
並列CEP
16
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
①.高性能・高信頼Hadoop統合商品
Hadoop ソフトウエア
サポート
サービス
情報収集・検知
情報分析
(Hadoop)
情報管理
統合
情報利用
開発支援・運用管理
データ活用基盤
情報交換
ノウハウを ベースに 商品化
センシング
ロギン
グ
抽出
ナビゲーション 呼出
活用
業界標準のApache Hadoopをベースにした
エンタープライズシステム向けビッグデータ活用基盤
(1)高性能・高信頼の実現
(2)スマートセットアップ
(3)安心して使える
17
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
並列分散処理を実現
Interstage Big Data Parallel Processing Server
ETERNUS
Apache Hadoop
独自分散 ファイルシステム
HDFS互換 インターフェース
既存システム
アプリ ケーション
共有ファイルを介して
相互にデータ共有可能
データ
標準ファイル インターフェース
Interstage Big Data Parallel Processing Server
18
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
信頼性と性能を大幅向上させた並列分散処理
Hadoop
HDFS
HDFS:Hadoop分散ファイルシステム
既存 システム
転送
転送
アプリ ケーション
Hadoop標準
ETERNUS
Hadoop
独自分散 ファイルシステム
新分散ファイルシステムを利用する場合
内蔵ディスク
既存 システム
アプリ ケーション
共有
HDFSより、I/O性能10倍を実現 当社モデルで全体の処理時間を1/5に短縮
Linux標準のファイルインタフェースによる容易なデータアクセス
ETERNUS等との組み合わせによる高信頼性・運用性向上
Hadoopに富士通独自のファイルシステムを採用
19
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
マスターサーバの高信頼化
単一障害点のマスタサーバを二重化(自動セットアップ)
サーバ故障時に切り替えが高速
PRIMECLUSTER技術による可用性の向上
並列分散処理システム
ビッグデータ
マスターサーバ スレーブサーバ
メタデータ
(管理データ)
高速切替
継続利用
独自分散ファイルシステム 故障
20
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
容易なバックアップ運用
既成のソフトウェアで大量データのバックアップ運用を実現
ETERNUSのハードウェア機能(OPC*)の利用
並列分散処理システム
ビッグデータ メタデータ
(管理データ)
独自分散ファイルシステム
バックアップ
ETERNUS
使い慣れたバックアップソフトウェアの利用
*OPC(One Point Copy)はある時点の業務ボリュームの全データを高速に複製ボリュームにコピーする機能
21
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
大幅短縮
スマートソフトウェアテクノロジー
大幅な導入時間の短縮
(OSS比 10分の1)*
スマートセットアップ
使いやすいソフトウェアの追求
・・・ 70H
7H
*:当社モデルによるApache Hadoop比 V1.0より段階的に提供
コピー
3.5時間 (手作業)
2.0時間 (自動設定)
スマートオペレーション* HW/OS/MWの監視と一括操作の機能をビルトイン
環境 設定
OS/Hadoop
インスト-ル
環境 設定
OS/Hadoop
インスト-ル
(20台構成)
・・・
22
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
全国POS端末(5000店舗: 従来の10倍)
集信サーバ
並列分散処理の適用効果
RDBベースのシステムと比較してシステム価格を低減
独自の分散ファイルシステムの適用により、
既製のソフトウェアで大量データのバックアップ運用を実現
並列分散処理サーバ
分析処理
アプリケーション
数十TB/5年分
•POSデータ
•商品マスタ
•会員マスタ
Interstage Big Data
Parallel Processing
Server 毎日分析
バックアップ
23
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
②. 複合イベント処理(CEP)
アドホック・クエリ
結果
データ
結果
データ
…
継続的クエリ
メモリ RDBを使った
トランザクション処理
CEPエンジンを使った
リアルタイム処理
RDB:Relational Data Base CEP:Complex Event Processing
スマート
シティ
交通 健康機器
定点カメラ
スマホ
気象衛星
物流センサー
情報収集・検知
ル ー ル
イベント
入力 呼出
状態
状態遷移 センシング
(ストリーム)
ナビゲーション
(制 御)
ビッグデータ 役立つ情報を適切に知らせる 役立つ情報を抽出する
家への
侵入は
ありません
もうすぐ
この辺りで
集中豪雨が
あります
A道路は
渋滞中、
B道路を
勧めます
お子さんが
登下校コース
を離れ、C公園
にいます
D店から
半額クーポン
が発行され
ました
複合イベント処理(CEP)
出典: 森下民平、データストリーム管理システム、CAC 、SOFTECHS
ディスク
24
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
CEPエンジンの動的分散 絶え間なく送られてくる時系列データを、リアルタイムに処理
「処理状態」を保持したままで、高速に処理を移動
従来の動的負荷分散方式は、CEPエンジンの拡縮には不適合
Webアプリのスケールアウト方式では、処理状態を引き継げない
仮想マシン(VM)のライブ・マイグレーションは、移動時の負荷・遅延が大きい
CEPエンジン性能向上の課題
従来 新規処理 既存処理
負荷増加時(拡張)
VM … … VM VM VM VM
負荷減少時(縮退)
新VMを割当て
CEP: Complex Event Processing
25
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
中間処理状態を維持する、動的負荷分散技術
処理単位を、クエリ+データに細粒度化し、負荷増減に対応し、CEPエンジン間で高速移動
毎秒500万イベントの高スループットを達成(シンプルなクエリ@60台VMの場合)
各人の位置情報が5秒毎に届く場合、「2,500万人」を処理できる性能
並列CEPエンジンの動的負荷分散技術
イベント入力
初期配置 並列CEPエンジン マネージャ
振分け (ロケータ) 振分マップ動的変更
:クエリ+データ
CEPアプリ (クエリグラフ)
<クラウド/オンプレミス(自社設置)システム>
:並列CEPエンジン イベント出力
拡張/縮退を 動的制御
26
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
バッチ(一括)方式
蓄積 一括処理
到着
蓄積データ全体を処理するため
処理によって数時間~数日かかる
その間、最新情報を活用できない
例: 数時間かかる夜間バッチの場合
反映時刻
到着時刻
24時間 数時間
反映時刻
到着時刻
即時
低頻度
頻度が高いと処理が追いつかず破綻
遅延
高頻度
破綻
活用
ウェブサイト等
必要最小限の処理で結果に反映するため
即時に最新情報を活用できる
インクリメンタル(順次)方式
新着データをその都度、順次処理し 分析結果を直接アップデート
到着 活用
ウェブサイト等
③. インクリメンタル方式
27
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
開発した技術: 適応的データ局所化(ねらい)
0 1 2 3 4 5 6 7 8 9 ディスク上の
データの配置
0 1 2 3 4 5 6 7 8 9
データへの
アクセスの順序
ディスク上の
データの配置
アクセス順序をグラフとして解析
データへの
アクセスの順序 0 3 4 7 1 4 6 0 3 6 7 1
0 3 4 7 1 4 6 0 3 6 7 1
ランダムアクセス
グループ化
(局所化) 並び替え
0 3 7
4
6
1
連続アクセスとなり
ディスクアクセス削減
28
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
開発した新技術: 適応的データ局所化
分析時のデータアクセス (アプリはキー・バリューとして
データにアクセス)
キー・バリュー単位で アクセス履歴を記録
最適な配置を計算
キー・バリューを 動的に再配置
ディスクI/Oを 大幅に削減
特徴: 低オーバヘッド
実運用中に適用可
アクセス履歴ベース
業務の知識不要
適応的
傾向の変化にも追従
(複数のキー・バリューの組を 一つのファイルに格納)
キー・バリュー
:
29
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
適応的データ局所化による I/O 削減の様子
累計データアクセス数: 0(初期状態) ディスク I/O発生率: 100%
終点のデータ項目(1800万件)
起点
のデ
ータ
項目
(1800万
件)
累計データアクセス数: 500,000 ディスク I/O発生率: 53% 累計データアクセス数: 1,000,000 ディスク I/O発生率: 46% 累計データアクセス数: 1,500,000 ディスク I/O発生率: 31% 累計データアクセス数: 2,000,000 ディスク I/O発生率: 19% 累計データアクセス数: 2,500,000 ディスク I/O発生率: 14% 累計データアクセス数: 3,000,000 ディスク I/O発生率: 8.8% 累計データアクセス数: 3,500,000 ディスク I/O発生率: 6.8% 累計データアクセス数: 4,000,000 ディスク I/O発生率: 4.9%
ディス
クI/
O発
生率
累計データアクセス数
累計データアクセス数: 4,500,000 ディスク I/O発生率: 3.4% 累計データアクセス数: 5,000,000 ディスク I/O発生率: 2.8%
本技術
従来のキャッシュ技術(約35%)
約1/10に削減
【想定適用シーン】 オンライン商店での商品推薦
「○○を買った人は□□も買っています」 顧客×商品の分析を常にアップデート
30
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
センセーショナルな事件が起きた時、Webサーバなどでは特定データに対する負荷集中による性能低下がしばしば起こる。
※ある有名ポップスターの大ニュース発生時前後1日でのWikipediaへのアクセスを模したシミュレーション結果
有名スターの大ニュース
記事が 見てみたい
私も
あれ、 つながらない・・・
HDD HDD
HDD HDD
HDD HDD
HDD HDD
インターネット
HDD 関連 記事
HDD HDD HDD
分散ストレージ
関連 記事
関連 記事
記事を持っている特定サーバ のみレスポンスが低下
ニュースにより、関連記事を持っているサーバのみ急激なアクセス集中
アク
セス
頻度
(回
/秒
)
時刻
0
20
40
60
80
100
120
140
160
180
200
0:00 12:00 0:00 12:00 0:00
それぞれのラインは、各サーバのアクセス頻度の時間変化を示す
1
2.3
④.自律負荷分散ストレージ
31
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
負荷集中が起きているデータのレプリカ数を動的に増加させ、 アクセスを分散させる。
富士通研究所の開発技術
①省メモリで急激な負荷集中を検出する技術
②人気データのレプリカ数を適切に増減させる技術
解決手段:レプリカ数動的調整機構
⇒ 急激なアクセス集中でもレスポンスの悪化を回避!
急なアクセス集中を検出し30個レプリカ追加し負荷分散
アク
セス
頻度
(回
/秒
)
時刻
0
20
40
60
80
100
120
140
160
180
200
0:00 12:00 0:00 12:00 0:00
1
0.7
アクセス集中を70%縮減
HDD HDD
HDD
HDD
HDD
HDD
HDD
HDD
インターネット
HDD 関連
記事
HDD HDD HDD
分散ストレージ
関連
記事
関連
記事
関連
記事
関連
記事
アクセス集中データのレプリカを増やして負荷分散
32
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
(1)省メモリで急激な負荷集中を検出する技術
データの個数
メモリ
使用量
メモリ
使用量 メモリ利用量は 常に一定
データの個数
データの個数に 比例して
メモリ使用量が増大
データの個数が多い場合にはメモリに載らず適用できない
ビッグデータでも
限られたメモリでOK!
従来:全データのアクセス状況を管理 本技術:一定個のデータのみを利用
33
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
人気度推定エンジン
膨大なデータから急激なアクセス集中が起きた人気データを省メモリで迅速に検出 アクセスがあったデータを、アクセス数とともに固定個数だけ記録
記録にないデータにアクセスがあった場合、最小アクセス数のデータと入れ替え。その時アクセス数を引き継ぐ。
一定アクセス回数ごとに、記録したアクセス数を1/nに縮減。最近のアクセスを重くカウント
記録したアクセス数の比率から人気度を算出
・・・
データアクセス
リクエスト アクセス数
2
2
1 アクセス数を定期的に縮減
人気度推定エンジン
•固定個数のデータのみを管理
•新データへのアクセスは、最小アクセス数を引き継ぎ、入れ替えることで精度を保証
•最近のアクセス傾向を強く反映する重み付きの人気度
人気度
40%
34
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
(2)人気データのレプリカ数を適切に増減させる技術
アクセス集中の激しさに合わせて、増減させるレプリカ数を制御
人気検出と予兆を判定する2つの閾値で、アクセス増加中の期間を検出
その期間のアクセス頻度の大きさに応じて、増加レプリカ数を決定
アクセス集中度分析機構
アクセス 頻度算出
時刻
人気度
アクセス集中
検出閾値
予兆閾値
データA データB
レプリカ増加数
アクセス
頻度
アクセス頻度が大きいほど、レプリカを多く増加させる
アクセス増加中の期間を算出
アクセス情報
人気の出方に違いがあるデータAとデータBの増加レプリカ数決定の例
アクセス増加中の
アクセス頻度を算出 35
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
ある有名ポップスターの大ニュース発生時前後1日でのWikipediaへのアクセスを模したシミュレーションで、アクセス時間の変化を測定
アクセス集中が起こると、全データへのアクセス時間が、従来は約4倍に悪化。本技術の適用により約1.2倍に抑制
アクセス集中しているデータ自身へのアクセス時間は、従来は約15倍に悪化。本技術の適用により約1.4倍に抑制
シミュレーション評価結果
アクセス集中あり時
(人気データ)
アクセス集中なし時
(全データ)
アクセス集中あり時
(全データ)
0
2
4
6
8
10
12
14
16
相対アクセス時間
従来方式
本技術適用方式
4倍
15倍
1.2倍 1.4倍
36
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
<市場動向:グローバル化>
・ 海外市場の売上比率が増加し、海外とのデータ連携が活発化
・ データ統合が進み、拠点からの参照、ダウンロードが増加
<課題>
・ インターネットを経由すると回線品質が悪く、通信エラーになる場合が多い
・ アプライアンス製品ではコストがかさみ、小さな拠点には導入できない
<ニーズ> ・ グローバルなビジネスシーンで、コストをかけずにデータ連携したい ・ 遠隔地の拠点からのデータ参照、ダウンロードを時間をかけずに行いたい
Interstage Information Integratorは、 これらのお客様の声にお応えします。
⑤高速ファイル転送
37
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
遠隔地の大量データをスピーディに活用 ■WAN帯域を最大限利用し遠隔地からデータ収集を高速化
■データ抽出/変換/格納で処理するデータをブロック単位で
メモリ渡しすることで高速化
*Interstage Information Integratorファイル転送エージェント
III V10.4 Windows版:2012年8月(出荷済み)
Linux版 :2012年10月予定
Solaris版:2012年11月予定
38
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
課題② RTT が大きい程、
通信速度が下がる
遠隔通信の問題
通信距離が長くなること等によるRTT の増加に伴い、送達確認に必要な時間が多く必要となる。
送信側 受信側
データ
ACK
データ
RTT
RTT
RTT(ms)
通信速度
(bps)
大容量のデータ転送の問題
ACK
(Round Trip Time:往復遅延時間 )
TCPファイル転送処理の課題
送信側 受信側 データ
ACK
ACK
データ
データ
ACK
パッケット受信に対し
送達確認を返す
課題① 大容量データの転送は、送達確認
回数が多く転送に時間がかかる。
無駄時間による 転送速度の低下
×高品質だがスピードが遅い
39
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
送信 受信 ③ パケットロス
③ パケットの入れ替え
データ転送の信頼性問題
×スピードは速いが 信頼性が低く且つ 回線を占有してしまう
UDPファイル転送の課題
④ 回線の占有
課題③
TCPの様に受信応答を返さないため、
途中でパケットがロスしたりパケットが入れ替わっても送信側で検知できない。
課題④
UDPプロトコルの特性として、回線帯域を占有してしまうため、
他の業務データの転送が待ちになる。
40
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
独自技術で高速化(RPS:RandomParityStream)
送信側 受信側
送信
データ
RPS
符号化
受信完了の通知まで
冗長データを生成
受信
データ
パケット ロス
RPS
復号
完了通知
冗長データ
UDP転送 (課題①②を解決)
帯域制御 (課題④を解決)
元の データ
※5%のロス率の場合、生成される冗長データの数は5~7%程度
再送が不要なため、高速にデータを転送可能
冗長データを送信し、ロスした元データを受信側で復元
弊社特許 ※RPS:消失訂正技術
(課題③を解決)
41
Copyright 2012 FUJITSU LIMITED & FUJITSU LABORATORIES LTD.
<ご参考> 富士通ビッグデータ向けソフト製品群
業種・業務ソリューション
運用管理
PRIMERGY/PRIMEQUEST ETERNUS
:新製品(‘12.4/23)
Big Data Platform
Big Data Middleware
ISV OSS
: :
クラウド型サービスと同じ機能を体系的に提供
Interstage Big Data Parallel Processing Server
Interstage Big Data Complex Event Processing Server
Interstage Business Analytics Modeling Server
Interstage eXtreme Transaction Processing Server Symfoware Server
42
Copyright 2012 FUJITSU LIMITED. 43 43 Copyright 2010 FUJITSU LABORATORIES LIMITED Copyright 2010 FUJITSU LABORATORIES LIMITED
Copyright 2010 FUJITSU LIMITED Copyright 2010 FUJITSU LIMITED 43 43