エンタープライズデータレイク構築事例€¦ ·...

1Copyright © 2019 BeeX Inc. All Rights Reserved.

デジタル化への第一歩

エンタープライズデータレイク構築事例ご紹介


事例プロジェクトの背景


データドリブンな経営の実現を目指して

文化

データドリブンな経営

勘よりデータ



スキル

文化


勘よりデータ

分析できる人



データ

スキル

文化


「データ」にフォーカス

勘よりデータ

分析できる人

分析するデータ


データレイク(Data Lake)


AWS様ページより引用

データレイクとは

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ

です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。

引用元：https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/


AWS様ページより引用

データレイクとは

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ

です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。

引用元：https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

どんな「大きさ」、「種類」のデータもそのまま入れられ、適宜取り出せる場所

https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/


エンタープライズ・データレイク構築事例


「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP



多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

企業の中核データ

顧客マスタ

取引伝票



SAP





一般ユーザ



顧客マスタ

取引伝票



SAP





一般ユーザ


組織を跨がる全社データ活用


顧客マスタ

取引伝票



SAP





一般ユーザ




顧客マスタ

取引伝票



SAP





一般ユーザ




顧客マスタ

取引伝票



使えるデータが

適切に維持・管理されている

SAP



データを介して「人」と「サービス」をつなぐ



一般ユーザ




顧客マスタ

取引伝票



使えるデータが

適切に維持・管理されている

SAP


データレイクの実装例


データレイクデータの流れ

データレイク

AWSにおけるデータレイクの中心となるサービス

S3



保管する

データレイク



保管する

データレイク

入れる

アップロード生データ変換/整形

生データ

生



保管する

データレイク

入れる

アップロード生データ変換/整形

生データ

使う

読み込み集計/分析生


入れる使う


アップロード生データ変換/整形読み込み集計/分析

保管する

生データデータレイク

この流れをパイプラインと呼びます

「集計/分析」からパイプラインを遡りながら説明します

生


「一般ユーザ」が利用できるデータは？

アップロード生データ変換/整形読み込み集計/分析保管生


現場での学び

◆ セルフサービスBIが普及• Tableau、 QlikView、 QuickSight等• より製造現場に近い人がBIを使いこなしている


現場での学び

◆ まずは見える化• 画面を見せることで初めて製造現場側もイメージができる• 見える化できればあとは創意工夫

◆ セルフサービスBIが普及• Tableau、 QlikView、 QuickSight等• より製造現場に近い人がBIを使いこなしている



アップロード生データ変換/整形読み込み集計/分析保管

データを利用したいユーザ ≠ データサイエンティスト

少ない

生




Jupyter Notebookを使い

Pythonで分析


生





Pythonで分析

既存のBIツール、

既存のSQLスキルで分析


生





Pythonで分析

既存のBIツール、

既存のSQLスキルで分析

SQLで読み込める形式でデータが保管されていてほしい


生


SQL利用を想定したデータ保管


SQLで読み込める形式でデータを保管するためには

生



DB,テーブル構造・型情報

SQL実行可能な構造





保管コスト、分析パフォーマンス


大容量データへの対応




メタデータ（データの概要、オーナー、更新日等）





どこに、どんなデータがあるか







AWS Glue

Parquet










AWS Glue

Parquet





少し説明

生


Apache Parquet（パーケイ)とは

列指向ファイルフォーマットファイル

として扱える


Apache Parquet（パーケイ)とは

列指向ファイルフォーマット

◆ 列指向(SAP HANAも列指向)

・必要な列のみ読み込み(I/O削減)

・高圧縮率

◆データの型情報・ String、Int、Boolean，Date、 Decimal型など・型毎の最適化 ⇨ 高圧縮率

ファイルとして扱える

男性

女性

男性

02/11

女性

女性

32

45

23

37

28

03/23

11/03

08/06

09/16

男性

女性

男性

02/11

女性

女性

32

45

23

37

28

03/23

11/03

08/06

09/16

行指向(CSV,JSON等) 列指向(Parquet)






AWS Glue

Parquet





変換/整形と合わせて説明

生


SQL利用可能な形式に変換するために





簡潔なコードで分散ETL処理記述可能

生





AWS Glue

生


AWS Glue 利用例（SQL利用可能な形式に変換)



生データアップロード

CSVやJSONなど

no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo

生




CSVやJSONなど

Glueクローラー

DB・テーブル構造

カラム名型

no 整数

first_name 文字列

last_name 文字列


生




CSVやJSONなど

Glueクローラー


カラム名型

no 整数


last_name 文字列

Glue ETL Job

参照

サーバーレス


生




CSVやJSONなど

Glueクローラー

カラム名型

no 整数


last_name 文字列

Glue ETL Job

参照

サーバーレス



生




CSVやJSONなど

Glueクローラー


カラム名型

no 整数


last_name 文字列

Glue ETL Job

参照

サーバーレス SQLAthena

RedshiftSpectrum

参照


生


標準化された形式・場所に保管するために



AWS Glue

・高いスケーラビリティ・ 1秒単位の従量課金・スキーマの自動検出・独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携

生


企業内には色々なデータがありパイプラインが多くなる

アップロード

アップロード

アップロード

データレイク

SAP

・・・

・・・

標準化されたディレクトリ構造

Glueによる変換/整形

生

生

生


企業内には色々なデータがありパイプラインが多くなる

アップロード

アップロード

アップロード

データレイク

SAP

・・・

・・・

標準化されたディレクトリ構造

変換/整形

変換/整形

変換/整形

生

生

生


標準化された形式・場所に保管するために



AWS Glue

課題

・パイプラインの増加・開発工数の増加・運用者スキルのバラツキ


生


企業内の多様なデータを標準化し保管するために



AWS Glue

課題

標準化自動化



生


EXCEL申請書をマスタとすることで定義の標準化・自動化

利用申請書兼データ定義書兼ヒアリングシート

開発ツール

Fluentd

Glue

Redshift

申請書マスターとして設定を生成

設定ファイル生成

Crawler登録

ETLジョブ生成・登録

View定義生成

ユーザ


企業内の多様なデータを標準化し保管するために


利用申請書


AWS Glue

課題

ツール

自動設定


標準化・自動化の仕組みを開発

・高いスケーラビリティ・ 1秒単位の従量課金・スキーマの自動検出・独自ライブラリでより簡易なコード・ RedshiftやAthenaとの連携

生


ユーザ側のアップロード形式と方式の標準化


変換処理開発の効率化はしましたが

標準化自動化



アップロード生データ変換/整形読み込み保管

変換処理はシンプルに保ちたい⇨ 最低限標準化されたフォーマットでアップロード

生集計/分析




変換処理はシンプルに保ちたい⇨ 最低限標準化されたフォーマットでアップロード

ユーザ側がデータをアップロードするハードルは下げたい

生集計/分析




文字コード UTF-8 等

改行コード CRLF，LF 等

フォーマット CSV，JSON 等

圧縮 GZIP 等

タイムゾーン UTC、JST 等

変換処理をシンプルに保ちたい⇨ 標準フォーマット

生集計/分析







圧縮 GZIP 等


アップロード方式の

標準メニュー化


ユーザ利用のハードルを下げたい

生集計/分析




SAPETL




圧縮 GZIP 等


CSV

プロジェクト保有ETLツール





生集計/分析




SAPETL




圧縮 GZIP 等


CSV

DB ETLParquet

GlueのよるDBアクセス






生集計/分析




SAPETL

JSON(GZIP)




圧縮 GZIP 等


CSV等

CSV

DB

ログ

DB ETLParquet

汎用用途・OSSFluentd

GlueのよるDBアクセス






生集計/分析


データマート

Fluentd

awscli

WinSCP

ETL

A社様データレイク実装例アーキテクチャ一部抜粋

CSV、JSON等一時保管

Parquet長期保管

変換

Data Lake層 DWH層

Tier1 Tier2

大規模分析層

ETL

RDBMS

Tableau

アプリケーション

ツール

Python

Glueジョブ１日数回

SQLによる分析・集計

Redshift

spectrum他AWSサービス



プロジェクトの特徴・進め方



データ

スキル

文化


勘よりデータ

分析できる人

分析するデータ

「データ」にフォーカス


データを介して「人」と「サービス」をつなぐ


データを利用したいのは一般ユーザ



企業の中核データ顧客マスタ取引伝票

工場毎に異なるライン事業所固有システム

使えるデータが適切に維持・管理されている

SAP


データレイクは使ってもらってこそ価値がある

ユーザに使ってもらえるサービスを作る


当初のプロジェクトはウォーターフォールを想定していた

情シス部門

BeeX

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門



情シス部門

BeeX

特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門

続々追加される新機能



情シス部門

BeeX

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門


多種多様で形になっていない要件

ユーザは複数部門、要件が形になっていない場合も要件は能動的、積極的に引き出す




情シス部門

BeeX

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門


進め方を調整

多種多様で形になっていない要件

ユーザは複数部門、要件が形になっていない場合も要件は能動的、積極的に引き出す



AWSを利用したサービス

社内プロジェクトだが構図はB2B2Cに近い

B

B

C


AWSを利用したサービス

DataLakeを利用した事業部側プロジェクト

社内プロジェクトだが構図はB2B2Cに近い

B

B

C


ユーザ側に要件を探しにいく

プロトタイピング

PoC事業部側プロジェクト

・アジャイル的・高速・柔軟・短期・見えるモノ


ユーザ側に要件を探しにいく


PoC事業部側プロジェクト


本当のユーザが更に先にいる場合も


ウォーターフォールとアジャイルのハイブリット的な進め方

標準化設計環境構築運用設計

要件定義


PoC

対話とフィードバック

DataLakeプロジェクト

事業部側プロジェクト

・ウォーターフォール的・着実,正確・高品質,安定・標準化,展開・中長期


本当のユーザが更に先にいる場合も


データマート

Fluentd

awscli

WinSCP

ETL

A社様データレイク実装例


Parquet長期保管

変換

Data Lake層 DWH層

Tier1 Tier2

大規模分析層

ETL

RDBMS

Tableau


ツール

Python



Redshift



ニアリアルタイム分析

データマート

Fluentd

awscli

WinSCP

ETL

データレイク実装例ユースケースを元に見える化層を拡張画像、動画や日誌、非構造化データに関しては別の流れを定義しています

PostgreSQL一時保管


Parquet長期保管

変換

Data Lake層

Elasticsearch Service

DWH層

Tier1 Tier2

大規模分析層

見える化層

ETL

Fluentd

ETL

RDBMS

Tableau

Browser


ツール

Python



Redshift


他AWSサービス


ウォーターフォールとアジャイルのハイブリット的な進め方

標準化設計環境構築運用設計

要件定義


PoC

対話とフィードバック展開

ブラッシュアップ

DataLakeプロジェクト

事業部側プロジェクト

・ウォーターフォール的・着実,正確・高品質,安定・標準化,展開・中長期


本当のユーザが更に先にいる場合も本稼働


データレイクの開発・運用体制データスチュワードチーム


テクノロジだけではデータレイクを機能させるのは難しい

このデータはデータレイクにどう入れれば良い？

データの内容に誤りがあったから調整したい

青システムのデータを使いたい

他の事業部はどんな使い方してるなかな？


データスチュワードとは

データスチュワードの主な役割• 核となるメタデータの作成と管理• ルールと標準の文書化• データ品質の問題管理• データガバナンス運営アクティビティの実施※DMBOKより引用

データスチュワード(Data Steward)

組織内のデータ統制を保つ責任を負う役割、組織Data Steward

(執事)


データスチュワードチームの設置

データスチュワードチームデータの健全性を保ち「データスワンプ」にしない

利用しやすいサービスに


まとめ

• エンタープライズデータレイクの特徴• 「技術の壁」と「組織の壁」

• データレイク実装例• 入れる・保管する・使う

• SQLでのデータ取得をするためのパイプライン

• プロジェクトの進め方、体制• B2B2Cのサービスを作る意識

• アジャイルとウォーターフォールのハイブリッド

• データスチュワードチーム

エンタープライズデータレイク構築事例€¦ ·...

Documents

Transcript of エンタープライズデータレイク構築事例€¦ ·...