データマネジメントプラン(DMP)駆動型の データ環境構築 …...データマネジメントプラン (DMP)駆動型の データ環境構築サービス 2020 年
エンタープライズデータレイク構築事例€¦ ·...
Transcript of エンタープライズデータレイク構築事例€¦ ·...
1Copyright © 2019 BeeX Inc. All Rights Reserved.
デジタル化への第一歩
エンタープライズデータレイク構築事例ご紹介
2Copyright © 2019 BeeX Inc. All Rights Reserved.
事例プロジェクトの背景
3Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
文化
データドリブンな経営
勘よりデータ
4Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
スキル
文化
データドリブンな経営
勘よりデータ
分析できる人
5Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
データ
スキル
文化
データドリブンな経営
「データ」にフォーカス
勘よりデータ
分析できる人
分析するデータ
6Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク(Data Lake)
7Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS様ページより引用
データレイクとは
データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ
です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。
引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
8Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS様ページより引用
データレイクとは
データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ
です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。
引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
どんな「大きさ」、「種類」のデータもそのまま入れられ、適宜取り出せる場所
9Copyright © 2019 BeeX Inc. All Rights Reserved.
エンタープライズ・データレイク構築事例
10Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
11Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
12Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
13Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
14Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
15Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
SAP
16Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
使えるデータが
適切に維持・管理されている
SAP
17Copyright © 2019 BeeX Inc. All Rights Reserved.
「データ」における課題とエンタープライズ・データレイク
データを介して「人」と「サービス」をつなぐ
多種多様なレガシーシステム
データを利用したいのは
一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ
顧客マスタ
取引伝票
工場毎に異なるライン
事業所固有システム
使えるデータが
適切に維持・管理されている
SAP
18Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイクの実装例
19Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
データレイク
AWSにおけるデータレイクの中心となるサービス
S3
20Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
保管する
データレイク
21Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
保管する
データレイク
入れる
アップロード生データ 変換/整形
生データ
生
22Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイク データの流れ
保管する
データレイク
入れる
アップロード生データ 変換/整形
生データ
使う
読み込み 集計/分析生
23Copyright © 2019 BeeX Inc. All Rights Reserved.
入れる 使う
データレイク データの流れ
アップロード生データ 変換/整形 読み込み 集計/分析
保管する
生データ データレイク
この流れをパイプラインと呼びます
「集計/分析」からパイプラインを遡りながら説明します
生
24Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管生
25Copyright © 2019 BeeX Inc. All Rights Reserved.
現場での学び
◆ セルフサービスBIが普及• Tableau、 QlikView、 QuickSight等• より製造現場に近い人がBIを使いこなしている
26Copyright © 2019 BeeX Inc. All Rights Reserved.
現場での学び
◆ まずは見える化• 画面を見せることで初めて製造現場側もイメージができる• 見える化できればあとは創意工夫
◆ セルフサービスBIが普及• Tableau、 QlikView、 QuickSight等• より製造現場に近い人がBIを使いこなしている
27Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
データを利用したいユーザ ≠ データサイエンティスト
少ない
生
28Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
Jupyter Notebookを使い
Pythonで分析
データを利用したいユーザ ≠ データサイエンティスト
生
29Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
Jupyter Notebookを使い
Pythonで分析
既存のBIツール、
既存のSQLスキルで分析
データを利用したいユーザ ≠ データサイエンティスト
生
30Copyright © 2019 BeeX Inc. All Rights Reserved.
「一般ユーザ」が利用できるデータは?
アップロード生データ 変換/整形 読み込み 集計/分析保管
Jupyter Notebookを使い
Pythonで分析
既存のBIツール、
既存のSQLスキルで分析
SQLで読み込める形式でデータが保管されていてほしい
データを利用したいユーザ ≠ データサイエンティスト
生
31Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
アップロード生データ 変換/整形 読み込み 集計/分析保管
SQLで読み込める形式でデータを保管するためには
生
32Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
DB,テーブル構造・型情報
SQL実行可能な構造
アップロード生データ 変換/整形 読み込み 集計/分析保管生
33Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
SQL実行可能な構造
大容量データへの対応
アップロード生データ 変換/整形 読み込み 集計/分析保管生
34Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管生
35Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
AWS Glue
Parquet
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管生
36Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
AWS Glue
Parquet
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管
少し説明
生
37Copyright © 2019 BeeX Inc. All Rights Reserved.
Apache Parquet(パーケイ)とは
列指向ファイルフォーマットファイル
として扱える
38Copyright © 2019 BeeX Inc. All Rights Reserved.
Apache Parquet(パーケイ)とは
列指向ファイルフォーマット
◆ 列指向(SAP HANAも列指向)
・ 必要な列のみ読み込み(I/O削減)
・ 高圧縮率
◆データの型情報・ String、Int、Boolean,Date、 Decimal型など・ 型毎の最適化 ⇨ 高圧縮率
ファイルとして扱える
男性
女性
男性
02/11
女性
女性
32
45
23
37
28
03/23
11/03
08/06
09/16
男性
女性
男性
02/11
女性
女性
32
45
23
37
28
03/23
11/03
08/06
09/16
行指向(CSV,JSON等) 列指向(Parquet)
39Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用を想定したデータ保管
メタデータ(データの概要、オーナー、更新日等)
DB,テーブル構造・型情報
保管コスト、分析パフォーマンス
AWS Glue
Parquet
SQL実行可能な構造
大容量データへの対応
どこに、どんなデータがあるか
アップロード生データ 変換/整形 読み込み 集計/分析保管
変換/整形と合わせて説明
生
40Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用可能な形式に変換するために
アップロード生データ 変換/整形 読み込み 集計/分析保管生
41Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用可能な形式に変換するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
生
42Copyright © 2019 BeeX Inc. All Rights Reserved.
SQL利用可能な形式に変換するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
生
43Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
44Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSONなど
no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo
生
45Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSONなど
Glueクローラー
DB・テーブル構造
カラム名 型
no 整数
first_name 文字列
last_name 文字列
no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo
生
46Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSONなど
Glueクローラー
DB・テーブル構造
カラム名 型
no 整数
first_name 文字列
last_name 文字列
Glue ETL Job
参照
サーバーレス
no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo
生
47Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSONなど
Glueクローラー
カラム名 型
no 整数
first_name 文字列
last_name 文字列
Glue ETL Job
参照
サーバーレス
no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo
DB・テーブル構造
生
48Copyright © 2019 BeeX Inc. All Rights Reserved.
AWS Glue 利用例 (SQL利用可能な形式に変換)
生データ アップロード
CSVやJSONなど
Glueクローラー
no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo
カラム名 型
no 整数
first_name 文字列
last_name 文字列
Glue ETL Job
参照
サーバーレス SQLAthena
RedshiftSpectrum
参照
DB・テーブル構造
生
49Copyright © 2019 BeeX Inc. All Rights Reserved.
標準化された形式・場所に保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携
生
50Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内には色々なデータがありパイプラインが多くなる
アップロード
アップロード
アップロード
データレイク
SAP
・・・
・・・
標準化されたディレクトリ構造
Glueによる変換/整形
生
生
生
51Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内には色々なデータがありパイプラインが多くなる
アップロード
アップロード
アップロード
データレイク
SAP
・・・
・・・
標準化されたディレクトリ構造
変換/整形
変換/整形
変換/整形
生
生
生
52Copyright © 2019 BeeX Inc. All Rights Reserved.
標準化された形式・場所に保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
課題
・ パイプラインの増加・ 開発工数の増加・ 運用者スキルのバラツキ
・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携
生
53Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内の多様なデータを標準化し保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
簡潔なコードで分散ETL処理記述可能
AWS Glue
課題
標準化 自動化
・ パイプラインの増加・ 開発工数の増加・ 運用者スキルのバラツキ
・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携
生
54Copyright © 2019 BeeX Inc. All Rights Reserved.
EXCEL申請書をマスタとすることで定義の標準化・自動化
利用申請書兼データ定義書兼ヒアリングシート
開発ツール
Fluentd
Glue
Redshift
申請書マスターとして設定を生成
設定ファイル生成
Crawler登録
ETLジョブ生成・登録
View定義生成
ユーザ
55Copyright © 2019 BeeX Inc. All Rights Reserved.
企業内の多様なデータを標準化し保管するために
アップロード生データ 変換/整形 読み込み 集計/分析保管
利用申請書
簡潔なコードで分散ETL処理記述可能
AWS Glue
課題
ツール
自動設定
・ パイプラインの増加・ 開発工数の増加・ 運用者スキルのバラツキ
標準化・自動化の仕組みを開発
・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでより簡易なコード・ RedshiftやAthenaとの連携
生
56Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み 集計/分析保管生
変換処理開発の効率化はしましたが
標準化 自動化
57Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
変換処理はシンプルに保ちたい⇨ 最低限標準化されたフォーマットでアップロード
生 集計/分析
58Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
変換処理はシンプルに保ちたい⇨ 最低限標準化されたフォーマットでアップロード
ユーザ側がデータをアップロードするハードルは下げたい
生 集計/分析
59Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
変換処理をシンプルに保ちたい⇨ 標準フォーマット
生 集計/分析
60Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
アップロード方式の
標準メニュー化
変換処理をシンプルに保ちたい⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
61Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
SAPETL
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
CSV
プロジェクト保有ETLツール
アップロード方式の
標準メニュー化
変換処理をシンプルに保ちたい⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
62Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
SAPETL
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
CSV
DB ETLParquet
GlueのよるDBアクセス
プロジェクト保有ETLツール
アップロード方式の
標準メニュー化
変換処理をシンプルに保ちたい⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
63Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側のアップロード形式と方式の標準化
アップロード生データ 変換/整形 読み込み保管
SAPETL
JSON(GZIP)
文字コード UTF-8 等
改行コード CRLF,LF 等
フォーマット CSV,JSON 等
圧縮 GZIP 等
タイムゾーン UTC、JST 等
CSV等
CSV
DB
ログ
DB ETLParquet
汎用用途・OSSFluentd
GlueのよるDBアクセス
プロジェクト保有ETLツール
アップロード方式の
標準メニュー化
変換処理をシンプルに保ちたい⇨ 標準フォーマット
ユーザ利用のハードルを下げたい
生 集計/分析
64Copyright © 2019 BeeX Inc. All Rights Reserved.
データマート
Fluentd
awscli
WinSCP
ETL
A社様データレイク実装例 アーキテクチャ一部抜粋
CSV、JSON等一時保管
Parquet長期保管
変換
Data Lake層 DWH層
Tier1 Tier2
大規模分析層
ETL
RDBMS
Tableau
アプリケーション
ツール
Python
Glueジョブ1日数回
SQLによる分析・集計
Redshift
spectrum他AWSサービス
アップロード生データ 変換/整形 読み込み 集計/分析保管生
65Copyright © 2019 BeeX Inc. All Rights Reserved.
プロジェクトの特徴・進め方
66Copyright © 2019 BeeX Inc. All Rights Reserved.
データドリブンな経営の実現を目指して
データ
スキル
文化
データドリブンな経営
勘よりデータ
分析できる人
分析するデータ
「データ」にフォーカス
67Copyright © 2019 BeeX Inc. All Rights Reserved.
データを介して「人」と「サービス」をつなぐ
多種多様なレガシーシステム
データを利用したいのは一般ユーザ
≠データサイエンティスト
組織を跨がる全社データ活用
企業の中核データ顧客マスタ取引伝票
工場毎に異なるライン事業所固有システム
使えるデータが適切に維持・管理されている
SAP
68Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイクは使ってもらってこそ価値がある
ユーザに使ってもらえるサービスを作る
69Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス部門
BeeX
企画
要件定義
設計開発
納品
検収
運用・保守
事業部門
70Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス部門
BeeX
特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース
企画
要件定義
設計開発
納品
検収
運用・保守
事業部門
続々追加される新機能
71Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス部門
BeeX
企画
要件定義
設計開発
納品
検収
運用・保守
事業部門
続々追加される新機能
多種多様で形になっていない要件
ユーザは複数部門、要件が形になっていない場合も要件は能動的、積極的に引き出す
特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース
72Copyright © 2019 BeeX Inc. All Rights Reserved.
当初のプロジェクトはウォーターフォールを想定していた
情シス部門
BeeX
企画
要件定義
設計開発
納品
検収
運用・保守
事業部門
続々追加される新機能
進め方を調整
多種多様で形になっていない要件
ユーザは複数部門、要件が形になっていない場合も要件は能動的、積極的に引き出す
特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース
73Copyright © 2019 BeeX Inc. All Rights Reserved.
AWSを利用したサービス
社内プロジェクトだが構図はB2B2Cに近い
B
B
C
74Copyright © 2019 BeeX Inc. All Rights Reserved.
AWSを利用したサービス
DataLakeを利用した事業部側プロジェクト
社内プロジェクトだが構図はB2B2Cに近い
B
B
C
75Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側に要件を探しにいく
プロトタイピング
PoC事業部側プロジェクト
・アジャイル的・高速・柔軟・短期・見えるモノ
76Copyright © 2019 BeeX Inc. All Rights Reserved.
ユーザ側に要件を探しにいく
プロトタイピング
PoC事業部側プロジェクト
・アジャイル的・高速・柔軟・短期・見えるモノ
本当のユーザが更に先にいる場合も
77Copyright © 2019 BeeX Inc. All Rights Reserved.
ウォーターフォールとアジャイルのハイブリット的な進め方
標準化設計環境構築 運用設計
要件定義
プロトタイピング
PoC
対話とフィードバック
DataLakeプロジェクト
事業部側プロジェクト
・ウォーターフォール的・着実,正確・高品質,安定・標準化,展開・中長期
・アジャイル的・高速・柔軟・短期・見えるモノ
本当のユーザが更に先にいる場合も
78Copyright © 2019 BeeX Inc. All Rights Reserved.
データマート
Fluentd
awscli
WinSCP
ETL
A社様データレイク実装例
CSV、JSON等一時保管
Parquet長期保管
変換
Data Lake層 DWH層
Tier1 Tier2
大規模分析層
ETL
RDBMS
Tableau
アプリケーション
ツール
Python
Glueジョブ1日数回
SQLによる分析・集計
Redshift
spectrum他AWSサービス
79Copyright © 2019 BeeX Inc. All Rights Reserved.
ニアリアルタイム分析
データマート
Fluentd
awscli
WinSCP
ETL
データレイク実装例 ユースケースを元に見える化層を拡張画像、動画や日誌、非構造化データに関しては別の流れを定義しています
PostgreSQL一時保管
CSV、JSON等一時保管
Parquet長期保管
変換
Data Lake層
Elasticsearch Service
DWH層
Tier1 Tier2
大規模分析層
見える化層
ETL
Fluentd
ETL
RDBMS
Tableau
Browser
アプリケーション
ツール
Python
Glueジョブ1日数回
SQLによる分析・集計
Redshift
spectrum他AWSサービス
他AWSサービス
80Copyright © 2019 BeeX Inc. All Rights Reserved.
ウォーターフォールとアジャイルのハイブリット的な進め方
標準化設計環境構築 運用設計
要件定義
プロトタイピング
PoC
対話とフィードバック 展開
ブラッシュアップ
DataLakeプロジェクト
事業部側プロジェクト
・ウォーターフォール的・着実,正確・高品質,安定・標準化,展開・中長期
・アジャイル的・高速・柔軟・短期・見えるモノ
本当のユーザが更に先にいる場合も本稼働
81Copyright © 2019 BeeX Inc. All Rights Reserved.
データレイクの開発・運用体制データスチュワードチーム
82Copyright © 2019 BeeX Inc. All Rights Reserved.
テクノロジだけではデータレイクを機能させるのは難しい
このデータはデータレイクにどう入れれば良い?
データの内容に誤りがあったから調整したい
青システムのデータを使いたい
他の事業部はどんな使い方してるなかな?
83Copyright © 2019 BeeX Inc. All Rights Reserved.
データスチュワードとは
データスチュワードの主な役割• 核となるメタデータの作成と管理• ルールと標準の文書化• データ品質の問題管理• データガバナンス運営アクティビティの実施※DMBOKより引用
データスチュワード(Data Steward)
組織内のデータ統制を保つ責任を負う役割、組織Data Steward
(執事)
84Copyright © 2019 BeeX Inc. All Rights Reserved.
データスチュワードチームの設置
データスチュワードチームデータの健全性を保ち「データスワンプ」にしない
利用しやすいサービスに
85Copyright © 2019 BeeX Inc. All Rights Reserved.
まとめ
• エンタープライズデータレイクの特徴• 「技術の壁」と「組織の壁」
• データレイク実装例• 入れる・保管する・使う
• SQLでのデータ取得をするためのパイプライン
• プロジェクトの進め方、体制• B2B2Cのサービスを作る意識
• アジャイルとウォーターフォールのハイブリッド
• データスチュワードチーム
86Copyright © 2019 BeeX Inc. All Rights Reserved.