小規模データサイエンスチームを支える SageMaker Ground Truth ·...

22
小規模データサイエンスチームを支える SageMaker Ground Truth 第5回 Amazon SageMaker 事例祭り © aptpod Inc. All Rights Reserved. 1 株式会社アプトポッド 南波寛直 2019/05/21

Transcript of 小規模データサイエンスチームを支える SageMaker Ground Truth ·...

Page 1: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

小規模データサイエンスチームを支えるSageMaker Ground Truth

第5回 Amazon SageMaker 事例祭り

© aptpod Inc. All Rights Reserved. 1

株 式 会 社 ア プ ト ポ ッ ド 南 波 寛 直2 0 1 9 / 0 5 / 2 1

Page 2: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

概要

© aptpod Inc. All Rights Reserved. 2

お客様ごとに性質の異なるデータに対し、限られた社内リソースで効率的・安定的にアノテーションを行うために、Amazon SageMakerGround Truthの利用を始めました「データのラベル付けの自動化」機能と「社内チームによるラベル付け」機能を中心に、実際の活用方法をご紹介します

Page 3: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

会社紹介

© aptpod Inc. All Rights Reserved. 3

Page 4: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

アプトポッドの製品が実現する産業IoTシナリオと機能

© aptpod Inc. All Rights Reserved. 4

Page 5: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

産業IoTミドルウェア

© aptpod Inc. All Rights Reserved. 5

• ミドルウェア• (AWSにおけるKinesis / AWS IoTに類するもの)

• データ収集のためのハードウェア / ソフトウェア• 可視化アプリケーション• 伝送プロトコル

を自社開発し、研究・開発〜量産・運用までの全てのフェーズを支援

Page 6: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

アプトポッド製品と機械学習との繋がり

© aptpod Inc. All Rights Reserved. 6

データ送信 可視化 / 探索 SDKによる取得 機械学習

Page 7: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

Visual M2M Motion for iOS

© aptpod Inc. All Rights Reserved. 7

• モバイルアプリ• 9軸センサ / GPS / 動画像データ

をリアルタイムに送信できるアプリケーション• PoCフェーズにて大活躍

Page 8: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

Visual M2M Data Visualizer

© aptpod Inc. All Rights Reserved. 9

• データ可視化のためのブラウザアプリケーション• センサ / 動画像 / マップ等データ

を(ブラウザの限界まで挑戦して)サクサク表示してくれる

「データ探索」の際には手放せないツール

Page 9: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

課題

© aptpod Inc. All Rights Reserved. 1 0

Page 10: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

課題

© aptpod Inc. All Rights Reserved. 1 1

「データの分析 / 活用もご一緒しませんか」とのお話をいただいた際にデータサイエンスチームの出番だが

• 少人数チーム• (最近4人まで増えました👍)

• お客様ごとに課題・タスク・データの種類が異なる• 時系列性を持つ様々なセンサデータが中心だが、最近は動画の需要が高い

などからデータの準備(画像に対するラベリング)に不安があった

Page 11: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

過去のラベリング実施例

© aptpod Inc. All Rights Reserved. 1 2

1. ラベル付け対象となる画像データセットを用意2. データを一定枚数毎に分割し、これを管理するシートを用意3. ボランティアを募集し、使用するツールやラベリングの手順を説明4. ラベリング実施5. 結果の検証(ラベルのtypoの修正など)、マージ

これに加えてツールのOS/バージョン依存など、ラベリングそのものの大変さに加えて諸々の管理も大きなコストとなっていた

Page 12: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

取り組み

© aptpod Inc. All Rights Reserved. 1 3

Page 13: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

Amazon SageMaker Ground Truthの試用

© aptpod Inc. All Rights Reserved. 1 4

(他の商用のアノテーションツールもいくつか認知していたが)

• SageMakerとの親和性• アノテータの管理が容易(そうに見えた)• 自動ラベリング機能を複雑な準備なく利用可能(そうに見えた)

などの条件から、Amazon SageMaker Ground Truthを試した

Page 14: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

試用した際の諸条件

© aptpod Inc. All Rights Reserved. 1 5

• タスクタイプ:• 境界ボックス

• オブジェクト数:• 1400枚

• ワーカー:• プライベート

• 自動ラベリング:• あり

• ラベリング対象:• 画像内の最大のパイロン(三角

コーン)

Page 15: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

使用感 / 所感

© aptpod Inc. All Rights Reserved. 1 6

Page 16: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

プライベートワークフォース

© aptpod Inc. All Rights Reserved. 1 7

• ワーカーの管理に必要な情報はメールアドレスだけ• 届くメールに記載のURLと仮パスワードを使用し、すぐにラベリング作業可能• (AWSの外の世界で)作業に関する契約をし、メールアドレスだけ管理するよ

うなユースケースも構築できそう• ワーカーごとの進捗/統計等は確認できなさそう(?)• 従量で謝礼をお支払いするケースでは必要となりそう

Page 17: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

自動ラベリング – 動作

© aptpod Inc. All Rights Reserved. 18

• データセット全体(1400枚)に対して:• 手動ラベリング(1280枚)→モデル学習(1時間)→自動ラベリング(120枚)• 結果、63枚が自動でラベリングされた

Page 18: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

自動ラベリング – 出力例

© aptpod Inc. All Rights Reserved. 1 9

•右下が自動ラベリングの出力• (手動では「最大のパイロン」のみ

にラベリングしているため)• もちろん完璧ではないが、要件次

第では十分使えそう?

Page 19: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

自動ラベリング – 発見

© aptpod Inc. All Rights Reserved. 2 0

• 280 / 1000でジョブの区切りがあった• おそらく後者はカスタムワークフローにおける MaxConcurrentTaskCount に相当しそうなため、設定次第で自動ラベリングの割合は調整可能(?)

• とはいえ、諸々のコスト・パフォーマンスを考えると公式ドキュメントの記載に従ったほうが幸せそう• 「自動化データラベリングを使用する場合、数千のデータオブジェクトを使用することを

お勧めします。少なくとも 5,000 データオブジェクトを使用する必要があります。」

• 自動ラベリングのために作成されたモデルもS3に保存されている• 速報的に「データセットの性能どんな感じ?見込みありそう?」といった情報を知るためにも流用できそう!

Page 20: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

全体的な所感

© aptpod Inc. All Rights Reserved. 2 1

•成長中なサービスな印象• 3月に境界ボックスのラベルを複数にできる機能が増えていた👍• 5月上旬頃、一部リージョンのコンソールが崩れジョブを作成できなかった🙈

• 同時期にCLIから類似設定のつもりでジョブを作成すると数十枚の手動ラベリング後に“Annotation Consolidation Failed” が発生し完了できなかった🤔

• ワーカーの管理の機能はまさに求めていたもの• 複数人の分業が必要な量のデータセットでは利用していきたい

• データセットを継ぎ足しで拡充するケースへのソリューションに期待• 「お客さまごとにゼロからデータセットを作っていく」ケースが多いため、特に

自動ラベリング機能と合わせて継ぎ足しに対応されると最高

Page 21: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

宣伝

© aptpod Inc. All Rights Reserved. 2 2

Page 22: 小規模データサイエンスチームを支える SageMaker Ground Truth · データサイエンスチームの出番だが •少人数チーム •(最近4人まで増えました!)

AWS Summit TOKYO 2019

© aptpod Inc. All Rights Reserved. 2 3

• ゴールドスポンサーとして展示出展、及びセッション登壇• 「モバイル、インターネットを介した制御・センサーデータや動画・画像などの

データ伝送におけるリアルタイム性、双方向性、データの完全回収を同時実現し、Python実行基盤『intdash Analytics Service』による機械学習・AI環境までサポートする産業向け高速IoTフレームワーク『intdash』を中心に、Amazon SageMakerとの連携による機械学習・AIソリューション及びAmazon RoboMakerとの連携によるロボティクス向けソリューションなど、デモを交えてご紹介します。」