【Webinar-Slide】Data Quality Icon Talend Data Quality による 日本語のクレンジング
-
Upload
talend-kk -
Category
Self Improvement
-
view
30.650 -
download
6
description
Transcript of 【Webinar-Slide】Data Quality Icon Talend Data Quality による 日本語のクレンジング
© Talend 2011 1
Talend Data Quality による日本語のクレンジング
Talend, Global Leader in Open Source Integration Solutions
お問合せ : [email protected]
[#521] ver.1.0.0
本ウェビナーのオンデマンドリンク↓http://info.talend.com/jp_dq_cleansing.html?id=webinar_jp_dq_cleansing
© Talend 2011 2
Agenda
(1)Talend ソリューションの概要
(2)Talend Open Profiler / Talend Data Quality の概要
(3)Talend Data Quality の日本語対応
(4)Talend JP Cleansing Functions の詳細
(5)Talend JP Cleansing Functions で出来る事 / 出来ない事
(6)Demonstration
© Talend 2011 3
Talend Unified Platform標準テクノロジを製品基盤に採用 - GUI : Eclipse, ブラウザ - リポジトリ: Subversion, RDBMS
Talend ソリューションの概要
Talend MDM Community Editionコミュニティベースのマスタデータ管理- GPLv2 製品、無制限に使用可能- XML ベースのアクティブデータモデル- 業務ユーザ向け軽量 GUI
Talend Data Qualityクレンジングと検知- クレンジング / 名寄せ用 コンポーネント- 検証レポート機能- データ品質に関する ポータル機能
Talend Integration Suiteミッションクリティカルなデータ運用を実現- チーム開発機能- 自動デプロイ、ロードバランシング、 HA- ジョブフロー制御機能- 運用監理機能
Talend MDM Enterprise Edition全社を俯瞰したマスタデータ管理 - 権限管理・制御 - 妥当性ルールの定義 - 高度なワークフローエンジン
Talend Open Profilerデータの内容・品質検証- GPLv2 製品、無制限に使用可能- 品質指標の作成が可能
GPL 製品
Talend Open Studioデータフローの構築- GPLv2 製品、無制限に使用可能- 多機能・高速データプロセッシング- 450+ のコンポーネントが利用可能
GPL 製品
GPL 製品
© Talend 2011
Talend Open Profiler の概要
世界初のオープンソースによるデータプロファイリング製品 ソースシステムのデータ検証を支援 データに関する情報と統計情報を収集
主要機能 DB スキーマ分析(テーブルキー、インデックス定義の抽出、
スキーマ変更履歴のツリー表示等) カラム分析(最大値、最小値、ユニーク性、空白有無、 NULL 値等) 重複度分析、関連性分析 分析パターン、指標の自由定義等
導入効果 データの品質レベルを調査検証可能 データの特性と特徴を把握可能 製造開発工程前にデータに関する潜在的な問題を発見することが可能 仕様の疑わしいデータの発見に費やす時間と工数を削減 業務分析担当者がデータ内容の把握と維持に必要な作業を発見することを支援
Data Quality
© Talend 2011
Talend Data Quality の概要
サブスクリプション製品、 Talend Open Profiler の拡張版であり、 Talend Integration Suite のアドオン製品
Data Profiler Talend Data Quality Portal によるデータ品質情報の公開 データ品質に関する統計情報の履歴管理と遷移の評価
Data Cleanser データ変換処理の品質自体を向上 「誤った」データの除去または再利用を促進 例外データの収集 基本的な日本語データクレンジングが可能 以下との I/F が可能 :
個人名、法人名、住所、電話番号のマスタ辞書 同音異義語、異音同義語のマスタ辞書 外部のデータクレンジングエンジン
データマッチング / フィルタリング / エンリッチメント、名寄せ、標準化に適用可能
Data Quality
※ 本日のメイントピック
※ 日本固有データへの拡張機能をメトロ社(弊社パートナー)が開発し、リリース
© Talend 2011
Talend Integration Suite名寄せ用辞書・定期更新・随時更新
・基本的なクレンジング機能を 標準で装備 * 名前 * 住所 * 電話番号 * 郵便番号等
Talend Data Quality
・高度なクレンジング機能に加え、名寄せ、マッチング等の機能を提供
・専用辞書に加え、他社製辞書や既存データとのリンクも可能
他社製辞書
お客様既存のデータ
・ TDQ に標準機能として追加
・メトロ社(弊社パートナー)によるオプション製品 (MDQ) としてご提供
Talend Data Quality の日本語対応①
AdvancedData
CleansingEngine
for Japanese
Talend JPCleansingFunctions
MDQ
※ 本日のメイントピック
© Talend 2011
Talend Data Quality の日本語対応②
半角全角変換 / 空白削除
半角全角変換 / 空白削除 /丁目、番地、号等のハイフン統一
全角半角変換 / 空白削除 /数字以外の文字削除
名前クレンジング
住所クレンジング
電話番号クレンジング
郵便番号クレンジング
日本語を含むデータに対して基本的なクレンジングを行う機能
Talend Data Quality に標準実装※Talend がご提供
※本日のメイントピック
メトロ社(弊社パートナー)よりご提供※オプション機能
Talend JP Cleansing Functions
旧字⇒新字変換 /姓名分割 / 法人格統一 /法人名部署等分離
住所妥当性判定 /旧住所⇒新住所変換 /住所辞書からの住所補完 /郵便番号からの住所補完 /住所コード付加 / 住所分割、連結
名前クレンジング
住所クレンジング
全角⇒半角変換 / 数字以外削除 /住所からの局番補完 /住所との電話番号妥当性判定 /局番区切り補正
電話番号クレンジング
全角⇒半角変換 / 数字以外削除 /住所から郵便番号補完 /住所との郵便番号の妥当性判定 /郵便番号の種類判定 /ビルの郵便番号判定
郵便番号クレンジング
個人・法人名寄せ /世帯名寄せ / 住所名寄せ /電話番号名寄せ
名寄せマッチング
総合判定
MDQ(Option)
電話帳データベースマッチング /電話番号調査
データの信用性判定
全角半角変換 / 空白削除 /数字以外の文字削除
© Talend 2011
Talend JP Cleansing Functions の詳細
クラス ファンクション パラメータ 戻り値 機 能
TalendJPCleansing
allTrimAllstr :空白削除対象文字列 (String )
空白削除済み文字列 (String )
文字列内の全ての空白(全角スペース+半角スペース)を削除します。
HanZenConvertinStr :全半角混在文字列 (String )
全角文字列(String )
全半角混在文字列内の全ての半角文字を全角文字に変換します。
ZenHanConvertinStr :全半角混在文字列 (String )
半角文字列(String )
全半角混在文字列内の全ての全角文字を半角文字に変換します。
delNotNumAlldata :文字列(String )
数値文字列(String )
文字列から数値を抽出します。
HyphenToStdHyphen
inAddr :全角文字列 (String)
ハイフン統一後文字列 (String)
文字列中の全角ハイフン、全角マイナス、全角ダッシュ、全角長音を '- '( 全角マイナス ) に統一します。
© Talend 2011
Talend JP Cleansing Functions で出来る事 / 出来ない事
9
出来る事
① 全半角スペースの削除
② 半角全角変換(文字列単位)
③ 全角ハイフン統一(文字列単位)
④ 数字以外の文字の削除(文字列単位 郵便・電話番号に使用)
出来ない事
① 漢数字アラビア数字の変換
② 丁目番地号表記の変換( Ex : “1丁目2番地3号””1-2-3”)
③ 区切付き郵便・電話番号のフォーマットチェック・変換
④ 辞書をベースとした整合性チェック、文字列補完
※ TDQ で拡張実装可能
※ メトロ社が MDQ でオプション機能としてご提供
© Talend 2011 10
Demonstration
では、実際に Talend JP Cleansing Functionsを使ってみましょう
© Talend 2011
Demonstration – Case 1
11
氏名のクレンジング[元データ ]
氏 名 データの状態
鈴木一郎 区切無し
佐藤 二郎 半角 SP区切
田中 三郎 全角 SP区切
ササキ シロウ 半角カナ 半角 SP 区切
①スペース削除②半角⇒全角変換
© Talend 2011
Demonstration – Case 2
12
郵便番号・電話番号のクレンジング[元データ ]
郵便番号 電話番号 データの状態
222-1111 03-222-1111 半角アラビア数字 半角ハイフン区切
222―2222 03―222―2222 半角アラビア数字 全角ダッシュ区切
222‐3333 03‐222‐3333 半角アラビア数字 全角ハイフン区切
222- 4444 03- 222- 4444 半角アラビア数字 全角マイナス区切
222 ー 5555 03 ー 222 ー 5555 半角アラビア数字 全角長音区切
2226666 032226666 半角アラビア数字 区切無し
222-7777 03-222-7777 全角アラビア数字 全角マイナス区切
①数字以外の文字を削除②半角に統一
© Talend 2011
Demonstration – Case 3
13
住所のクレンジング[元データ ]
住 所 データの状態
東京都港区六本木3丁目1-1 全角アラビア数字 全角マイナス区切
東京都港区六本木三丁目1-2 丁目 全角漢数字 番地号 全角アラビア数字 全角マイナス区切
東京都港区六本木 3-1-3 半角アラビア数字 半角ハイフン区切
東京都港区六本木3丁目1ー4 全角アラビア数字 全角長音区切
東京都新宿区西新宿3丁目2-1 新宿パークビル16階
全角アラビア数字 全角マイナス区切 その他住所 全角
東京都北区赤羽3丁目2-2 赤羽第三ビルディング 3F
全角アラビア数字 全角マイナス区切 その他住所 全半角混在
①半角⇒全角変換②ハイフン統一
© Talend 2011
Resources
HIRING: Talend is growing rapidly…
今回の Webinar の内容に関するご質問、その他、資料請求、お問合せ、デモンストレーションのご依頼等ございましたら、下記メールアドレスにお気軽にご連絡下さい。
email to [email protected]
ダウンロード : http://www.talend.com/download.php
チュートリアル : http://www.talendforge.org/tutorials/menu.php
フォーラム : http://www.talendforge.org/forum/
14