Post on 11-Aug-2020
Big Data Analytics for Semiconductor Manufacturing
大數據分析跨域團隊建立
Etu CEO 蔣居裕 (Fred Chiang) Big Data 跨域整合聯盟 會長
fredchiang@etusolution.com
July 17, 2015
Big Data Analytics for Semiconductor Manufacturing
• 關於「分析」
• 關於「團隊」
• 關於資料科學 (Data Science) 與資料產品 (Data Product)
• 關於 Data Preparation – Enterprise Data Lake
• 結論
2
大 綱
Big Data Analytics for Semiconductor Manufacturing
Who am I?
蔣居裕 Fred Chiang
Open xxx 的愛好者
資料價值的探索者
• 精誠集團 Etu CEO
• 精誠集團 產品創新中心 副總經理
• Big Data 跨域整合聯盟會長
• Open Data 聯盟副會長
Blog —《Fred 豢養的雲中象》http://fredbigdata.blogspot.tw
all about Hadoop and Big Data
台灣少見以探討 Big Data 趨勢、技術、商業價值為主軸的專業部落格
3
Big Data Analytics for Semiconductor Manufacturing
什麼是分析?
Analysis
is the process of breaking a complex topic or
substance into smaller parts in order to gain a better understanding of it.
~ Wikipedia
4
Big Data Analytics for Semiconductor Manufacturing
口頭與實質
你口頭說是「分析」,但可能並不是
5
Big Data Analytics for Semiconductor Manufacturing
分析,不是資料價值的終點
6
統計 > 加總
分析 > 統計
洞見 > 分析
行動 > 洞見
行動 最大化 價值
Big Data Analytics for Semiconductor Manufacturing
科學團隊 ?
7
Big Data Analytics for Semiconductor Manufacturing
Harvard
Business
Review
October 2012
http://cromi.org/main/wp-content/uploads/2012/10/Davenport-2012-data-scientist.pdf
資料科學, 我們是要仰仗這位性感的傢伙嗎?
Big Data Analytics for Semiconductor Manufacturing
團隊 vs. 超人
9
Data Science Profiles
Big Data Analytics for Semiconductor Manufacturing
團隊聚在一起是為了什麼?
解決真實世界的問題
10
從問對問題開始
Big Data Analytics for Semiconductor Manufacturing
問個問題
有一個人,生平的願望是環台灣半島,
但他只有在暑假的時間才有空,而且只能用 3 天的時間,
更重要的是:
不能太累
他該如何行動?
11
Big Data Analytics for Semiconductor Manufacturing 12
From Data to Action
Action
Insight
Knowledge
Information
Data
資料價值驅動
策略
分析
處理
394 公里
台灣南北全長 394 公里
一般人騎單車的時速約 15 公里;台灣夏季吹南風,冬季吹東北風
台灣夏季由北騎到南,一般人不可能達到平均時速 15 公里
暑假計畫要從台灣南騎到北,目標在 3 天內完成
詳情參見: http://fredbigdata.blogspot.tw/2013/05/big-data.html
12
Big Data Analytics for Semiconductor Manufacturing
從 Data 到 Product
13
Big Data 價值,
從 Data Product 而
生
Big Data Analytics for Semiconductor Manufacturing
使用一或多種資料集,進行處理或分析後,再以下列任一形式交付
產品或服務:
軟體系統 雲端服務 結構化資料 (檔案) 資料庫 API 報表 視覺化圖表 決策輔助 結論 其他
什麼是 Data Product? (資料產品)
Big Data Analytics for Semiconductor Manufacturing
處理者
分析者 策略者
策略者
70%~85% 的工作時間
Data Science Flow
Source: Next-Gen Data Scientist, Dr. Rachel Schutt
Big Data Analytics for Semiconductor Manufacturing
Data Owner
Domain Expert
Data Science Team
Value
資料經濟共構者
Big Data Analytics for Semiconductor Manufacturing
企業
Data IoE
Data
Data Mash-
up
Open Data
Data Platform
Data Science Team Playground
Creative Applications
零售
氣象
金融
製造 旅遊
交通
資料經濟架構
Big Data Analytics for Semiconductor Manufacturing
Data Product 舉例: BestSales 氣象經濟指標服務
[氣象 與 Big Data 雙專業跨界合作 ]
WeatherRisk Etu User
氣象專業 Big Data 平台 商品銷售資料
天氣歷史與預測資料 資料處理
指數模型建構 分析顧問服務
分析模擬工具
Big Data Analytics for Semiconductor Manufacturing
BestSales 氣象經濟指標 – 預測指數
歷史指數
預測指數
天氣因子
Big Data Analytics for Semiconductor Manufacturing
Data Preparation
乾淨、結構化好的 Dataset
不是天上掉下來的
20
Big Data Analytics for Semiconductor Manufacturing
分析洞見之夢,如何成真
21
Insights from Analytics
事實是……
沒有清洗乾淨、結構化好的資料,分析沒有意義,洞見更可能導致悲劇
關鍵在有沒有建構有機、流動的 Data Lake
Big Data Analytics for Semiconductor Manufacturing
Data Preparation 時代的演進
22
Data Lake 企業資料湖泊
+10 Y
OLAP/Discovery 資料分析/資料探索
Data Warehouse 企業資料倉儲
30+ Y
OLAP 資料分析
Database 關聯式資料庫
40+ Y
OLTP 資料交易
Big Data Analytics for Semiconductor Manufacturing
Bottled Water vs. Lake
23
思維 事先定義、照表取用 隨需取用,動態探索
特點 淨化、包裝過,容量少、犧牲細節 匯聚、有機生態、胃納量大、不犧牲細節
比喻 Data Mart 必須要事先定義好 Data Model 才能進行分析
取用結構化好的 Impala/Hive/HBase 入庫資料來進行分析或查詢,不需事先定義 Data Model
DM Schema-on-Write Schema-on-Read
* Data Lake 概念,源自 Pentaho CTO James Dixon 的部落格文章《Pentaho, Hadoop, and Data Lakes》(Oct. 14, 2010)
Big Data Analytics for Semiconductor Manufacturing
Thinker’s Data Lake
24
Thinking about
光分析 RDB/EDW 的資料已經無法滿足需求
要更了解客戶,我們需要加上行為資料 競爭力
RDB/EDW 的運算速度被增長的資料拖慢
需要更彈性靈活的入庫資料取用,以便縮短分析所需的時間
我們要儘可能加快決策速度,分析自然不能慢 反應力
RDB/EDW 的擴充成本居高不下
運算科技持續進步,新架構帶來更高的 ROI 變革力
RDB/EDW 的垂直擴充架構受限
Big Data Analytics for Semiconductor Manufacturing
Doer’s Data Lake
25
Analytics with STAT / DM / ML / EDA
Doing in
Ad-hoc Query
Data Visualization
High Volume Concurrent Query
+ Methodology + Implementation
Big Data Analytics for Semiconductor Manufacturing
Data Lake 的下一步: 分析運算的平行化
26
從拉資料去單機做分析運算,進化到將分析邏輯下放到
Hadoop 叢集運算
把魚從湖裡撈出來,放到水族箱養
vs. 把魚養在湖裡
Big Data Analytics for Semiconductor Manufacturing
結論
27
1. 分析、洞見不是資料價值的終點,行動才是。
2. 跨域是資料科學與資料產品團隊發展的關鍵字。
3. 做好 Data Preparation,是分析有意義的穩當基礎。
- 請注意 Etu 在半導體大數據分析競賽中提供的 Hadoop 相關軟體培訓課程 - Etu Training 有免費的學生名額可供利用 (http://goo.gl/NUaEwd)
Big Data Analytics for Semiconductor Manufacturing
更多 Etu 資訊
28
Website - www.etusolution.com Fans Page - Etu Taiwan