從公益資料分析到聰明公益平台
陳昇瑋台灣資料科學協會理事長
中央研究院資訊科學研究所研究員
以資料科學及人工智慧做為後盾
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
(Photo credit: Brian Harrington Spier)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
3 Major Trends of Data Science
Big Data Deep Learning
Deep Analytics
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
3V Explained
#1. Big Data
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Computer vision in sports
Play tracking
(Slide Credit: Jia-Bin Huang)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Computer vision in sports
Second Spectrum: visual analytics
(Slide Credit: Jia-Bin Huang)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Computer vision for healthcare
Video magnification(Slide Credit: Jia-Bin Huang)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 13
https://www.youtube.com/watch?v=QbXgEbeceJI
(Credit: Jia-Bin Huang)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 14
3 Major Trends of Data Science (#2)
#2. Deep Learning
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Machine Learning
16
A field of study that gives computers the ability to learn without being explicitly programmed.
Find the common patterns from the left waveforms
It seems impossible to write a program for speech recognition
你好 你好
你好 你好
You quickly get lost in the exceptions and special cases.
(Slide Credit: Hung-Yi Lee)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 17
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Let the machine learn by itself
你好
大家好
人帥真好
You said “你好”
A large amount of audio data
You only have to write the program for learning
Learn how to do speech
recognition
(Slide Credit: Hung-Yi Lee)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 19
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 21
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 22
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 23
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 24
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Word Embedding
25
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Word Embedding
26
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Word Vector
Source: http://www.slideshare.net/hustwj/cikm-keynotenov2014
(Slide Credit: Hung-Yi Lee)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Word Vector
Characteristics
Solving analogies
𝑉𝑉 ℎ𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑉𝑉 ℎ𝑜𝑜𝑜𝑜 ≈ 𝑉𝑉 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑜𝑜𝑜𝑜 − 𝑉𝑉 𝑏𝑏𝑏𝑏𝑏𝑏𝑉𝑉 𝑅𝑅𝑜𝑜𝑅𝑅𝑜𝑜 − 𝑉𝑉 𝐼𝐼𝑜𝑜𝐼𝐼𝐼𝐼𝐼𝐼 ≈ 𝑉𝑉 𝐵𝐵𝑜𝑜𝑜𝑜𝐼𝐼𝑏𝑏𝐵𝐵 − 𝑉𝑉 𝐺𝐺𝑜𝑜𝑜𝑜𝑅𝑅𝐼𝐼𝐵𝐵𝐼𝐼𝑉𝑉 𝑘𝑘𝑏𝑏𝐵𝐵𝑏𝑏 − 𝑉𝑉 𝑞𝑞𝑞𝑞𝑜𝑜𝑜𝑜𝐵𝐵 ≈ 𝑉𝑉 𝑞𝑞𝐵𝐵𝑢𝑢𝐼𝐼𝑜𝑜 − 𝑉𝑉 𝐼𝐼𝑞𝑞𝐵𝐵𝑜𝑜
Rome : Italy = Berlin : ?
𝑉𝑉 𝐺𝐺𝑜𝑜𝑜𝑜𝑅𝑅𝐼𝐼𝐵𝐵𝐼𝐼≈ 𝑉𝑉 𝐵𝐵𝑜𝑜𝑜𝑜𝐼𝐼𝑏𝑏𝐵𝐵 − 𝑉𝑉 𝑅𝑅𝑜𝑜𝑅𝑅𝑜𝑜 + 𝑉𝑉 𝐼𝐼𝑜𝑜𝐼𝐼𝐼𝐼𝐼𝐼
Compute 𝑉𝑉 𝐵𝐵𝑜𝑜𝑜𝑜𝐼𝐼𝑏𝑏𝐵𝐵 − 𝑉𝑉 𝑅𝑅𝑜𝑜𝑅𝑅𝑜𝑜 + 𝑉𝑉 𝐼𝐼𝑜𝑜𝐼𝐼𝐼𝐼𝐼𝐼Find the word w with the closest V(w)
(Slide Credit: Hung-Yi Lee)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Machine Reading
Machine learn the meaning of words from reading a lot of documents without supervision
Machine learns to understand netizens via reading the posts on PTT
(Slide Credit: Hung-Yi Lee)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧 (Slide Credit: Hung-Yi Lee)
陳昇瑋 / 資料科學往前看-從大數據到人工智慧
Big data vs. Machine learning vs. AI
Big data: 3Vs
Machine learning: “A field of study that gives computers the ability to learn without being explicitly programmed"
Artificial intelligence
Turing test
31
3 Major Trends of Data Science (#3)
Q: 如何提高利潤?
#3. Deep Analytics
提升產品品質? 加強包裝?
加強行銷? 降低生產成本?
提升研發效率? 提升行政效率?
提升回頭率? 技術水準?
Deep Analytics
33
資料分析如何幫我們更瞭解捐款人?
34
x 3,518
in 10.5 years (since May 2003)
35
37
20 50 80
捐款金額分布 (每戶個案家庭)
38
40
41
Title & picture rating
http://mmnet.iis.sinica.edu.tw/~cslin/rating/welcome.php
42
人工編碼成果
431編碼者
6532人次
255小時
8436家庭成員
1590個案
44
Variables we got (290+)
45
46
捐款意願與時間點高度相關
47
星期幾很重要
日 一 二 三 四 五
48
哪個月份也重要
一 二 三 四 五 六 七 八 九 十 十一 十二
49
受訪者的胖瘦會影響捐款決策
50
52
誰收到較多捐款?
54
捐款人對各式疾病及身心障礙有差別待遇
55
57
59
不可抗力因素較讓人同情
60
意外失業 離婚入獄 人為
意外輟學
62
64
捐款與固定支出成反比
個案家庭固定支出
捐款金額
65
捐款者期待能看見「希望」
資訊充足,才能聰明地捐款。
陳昇瑋台灣資料科學協會理事長
中央研究院資訊科學研究所研究員
聰明公益資訊平台
台灣有超過兩千個社會公益團體,你認識幾個呢?
68
聰明公益資訊平台 69
聰明公益資訊平台
搜尋及過濾條件
70
聰明公益資訊平台
地圖檢視
71
聰明公益資訊平台
分析功能
72
NPO 資訊總覽 (1/4)
73
聰明公益資訊平台
NPO 資訊總覽 (2/4)
74
NPO 資訊總覽 (3/4)
75
聰明公益資訊平台
NPO 資訊總覽 (4/4)
76
聰明公益資訊平台
群眾參與 (1/2)
維基百科模式:只要以 Facebook or Google 帳號登入後,任何人都可以編輯任何 NPO 的任何資訊。
77
但不用擔心,所有編輯記錄都會被留下,因此若有人搗亂或惡意填寫不實資訊,都可以檢舉。再由管理者回覆到正確的版本。
群眾參與 (2/2)
78
聰明公益資訊平台
NPO 資訊編輯 (1/2)
79
聰明公益資訊平台
NPO 資訊編輯 (2/2)
80
聰明公益資訊平台
資訊透明度的量化
81
聰明公益資訊平台
資訊透明度權重與計算方式說明
資訊透明度的計算的重點在於估計每項資訊的權重,我們採用常見的 IDF (Inverse Document Frequency) 的原則,也就是說,越常見的資訊,權重越低;反之,越少見的資訊,權重越高。
越多NPO 填寫的欄位,表示越容易取得/提供,因此權重低;反之,越少NPO 提供的欄位,表示取得成本較高,通常也表示更有價值,因此權重高。
舉例來說成立日期有 100% NPO 提供,權重為 1.0
登記財產總額有 64% NPO 提供,權重為 4.19
公開徵信查詢只有 5% NPO 提供,權重為 14.91
82
http://www.smartdonor.tw/transparency.php
聰明公益資訊平台
假設共有N 家NPO,某個欄位 f 有 n(f) 家NPO 填寫,那麼欄位 f 的基本權重就是 sqrt(N/n(f)),基本權重再經過正規化讓所有欄位的權重加起來為 100,就是最後的權重值。舉例來說,目前本平台共有 2404 家NPO,共有 121 家NPO 提供「公開徵信查詢」連結,那麼「公開徵信查詢」欄位的基本權重為sqrt( 2404 / 121),經過正規化後,此欄位的權重為 14.91。
sqrt (平方根) 的作用是讓欄位之間的權重差異小一點,不要被少數的重要欄位決定分數。
權重不是固定的值,隨著NPO 在平台上填寫更多資料,權重會隨時調整。假設有一天所有的NPO 都提供公開徵信查詢,那「公開徵信查詢」的欄位權重就會變成 1.0。
83
84
聰明公益資訊平台 85
http://smartdonor.tw/npo.php?npo=1034
聰明公益資訊平台
我們的願景
從捐款人的角度所有的NPO 資訊一目瞭然可以搜尋、排序、比較、分析不用到每個NPO 網站慢慢翻找資料,所有資料一頁呈現成為聰明的捐款人
從公益團體的角度讓潛在捐款人看到自己的努力讓大型NPO 可以量化方式呈現成果讓小型NPO 更有機會被看見。對小型NPO 來說,即使人力有限,可讓社會善心人士幫忙維護NPO 公開資訊。
86
聰明公益資訊平台
最後的提醒
87
陳昇瑋 / 以資料科學進行資料治理
美國財政部稅務催繳信
88
陳昇瑋 / 以資料科學進行資料治理
稅務催繳信改善
89
陳昇瑋 / 以資料科學進行資料治理 90
陳昇瑋 / 以資料科學進行資料治理
美國聯邦政府案例
住宅與都市發展部 + 衛生及公共服務部
連結低收入老人租房補貼或承租公營住宅資料及醫療資料,評估社福政策及社工到府照護服務是否有所幫助?
依分析進行決策:部分住房補貼轉移至照護政府支出沒有增加,但死亡率降低 25%
85 歲以上有複合性慢性疾病者,死亡率降低 49%
91
聰明公益資訊平台
致謝
92
Top Related