資料探勘與 Modeler 使用介紹
description
Transcript of 資料探勘與 Modeler 使用介紹
![Page 1: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/1.jpg)
資料探勘與 Modeler 使用介紹資料探勘與 Modeler 使用介紹
資料分類 -C5.0 和 CR&T 模型資料分類 -C5.0 和 CR&T 模型
資料集群 -K-means 和模型評估資料集群 -K-means 和模型評估 4
2
3
1
SPSS Modeler 資料探勘實務基礎SPSS Modeler 資料探勘實務基礎
資料關聯 -Apriori 和 Sequence
![Page 2: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/2.jpg)
關聯範例一 : 購物產品關聯分析關聯範例一 : 購物產品關聯分析
關聯範例二 : 訓練課程需求預測關聯範例二 : 訓練課程需求預測
關聯範例四 : 網頁瀏覽行為分析關聯範例四 : 網頁瀏覽行為分析 4
2
3
1
3.資料關聯 -Apriori 和Sequence3.資料關聯 -Apriori 和Sequence
關聯範例三 : 維修案例的次序分析
![Page 3: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/3.jpg)
資料關聯範例 一
節點【 Apriori 】檔案 shopping.txt
786 records 15 fields
![Page 4: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/4.jpg)
關聯法則基本概念在資料探勘的領域之中,關聯性法則(association rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性。在關聯性法則之使用中, Apriori是最為著名且廣泛運用的演算法。最早是由Agrawal & Srikant 等兩位學者於1994年首先提出。if前項 antecedent(s) then後項consequent(s)
![Page 5: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/5.jpg)
購物產品關聯分析
shopping.txt 的欄位計有 15項,產品分為10個類別分別是 Ready made 、 Frozen Food 、 Alcohol 、 Fresh Vegetables 、 Milk 、 Bakery goods 、 Fresh meat 、 Toiletries 、 Snacks 、 Tinned Goods ,有買資料值為 1 ,沒買則資料值為 0基本資料包括 GENDER 、 AGE 、 MARITAL 、 CHILDREN 、 WORKING ( Currently employed?)
![Page 6: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/6.jpg)
【變數檔案】節點
![Page 7: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/7.jpg)
【類型】節點
![Page 8: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/8.jpg)
欄位的角色設定【輸入】表示允許資料進入 Apriori模型節點作分析,此項資料僅會在關聯規則的前項中出現。【目標】表示設定資料為 Apriori模型節點的輸出欄位,輸出欄位可以是連續型數值也可以是類別型資料。此項資料僅會在關聯規則的後項中出現。 【兩者】表示資料進入 Apriori模型節點分析,此欄位中的資料可以在關聯規則的前項也可以在關聯規則的後項中出現。 【無】表示資料將被 Apriori模型節點忽略。
![Page 9: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/9.jpg)
【 Apriori 】節點
![Page 10: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/10.jpg)
關聯模型注意事項
建模時可以設定支援度、信心度等建模的細節,當門檻值過高而無法生成模型時,使用者須適度調整門檻值 執行後產生關聯規則的模型,可以查看詳細的規則內容。排序的規則有支援度(Support) 、信賴度 (Confidence) 、規則支援 % (Rule Support) 、後項 (Consequent)、提昇 (Lift) 以及可部署性 (Deployability)等方式, 使用者可依需求選擇
![Page 11: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/11.jpg)
執行後的關聯規則 4 個
![Page 12: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/12.jpg)
顯示更多的準則
![Page 13: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/13.jpg)
名詞解釋以第一個關聯規則為例說明如下 :
全部總共 786筆資料買 Milk和 Frozen Food的人是 85筆買 Bakery goods的人是 337筆買 Milk和 Frozen Food而且買 Bakery goods的人是 71筆買 Milk和 Frozen Food但不買 Bakery goods的人是 14筆後項– Bakery goods 前項– Milk和 Frozen Food實例– 85,即符合前項的筆數
![Page 14: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/14.jpg)
名詞解釋支援度– 10.814 = 85/786,是指購買前項產品的客戶佔全部客戶的比例信賴度 - 83.529 = 71/85,是指購買前項產品的客戶中也買後項產品的比例 規則支援 %(即支援度 x 信賴度 )–9.033 = 10.814% x 83.529% 或 = 71 / 786,指購買前項產品也買後項產品的客戶佔全部客戶的比例 提昇– 1.948 = (71/85)/ (337/786)或 = 83.529% / 42.875%,指購買後項產品佔購買前項產品的比例除以購買後項產品佔全部客戶的比例 可部署性– 1.781 = 14/786,指購買前項產品但不買後項產品的人佔全部客戶的比例
![Page 15: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/15.jpg)
降低最小規則信賴度 80%75%
![Page 16: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/16.jpg)
產生目標 Alcohol 的規則組節點
![Page 17: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/17.jpg)
規則組節點 Alcohol 產生的欄位
可分析符合某規則的客戶基本資料, 3 個規則條件不適用時,信心值為 0.5 , 3 個規則條件全符合時,信心值為(0.776+0.752+0.76)/3
![Page 18: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/18.jpg)
資料關聯範例 二
節點【 Apriori 】檔案 UKtraining.txt
2136 records 26 fields
![Page 19: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/19.jpg)
【變數檔案】節點
![Page 20: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/20.jpg)
設定欄位角色 ( 三種基礎課程 )
![Page 21: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/21.jpg)
設最小支援度 1% 最小信賴度50%
![Page 22: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/22.jpg)
資料關聯範例 三
節點【 Sequence 】檔案 Telrepair.txt
750 cases 5915 records 3 fields
![Page 23: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/23.jpg)
次序分析次序 (Sequence)分析的重點在於資料中必須存在先後順序的關係 ( 例如時間 )目前次序分析有兩種方式的,一種是只考量時間的先後順序,僅著重時間的順序作資料關聯的分析,另一種則是考量時間的區段,也就是週期性發生的類型,重點在於時間區段內的變化次序分析可以提共我們針對客戶客製化行銷的預測
![Page 24: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/24.jpg)
次序分析的名詞解釋
實例– 48,和 Apriori不同,是指符合前項且符合後項的筆數支援度– 15.0=75/500,是指符合前項的客戶佔全部客戶的比例信賴度 – 64.0= 48/75,是指符合前項且符合後項的客戶佔符合前項客戶的比例 規則支援 %– 9.6= 48/500,指符合前項且符合後項的客戶佔全部客戶的比例
前項 後項 實例 支援度
信賴度
規則支援 %
Base & Regression Models
Advanced Models
PASW Modeler
48 15.0 64.0 9.6
![Page 25: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/25.jpg)
維修案例檔案說明檔案 Telrepair.txt包括 750個維修案例,共有 5915紀錄,3 個欄位分別是 ID、 index1和stage一個 ID對應一份診斷修理報告, index1紀錄著修理診斷的順序,每個階段的代碼表示一種修理診斷的動作診斷開始以代碼 90表示( 但不完全是 ) ,成功完成修理以代碼 210表示,若問題無法成功解決,則以代碼 299表示FailTelrepair.txt則包括以代碼 299結束的失敗案例
![Page 26: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/26.jpg)
【變數檔案】節點
![Page 27: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/27.jpg)
【類型】節點
![Page 28: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/28.jpg)
【表格】節點
![Page 29: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/29.jpg)
【序列】節點
![Page 30: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/30.jpg)
【序列】節點的 default 值
![Page 31: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/31.jpg)
執行後的關聯規則
![Page 32: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/32.jpg)
不同的排序準則 ( 成功率92%=690/750)
![Page 33: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/33.jpg)
重複修理 ( 22.133% = 166/750 個id)
![Page 34: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/34.jpg)
練習 :失敗案例 FailTelrepair.txt
![Page 35: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/35.jpg)
資料關聯範例四
節點【 Sequence 】檔案 weblog.txt
912 ID 3000 records 3 fields
![Page 36: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/36.jpg)
【變數檔案】節點
![Page 37: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/37.jpg)
【類型】節點
![Page 38: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/38.jpg)
【表格】節點
![Page 39: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/39.jpg)
【序列】節點
![Page 40: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/40.jpg)
執行後的關聯規則 1 個
![Page 41: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/41.jpg)
降低最小規則支援度20%1%
![Page 42: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/42.jpg)
信賴度 100% 時支援度等於規則支援度
![Page 43: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/43.jpg)
序列節點產生的 3 個預測欄位
![Page 44: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/44.jpg)
產生某選定規則的超級節點
![Page 45: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/45.jpg)
序列規則超級節點的選項
![Page 46: 資料探勘與 Modeler 使用介紹](https://reader033.fdocuments.net/reader033/viewer/2022061507/56814675550346895db39c55/html5/thumbnails/46.jpg)
超級節點增加的欄位