第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存

第第 1616 組組序列型樣導向之序列叢集化處理序列型樣導向之序列叢集化處理

報告組員：報告組員：蔡承融蔡承融黃于庭黃于庭蘇彥存蘇彥存

第一章、緒論第一章、緒論研究背景研究背景

研究動機研究動機

研究的目的與重要性研究的目的與重要性

研究背景研究背景

電子化時代來臨，企業競爭白熱化電子化時代來臨，企業競爭白熱化

資料探勘是企業從龐大的資料量中找出潛資料探勘是企業從龐大的資料量中找出潛藏而有用的資訊的工具藏而有用的資訊的工具

直接對顧客交易資料進行探勘的序列型樣直接對顧客交易資料進行探勘的序列型樣受到產業界和學術界的重視受到產業界和學術界的重視

研究背景研究背景所謂探勘序列型樣就是從序列資料庫中找所謂探勘序列型樣就是從序列資料庫中找

出所有被一定數量的序列所支援的序列型出所有被一定數量的序列所支援的序列型樣樣

研究背景研究背景使用序列型樣仍會因數量太大而影響使用使用序列型樣仍會因數量太大而影響使用

效率效率

Tadeusz MorzyTadeusz Morzy 等人提出利用序列型樣對等人提出利用序列型樣對序列進行階層式的局部叢集序列進行階層式的局部叢集 (partial cluste(partial clustering)ring)

若產生的叢集數範圍較確定，階層式效能若產生的叢集數範圍較確定，階層式效能較不如分隔式較不如分隔式 (( 如如 k-means)k-means)

研究動機研究動機資料庫經過探勘之後，產生繁多的序列型資料庫經過探勘之後，產生繁多的序列型

樣，使用者不易觀察和使用。樣，使用者不易觀察和使用。

提出ㄧ序列型樣之叢集演算法可協助使用提出ㄧ序列型樣之叢集演算法可協助使用者發現蘊含的資訊者發現蘊含的資訊

叢集處理的演算法的效能要高，過多的時叢集處理的演算法的效能要高，過多的時間和成本進行計算，而失去企業的先機間和成本進行計算，而失去企業的先機

研究的目的與重要性研究的目的與重要性提出序列型樣之硬式叢集之處理方法提出序列型樣之硬式叢集之處理方法

提升序列型樣之叢集處理效能提升序列型樣之叢集處理效能

提出序列型樣之叢集處理的平行化方法提出序列型樣之叢集處理的平行化方法

解決序列型樣產生的資訊量龐大的問題解決序列型樣產生的資訊量龐大的問題

第二章、文獻探討第二章、文獻探討序列型樣之相關研究序列型樣之相關研究

叢集之相關研究叢集之相關研究

序列型樣支叢集處理相關研究序列型樣支叢集處理相關研究

序列型樣之相關研究序列型樣之相關研究序列型樣定義序列型樣定義『序列型樣主要表示資料項目之間的發生順『序列型樣主要表示資料項目之間的發生順序亦即利用項目之間的先後順序，探勘出序亦即利用項目之間的先後順序，探勘出資料庫中隱含的資訊。』資料庫中隱含的資訊。』序列型樣之研究最早由序列型樣之研究最早由 AgrawalAgrawal 和和 SrikantSrikant

提出，之後加入階層等概念將序列型樣的提出，之後加入階層等概念將序列型樣的定義加以延伸定義加以延伸

序列型樣之相關研究序列型樣之相關研究序列型樣之研究序列型樣之研究(1)(1) 演算法速度的提升演算法速度的提升(2)(2) 自訂序列型樣之規則自訂序列型樣之規則(3)(3) 序列型樣的更新維護序列型樣的更新維護(4)(4) 模糊序列型樣處理模糊序列型樣處理(5)(5) 事件之分析事件之分析

叢集之相關研究叢集之相關研究叢集定義叢集定義叢集分為三大類：階層式、分割式、密度叢集分為三大類：階層式、分割式、密度式式

叢集能對資料集內未知特性之資料物件進叢集能對資料集內未知特性之資料物件進行分群的動作行分群的動作

叢集之相關研究叢集之相關研究叢集研究叢集研究(1)(1) 分割式叢集方法分割式叢集方法(2)(2) 階層式叢集方法階層式叢集方法(3)(3) 密度式叢集密度式叢集(4)(4) 模糊叢集模糊叢集

序列型樣之叢集處理相關研究序列型樣之叢集處理相關研究 19991999 年年 Tadeusz MorzyTadeusz Morzy 等人提出等人提出 POPCPOPC

演算法演算法 20012001年年 Tadeusz MorzyTadeusz Morzy 等人又提出等人又提出 POPPOPC-JC-J 和和 POPO-GAPOPO-GA 改進先前所提的演算法改進先前所提的演算法

經學者比較經學者比較 POPC-GAPOPC-GA 較較 POPC-JPOPC-J 執行效率執行效率更佳更佳

第三章、研究方法與限制第三章、研究方法與限制問題與定義問題與定義

研究步驟與流程研究步驟與流程

問題與定義問題與定義如表所示，本研究要解決的問題，就是將如表所示，本研究要解決的問題，就是將 DD

中的序列，依其相似程度分配到不同的叢中的序列，依其相似程度分配到不同的叢集之中，並使每一個序列只能分配到一個集之中，並使每一個序列只能分配到一個叢集之中叢集之中

研究步驟與流程研究步驟與流程本研究之步驟分為五個階段本研究之步驟分為五個階段階段一：資料前置處理階段一：資料前置處理階段二：階段二： POHCPOHC 演算法演算法階段三：階段三： POHCPOHC 平行處理方式平行處理方式階段四：其他改良方式階段四：其他改良方式階段五：階段五： POPC-GAPOPC-GA 演算法的平行處理演算法的平行處理

研究步驟與流程研究步驟與流程階段一：資料前置處理階段一：資料前置處理步驟一、計算每ㄧ序列所符合的序列型樣步驟一、計算每ㄧ序列所符合的序列型樣有哪些。產生如下資料有哪些。產生如下資料

研究步驟與流程研究步驟與流程步驟二、計算每ㄧ序列所符合之序列型樣步驟二、計算每ㄧ序列所符合之序列型樣有哪些，產生序列屬性表有哪些，產生序列屬性表

步驟三、去除未支援任何序列型樣的序列，步驟三、去除未支援任何序列型樣的序列，及屬性值為及屬性值為 00的序列的序列

研究步驟與流程研究步驟與流程階段二：階段二： POHCPOHC 演算法演算法步驟一、選定步驟一、選定 KK 個中心點個中心點 (x1,x2,…,xk),(x1,x2,…,xk),分分別為叢集別為叢集 (c1,c2,…ck)(c1,c2,…ck) 的中心點的中心點 ,, 並令每個並令每個中心點有中心點有 (M/K)(M/K)個屬性個屬性 1,[(k-1)M/k]1,[(k-1)M/k] 個屬性個屬性為為 00

步驟二、步驟二、計算每一筆紀錄與各中心點的距離，將其分配至與其最近之中心點的叢集內，而計算距離的方法是先算出兩者各欄位間的距離，然後加總

研究步驟與流程研究步驟與流程欄位距離的計算方式有下列兩種：欄位距離的計算方式有下列兩種： [POHC]使用 AND方式：將中心點 Xi 和序列 sj中

所擁有的屬性 p1, p2, p3 , …pm依序比對，當 Xi 和 sj 的屬性 pl 皆為 1 時，表示兩者皆具有相同型樣特徵，並令其相似度等於 1 ，表示完全相似

當 Xi 和 sj 的屬性 pl 為相異時 (1 和 0) ，則令其相似度等於 0，表示不相似 ;當 Xi 和 sj 的屬性 pl 皆為 0 時，表示兩者皆不支援此型樣，令其相似度為 0。

研究步驟與流程研究步驟與流程 [POHC_B].直接計算方式：計算 Xi 和 sj

之屬性 pl 的絕對差值，作為兩者屬性間的距離，在此作法中產生的距離值將介於 0 到 1 之間。

研究步驟與流程研究步驟與流程步驟三：計算新的中心點位置 X1, X2 … .. X

k ，依據步驟二有兩種計算距離的方式，故在此亦有兩種不同方式計算新中心點的值，計算新中心點的方法如下：

[POHC]:計算支援 Xi 的 pj 屬性其支持度是否有大於 pj 屬性的臨界值，若是大於則令Xi 的 pj 屬性值為 1 ，否則為 0。

研究步驟與流程研究步驟與流程 CVij：序列型樣 pj 在各叢集 ci 的影響力，當CVij 愈大時，則表示 pj 對 ci愈重要。

研究步驟與流程研究步驟與流程 ACVj：各叢集 CVij 的平均值，表序列型樣

pj 在各叢集中平均出現之序列比率。

研究步驟與流程研究步驟與流程 CVVj： CVij 的變異數 ( 序列型樣 pj 對全

部叢集 ) ，表序列型樣 pj 在各叢集中分佈skew 之情況。

研究步驟與流程研究步驟與流程令 á= ACVj + CVVj ， á 為屬性 pj 的臨界值，所以當 Xi 的屬性 pj 的支持度大於臨界值 á，則設叢集中心點 Xi 的屬性 pj 值為 1 ，否則為 0。

步驟四：重複步驟二，直至中心點位置不再改變時，即各叢集達到收斂，則叢集結束。

研究步驟與流程研究步驟與流程階段三：階段三： POHCPOHC 平行處理方式平行處理方式本節介紹序列型樣之叢集演算法的平行處

理方式，並提出相對應的演算方法。假設有 w 個工作站其中一個負責 coordina

tor 的工作，且每一個工作站都擁有如表3-3 的序列屬性資料表，令每一工作站分別負責部分序列型樣之叢集的計算，將可大大改善演算法的執行時間。分別描述如下：

研究步驟與流程研究步驟與流程方法 A ：序列分割法將 n 個序列分成 w 等分，故每一個工作站處理 n/w 個序列，並分別計算它們與叢集中心點 X1,X2,…..Xk 的距離。演算法步驟如下：

步驟一： coordinator 決定初始的叢集中心點 X1,X2,…..Xk 。

步驟二： coordinator 將 X1,X2,…..Xk 的位置broadcast 到所有工作站。

步驟三：各工作站計算所分配到的序列和 X1,X2,… ..Xk 叢集的距離。

研究步驟與流程研究步驟與流程例子請參考圖 3-2

研究步驟與流程研究步驟與流程步驟四：各工作站計算所分配之序列的最近距離，並將序列分派到與其最近的中心點之叢集，並傳下列矩陣 (圖 3-3)至 coordinator 做運算。

研究步驟與流程研究步驟與流程步驟五：在 coordinator 收到所有工作站

所傳回的矩陣之後，即全部序列被分派到與其最近的中心點之叢集 ( 如圖 3-4) ， coordinator 便可計算新的叢集中心點位置。

研究步驟與流程研究步驟與流程步驟六：若中心點位置不變，結束執行，否則，跳到步驟二繼續執行。此分割方式較適用於序列數目較多時使用。

研究步驟與流程研究步驟與流程方法 B ：叢集分割法將 k 個叢集分成 w 等分，故每一個工作站需處理 k/w 個叢集中心點的計算，演算法步驟如下：

步驟一： coordinator 決定初始的叢集中心點 X1,X2,…..Xk 。

步驟二： coordinator 將 k 個叢集分成 w 等分，故每一個工作站需處理 k/w 個叢集中心點，並分配至各工作站中。

研究步驟與流程研究步驟與流程步驟三：各工作站計算所分配到的叢集中心點和全部序列的距離，並紀錄每一序列與其最近的中心點距離，每個工作站計算後的結果。

研究步驟與流程研究步驟與流程步驟四：各工作站計算完成後，傳下列矩陣至 coordinator 做運算。

研究步驟與流程研究步驟與流程步驟五：在 coordinator 收到 w 個工作站傳回的矩陣後，便可比較出距離各序列最近的中心點，並計算出新的叢集中心點位置。

步驟六：若中心點位置不變，則結束執行 ; 否則，跳到步驟二繼續執行。此分割方式適用於序列型樣數目較多時。

研究步驟與流程研究步驟與流程POPC-GA 演算法的平行處理此演算法在計算任兩序列型樣相似程度時，將花費較多的時間，不過可透過平行化處理，完成相似矩陣的建立。

假設有 w 個工作站，和一個負責 coordinator 的工作站，詳細步驟如下：

步驟一： coordinator 決定初始的叢集 c1,c2,… ..ck ，此演算的初始叢集為每一序列型樣所構成個叢集，故初始叢集數 k =m 。

研究步驟與流程研究步驟與流程步驟二： coordinator 將 k 個叢集分成 w

等分，故每一個工作站需處理 k/w 個叢集中心點，並分配至各工作站中。

步驟三：各工作站計算所屬的叢集與其它全部叢集的相似度，其中並產生如下列矩陣圖

研究步驟與流程研究步驟與流程步驟四：各工作站計算完成後，只傳回相似

度最高的兩個叢集。

研究步驟與流程研究步驟與流程步驟五： coordinator 接收全部工作站傳回的陣列後，將相似度最高的叢集合併，則叢集數減 1(k=k-1) ，並紀錄更新後的叢集。如下圖 3-9，則合併 ca 與 ck 兩個叢集。

研究步驟與流程研究步驟與流程步驟六：接著跳至步驟二，重複上述步驟二 ~ 六，直到叢集數到達為止。

第四章、實驗設計第四章、實驗設計實驗流程實驗流程實驗平台實驗平台測試資料描述測試資料描述系統程式架構系統程式架構叢集品質檢驗方式叢集品質檢驗方式實驗結果實驗結果

實驗設計實驗設計

實驗流程實驗流程實驗流程先產生交易資料，接著產生序

列資料庫，並透過探勘工具找出序列型樣，接下來進行序列型樣之叢集化演算法等一連串的動作。

實驗設計實驗設計實驗步驟實驗步驟.壹.壹建立一交易資料庫平台建立一交易資料庫平台.貳.貳資料作探勘處理資料作探勘處理.參.參撰寫程式撰寫程式.肆.肆系統實作系統實作.伍.伍 POPC_GA POPC_GA 演算法與本研究所提出的演算法與本研究所提出的 POHC POHC 做做比較。比較。

.陸.陸實驗結果實驗結果

實驗設計實驗設計實驗平台

實驗設計實驗設計測試資料描述測試資料描述本實驗的使用的交易資料庫，是採用虛擬資料本實驗的使用的交易資料庫，是採用虛擬資料

模擬器模擬器 [AS94][AS94]所產生不同狀態的交易資料庫。所產生不同狀態的交易資料庫。

參數參數描述描述ncustncust 交易資料庫中的顧客數量交易資料庫中的顧客數量 (( 以百筆為單位以百筆為單位 ))slenslen 每位顧客平均交易的次數每位顧客平均交易的次數tlentlen 每次交易平均購買的項目數每次交易平均購買的項目數 (( 以以 2.5 2.5 為單位為單位 ))nitemnitemss

交易資料庫中，所產生的項目總數交易資料庫中，所產生的項目總數 (( 以千筆以千筆為單位為單位 ))


系統程式架構系統程式架構分為以下三部分：分為以下三部分：A.A. 產生序列屬性對應產生序列屬性對應B.POHC B.POHC 系統程式系統程式C.POPC_GA C.POPC_GA 系統程式系統程式


叢集品質檢驗方式叢集品質檢驗方式在計算品質的公式中，其中 qi 代表第 i 個叢集的叢品質，而 ni 代表第 i 個叢集的序列數目， nij 則代表第 i 個叢集支援第 j 個序列型樣的序列數目，而 mi 代表第 i 個叢集所支援的序列型樣數目 ; Q 代表叢集的總品質。故當Q 值越大時，表示支援序列型樣的序列越集中，則叢集品質越佳。

實驗設計實驗設計在本研究中，使用三種常用的計算方式以

計算叢集總品質Q，以比較不同的計算的方式，是否有相同的驗證結果。並以 DatasetB 為例，令叢集數為 6(K=6) ，計算使用POHC演算法後的叢集品質，叢集品質計算公式與計算結果如下所示 :


計算單一叢集的品質計算單一叢集的品質

計算叢集總品質計算叢集總品質A 公式 :將各叢集的品質加總，求品質的算術平均數。

實驗設計實驗設計 B 公式 :將各叢集的品質平方加總，開根號後除以 K，作為叢集總品質。

C 公式 :將各叢集的品質相乘，開 k 次方，以幾何平均數作為叢集的總品質。

實驗設計實驗設計隨著收斂次數的增加，叢集品質也隨之提

高，當收斂次數在第 12 次時，即達到叢集收斂，同時為叢集品質的最大值。

實驗設計實驗設計公式 C 採相乘的計算方式，另外兩種公式採相加的計算方式，舉例而言，有兩種叢集品質的組合：

實驗設計實驗設計（ 0.5, 0.1）和（ 0.4, 0.2）兩種組合的質加總結果都為 0.6

公式公式 CC，相乘得（，相乘得（ 0.4, 0.20.4, 0.2）＝）＝ 0.08 0.08 較（較（ 0.5, 0.10.5, 0.1）＝）＝0.05 0.05 來得佳來得佳

公式公式 AA ，算術平均數（，算術平均數（ 0.5, 0.10.5, 0.1）＝）＝ 0.3 0.3 和（和（ 0.4, 0.20.4, 0.2））＝＝ 0.3 0.3 的結果都相同，兩者無明顯差異。的結果都相同，兩者無明顯差異。

公式公式 B B 計算，平方和則以（計算，平方和則以（ 0.5, 0.10.5, 0.1）＝）＝ 0.26 0.26 較（較（ 0.4, 0.4, 0.20.2）＝）＝ 0.2 0.2 來得佳來得佳


公式 A 強調在全部叢集品質加總的最大值時，則叢集總品質較佳

公式 B 強調在單一或少部份叢集品質值愈大時，則叢集總品質較佳

公式 C 則強調各叢集品質愈平均，則叢集總品質較佳。


所以計算公式針對的焦點不同，導致計算結果的不同。但無論是由何種的計算方式， POHC 叢集演算法在收斂完成時，皆為叢集品質的最大值，故可證明使用 POHC 演算法，在達到收斂時，可獲得最佳的叢集品質。


實驗結果實驗結果將 POHC 與 POPC_GA 兩種演算法在叢

集數設為 6(K=6) 、資料集為 DatasetB 時產生的叢集結果，作序列的對應分析，

找出各叢集相互交集的序列個數，可發現兩種演算法叢集結果不太相同。

實驗設計實驗設計 POHC 產生的叢集結果，為序列的硬式分

割處理，即序列不重複出現在兩個叢集以上。

POPC_GA 其叢集結果為序列的軟式分割處理，其序列重複出現在兩個叢集以上，為求分析比較，故本研究將 POPC_GA 演算法的叢集結果，再做處理，將序列分割在不同叢集內，分割方法為判斷序列與哪一個叢集最為相似，則劃分至該叢集內。


實驗結果實驗結果兩種叢集演算法的叢集差異︰ POHC 的各叢集其支援的序列型樣平均數

目較多， POPC_GA 支援的序列型樣平均數目較少。

POPC_GA 的某一個叢集內就只支援單一序列型樣。故使用者可視其需要，選擇所需的序列型樣導向之序列叢集化演算法。

第五章結論與未來研究第五章結論與未來研究

POHC VS POPC-GA執行效能兩叢集結果的特色平行處理

兩演算法差異兩演算法差異POHCPOHC POPC-GAPOPC-GA

叢集架構叢集架構非階層式架構非階層式架構階層式架構階層式架構執行效能執行效能快快慢慢K-meansK-means 可執行可執行不可執行不可執行序列序列硬式分割硬式分割軟式分割軟式分割序列型樣序列型樣軟式分割軟式分割硬式分割硬式分割共有的特共有的特性性

容易找出容易找出不易找出不易找出

叢集特色叢集特色較不明顯較不明顯較明顯較明顯平行處理平行處理叢集收斂次數叢集收斂次數叢集合併次數叢集合併次數特性特性 sparsesparse densedense

第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存

Documents

Transcript of 第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存

第 16 組 序列型樣導向之序列叢集化處理 報告組員： 蔡承融 黃于庭 蘇彥存

Documents

Transcript of 第 16 組 序列型樣導向之序列叢集化處理 報告組員： 蔡承融 黃于庭 蘇彥存

第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存

Transcript of 第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存