資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... ·...

68
資訊管理系 資料探勘應用於 圖書館借閱習慣之研究 指導教授: 羅國彥 教授 李怡慧 教授 組員名單: 林穆廷 968C013 謝友嘉 968C046 柳冠群 968C052

Transcript of 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... ·...

Page 1: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

資訊管理系

資料探勘應用於

圖書館借閱習慣之研究

指導教授 羅國彥 教授

李怡慧 教授

組員名單 林穆廷 968C013

謝友嘉 968C046

柳冠群 968C052

中 華 民 國 一 百 年 五 月

-I-

摘 要

圖書館是豐富人類心靈捍衛人類求知權利的最重要機構而隨

著全球資訊科技與網際網路的進步人們想從網路上找到所需的資料

已經是輕而易舉的事因此若能得知圖書館讀者的特性以及讀者

和館藏之間的關係圖書館就能主動為讀者進行館藏推薦增進與讀

者之間的互動這是經營現代化圖書館的一個重要課題也是我們希望

達成的目標

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘技術來尋找特定讀者的借書特

性除了基本的支持度及可信度外再加入相關的讀者借閱分析進而

給予讀者合適的借閱建議讓讀者更願意使用圖書館的資源並希望

藉此提高圖書館的使用率

關鍵字資料探勘圖書館關聯法則決策樹群集

-II-

目 錄

第壹章 緒論 1

11 研究動機 1

12 研究目的 1

13 研究流程 2

14 研究貢獻 3

15 論文架構 3

第貳章 文獻回顧與探討 4

21 資料探勘(Data Mining)技術 4

211 關聯法則 5

212 決策樹 6

213 群集 7

22 應用資料探勘於圖書館相關文獻探討 8

221 應用資料探勘技術分析圖書館閱覽者行為 8

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究 16

第參章 研究方法 25

31 探勘流程 25

32 資料來源 27

33 資料表欄位型態 27

34 預處理方法 29

35 探勘內容設計 40

第肆章 研究結果與分析 41

41 執行環境 41

42 探勘結果 41

421 決策樹 41

422 群集 47

423 關聯法則 56

43 重要結果與分析 59

第伍章 結論與未來展望 60

51 結論 60

52 未來展望 61

參考文獻 62

-III-

表目錄

表 2-1 人文學院關聯表 11

表 2-2 科技學院關聯表 13

表 2-3 管理學院關聯表 14

表 2-4 各學院關聯表 15

表 2-5 信賴度與支持度的組合情形 17

表 2-6 各學院借閱人次與借閱冊數表 19

表 2-7 各學院聯規則整理支持度與信賴度值表 20

表 2-8 節點 17 區隔內讀者借閱前二十大類別書籍 22

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍 22

表 2-9 節點 29 區隔內讀者借閱前二十大類別書籍 22

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍 23

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍 23

表 3-1 資料表介紹 27

表 3-2 欄位名稱 27

表 3-3 欄位型態 28

表 4-1 整理後的關聯規則 58

-IV-

圖目錄

圖 2-1 知識發現過程 4

圖 2-2 群集分析工作項目 7

圖 2-3 文獻研究架構圖 9

圖 2-4 文獻模型架構 10

圖 2-5 讀者借閱紀錄探勘流程圖 16

圖 2-6 最佳區隔變數組合探勘流程圖 18

圖 2-7 決策樹樹狀結構圖 21

圖 3-1 探勘模型 26

圖 3-2 原始資料表關聯圖 28

圖 3-3 格式轉換 30

圖 3-5 星座天數排列 31

圖 3-4 年齡計算 30

圖 3-6 星座欄位 32

圖 3-7 SQL 查詢重複資料 33

圖 3-8 SQL 查詢錯誤書號 34

圖 3-9 SQL 刪除語法 35

圖 3-11 SQL 語法合併系列和大標題 36

圖 3-10 SQL 語法合併讀者和借閱紀錄 35

圖 3-12 SQL 語法更新為其它 36

圖 3-13 SQL 語法新增欄位 37

圖 4-1 全部主題 -決策樹之相依性網路 41

圖 4-2 全部主題 -決策樹檢視器 42

圖 4-3 同一屬性 -年紀分類 -決策樹之相依性網路 43

圖 4-4 同一屬性 -年紀分類 -決策樹模型 43

圖 4-6 同一屬性 -年紀分類 -決策樹模型 44

圖 4-5 同一屬性 -性別 -決策樹之相依性網路 44

圖 4-7 特定主題 -決策樹之相依性網路 45

圖 4-8 特定主題 -決策樹模型 45

圖 4-9 特定主題 -年紀分類 -決策樹之相依性網路 46

-V-

圖 4-10 特定主題 -年紀分類 -決策樹模型 46

圖 4-11 全部主題 -群集圖層 47

圖 4-12 全部主題 -分群規則 48

圖 4-13 全部主題 -群集 5 特性 49

圖 4-14 全部主題 -群集 4 特性 50

圖 4-15 全部主題 -群集 2 特性 51

圖 4-16 全部主題 -群集 1 特性 52

圖 4-17 同一主題 -群集圖層 53

圖 4-18 同一主題 -分群規則 53

圖 4-19 同一主題 -群集 5 特性 54

圖 4-21 同一主題 -群集 6 特性 55

圖 4-20 同一主題 -群集 1 特性 54

圖 4-22 同一主題 -群集 2 特性 55

圖 4-23 檢查規則與信賴度 56

圖 4-24 檢查支持度資料 57

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 2: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-I-

摘 要

圖書館是豐富人類心靈捍衛人類求知權利的最重要機構而隨

著全球資訊科技與網際網路的進步人們想從網路上找到所需的資料

已經是輕而易舉的事因此若能得知圖書館讀者的特性以及讀者

和館藏之間的關係圖書館就能主動為讀者進行館藏推薦增進與讀

者之間的互動這是經營現代化圖書館的一個重要課題也是我們希望

達成的目標

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘技術來尋找特定讀者的借書特

性除了基本的支持度及可信度外再加入相關的讀者借閱分析進而

給予讀者合適的借閱建議讓讀者更願意使用圖書館的資源並希望

藉此提高圖書館的使用率

關鍵字資料探勘圖書館關聯法則決策樹群集

-II-

目 錄

第壹章 緒論 1

11 研究動機 1

12 研究目的 1

13 研究流程 2

14 研究貢獻 3

15 論文架構 3

第貳章 文獻回顧與探討 4

21 資料探勘(Data Mining)技術 4

211 關聯法則 5

212 決策樹 6

213 群集 7

22 應用資料探勘於圖書館相關文獻探討 8

221 應用資料探勘技術分析圖書館閱覽者行為 8

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究 16

第參章 研究方法 25

31 探勘流程 25

32 資料來源 27

33 資料表欄位型態 27

34 預處理方法 29

35 探勘內容設計 40

第肆章 研究結果與分析 41

41 執行環境 41

42 探勘結果 41

421 決策樹 41

422 群集 47

423 關聯法則 56

43 重要結果與分析 59

第伍章 結論與未來展望 60

51 結論 60

52 未來展望 61

參考文獻 62

-III-

表目錄

表 2-1 人文學院關聯表 11

表 2-2 科技學院關聯表 13

表 2-3 管理學院關聯表 14

表 2-4 各學院關聯表 15

表 2-5 信賴度與支持度的組合情形 17

表 2-6 各學院借閱人次與借閱冊數表 19

表 2-7 各學院聯規則整理支持度與信賴度值表 20

表 2-8 節點 17 區隔內讀者借閱前二十大類別書籍 22

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍 22

表 2-9 節點 29 區隔內讀者借閱前二十大類別書籍 22

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍 23

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍 23

表 3-1 資料表介紹 27

表 3-2 欄位名稱 27

表 3-3 欄位型態 28

表 4-1 整理後的關聯規則 58

-IV-

圖目錄

圖 2-1 知識發現過程 4

圖 2-2 群集分析工作項目 7

圖 2-3 文獻研究架構圖 9

圖 2-4 文獻模型架構 10

圖 2-5 讀者借閱紀錄探勘流程圖 16

圖 2-6 最佳區隔變數組合探勘流程圖 18

圖 2-7 決策樹樹狀結構圖 21

圖 3-1 探勘模型 26

圖 3-2 原始資料表關聯圖 28

圖 3-3 格式轉換 30

圖 3-5 星座天數排列 31

圖 3-4 年齡計算 30

圖 3-6 星座欄位 32

圖 3-7 SQL 查詢重複資料 33

圖 3-8 SQL 查詢錯誤書號 34

圖 3-9 SQL 刪除語法 35

圖 3-11 SQL 語法合併系列和大標題 36

圖 3-10 SQL 語法合併讀者和借閱紀錄 35

圖 3-12 SQL 語法更新為其它 36

圖 3-13 SQL 語法新增欄位 37

圖 4-1 全部主題 -決策樹之相依性網路 41

圖 4-2 全部主題 -決策樹檢視器 42

圖 4-3 同一屬性 -年紀分類 -決策樹之相依性網路 43

圖 4-4 同一屬性 -年紀分類 -決策樹模型 43

圖 4-6 同一屬性 -年紀分類 -決策樹模型 44

圖 4-5 同一屬性 -性別 -決策樹之相依性網路 44

圖 4-7 特定主題 -決策樹之相依性網路 45

圖 4-8 特定主題 -決策樹模型 45

圖 4-9 特定主題 -年紀分類 -決策樹之相依性網路 46

-V-

圖 4-10 特定主題 -年紀分類 -決策樹模型 46

圖 4-11 全部主題 -群集圖層 47

圖 4-12 全部主題 -分群規則 48

圖 4-13 全部主題 -群集 5 特性 49

圖 4-14 全部主題 -群集 4 特性 50

圖 4-15 全部主題 -群集 2 特性 51

圖 4-16 全部主題 -群集 1 特性 52

圖 4-17 同一主題 -群集圖層 53

圖 4-18 同一主題 -分群規則 53

圖 4-19 同一主題 -群集 5 特性 54

圖 4-21 同一主題 -群集 6 特性 55

圖 4-20 同一主題 -群集 1 特性 54

圖 4-22 同一主題 -群集 2 特性 55

圖 4-23 檢查規則與信賴度 56

圖 4-24 檢查支持度資料 57

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 3: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-II-

目 錄

第壹章 緒論 1

11 研究動機 1

12 研究目的 1

13 研究流程 2

14 研究貢獻 3

15 論文架構 3

第貳章 文獻回顧與探討 4

21 資料探勘(Data Mining)技術 4

211 關聯法則 5

212 決策樹 6

213 群集 7

22 應用資料探勘於圖書館相關文獻探討 8

221 應用資料探勘技術分析圖書館閱覽者行為 8

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究 16

第參章 研究方法 25

31 探勘流程 25

32 資料來源 27

33 資料表欄位型態 27

34 預處理方法 29

35 探勘內容設計 40

第肆章 研究結果與分析 41

41 執行環境 41

42 探勘結果 41

421 決策樹 41

422 群集 47

423 關聯法則 56

43 重要結果與分析 59

第伍章 結論與未來展望 60

51 結論 60

52 未來展望 61

參考文獻 62

-III-

表目錄

表 2-1 人文學院關聯表 11

表 2-2 科技學院關聯表 13

表 2-3 管理學院關聯表 14

表 2-4 各學院關聯表 15

表 2-5 信賴度與支持度的組合情形 17

表 2-6 各學院借閱人次與借閱冊數表 19

表 2-7 各學院聯規則整理支持度與信賴度值表 20

表 2-8 節點 17 區隔內讀者借閱前二十大類別書籍 22

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍 22

表 2-9 節點 29 區隔內讀者借閱前二十大類別書籍 22

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍 23

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍 23

表 3-1 資料表介紹 27

表 3-2 欄位名稱 27

表 3-3 欄位型態 28

表 4-1 整理後的關聯規則 58

-IV-

圖目錄

圖 2-1 知識發現過程 4

圖 2-2 群集分析工作項目 7

圖 2-3 文獻研究架構圖 9

圖 2-4 文獻模型架構 10

圖 2-5 讀者借閱紀錄探勘流程圖 16

圖 2-6 最佳區隔變數組合探勘流程圖 18

圖 2-7 決策樹樹狀結構圖 21

圖 3-1 探勘模型 26

圖 3-2 原始資料表關聯圖 28

圖 3-3 格式轉換 30

圖 3-5 星座天數排列 31

圖 3-4 年齡計算 30

圖 3-6 星座欄位 32

圖 3-7 SQL 查詢重複資料 33

圖 3-8 SQL 查詢錯誤書號 34

圖 3-9 SQL 刪除語法 35

圖 3-11 SQL 語法合併系列和大標題 36

圖 3-10 SQL 語法合併讀者和借閱紀錄 35

圖 3-12 SQL 語法更新為其它 36

圖 3-13 SQL 語法新增欄位 37

圖 4-1 全部主題 -決策樹之相依性網路 41

圖 4-2 全部主題 -決策樹檢視器 42

圖 4-3 同一屬性 -年紀分類 -決策樹之相依性網路 43

圖 4-4 同一屬性 -年紀分類 -決策樹模型 43

圖 4-6 同一屬性 -年紀分類 -決策樹模型 44

圖 4-5 同一屬性 -性別 -決策樹之相依性網路 44

圖 4-7 特定主題 -決策樹之相依性網路 45

圖 4-8 特定主題 -決策樹模型 45

圖 4-9 特定主題 -年紀分類 -決策樹之相依性網路 46

-V-

圖 4-10 特定主題 -年紀分類 -決策樹模型 46

圖 4-11 全部主題 -群集圖層 47

圖 4-12 全部主題 -分群規則 48

圖 4-13 全部主題 -群集 5 特性 49

圖 4-14 全部主題 -群集 4 特性 50

圖 4-15 全部主題 -群集 2 特性 51

圖 4-16 全部主題 -群集 1 特性 52

圖 4-17 同一主題 -群集圖層 53

圖 4-18 同一主題 -分群規則 53

圖 4-19 同一主題 -群集 5 特性 54

圖 4-21 同一主題 -群集 6 特性 55

圖 4-20 同一主題 -群集 1 特性 54

圖 4-22 同一主題 -群集 2 特性 55

圖 4-23 檢查規則與信賴度 56

圖 4-24 檢查支持度資料 57

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 4: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-III-

表目錄

表 2-1 人文學院關聯表 11

表 2-2 科技學院關聯表 13

表 2-3 管理學院關聯表 14

表 2-4 各學院關聯表 15

表 2-5 信賴度與支持度的組合情形 17

表 2-6 各學院借閱人次與借閱冊數表 19

表 2-7 各學院聯規則整理支持度與信賴度值表 20

表 2-8 節點 17 區隔內讀者借閱前二十大類別書籍 22

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍 22

表 2-9 節點 29 區隔內讀者借閱前二十大類別書籍 22

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍 23

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍 23

表 3-1 資料表介紹 27

表 3-2 欄位名稱 27

表 3-3 欄位型態 28

表 4-1 整理後的關聯規則 58

-IV-

圖目錄

圖 2-1 知識發現過程 4

圖 2-2 群集分析工作項目 7

圖 2-3 文獻研究架構圖 9

圖 2-4 文獻模型架構 10

圖 2-5 讀者借閱紀錄探勘流程圖 16

圖 2-6 最佳區隔變數組合探勘流程圖 18

圖 2-7 決策樹樹狀結構圖 21

圖 3-1 探勘模型 26

圖 3-2 原始資料表關聯圖 28

圖 3-3 格式轉換 30

圖 3-5 星座天數排列 31

圖 3-4 年齡計算 30

圖 3-6 星座欄位 32

圖 3-7 SQL 查詢重複資料 33

圖 3-8 SQL 查詢錯誤書號 34

圖 3-9 SQL 刪除語法 35

圖 3-11 SQL 語法合併系列和大標題 36

圖 3-10 SQL 語法合併讀者和借閱紀錄 35

圖 3-12 SQL 語法更新為其它 36

圖 3-13 SQL 語法新增欄位 37

圖 4-1 全部主題 -決策樹之相依性網路 41

圖 4-2 全部主題 -決策樹檢視器 42

圖 4-3 同一屬性 -年紀分類 -決策樹之相依性網路 43

圖 4-4 同一屬性 -年紀分類 -決策樹模型 43

圖 4-6 同一屬性 -年紀分類 -決策樹模型 44

圖 4-5 同一屬性 -性別 -決策樹之相依性網路 44

圖 4-7 特定主題 -決策樹之相依性網路 45

圖 4-8 特定主題 -決策樹模型 45

圖 4-9 特定主題 -年紀分類 -決策樹之相依性網路 46

-V-

圖 4-10 特定主題 -年紀分類 -決策樹模型 46

圖 4-11 全部主題 -群集圖層 47

圖 4-12 全部主題 -分群規則 48

圖 4-13 全部主題 -群集 5 特性 49

圖 4-14 全部主題 -群集 4 特性 50

圖 4-15 全部主題 -群集 2 特性 51

圖 4-16 全部主題 -群集 1 特性 52

圖 4-17 同一主題 -群集圖層 53

圖 4-18 同一主題 -分群規則 53

圖 4-19 同一主題 -群集 5 特性 54

圖 4-21 同一主題 -群集 6 特性 55

圖 4-20 同一主題 -群集 1 特性 54

圖 4-22 同一主題 -群集 2 特性 55

圖 4-23 檢查規則與信賴度 56

圖 4-24 檢查支持度資料 57

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 5: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-IV-

圖目錄

圖 2-1 知識發現過程 4

圖 2-2 群集分析工作項目 7

圖 2-3 文獻研究架構圖 9

圖 2-4 文獻模型架構 10

圖 2-5 讀者借閱紀錄探勘流程圖 16

圖 2-6 最佳區隔變數組合探勘流程圖 18

圖 2-7 決策樹樹狀結構圖 21

圖 3-1 探勘模型 26

圖 3-2 原始資料表關聯圖 28

圖 3-3 格式轉換 30

圖 3-5 星座天數排列 31

圖 3-4 年齡計算 30

圖 3-6 星座欄位 32

圖 3-7 SQL 查詢重複資料 33

圖 3-8 SQL 查詢錯誤書號 34

圖 3-9 SQL 刪除語法 35

圖 3-11 SQL 語法合併系列和大標題 36

圖 3-10 SQL 語法合併讀者和借閱紀錄 35

圖 3-12 SQL 語法更新為其它 36

圖 3-13 SQL 語法新增欄位 37

圖 4-1 全部主題 -決策樹之相依性網路 41

圖 4-2 全部主題 -決策樹檢視器 42

圖 4-3 同一屬性 -年紀分類 -決策樹之相依性網路 43

圖 4-4 同一屬性 -年紀分類 -決策樹模型 43

圖 4-6 同一屬性 -年紀分類 -決策樹模型 44

圖 4-5 同一屬性 -性別 -決策樹之相依性網路 44

圖 4-7 特定主題 -決策樹之相依性網路 45

圖 4-8 特定主題 -決策樹模型 45

圖 4-9 特定主題 -年紀分類 -決策樹之相依性網路 46

-V-

圖 4-10 特定主題 -年紀分類 -決策樹模型 46

圖 4-11 全部主題 -群集圖層 47

圖 4-12 全部主題 -分群規則 48

圖 4-13 全部主題 -群集 5 特性 49

圖 4-14 全部主題 -群集 4 特性 50

圖 4-15 全部主題 -群集 2 特性 51

圖 4-16 全部主題 -群集 1 特性 52

圖 4-17 同一主題 -群集圖層 53

圖 4-18 同一主題 -分群規則 53

圖 4-19 同一主題 -群集 5 特性 54

圖 4-21 同一主題 -群集 6 特性 55

圖 4-20 同一主題 -群集 1 特性 54

圖 4-22 同一主題 -群集 2 特性 55

圖 4-23 檢查規則與信賴度 56

圖 4-24 檢查支持度資料 57

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 6: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-V-

圖 4-10 特定主題 -年紀分類 -決策樹模型 46

圖 4-11 全部主題 -群集圖層 47

圖 4-12 全部主題 -分群規則 48

圖 4-13 全部主題 -群集 5 特性 49

圖 4-14 全部主題 -群集 4 特性 50

圖 4-15 全部主題 -群集 2 特性 51

圖 4-16 全部主題 -群集 1 特性 52

圖 4-17 同一主題 -群集圖層 53

圖 4-18 同一主題 -分群規則 53

圖 4-19 同一主題 -群集 5 特性 54

圖 4-21 同一主題 -群集 6 特性 55

圖 4-20 同一主題 -群集 1 特性 54

圖 4-22 同一主題 -群集 2 特性 55

圖 4-23 檢查規則與信賴度 56

圖 4-24 檢查支持度資料 57

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 7: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-1-

第壹章 緒論

11 研究動機

提高圖書館資源利用率一直是各級圖書館所努力的目標而讀者

的借閱紀錄包含大量讀者與圖書館互動的歷史紀錄所以利用資料探

勘的技術從借閱紀錄中挖掘出有用並且有意義的資訊會有助於圖書

館對讀者需求的了解協助圖書館的營運相信能為圖書館以及讀者

帶來雙贏的效果

12 研究目的

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的

資料為探勘的對象再運用資料探勘 (Da ta Min ing)的技術來尋找讀者的

借書特性然後對讀者的借閱行為做分析進而給予讀者合適的借閱

建議讓讀者更願意使用圖書館的資源並希望藉此提高圖書館的使

用率例如將常被借閱的書籍另外分出一個專區擺放

本論文研究目的歸納如下

1 提升館藏的借閱率

2 對讀者作出合適的館藏推薦

3 參考讀者的借閱習慣提供圖書採購建議

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 8: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-2-

13 研究流程

圖1-1研究流程圖

確認研究目的

取得資料

資料預處理

資料探勘設計與執行行

關聯法則 群集 決策樹

結果分析

建議與結論

文獻探討與分析

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 9: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-3-

14 研究貢獻

本研究透過Microso f t SQL Server 2005企業版軟體探勘資料將預

處理過的資料匯入 SQ L Server 2005內轉換成SQ L Server Database資

料再利用決策樹群集關聯法則三個模型作資料探勘並分析其

結果本研究貢獻如下

一提升館藏的借閱率

從紀錄中找出讀者常借閱的書籍大類將常被借閱的書籍另外

分出一個專區擺放以提高借閱率

二對讀者作出合適的館藏推薦

根據讀者特性的不同推薦適合讀者的借閱書籍建議供讀者

參考

三參考讀者的借閱習慣提供圖書採購建議

從紀錄中找出讀者常借閱的書籍大類可作為圖書館圖書採購

時的參考

15 論文架構

本節介紹本論文的架構及流程可增加文章可讀性和文章流暢度

並了解各章節之重點內容如下

第一章緒論主要是本研究的貣因研究動機研究目的以及研究的

流程最後則會呈現研究的貢獻論文的架構

第二章文獻探討主要介紹資料探勘技術的理論及功能本研究所使

用之方法關聯法則決策樹分群法介紹以及相關實例探討

第三章研究方法介紹本研究探勘流程原始資料來源取得的資料

內容資料預處理的方法及過程最後是探勘內容的設計

第四章探勘結果與分析首先介紹執行環境再分別以決策樹分

群法關聯法則說明探勘的結果並解釋隱含的訊息

第五章結論與未來展望是依據分析出的結果整理後做出結論並擬

出將來後續研究之建議

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 10: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-4-

第貳章 文獻回顧與探討

本章節之內容主要包含介紹資料探勘技術的理論及功能本研究所使用之

方法關聯法則決策樹分群法介紹以及相關實例探討

21 資料探勘(Data Mining)技術

所謂資料探勘簡單來說資料探勘是從儲存於資料庫 (Database)

資料倉儲 (Data Warehouse )或其他資訊儲存器 ( Info rmation Reposito ry)

的大量資料中發掘出所感興趣的知識之處理過程知識探索過程如圖

2-1所示

圖2-1 知識發現過程

上圖所示知識發現過程主要含以下六個步驟

(1 )資料收集第一個步驟就是收集原始的資料而原始資料的來源

有很多如文字檔 Exce l表格資料庫系統網際網路等

(2 )資料前置處理當收集到所需的原始資料並儲存在統一的資料庫

後便可開始進行資料前置處理而資料探勘的進行有 80的時間

精力是花費在資料前置作業階段做資料前置處理是因為在真實世

界的資料是非常雜亂的以至於需要將多種資料來源型態格式

整合在一貣並將資料轉換或組合成適合探勘的形式最後將沒有

用的資訊刪除而保留有用的資訊

(3 )資料倉儲建立資料倉儲是決策支援系統的基礎包含了一些已

經整合的資料詳細的資料以及總合性 (summarized)的資料也包

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 11: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-5-

含歷史性的資料和描述資料綱要的資料而資料倉儲系統本身必頇

要提供一些統計以及分析的功能讓使用者可以找到一些有用的統

計資訊而最主要使用的就是線上分析處理 (O n- Line Analyt ica l

Processing簡稱 OLAP )

(4 )資料探勘根據定義的問題選擇合適的資料探勘演算法尋找出

資料中有用的知識或關聯性

(5 )樣式評估從資料探勘裡所萃取出的知識並不見得每一個都是我

們需要的所以需要再經過一個樣式評估 (pat tern evalua t ion)的步

驟去評估資料探勘所挖掘出來的知識是不是真的有用因為挖掘

工具可能會挖掘出很多的資料有些是有意義的有些則是沒有意

義的

(6 )結果展示因為複雜的探勘結果要讓末端使用者看懂並不容易因此需要一個圖形化的使用者介面來把這些有趣的知識做一個較

好的呈現

211 關聯法則

關聯法則是利用「支持度( suppo rt)」「信賴度(confidence)」

和「增益( improvement)」為衡量依據其中支持度 P(A cap B)代表

在A 和B 兩項目組同時在交易記錄出現的比例支持度介於 0和

100的範圍之間若某組合的支持度愈高代表愈值得重視信賴度P

(BA)是指在所有發生A的交易之下另一交易B發生的比例信賴

度指的就是這項關聯法則成立的可信程度當信賴度越高時代表這

項規則成立的機率越高此規則也就愈具有代表性增益P(A cap B)

P(A) P(B)為A與B之間的相關性會比隨機發生的機率值高多少

增益是用來確定兩物項是否發生有相關情形當增益大於1時即表示

兩項目之間存在正向關係關聯規則分析的流程即為先由交易資料計

算交易的佔有比例接著計算得到之規則的信賴度最後選取增益大

於1者為最後的規則

產生關聯規則的步驟為 第一步驟是在最低交易佔有率下產生單

一商品的佔有率第二步驟是在最低交易佔有率下產生兩項商品的

佔有率並且依此在最低信賴度找出兩項物商品規則第三步驟是在

最低交易佔有率下產生三項商品的佔有率並且依此在最低信賴度

找出三項物商品規則第四步驟為繼續增加商品的數目

關聯規則是以一種「 I fhellip Thenhellip」的情況描述其間的關係以規則

的方法來表示舉例而言當顧客買了麵包和牛奶時也會購買果醬

其表示方式如下麵包amp牛奶=gt果醬(70和50)其中的70和50

則是代表該項規則的支持度和信賴度換句話說也就是在所有交易資

料中會購買麵包和牛奶的人佔總交易量的70其中這70交易中會再購買果醬的人佔50

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 12: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-6-

212 決策樹 決策樹 (dec is ion tree)在資料探勘中是一項常被運用於資料分類或

預測所使用的技術它可以利用資料中各個不同屬性的值將資料分割

成為許多單一類別的子集合或群體是一項功能強大且受歡迎的分類

和預測工具

決策樹是以樹狀圖為基礎其具有規則性利用此方法產生出來

的結果可以容易讓使用者了解使用者可以藉由決策樹的分析結果

來進一步探討顧客的特質及消費特性決策樹的運作過程為一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料

該進入下一層的哪一個子節點 (chi ld node)選擇一開始的測驗有不同

的演算法但目的都是一樣的這個過程一再重覆直到資料到達葉

部節點 ( lea f node)所有到達某一個決策樹葉部的資料都以相同的方法

來分類從根部到每一個葉部都有一套獨特的路徑這個路徑就是用

來分類資料的規則的一種表達方式因此決策樹上的每一分支點

即是對單一個變數的測驗過程最後會呈現結果是將一個空間分成兩

部份或更多部份由於決策樹的分類過程有可能訓練過度最後演變成

一個過於複雜的樹狀結構因此必頇進行修剪的動作以選出最佳的節

點及決策規則以下介紹決策樹相關的演算法

1 ID3(inte rac t ive d icho tometer 3 )是指反覆二分其演算方式為

資料中如存在有某個顯著的特徵它就會依據此特徵將資料分為兩

群接著兩群中如又有一個為顯著的特徵就再分為二以此反覆運作直到所有同一特徵的資料都在一個類別中為止而C45

是依據 ID3的改良版其運作過程皆和 ID3相同可以處理遺漏的預

測值和含有連續值的預測值並加入決策樹的修剪功能以及法則轉

換功能

2 C ART(c lass if ica t ion and regress ion tree)分類迴歸樹最大的優

點是演算法會自動檢驗模型找出最佳的一般模型其是先建立一

棵複雜的樹再根據交互測詴檢驗的結果將決策樹修剪成最佳的

一般樹以整體錯誤率為依據期望以最少層的樹得到最有效的分類

3 C HAID(chi-square automatic inte rac t ion de tec tor)卡方自動互動

偵測是偵測變數之間的統計關係藉此建構出一棵決策樹C HAID

與CART不同的是C HAID是利用連續卡方來測詴並決定哪一類的

預測值最不受預測值影響

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 13: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-7-

213 群集 分群是將資料集合中的資料記錄又稱為資料點加以分群成數

個群集 (c lus te r)使得每個群集中的資料點間相似程度高於與其它群集

中資料點的相似程度

分群的主要目地是分析資料彼此間的相似程度藉由分析所找到

的群集結果推論出有用隱含令人感興趣的特性和現象

在群集分析的過程中並沒有預先指定好的類別資訊也沒有任

何資訊可以表示資料記錄彼此之間是相關的所以群集分析被視為一

個非監督式學習的過程

群集分析在資料探勘過程中所扮演的角色

(1)資料精簡

將原本大量的資料加以分群成數個群集並從每一個群集中挑

選具有代表性的資料記錄來進行後續的處理

(2)推斷假設的產生

推斷出所關注資料中可能存在的某些特性或現象如 ldquo年輕人

通常年收入較低 rdquo ldquo中年人通常年收入較高 rdquo

(3)推斷假設的驗證

對推斷假設作有效性的驗證詴圖驗證 ldquo年輕人通常年收入較

低是否也代表其消費能力較低 rdquo此假設性推斷時可以對

於ldquo年齡rdquo rdquo年收入 rdquo和 ldquo消費金額 rdquo所描述的資料記錄進行群集

分析

(4)歸屬預測

分群結果應用於未知分類之資料記錄預測資料所歸屬的群

群集分析五個主要的循序工作項目如圖 2-2所示

資料的表示與轉換

相似度計算 分群法分群結果評

估群集的解釋與分析

資料集合 分群結果

圖2-2 群集分析工作項目

(1)資料的表示找出代表性資料維度來表示資料點

(2)相似度的計算與測量計算資料點間相似的程度

(3)分群法的採用挑選適當的分群演算法

(4)評估分群的結果對群集分析的結果進行評估

(5)群集的解釋領域專家對分群結果做進一步解釋

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 14: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-8-

22 應用資料探勘於圖書館相關文獻探討

目前國內利用資料探勘技術於圖書館的研究文獻中有關探勘館藏

借閱資料的研究有 [5 ][6 ]等等我們整理兩篇文獻探討其研究目的

方法流程及結果

221 應用資料探勘技術分析圖書館閱覽者行為

此文獻是由李明修 [5 ]於民國96年所提出以某大學的圖書館讀者

借閱紀錄為樣本做基礎這些紀錄包含了讀者資料書目及交易歷史

等在運用資料探勘的技術來找尋讀者的特性然後對讀者借閱的行

為做分析進而給予讀者合適的館藏借閱建議進而讓讀者更願意來使用圖書館的各項資源也希望藉此能提供給圖書館一些服務上的建

議例如哪些類型的書是常被借閱提供給圖書館然後圖書館會針

對這些議題而分出一個專區來放閱這些書籍

一資料來源

此文獻是以某大學圖書館的館藏借閱紀錄為探勘資料的樣本其樣本數為 58959 筆借閱紀錄借閱紀錄的歷史交易日期是在 2006 年 1

月至 2006 年 12 月

在借閱紀錄裡的資訊分別有 (1 )借閱日期 (2 )學號 (3)姓名 (4 )

班級 (5)學制 (6)科系 (7 )性別編號 (8 )書名 (9 )借閱本數和 (10)

書籍類別編號等資訊

二輔助軟體

此文獻所使用之資料探勘輔助軟體為 Poly Analys t 46 來做關連法則的探勘和軟體所提供的決策樹探勘軟體來協助分析

三研究流程

此文獻主要利用大學圖書館的館藏借閱紀錄資料來幫圖書館做經

營管理上的建議並給讀者館藏借閱上的建議在第一章裡面就提到了

幾點目的以下是針對那幾點目的做探勘流程的介紹圖2-3是此文獻的架構圖

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 15: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-9-

圖2-3 文獻研究架構圖

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 16: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-10-

四圖書探勘決策模型

圖2-4 文獻模型架構

上圖 2-4 的模型架構來分析借閱紀綠裡的相關特性在決策過程

中是要探討什麼樣的動力讓讀者會去借閱他們所興趣的書籍然後

經由個人特徵和環境特徵還有借閱方式hellip等等考慮進去在經由決

策過程產生借書的行為最後經由資料探勘分析來找出讀者相關借閱

規則的特性然後給讀者再借閱上時的一個參考方向

五資料分析結果

再進行購物籃探勘分析時是將讀者的學號和圖書的類別編號來進

行關聯分析而圖書的類別編號則是取前 3 碼來方便進行探勘工作

並將3個學院進行關聯規則分析

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 17: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-11-

一人文學院的關聯法則

表2-1 人文學院關聯表

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 18: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-12-

人文學院的學生在圖書館借閱中的關聯資料表該學院所包含的系

所有輔諮系中文系比較系社工系外文系歷史系公行系

教政系東南亞所成教所和人類所等下列幾點是整理出的規則

1語文類方面的借閱規則

(1 )先借閱詵總集中國文學中國傳記類的書籍然後再借閱詵

論類的書籍

(2)先借閱詞類的書籍後再借閱詞總集類的書籍

(3)先借閱文學類的書籍後再借閱文藝批評類的書籍

(4)先借閱戲曲類的書籍後再借閱曲類的書籍

(5)先借閱別集類的書籍後再借閱詵類的書籍

(6)先借閱文學批評史的書籍後再借閱詞論詞話類的書籍

(7)先借閱總集類的書籍後再借閱先秦哲學類的書籍

(8)先借閱俄國文學類的書籍後再借閱西洋文學類的書籍

(9 )先借閱寫作翻譯及演說術類的書籍後再借閱中國語言文字

(10)先借閱美洲各國文學類的書籍後再借閱意國文學類的書籍

(11)先借閱東方語言文字類的書籍後再借閱日耳曼語系類的書

從上述語文類的借閱關聯裡可以看到 (1)~ (6 )和 (9)的規則裡有循序

漸進的趨勢這樣的書籍借閱規則可以作為中文系新生借書學習的建

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 19: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-13-

議或搜尋上的一個參考方向

2社會科學類方面的借閱規則

(1)先借閱社會工作社會病理學 (社會保障 )教育類的書籍後

再借閱家庭及其成員類的書籍

(2 )先借閱教育心理學初等教育類的書籍後再借閱教育類的書

(3)先借閱政治學各論類的書籍後再借閱政治類的書籍

(4)先借閱教育類的書籍後再借閱中等教育類的書籍

(5)先借閱政黨類的書籍後再借閱中國行政制度類的書籍

(6)先借閱憲法類的書籍後再借閱行政制度類的書籍

(7)先借閱外交及國際關係類的書籍後再借閱經濟類的書籍

(8)先借閱社會類的書籍後再借閱社會學各論的書籍

(9)先借閱各國行政制度類的書籍後再借閱各國經濟制度與資

源經濟史地類的書籍

3史地類方面的借閱規則

(1)先借閱漢及三國史類的書籍後再借閱中國通史類的書籍

(2)先借閱唐及五代史類的書籍後再借閱晉及南北朝史

(3)先借閱近代哲學史類的書籍後再借閱德國哲學類的書籍

由此可看出規則 (1)和 (2 )的關聯規則是屬於國內的歷史可以推薦

歷史系的學生在這方面的借閱書籍上的一個順序

4哲學類方面的借閱規則為

(1)先借閱臨床心理類的書籍後再借閱一般心理類的書籍

(2)先借先秦哲學類的書籍後再借閱總集類的書籍

(3 )先借閱心理學各論類的書籍後再借閱應用心理學類的書籍

在哲學類方面的 (1)和 (3 )規則也是有循序漸進的學習方式去借書如

此就可以建議輔諮系新生在剛開始借書時可以做導引的方向

二科技學院的關聯法則

表2-2 科技學院關聯表

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 20: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-14-

科技學院的學生在圖書館借閱中的關聯資料表科技學院包含了資

工系土木系電機系應化系通訊系地震系生醫所應光系等

在關聯規則裡分為三類

1哲學類方面的借閱規則為先借閱個人倫理修身類別的書後會再

借閱應用心理類別的書籍

2自然科學類方面的借閱規則為先借閱有機化學類的書籍後再借

閱分析化學類的書籍另外一種借閱規則為先借閱無機化學類的書

籍後再借閱物理化學類的書籍

3語文類的書籍方面的借越規則為先借閱日本文學類的書籍後再

借閱美國文學類的書籍

在科技學院的關聯規則裡自然科學類的借閱規則是屬於該學院專

業科目書籍的類型而其借閱關聯可以當作該學院的應化系學生在借

閱專業科目書籍上一個方向因該學院的學生較少所以借閱資料比較

少所以有關其他系的關聯規則無法被找出

三管理學院的關聯法則

表2-3 管理學院關聯表

管理學院的學生在圖書館借閱中的關聯資料表該學院所包含的科

系有經濟系國企系資管系和財金系等

關聯規則裡分為三類

1語文類方面的書籍借閱規則為先借閱辭賦及韻文總集類的書籍

後再借閱詵總集類的書籍另一關聯規則為先借閱英國文學類的書

籍後再借閱美國文學類的書籍

2社會科學類方面的書籍借閱規則為先借閱金融類的書籍後再借

閱信用保險類的書籍

3應用科學類方面的借閱規則為先借閱商品學市場學類的書籍後

再借閱企業管理類的書籍

在管理學院的關聯規則裡語文類的借閱規則可以當作低年級學生

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 21: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-15-

在必修科目借閱上一個參考社會科學類和應用科學類的借閱規則是

屬於該學院的專業書籍其借閱的規則可作為學生在專業科目上加強

的一個閱讀借閱的方向表 2-4 為整理出各學院借書主要的關聯法則

表 2-4 各學院關聯表

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 22: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-16-

222 運用資料探勘技術於大學圖書館圖書資源推廣利用之研究

本文獻由呂家賢 [6 ]於民國94年所提出此文獻結合某大學之圖書

館借閱紀錄與學生資料庫利用資料探勘的決策樹分析將讀者作有效的

區隔以借閱冊數為目標變數投入的決策變數分別有學期成績學

院別有無辦理助學貸款及年級用此決策變數來建立區隔的準則

協助圖書館進行目標行銷接著利用關聯規則建立不同讀者群的圖書

借閱關聯性

依各學院進行分析得知讀者借閱關聯與其學習的專業有相關如管

理學院的學生借閱關聯規則先借閱應用統計類別後再借社會科學理

論類別的圖書資料等規則其他學院也有此現象

一研究方法

本文獻之探勘流程區分為讀者借閱紀錄及讀者的學習成績兩大部

份將各別依據兩大部份之探勘目的結合文獻探討中之相關理論與

相關研究著手進行探勘此外並將讀者借閱紀錄與學習成果進行連結

分析

圖 2-5 讀者借閱紀錄探勘流程圖

此文獻的資料環境以某大學圖書館所提供2004年 8月1日至2005年1

月31日的借閱歷史檔為基礎共計333978筆記錄內容主要包括讀者

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 23: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-17-

信賴度 支持度

在該學校中所借閱過的圖書館藏

A圖書與圖書關聯分析

關聯規則的建立是希望了解讀者利用圖書館館藏時「如果借閱 A

類圖書那麼將會借閱 B 類圖書」的一個型式市場學( 496 類)

依據讀者所借閱的圖書類別進行關聯則的建立為了使規則變的更有

用兩個資訊片段必頇和真正的規則一貣提供信賴規則發生的機

率支持度規則適用時機

規則從資料庫挖掘出來後可以用來更了解資料所反映的問題或

者對某些預先定義的預測目標執行真正的預測規則分成左右兩部

分因此在針對探勘的規則有好幾種應用方式

1 鎖定前提的目標聚集所有含有特定前提值的規則顯示給使用者

2 鎖定結論的目標所有的規則都有特定的結論值

3 鎖定信賴度的目標高的信賴度暗示是值得開發的即使支持度是

很低的因為如果這的規則是高利潤只要發生就會值得

4 鎖定支持度目標有時候使用者希望知道普遍發生的現象從支持

度 看可以從高階角度觀看大部分時候資料庫所發生的事情

5 鎖定有趣的目標具高支持度與信賴度並脫離常軌的規則是相當

有趣的有許多方法可以將趣味量化並以此規則分級因此信賴

度與支持度之間的交易是可行的

信賴度高的規則頗為重要因為這代表對於預測資料庫的資料庫

很有用信賴度低規則越接近隨機猜測如果信賴度遠比隨機猜測的

結果來的低那麼否定的前提可以派上用場支持度代表可以多常使用

某些規則即使有 100的信賴度不過也許只出現過一次表2- 5顯

示信賴度與支持度的組合情形

表 2-5 信賴度與支持度的組合情形

高 低

高 規則正確常被使用 規則不正確經常使用

低 規則正確少用到 規則不正確很少機會使用

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 24: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-18-

B圖書借閱與學習成果探勘流程

此文獻為找出對於圖書資源利用率高的使用者族群所在使用資料

探勘中的決策樹技術投入變數有自動化系統中原有的讀者檔資料

如讀者就讀校區學院系所年級性別是否辦理助學貸款學

期成績及操行成績等相關決策變數

區隔是將一種大量的客戶依其相似的特質分為不同的群體不同目

的使用的區隔變數也會不一樣但有時囿於資料庫的特性可以選擇的

變數有限

此文獻運用決策樹技術使用輔助軟體 S PSS Answer Tree 31 進

行探勘找出高借閱率的讀者的區隔變數及規則下圖 2-6 為本研究

找出最佳組合變數的探勘流程

圖2-6 最佳區隔變數組合探勘流程圖

二輔助軟體

此文獻所使用之輔助軟體包括 MS Access統計方法套裝軟體

SPSS 軟體中的資料探勘模組 Answer Tree31 以及資料探勘軟體

Po ly Ana lys t 45利用 MS Access 處理借閱紀錄及讀者資料再利用

統計方法套裝軟體 SP SS 處理資料協助基本敘述統計分析及 Answer

Tree 30 進行決策樹分析以及利用 Po lyAna lys t 4 5 專業資料探勘套

裝軟體中「關聯分析」等分析技術軟體

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 25: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-19-

三研究結果與分析

依照第三章的圖書與圖書的關聯規則分析流程圖書與讀者間的區

隔分析流程來進行實證分析並將資料取得前置處理作業及探勘

分析結果詳述如下列小節中

1圖書與圖書關聯分析

在圖書與圖書的關聯分析探勘中本研究以購物籃分析探勘讀者在

借閱哪一種類別的圖書資料後會再借另一種類別的圖書藉以推論出

最適的圖書借閱建議購物籃分析結果中「支持度」為兩項目同時

出現的比例即讀者曾經借過 A 類圖書和 B 類圖書的機率「信賴

度」為關聯法則成立的可信程度即讀者曾經先借閱 A 類圖書後再借

B 類圖書的機率「增益」大小表示一條規則在預測結果時能比隨機

發生的機率高出多少倍的關係此增益效果得選取大於 1 之規則表

示所選取的規則項目間存在正向關係即讀者曾經借過 A 類圖書和

B 類圖書兩種圖書的借閱是存在關係關聯法則以三個值衡量關聯

程度三個值越大則法則的關聯性越強

表 2-6 各學院借閱人次與借閱冊數表

學院別 借閱次數 借閱人次 借閱率

管理學院 25036 3360 745

應用語文學院 17839 1384 1289

設計學院 14366 1098 1308

資訊學院 9448 1072 881

觀光學院 5482 524 1046

傳播學院 4827 555 870

法學院 4102 409 1003

健康學院 1991 200 996

社會科學院 1165 134 869

由表 2-6 中可以得知管理學院的學生除了一般休閒性的書籍小說的

借閱外對於其專業科目上學習的參考書籍也有相當高的借閱表現

其借閱規則以社會科學研究的工具統計學來看統計學問答集類別先借閱之後再借閱統計學總論之類的書籍管理學門相關書籍借閱規則為

先借閱販賣銷售術的書籍之後會借閱商品學市場學類別的書籍另

一個關聯為先借閱金融各論類別的書籍後再借閱投資與證卷類別的書

籍各國文學類別的書籍除了語言學習的書籍外也有部份的書籍為翻

譯小說由此可知管理學院的學生對於統計學問答集->統計學總論經濟學總論->經濟學分析銷售販賣術->商品學市場學等

書籍有借閱順序的關聯性

各學院的關聯規則探勘的三個參數設定如下應用語文學院傳播

學 院 法 學 院 健 康 學 院的 suppo rt 為 2 confidence 為 30

improvement 為 2管理學院設計學院資訊學院與觀光學院的

suppo rt 為 1 confidence 為 20 improvement 為 1 的 情形 下分

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 26: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-20-

析呈現出來的結果有一定的意義未來這些規則將可作為圖書館建

議個學院學生或新生利用圖書資源的一個參考資訊及圖書館採購館藏

的一個依據已貼近讀者在學習與研究上的需求表 2-7 各學院聯規則

整理支持度與信賴度值表

表 2-7 各學院聯規則整理支持度與信賴度值表

關聯規則 支持度() 信賴度() 增益

統計學問答集 -gt統計學總論 156 5591 5868

銷售販賣術 -gt商品學 市場學 120 3636 9679

經濟學總論 - gt 經濟學各論O R

經濟學分析 243 3568 4674

金融各論 -gt投資與證券 114 3248 5541

小說別集 散文 隨筆 日記 -gt長

篇小說 774 6690 3133

英文慣用語 -gt英文單字 326 5797 7333

日本語文文法 -gt日本語會話讀

本 244 5085 9312

網頁設計 -gt電腦動畫 665 7320 2917

建築美術設計圖樣 -gt建築美術

設計 112 6000 20025

建築美術雜文 演講錄 -gt建築美

術總論 140 6522 19348

商業意匠叢書 -gt裝飾文字 131 5833 8900

西洋漫畫 -gt西洋插圖 253 4576 4006

西洋鉛筆畫銀筆劃畫法 -gt西洋

畫素描 159 3696 6470

圖案與紋樣雜文 演講錄 -gt中國

圖案與紋樣 103 3333 8279

財務管理 -gt生產管理 162 5862 13962

統計學總論 -gt線性代數 105 3438 7665

遊藝總論雜文演講錄 -gt遊藝總

論 176 9000 21943

英語讀本 -gt英語會話讀本 352 5000 6095

英語慣用語 -gt英語單字 234 5000 7529

電影 -gt電影藝術理論 220 8000 18991

電視 -gt節目類別 201 6111 12358

電腦影像處理 -gt電腦動畫 330 6000 4818

民法物權 -gt民法債及債權 418 6071 5747

民法親屬法 -gt刑法分則 295 5714 7048

分子生物學 -gt生態學 303 6667 13200

表 2-7 中分析可以得知各學院的借閱關聯規則除了共通的關聯規

則外各學院的借閱關聯則皆有其個別的特色如管理學院對統計學

問答集->統計學總論經濟學總論->經濟學分析銷售販賣術-

>商品學市場學類別的關聯規則應用語文學院的規則有小說別集

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 27: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-21-

長篇小說類別->散文隨筆日記類別的書籍英文慣用語類別-

>英文單字類別日本語文文法類別->日本語會話讀本類別的相關

書籍設計學院的借閱關聯規則有1 建築美術雜文演講錄->建築美

術總論2 網頁設計->電腦動畫3 建築美術設計圖樣->建築美術

設計 4商業意匠叢書->裝飾文字5 西洋鉛筆畫銀筆劃畫法->

西洋畫素描6 西洋漫畫->西洋插圖 7 圖案與紋樣雜文 演講錄

->中國圖案與紋樣類別資訊學院關聯規則有財務管理->生產管

理類別統計學總論及線性代數類別該學院對於電腦專業書籍的借

閱需求非常大但是因電腦技術的飛快演進使的該學院學生借閱規

則並無法有效顯現觀光學院的關聯規則除了與其專業有關的遊藝雜

文類別及遊藝總論類別外從學生的借閱關聯規則則可以看出該學院

對於英語的學習上有有相當的要求傳播學院的關聯規則有 1電影類別->電影藝術理論的書籍2 電視類別->節目類別3借閱電腦影

像處裡類別->電腦動畫類別的書籍法學院的關聯規則有民法債

權物權類別刑法分則民法親屬法英語讀本及會話等類別的書

籍健康學院的借閱規則為先借分子生物學類別後會借生態學類別的

書籍來參考而社會科學院因為剛成立學生人數有限借閱人次數量

不足因此無法有效探勘出相關的借閱關聯規則

2圖書與讀者區隔分析

整個樹型的每一層變數及分析結果如下Roo t 節點編號為 0 為

借閱冊數的帄均數第一層變數為個學院一共分出九個節點剛好為本

研究資料內的九個學院第一層之下的各節點決策變數不盡相同分述

如下

圖2-7 決策樹樹狀結構圖

Node1第二層為學業成績第三層年級變數

Node2第二層為學業成績

Node3第二層為學業成績

Node4第二層為學業成績第三層為有無辦理助學貸款

Node5僅到第一層往下無細分

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 28: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-22-

Node6第二層為學業成績第三層為有無辦理助學貸款

Node7第二層為學業成績

Node8第二層為學業成績第三層於 Node27 之下為有無辦理助學

貸款Node28 為年級變數

Node9第二層為年級變數

表2-8 節點17區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

算術電腦 413 意大利 62

英國 192 廣告 57

商業意匠 169 美國文學 47

工業意匠 120 圖案裝飾總論 38

小說 118 各種西洋畫法 33

西洋畫 109 美術史 33

散文 隨筆 日記 109 英國文學 33

日本文學 67 飲食 烹飪 31

圖案與紋樣 66 華南地區 (珠江流域 ) 30

日耳曼語系 6 5 業餘遊玩 29

表2-9 節點29區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

育兒 929 中國文學總論 156

日耳曼語系 779 詞論 詞話 150

東方語言 514 總集 105

小說 512 藥物及治療 104

散文 隨筆 日記 420 各國傳記 95

日本文學 304 算術電腦 93

美國文學 217 寫作 翻譯及演說 92

英國文學 216 總論 92

先秦哲學 212 法國文學 89

詵總集 196 日本史地 86

表 2-10 節點 35 區隔內讀者借閱前二十大類別書籍

分類表 借閱次

數 分類表 借閱次數

日耳曼語系 172 其他各種營業 32

散文 隨筆 日記 83 遊藝總論 29

旅行 觀光 80 美國文學 24

小說 65 日本文學 21

企業管理 60 美容 18

飲食 烹飪 60 商店 13

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 29: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-23-

華南地區 (珠江流

域 ) 46 西法醫學 12

算術 40 法國文學 12

商品學 市場學 36 各種教育 11

東方語言 33 類志 11

表 2-11 節點 14 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

普通生物學 54 生物學技術 19

算術 49 社會病理及緩和 19

醫藥施設 醫師及護

理 36 遺傳學 19

微生物 35 公共衛生 17

醫藥總論 28 植物學總論 17

西法醫學 27 生命科學總論 16

小說 24 華南地區 (珠江流域 ) 16

散文 隨筆 日記 22 金融各論 14

企業管理 21 家庭手藝 13

生理學 20 化學總論 12

表 2-12 節點 26 區隔內讀者借閱前二十大類別書籍

分類表 借閱次數 分類表 借閱次數

小說 177 法學總論 49

民法 155 憲法 43

訴訟法 126 散文 隨筆 日記 34

日耳曼語系 118 日本文學 33

刑法 108 英國文學 31

美國文學 89 社會病理及緩和 29

國際法 87 中國法規彙編 25

商法 66 金融各論 18

行政法 59 華南地區 (珠江流域 ) 18

算術 55 中國人傳記 17

根據文獻分析結果選取借閱率最高且成績表現也是最高的前五個

節點第一層的分析將資料中的各學院完整區隔開接下來在根據各

學院別的成績等資料進行區隔因各學院的成績評量表準不一所以所

選取的最高成績接以該學院下分割後最高成績的區隔為選取標準得到

最佳成績表現且高借閱率的五個節點有 Node17Node29Node35

Node14Node26其詳細的規則如下

Node17設計學院且成績大於 8212 的讀者

Node29應用語文學院且成績大於 8212 的讀者

Node35觀光學院成績大於 8006 且也辦理助學貸款的讀者

Node14健康學院成績大於 7809 的讀者

Node26法學院且成績大於 7809 的讀者

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 30: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-24-

接著再找出低借閱率且成績表現較不好的五個讀者群分別為

Node21Node12Node18Node32N ode25 其詳細的規則如下

Node21管理學院成績表現低於 6868 的讀者

Node12健康學院成績表現低於 7148 的讀者

Node18觀光學院成績表現低於 7148 的讀者

Node32資訊學院成績表現低於 74 的一二四年級的讀者

Node25法學院成績表現低於 7809 的讀者

由文獻分析結果得知各學院學生的成績表現與圖書借閱冊數的多

寡有關性高借閱率的讀者其成績表現相對較好如設計學院應用

語文學院觀光學院的讀者管理學院與傳播學院雖然整體的借閱冊

數並不是很高但是也可以看出借閱冊數較高的讀者相對成績有表現較

好有可能這兩個學院的專業學習在館藏資源的利用有可能以電子

資源較多有關係相對的對於圖書資源的利用較低

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 31: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-25-

第參章 研究方法

在進行資料探勘之前為了讓資料更適合進行探勘的工作對於資料所做的

預先處理是不可缺少的重要過程本章節共分為三部分首先了解各資料表的內容以及狀況再針對其內容選擇合適的預處理方法

31 探勘流程

首先必頇取得一個欲探勘的目標資料集並將此一資料集做前置的處理清

除錯誤或不一致的資料並分別定義每一個資料的特性及屬性以利後續分析接著

再將資料做簡化及轉換以進行資料探勘最後從中挖掘出資料的分佈樣式並建

立模型結合其它相關應用領域的常識及知識以解釋所建立的模型其管理涵意並加以分析評估最後成為有益的知識而資料探勘只是利用資料庫的大量資料

進行知識發現的一部分的一個步驟而已整個知識發現過程及步驟如圖

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 32: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-26-

圖3-1 探勘模型

取得資料

資料預處理

設定輸出輸入值

關聯法則 群集 決策樹

結果分析

建議與結論

分析原始資料

全部主題 同一主題 特定主題

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 33: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-27-

32 資料來源

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中取得的資料為探勘

的對象歷史交易日期為2003年至2009年其中讀者以國小學生為主取得的圖

書館圖書借閱系統為FoxPro80資料庫版本資料庫的資料表包含(1)借閱紀錄(2)讀者(3)書名(4)標題(5)出版社(6)系列(7)作者等7個資料表其資

料表內容如表3-1所示

表3-1 資料表介紹

資料表 資料數 資料表內容

借閱紀錄(circa) 19989 讀者所借閱的歷史紀錄

讀者(rder) 1801 會員基本資料

書名(title) 25609 書號及書名等資訊

標題(headline) 21904 書籍標題資訊

出版社(publish) 25667 書號及其出版社資訊

系列(series) 23796 書種歸類

作者(author) 16383 作者基本資料

33 資料表欄位型態

由31所介紹之資料表其資料欄位名稱如表3-2所示

表3-2 欄位名稱

資料表 欄位名稱

借閱紀錄(circa) (1)讀者編號 (2 )書本流水號 (3 )書號 (4 )借閱日期 (5)

歸還日期

讀者(rder) (1)讀者編號(2)讀者姓名(3)出生日期(4)性別(5)地址(6)電話

書名(title) (1)書號(2)書名

標題(headline) (1)書號(2)標題數量(3)標題

出版社(publish) (1)書號(2)出版社數量(3)出版社名稱

系列(series) (1)書號(2)系列數量(3)系列

作者(author) (1)書號(2)作者數量(3)出版社名稱

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 34: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-28-

本研究中資料表間是以讀者編號及書號來串聯其資料欄位型態如表3-3所示

表3-3 欄位型態

欄位名稱 欄位型態

讀者編號 W+五位數字

書號 八位數字

借閱日期歸還日期出生日期 民國年月日

標題出版社系列作者數量

同一本書包含的標題合作的出版

社涵蓋的系列共同的作者數量由01開始編排

其資料表間關聯圖如下

圖3-2 原始資料表關聯圖

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 35: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-29-

34 預處理方法

該社區圖書館圖書借閱系統的資料是以FoxPro80資料庫檔案為主本研究先

將FoxPro80資料庫中資料表匯出為Excel表格型態再利用Excel和SQL資料庫做前

置處理的動作前置處理項目如下

一將FoxPro80中資料表匯出為Excel表格

本研究所取得之圖書館圖書借閱系統為FoxPro80資料庫版本而本研究必頇

將資料匯入SQL Server 2005資料庫做資料探勘因此先將FoxPro80資料庫中的資

料表匯出為Excel表格型態做初步預處理以便後續將資料表匯入SQL資料庫中做

下一步預處理

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 36: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-30-

二利用Excel轉換日期型態及計算年齡

借閱紀錄資料表的借閱日期歸還日期以及讀者資料表中的出生日期皆是

以民國年的方式表示而本論文探勘時資料庫需要以西元的方式儲存並利用出生

日期計算讀者的年齡所做的預處理如下

1 假設出生日期在C2則插入一D欄並在D2輸入

=data(left(C22)+1911mid(C242)right(C22))如圖3-1

圖3-3 格式轉換

2 假設出生日期在D2則插入一E欄並在E2輸入=text(today()-D2rdquoY歲rdquo)

如圖3-2

圖3-4 年齡計算

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 37: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-31-

三利用Excel出生日期新增星座欄位

使用讀者資料表中的出生日期新增星座欄位所做的預處理如下

1 首先插入一個新的工作表將日期從1月1日開始計算天數例如1月1

日為{1}1月20日為{20}以此類推1月1日到1月20日為魔羯座因

此{1}到{20}為魔羯座如圖3-3

2 A1B13然後用「插入」rarr「名稱」rarr「定義」在「現有名稱」下填

入「zodiac」

圖3-5 星座天數排列

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 38: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-32-

3 利用Excel函數插入一D欄並在D2輸入

=VLOOKUP(DATEVALUE(1900ampampMONTH(C2)ampampDAY(C2))zodia

c21)如圖3-4

圖3-6 星座欄位

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 39: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-33-

四 查詢重複的資料並建立新資料表 本節中將31介紹的7個資料表匯入SQL中用SQL語法查詢資料表中重複的

資料並建立一個新資料表內容為無重複的資料

採用的方法為SQL語法中的群組查詢GROUP BY子句SELECT指令的

GROUP BY子句可以將相同欄位值的欄位群組在一貣此時查詢出的結果已無重

複接著利用COUNT()聚合函數可計算出每筆資料的重複次數最後使用INTO指

令將其搜尋結果建立一個新的資料表借閱資料查詢結果如圖3-3

圖3-7 SQL查詢重複資料

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 40: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-34-

其查詢處理過後變更如下

借閱資料處理前為19989筆查詢處理過後筆數為19936重複筆數共53筆

讀者資料處理前為1801筆查詢處理過後筆數為1800重複筆數共1筆

查詢過後找出以上兩資料表出現重複資料其餘的資料表並無查詢出重複的資料

五查詢借閱紀錄中的錯誤書號

將利用Excel出生日期新增星座欄位查詢處理過後的借閱紀錄表用SQL語法

查詢資料表中錯誤的書號資料並建立一個新資料表內容為無錯誤的資料

本研究書籍資料所使用的書號編碼是00014640到00049077因此我們使用

SQL中的範圍運算子BETWEEN查詢出包含此範圍的書號查詢結果有三筆錯誤的

資料最後使用INTO指令將其搜尋結果建立一個新的資料表其查詢結果如下圖

圖3-8 SQL查詢錯誤書號

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 41: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-35-

六刪除系列和大標題資料表內名稱有兩種以上的資料

利用SQL語法將系列數量為02以上的資料刪除只取數量名稱為01的資料為探

勘樣本查詢後借閱紀錄資料表中出現兩個系列的資料有271筆出現兩個大標題

的資料有1146筆SQL程式語法如下

圖3-9 SQL刪除語法

七將系列和大標題資料表合併於借閱紀錄資料表中

在借閱紀錄資料表中新增兩欄位分別為系列大標題並利用書號將系列

大標題資料表合併查詢於借閱紀錄資料表最後使用INTO指令將其搜尋結果建立

一個新的資料表其查詢語法如下

圖3-10 SQL語法合併系列和大標題

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 42: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-36-

八將讀者資料表和借閱紀錄資料表合併

依探勘技術的需求將兩資料表合併於一個資料表中才得以進行資料探勘動

作其方法為利用SQL合併語法將需探勘的欄位依照讀者編號合併於新的資料表

其語法如下

圖3-11 SQL語法合併讀者和借閱紀錄

九將合併後資料表內大標題為NULL和空值的資料歸類為其它

在大標題原始資料內有些書籍並無設定大標題名稱資料因此資料合併後在

對應的書號會無資料合併大標題欄位則會出現NULL值以及在原始資料內出現

欄位為空值的資料利用SQL語法更新為其它SQL語法如下

圖3-12 SQL語法更新為其它

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 43: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-37-

十在讀者資料表中新增年齡分類資料欄

於讀者資料表中將年齡分為三類年紀小於18的為〝少年〞共有625筆年

紀介於18-40的為〝壯年〞共有634筆年紀大於40的為〝中年〞共有541筆SQL

語法如下

圖3-13 SQL語法新增欄位

十一 刪除借閱紀錄資料表中借閱次數低於10次的資料

將借閱紀錄資料表中歸類為其他的資料刪除後的筆數為17514採用的方法為

SQL語法中的群組查詢GROUP BY子句SELECT指令的GROUP BY子句可以將相

同欄位值的欄位群組在一貣接著利用COUNT()聚合函數可計算出每筆資料的借

閱次數查詢結果借閱次數小於5次的有1411筆小於10次的有3031筆小於等於

10次的有3211筆借閱次數低於10次的資料本研究將不列入探勘的範圍將低於

10次的資料利用語法delete刪除最後處理過後的交易資料筆數為14293

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 44: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-38-

十二 手動歸類將大標題與系列分為九大類別

因為原始資料內大標題與系列欄位分類太過細項導致無法探勘出結果所

以本研究將系列以手動方式歸類為九類參考中國圖書分類法以九大類別作分

類其類別如下

總類

目錄學圖書館學國學類書百科全書普通期刊普通會社普通論

叢普通叢書群經

哲學類

哲學總論思想中國哲學東方哲學西洋哲學論理學形而上學玄

學心理學美學倫理學

宗教類

宗教總論比較宗教學佛教道教基督教回教猶太教群小諸宗教

神話術數迷信

自然科學類

自然科學數學天文物理化學地質生物植物動物人類

應用科學類

應用科學總論醫學家事農業工程礦冶應用化學化學工藝製

造商業各種營業商學經營學

社會科學類

社會科學總論統計教育禮俗社會經濟財政政治法律軍事

史地類

史地總論中國史地斷代史文化史外交史史科地理總志方志

類志中國遊記世界史地海洋東洋史地西洋史地歐洲各國美洲

非洲澳洲及其他各地傳記古物考古

語文類

語言文學文學中國文學總集別集特種文藝東洋文學西洋文學

西方諸小國文學新聞學

美術類

美術總論音樂建築雕塑書畫攝影圖案裝飾技藝戲劇遊

藝娛樂休閒

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 45: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-39-

本研究將使用合併後的交易紀錄資料表作為資料探勘樣本其資料欄位有交

易序號書號讀者序號星座性別年齡分類大分類預處理過後的交易

紀錄筆數為14293筆資料預處理過程到此告一段落準備探勘潛在的訊息

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 46: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-40-

35 探勘內容設計

本研究將預處理後的資料表利用全部主題同一主題特定主題進行資料探

勘此三種主題僅用於決策樹與群集的方法探勘而關聯法則不套用主題直接進

行探勘

一全部主題

全部主題是將所需的資料表全部丟入Microsoft Visual Studio進行探勘利用讀

者的年齡分類性別星座等來預測書籍的大分類

二同一主題

將全部主題所探勘出的結果找出關聯性最強的欄位將關連性欄位與大分

類單獨探勘

三特定主題

依照管理者想要了解或有興趣的特定欄位進行探勘

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 47: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-41-

第肆章 研究結果與分析

本章節將第參章資料預處理過後的資料放入資料探勘軟體利用探勘軟體內

的分類群集關聯法則等方法探勘出圖書館讀者借閱行為

41 執行環境

本研究在Microsoft Windows XP上透過Microsoft SQL Server 2005企業版軟體

來探勘資料亦即將預處理過的資料匯入SQL Server 2005內轉換成SQL Server

Database資料再利用決策樹群集關聯法則三個模型作資料探勘並分析其結

42 探勘結果

本研究將要探勘的欄位有性別年齡分類星座大分類等欄位使用三

個演算法作資料分析三個演算法分別為決策樹關聯法則群集並將結果

一一分析

421 決策樹

(1)全部主題-探勘結果

圖4-1 全部主題 -決策樹之相依性網路

圖4-1 全部主題-決策樹之相依性網路中可看出大分類這一項關聯性較高

而層級數是三個而潛在訊息的關鍵就是這三項屬性的相互關係

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 48: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-42-

圖4-2 全部主題 -決策樹檢視器

圖4-2 全部主題-決策樹檢視器中的大分類作為樹狀目錄代表大分類的選項

分佈情形其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

第二層級是年紀分類其值以少年作為條件而第三層為性別其值以女性作為

條件最後兩層以星座其值分別為金牛座和處女座作為條件得知主要條件可

分為下列

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 AND 性別ne女 THEN 星座=金牛座

總類 341語文類 249美術類 249史地類 142

語文類 476美術類 198總類 180

語文類 350美術類 318總類 223

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 49: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-43-

(2)同一主題-探勘結果

1年紀分類

圖4-3 同一屬性 -年紀分類 -決策樹之相依性網路

同一屬性-年紀分類可預測年紀分類上借閱類別的比例了解年紀主要愛好的

分類或常借閱的書籍大分類

圖4-4 同一屬性 -年紀分類 -決策樹模型

圖4-4 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層年紀為少

年其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等得知主

要條件如下

IF大分類=語文類 THEN 年紀分類ne少年

IF大分類=美術類 THEN 年紀分類=少年

IF大分類=總 類 THEN 年紀分類=少年

IF大分類=自然科學類THEN 年紀分類=少年

IF大分類=應用科學類THEN 年紀分類ne少年

語文類 339美術類 29總類 229自然科學類 40

語文類 437總類 227美術類 194應用科學類 38

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 50: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-44-

2性別

圖4-5 同一屬性 -性別 -決策樹之相依性網路

同一屬性-性別可預測性別借閱類別的次數了解男女主要愛好的分類或常借

閱的書籍依照圖書館男女多寡決定採購的書籍大分類

圖4-6 同一屬性 -年紀分類 -決策樹模型

圖4-6 同一主題-決策樹檢視器中的大分類作為樹狀目錄第二層性別為女

其中下面的下條圖的藍色為語文類綠色為總類紅色為美術類等

得知主要條件如下

IF大分類=語文類 THEN 性別=女

IF大分類=美術類 THEN 性別=女

IF大分類=總 類 THEN 性別=女

IF大分類=史地類 THEN 性別ne女

語文類 404美術類 233總類 232應用科學類 32

語文類 374美術類 234總類 219史地類 57

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 51: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-45-

(3)特定主題-探勘結果

圖4-7特定主題 -決策樹之相依性網路

特定主題 -決策樹是利用關聯性最高的兩個再進一步的探勘關聯性最高的

兩個欄位為性別與年紀分類將此欄位與大分類進行探勘了解年紀與性別偏好

的大分類

圖4-8 特定主題 -決策樹模型

特定主題 -決策樹模型可看出第二層年紀分類為少年第三層性別

為女生得知主要條件如下

IF大分類=語文類 AND 年紀分類ne少年 THEN 性別ne女

IF大分類=美術類 AND 年紀分類=少年 THEN 性別=女

IF大分類=總 類 AND 年紀分類=少年 THEN 性別ne女

語文類 324美術類 252總類 238史地類 59自然科學類 52

語文類 350美術類 318總類 223自然科學類 32

語文類 476美術類 198總類 180史地類 55

語文類 430總類 236美術類 193應用科學類 39

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 52: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-46-

IF大分類=自然科學類 AND 年紀分類=少年 THEN 性別=女

IF大分類=應用科學類 AND 年紀分類ne少年 THEN 性別=女

2年紀分類

圖4-9特定主題 -年紀分類 -決策樹之相依性網路

特定主題 -年紀分類將利用大分類來預測各年齡層借閱書籍大分類的比

率也可以了解各年紀主要愛好的分類或常借閱的書籍

圖4-10 特定主題 -年紀分類 -決策樹模型

少年 539中年 249壯年 202

中年 501少年 277壯年 210

少年 416壯年 333中年 83

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 53: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-47-

在特定主題 -年紀分類 -決策樹模型圖中可看出年紀分類所借閱大

類別的比率長條圖中藍色為少年橘色為中年綠色為壯年而此

模型少年的比率為最高

得知主要條件如下

IF年紀分類=少年 THEN 大分類=自然科學類

IF年紀分類=壯年 THEN 大分類=宗教類

IF年紀分類=中年 THEN 大分類=應用科學類

422 群集

(1)全部主題-探勘結果

圖4-11 全部主題 -群集圖層

圖4-11全部主題 -群集圖層為Microsoft SQL Server 2005中的群集演算法

跑出的結果可看到所建立的探勘模型將借閱紀錄資料表 分成10群每個群組

有一個群組編號顏色較深的代表較多的資料反之則代表較少的資料

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 54: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-48-

圖4-12 全部主題 -分群規則

如圖4-12所示將看到每一群組的資料量與每一群組的資料分

佈可以發現群集5群集4群集2群集 1是比較具有代表性的群組

其餘群集數量較少缺乏代表性將來可以透過設定建立資料探勘模

型的參數將不具代表性的群組刪除(目前版本暫時沒提供參數設定

在舊版SQL Server2000就提供資料探勘模型建立的參數設定)

仔細分析圖4-12每一群所顯示的資料分佈可以發現群組 5是屬於

壯年 (年紀為40歲以上 )群組4是屬於中年 (年紀為18~40歲之間 )群組

2是屬於少年 (年紀為 18歲以下 )群組1是屬於男性居多各群集特性如

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 55: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-49-

圖4-13全部主題 -群集5特性

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 56: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-50-

圖4-14全部主題 -群集4特性

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 57: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-51-

圖4-15全部主題 -群集2特性

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 58: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-52-

圖4-16全部主題 -群集1特性

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 59: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-53-

(2)同一主題-性別-探勘結果

圖4-17 同一主題 -群集圖層

同一主題 -群集是將特性最強的年齡分類與大分類做群集分析由

圖4-17同一主題 -群集圖層可看到所建立的探勘模型將訓練資料分成8群其

中群集5分布最多資料

圖4-18 同一主題 -分群規則

由圖4-18同一主題 -分群規則可看出群集 5群集1群集 6群集2

較具有代表性群集 5屬於會借閱語文類且不是中年群集 1屬於會借

閱語文類且是中年群集 6屬於借閱總類群集2屬於借閱美術類各

群集特性如下

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 60: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-54-

圖4-19同一主題 -群集5特性

圖4-20同一主題 -群集1特性

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 61: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-55-

圖4-21同一主題 -群集6特性

圖4-22同一主題 -群集2特性

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 62: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-56-

423 關聯法則

本節利用Microsoft SQL Server 2005中的關聯規則來關聯分析規則建立關聯

法則的資料探勘模型依據SQL Server的設計必頇使用兩個資料表與前面的探勘

方法有所不同因此操作與設定略有不同比較容易搞混本論文將預處理後但

未合併的讀者資料與交易紀錄做關聯規則探勘

圖4-23 檢查規則與信賴度

「規則」頁籤中如圖4-23所示其中「規則」欄位顯示推論出來的規則「機

率」欄位則代表信賴度(confidence)「重要性」則代表此規則的價值(是顯而易見

的規則或是不易被發現的規則數值越高代表越不容易被發現)可以利用圖中

的「最小機率」與「最低重要性」的參數設定過濾一些信賴度太低或是重要性

較低的規則

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 63: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-57-

另外一個常用的「支持度」(support)資料並沒有直接被計算出來(不知道這

麼重要的資料為何沒有直接列出)必頇切換至「項目集」頁籤如圖4-24所示

先將個別重複借閱的類別刪除例如甲借閱過2次語文類則我們只計算語文類借

閱人次為1次而總借閱人次為每個類別借閱人次加總貣來共2474次將「支援」

欄位的值除以總借閱人次可得出該項規則的「支持度」

例如第一列的資料(美術類總類與語文類都會被借閱的次數為342而總借閱人次

為2474支持度=3422474=138信賴度=877)

圖4-24 檢查支持度資料

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 64: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-58-

最後整理一些探勘出來的規則支持度最小設定為2以上信賴度最小設定

為80以上以下表格是整理出來的關聯規則

表4-1 整理後的關聯規則

項次 規則 支持度gt2 信賴度gt80 重要性

1 美術類 總類 =gt 語文類 138 877 0623

2 社會科學類 總類 =gt 語文類 50 955 0492

3 社會科學類 美術類 =gt 語文類 48 952 0487

4 哲學類 總類 =gt 語文類 47 901 0460

5 應用科學類 總類 =gt 語文類 46 898 0457

6 社會科學類 美術類 =gt 總類 46 913 0536

7 史地類 總類 =gt 語文類 45 966 0489

8 自然科學類 總類 =gt 語文類 45 882 0447

9 應用科學類 美術類 =gt 總類 44 872 0511

10 應用科學類 美術類 =gt 語文類 44 872 0440

11 史地類 美術類 =gt 語文類 44 948 0479

12 哲學類 美術類 =gt 語文類 42 929 0870

13 自然科學類 美術類 =gt 總類 42 937 0540

14 哲學類 美術類=gt 總類 42 920 0532

15 史地類 美術類=gt 總類 42 904 0524

16 自然科學類 美術類=gt 語文類 40 901 0450

17 哲學類 社會科學類=gt 語文類 22 982 0463

18 自然科學類 社會科學類=gt 總類 22 982 0526

19 哲學類 社會科學類=gt 總類 22 965 0518

20 自然科學類 社會科學類=gt 語文類 21 964 0454

21 哲學類 社會科學類=gt 美術類 20 895 0514

因為美術類總類語文類較常被借閱所以此三個類別關聯性較

大而關聯性最大為語文類

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 65: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-59-

43 重要結果與分析

彙整所有探勘結果後本研究找到及歸納出的最重要訊息可能原因分析如

依照群集的探勘結果得知

女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)

依照決策樹的探勘結果得知

年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高

少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高

中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍壯年讀者(40歲以上)

則偏愛宗教類書籍

依照關聯法則的探勘結果得知

同時借閱美術類以及總類的的讀者會再借閱語文類書籍的比率為最高

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 66: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-60-

第伍章 結論與未來展望

51 結論

本研究是以台中市南屯區某社區圖書館的圖書借閱系統中的資料作為探勘的

對象探討讀者借閱書籍種類的習慣研究讀者的性別年齡星座等特性是否

會影響借書的習慣而有所不同

本研究是以圖書館借閱系統中取得的借閱資料讀者資料與書籍資料等資料

表透過決策樹群集關聯法則三個探勘技術從中找出潛在的關係將取得

的資料首先做預處理對預處理過的資料進行三個主題的探勘並對探勘結果做

統整與分析其中決策樹分類法的結果有樹狀圖較容易解釋探勘結果而在

相同的探勘條件下群集產生的訊息比決策樹細微且決策樹和群集探勘的結果

都發現借閱習慣與性別年齡兩個屬性的關聯性較大

根據研究結果對圖書館建議如下

1 女性比男性還要常借閱圖書館資料且男性大多為少年(18歲以下)顯示

出女性較喜愛利用借閱書籍來尋找資料而男性可能因年齡越大則越不愛

閱讀書籍推測可能原因為男性工作繁忙而無暇閱讀書籍也有可能由於

圖書館靠近國民小學因此讀者以國小生居多

2 年齡中年以上讀者(18歲以上)讀者較偏好借閱語文類且其中處女座男性

的比率為最高語文類包含文學類別與小說類別所以少年(未滿18歲)可

能比較不愛閱讀此類的書籍

3 少年讀者(未滿18歲)較偏愛美術類的書籍且其中金牛座的比率最高美術

類包含漫畫娛樂類的書顯示大部分少年都較愛閱讀此類書籍建議圖

書館圖書採購時可多選購此類書籍

4 中年讀者(18歲以上未滿40歲)偏愛應用科學類書籍如家事醫學商業

等書籍推測可能原因為課程需要而壯年讀者(40歲以上)則偏愛宗教類

書籍建議圖書館可依照此規則按照讀者的年齡給於圖書借閱時的建

議相信可以為圖書館以及讀者帶來雙贏的效果

5 同時借閱美術類以及總類的讀者會再借閱語文類書籍的比率為最高依

據此規則可建議圖書館將美術類總類以及語文類擺放於同一區以提升

借閱率

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 67: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-61-

52 未來展望

因本研究大分類只有分為九大類原始資料系列則因分的太細項關聯法則

找出的結果並沒有預期的好未來本論文會做更進一步的預處理希望可以藉此

探勘出更好的關聯規則

最後由本研究可知圖書館可利用資料探勘找出讀者最關鍵的借閱行為

則可了解讀者真正的需求建立真正以讀者為出發點的圖書分類管理因此未

來本研究將積極與更多圖書館合作以更多且更有分類的資料來進行資料探勘

協助圖書館了解讀者的借閱習慣

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文

Page 68: 資料ᔋҗ於 圖書館ॺ閱習慣之研ص - teach.ltu.edu.t³‡管系/99學年度四技... · ࡏ議,讓讀者更ᜮ意ٯҗ圖書館的資源,並望藉ԟ提高圖書館的ٯ

-62-

參考文獻

[1]曾憲雄蔡秀滿蘇東興曾秋蓉王慶堯(2005)著資料探勘(Data

Mining)旗標出版股份有限公司

[2]I-Hui Li Kuo-Yen Lo Yi-Li Wu Yu-Chiou Tsai (Jan 2010) A Study of Dress Preference Using Data Mining Conference on Commerce and Management

(CCAM2010) pp 332-337 2010 (ISBN978-986-81885-5-6) 台南縣遠東科技大學 ROC(Taiwan)

[3]李怡慧 洪瑞文 沈振誠 周幸慧李蕙君郭恒佑 (Jan 2008) 資料挖掘應用

於股票投資分析 2008 管理與技術國際學術研討會 (p 9) 雲林縣斗六市(雲林科大) ROC(Taiwan)

[4]李怡慧洪瑞文鄭立宏黃渝婷林姍瑩 (Jan 2008) 資料探勘技術應用在茶

飲喜好之研究 International Conference on Management amp Technology

pp1084-1094 2008 台北縣石碇鄉(華梵大學) ROC(Taiwan)

[5] 詹智強李明修(Jun 25 2007)應用資料探勘技術分析圖書館閱覽者行為

Applying Data Mining Techniques to Analyze the Behavior of Library Users朝陽科技大學工業工程與管理系碩士論文

[6] 翁振益呂家賢(民國九十四年六月) 運用資料探勘技術於大學圖書館圖

書資源推廣利用之研究 A Study of Applying Data-mining Techniques in

University Library in Perspective of Utilizing and Extending Useful Resources銘

傳大學管理研究所在職專班碩士論文