Data Mining Microsoft SQL Server 2005

113
1 Data Mining Data Mining Microsoft SQL Server 2005 Microsoft SQL Server 2005 謝謝謝 謝謝謝 謝謝謝謝謝謝謝謝謝謝 謝謝 謝謝謝謝謝謝謝謝謝謝 謝謝 謝謝謝謝謝謝謝謝 謝謝謝 謝謝謝謝謝謝謝謝 謝謝謝 [email protected]. tw WWW.CDMS.ORG.TW www.stat.fju.edu.tw

description

Data Mining Microsoft SQL Server 2005. 謝邦昌 輔仁大學統計資訊學系 教授 中華資料採礦協會  理事長. [email protected] WWW.CDMS.ORG.TW www.stat.fju.edu.tw. 你不能不知的十大創新技術. Technology Review 雜誌 (麻省理工學院 2002 年 1 月出刊). 改變未來的 十大創新技術. 機器與人腦的介面 塑膠電晶體 資料採礦 (Data mining) 數字權利管理 生物測定學 (Biometrics) 語言識別處理 - PowerPoint PPT Presentation

Transcript of Data Mining Microsoft SQL Server 2005

Page 1: Data Mining Microsoft SQL Server 2005

11

Data MiningData Mining Microsoft SQL Server 2005Microsoft SQL Server 2005

謝邦昌謝邦昌輔仁大學統計資訊學系 教授輔仁大學統計資訊學系 教授中華資料採礦協會 理事長中華資料採礦協會 理事長 stat1001mailsfjuedutw

WWWCDMSORGTW

wwwstatfjuedutw

22

你不能不知的十大創新技術你不能不知的十大創新技術

Technology Review 雜誌(麻省理工學院 2002 年 1 月出刊)

33

改變未來的改變未來的十大創新技術十大創新技術 機器與人腦的介面 機器與人腦的介面 塑膠電晶體 塑膠電晶體 資料採礦資料採礦 (Data mining)(Data mining) 數字權利管理 數字權利管理 生物測定學生物測定學 (Biometrics) (Biometrics) 語言識別處理 語言識別處理 微光學技術微光學技術 (Microphotonics) (Microphotonics) 解開程式碼解開程式碼 (Untangling code) (Untangling code) 機器人設計 機器人設計 微應用流體學微應用流體學 (Microfluidics) (Microfluidics)

44

PC ArchitecturePC ArchitectureDOSDOS SpreadsheetsSpreadsheets

Word ProcessorsWord Processors

PCPCMid 80sMid 80s

InternetInternetMid 90sMid 90s

ApplicationsApplicationsLate 80s-Mid 90sLate 80s-Mid 90s

Web AppsWeb AppsMid 00s - Mid 00s -

TodayToday

SpeechWritingSpeechWriting

XMLSOAPXMLSOAPHTTPHTMLHTTPHTMLSMTPSMTP Email ClientsEmail Clients

Web BrowsersWeb Browsers

Wi-FiBroadbandWi-FiBroadbandDevicesDevices

Web ServicesWeb Services

Protocols Loosely Coupled

APIs Tightly C

oupled

Rights ManagementRights ManagementTrusted Computing HardwareTrusted Computing Hardware

MouseMouseGUIGUILANsLANs

55

DATA MININGDATA MINING 執行階段執行階段

定義企業問題定義企業問題 資料準備資料準備

資料檢視資料檢視

模型的建立模型的建立

模型的評估模型的評估

佈署與應用佈署與應用資料源資料源

Data Mining 處理流程 CRISP-DM

DATA MINIDATA MININGNG

處理流程處理流程

66

分析服務(Data Mining)

整合性服務(SSIS)

SSIS 分析服務 報表服務

資料來源檢視表(Data

SourceView)

定義企業問題 資料準備

資料檢視

模型的建立

模型評估

佈屬與應用資料源

Data Mining 整合微軟商業智慧方案

資料源

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 2: Data Mining Microsoft SQL Server 2005

22

你不能不知的十大創新技術你不能不知的十大創新技術

Technology Review 雜誌(麻省理工學院 2002 年 1 月出刊)

33

改變未來的改變未來的十大創新技術十大創新技術 機器與人腦的介面 機器與人腦的介面 塑膠電晶體 塑膠電晶體 資料採礦資料採礦 (Data mining)(Data mining) 數字權利管理 數字權利管理 生物測定學生物測定學 (Biometrics) (Biometrics) 語言識別處理 語言識別處理 微光學技術微光學技術 (Microphotonics) (Microphotonics) 解開程式碼解開程式碼 (Untangling code) (Untangling code) 機器人設計 機器人設計 微應用流體學微應用流體學 (Microfluidics) (Microfluidics)

44

PC ArchitecturePC ArchitectureDOSDOS SpreadsheetsSpreadsheets

Word ProcessorsWord Processors

PCPCMid 80sMid 80s

InternetInternetMid 90sMid 90s

ApplicationsApplicationsLate 80s-Mid 90sLate 80s-Mid 90s

Web AppsWeb AppsMid 00s - Mid 00s -

TodayToday

SpeechWritingSpeechWriting

XMLSOAPXMLSOAPHTTPHTMLHTTPHTMLSMTPSMTP Email ClientsEmail Clients

Web BrowsersWeb Browsers

Wi-FiBroadbandWi-FiBroadbandDevicesDevices

Web ServicesWeb Services

Protocols Loosely Coupled

APIs Tightly C

oupled

Rights ManagementRights ManagementTrusted Computing HardwareTrusted Computing Hardware

MouseMouseGUIGUILANsLANs

55

DATA MININGDATA MINING 執行階段執行階段

定義企業問題定義企業問題 資料準備資料準備

資料檢視資料檢視

模型的建立模型的建立

模型的評估模型的評估

佈署與應用佈署與應用資料源資料源

Data Mining 處理流程 CRISP-DM

DATA MINIDATA MININGNG

處理流程處理流程

66

分析服務(Data Mining)

整合性服務(SSIS)

SSIS 分析服務 報表服務

資料來源檢視表(Data

SourceView)

定義企業問題 資料準備

資料檢視

模型的建立

模型評估

佈屬與應用資料源

Data Mining 整合微軟商業智慧方案

資料源

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 3: Data Mining Microsoft SQL Server 2005

33

改變未來的改變未來的十大創新技術十大創新技術 機器與人腦的介面 機器與人腦的介面 塑膠電晶體 塑膠電晶體 資料採礦資料採礦 (Data mining)(Data mining) 數字權利管理 數字權利管理 生物測定學生物測定學 (Biometrics) (Biometrics) 語言識別處理 語言識別處理 微光學技術微光學技術 (Microphotonics) (Microphotonics) 解開程式碼解開程式碼 (Untangling code) (Untangling code) 機器人設計 機器人設計 微應用流體學微應用流體學 (Microfluidics) (Microfluidics)

44

PC ArchitecturePC ArchitectureDOSDOS SpreadsheetsSpreadsheets

Word ProcessorsWord Processors

PCPCMid 80sMid 80s

InternetInternetMid 90sMid 90s

ApplicationsApplicationsLate 80s-Mid 90sLate 80s-Mid 90s

Web AppsWeb AppsMid 00s - Mid 00s -

TodayToday

SpeechWritingSpeechWriting

XMLSOAPXMLSOAPHTTPHTMLHTTPHTMLSMTPSMTP Email ClientsEmail Clients

Web BrowsersWeb Browsers

Wi-FiBroadbandWi-FiBroadbandDevicesDevices

Web ServicesWeb Services

Protocols Loosely Coupled

APIs Tightly C

oupled

Rights ManagementRights ManagementTrusted Computing HardwareTrusted Computing Hardware

MouseMouseGUIGUILANsLANs

55

DATA MININGDATA MINING 執行階段執行階段

定義企業問題定義企業問題 資料準備資料準備

資料檢視資料檢視

模型的建立模型的建立

模型的評估模型的評估

佈署與應用佈署與應用資料源資料源

Data Mining 處理流程 CRISP-DM

DATA MINIDATA MININGNG

處理流程處理流程

66

分析服務(Data Mining)

整合性服務(SSIS)

SSIS 分析服務 報表服務

資料來源檢視表(Data

SourceView)

定義企業問題 資料準備

資料檢視

模型的建立

模型評估

佈屬與應用資料源

Data Mining 整合微軟商業智慧方案

資料源

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 4: Data Mining Microsoft SQL Server 2005

44

PC ArchitecturePC ArchitectureDOSDOS SpreadsheetsSpreadsheets

Word ProcessorsWord Processors

PCPCMid 80sMid 80s

InternetInternetMid 90sMid 90s

ApplicationsApplicationsLate 80s-Mid 90sLate 80s-Mid 90s

Web AppsWeb AppsMid 00s - Mid 00s -

TodayToday

SpeechWritingSpeechWriting

XMLSOAPXMLSOAPHTTPHTMLHTTPHTMLSMTPSMTP Email ClientsEmail Clients

Web BrowsersWeb Browsers

Wi-FiBroadbandWi-FiBroadbandDevicesDevices

Web ServicesWeb Services

Protocols Loosely Coupled

APIs Tightly C

oupled

Rights ManagementRights ManagementTrusted Computing HardwareTrusted Computing Hardware

MouseMouseGUIGUILANsLANs

55

DATA MININGDATA MINING 執行階段執行階段

定義企業問題定義企業問題 資料準備資料準備

資料檢視資料檢視

模型的建立模型的建立

模型的評估模型的評估

佈署與應用佈署與應用資料源資料源

Data Mining 處理流程 CRISP-DM

DATA MINIDATA MININGNG

處理流程處理流程

66

分析服務(Data Mining)

整合性服務(SSIS)

SSIS 分析服務 報表服務

資料來源檢視表(Data

SourceView)

定義企業問題 資料準備

資料檢視

模型的建立

模型評估

佈屬與應用資料源

Data Mining 整合微軟商業智慧方案

資料源

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 5: Data Mining Microsoft SQL Server 2005

55

DATA MININGDATA MINING 執行階段執行階段

定義企業問題定義企業問題 資料準備資料準備

資料檢視資料檢視

模型的建立模型的建立

模型的評估模型的評估

佈署與應用佈署與應用資料源資料源

Data Mining 處理流程 CRISP-DM

DATA MINIDATA MININGNG

處理流程處理流程

66

分析服務(Data Mining)

整合性服務(SSIS)

SSIS 分析服務 報表服務

資料來源檢視表(Data

SourceView)

定義企業問題 資料準備

資料檢視

模型的建立

模型評估

佈屬與應用資料源

Data Mining 整合微軟商業智慧方案

資料源

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 6: Data Mining Microsoft SQL Server 2005

66

分析服務(Data Mining)

整合性服務(SSIS)

SSIS 分析服務 報表服務

資料來源檢視表(Data

SourceView)

定義企業問題 資料準備

資料檢視

模型的建立

模型評估

佈屬與應用資料源

Data Mining 整合微軟商業智慧方案

資料源

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 7: Data Mining Microsoft SQL Server 2005

77

定義企業問題 (CRISP-DM)

確定目前內部遇到的問題確定目前內部遇到的問題 定義解決的目標是定義解決的目標是開源開源或是或是節流節流

電信用戶忠誠度逐年下降 產品良率持續下降hellip零售點庫存情況成長hellip保戶詐欺狀況不斷升高hellip卡戶剪卡比例增加hellip 客戶呆帳發生數暴增hellip客戶轉貸頻率提升hellip

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 8: Data Mining Microsoft SQL Server 2005

88

資料準備 (CRISP-DM) 使用資料平台整合性服務使用資料平台整合性服務 (SSIS)(SSIS)

bull 全新的資料轉換工具全新的資料轉換工具 SQL 2000 SQL 2000 稱之為 稱之為 DTSDTSbull 消除異常資料如出生前的消費記錄離家消除異常資料如出生前的消費記錄離家 300300 公里的日常消公里的日常消費費

bull 進行資料載入轉換清除過濾與彙整進行資料載入轉換清除過濾與彙整 多重資料源整合至資料倉儲或分析服務多重資料源整合至資料倉儲或分析服務 進行資料取樣進行資料取樣

bull 處理訓練與驗證資料處理訓練與驗證資料bull 根據百分比抽樣根據百分比抽樣bull 根據筆數抽樣根據筆數抽樣

整合變數使用整合變數使用bull 衍生性欄位通用變數hellip等衍生性欄位通用變數hellip等bull 文字採礦功能文字採礦功能

可擷取單字或是片語可擷取單字或是片語 可列舉排除關鍵字可列舉排除關鍵字

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 9: Data Mining Microsoft SQL Server 2005

99

資料檢視 (CRISP-DM)

進行建立模型前的決策進行建立模型前的決策bull 檢視資料分佈情況檢視資料分佈情況bull 檢視資料最大最小值檢視資料最大最小值bull 檢視資料標準差檢視資料標準差bull 檢視資料平均值檢視資料平均值

使用的工具使用的工具bull BI Development StudioBI Development Studio

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 10: Data Mining Microsoft SQL Server 2005

1010

模型的建立 (CRISP-DM)

將資料切割為將資料切割為 bull 訓練資料訓練資料bull 鑑效資料鑑效資料bull 測試資料測試資料

同一商業問題可以透過多種演同一商業問題可以透過多種演算法調整參數找出最佳模型算法調整參數找出最佳模型

微軟提供微軟提供 99 種採礦演算法種採礦演算法 ((再再加加 Text Mining)Text Mining)bull 利用利用 Data Mining Data Mining 語法語法bull 利用利用 Data Mining Data Mining 建置精靈建置精靈

Training

Validation

Test

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 11: Data Mining Microsoft SQL Server 2005

1111

模型的評估 (CRISP-DM)

Training

Validation

Test

使用 訓練資料集 建立預測模型

使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應使用測試資料集來選擇模型以及測量模型在預測未知資料的能力

微軟提供的評估方法可以透過微軟提供的評估方法可以透過bull Mining Accuracy ChartMining Accuracy Chart

Lift Chart-Lift Chart- 累積增益圖累積增益圖 Classification Matrix-Classification Matrix- 錯差矩陣錯差矩陣

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 12: Data Mining Microsoft SQL Server 2005

1212

模型的評估使用測試資料 (CRISP-DM)

利用測試資料集進行欄位對應利用測試資料集進行欄位對應bull選擇輸入資料表選擇輸入資料表bull 進行欄位對應進行欄位對應

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 13: Data Mining Microsoft SQL Server 2005

1313

模型的評估之累積增益圖 (CRISP-DM)

累積增益圖指標累積增益圖指標bull 可以判斷不同採礦演算法的準確率可以判斷不同採礦演算法的準確率

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 14: Data Mining Microsoft SQL Server 2005

1414

模型效益評估之錯差矩陣 (CRISP-DM)

橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果 用來比較各類預測正確與錯誤之組合用來比較各類預測正確與錯誤之組合

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 15: Data Mining Microsoft SQL Server 2005

1515

佈署與應用 (CRISP-DM)

將採礦的分析結果部署到商業模型中達到將採礦的分析結果部署到商業模型中達到自動化自動化預測預測的效果以提升營運利潤改善商業流程的效果以提升營運利潤改善商業流程

使用對象使用對象bull 決策者決策者bull 行銷單位行銷單位bull 財務分析財務分析bull 品保單位品保單位

整合方案整合方案bull 使用技術 使用技術 DMXDMX AMO AMO XMLAXMLAbull 資料平台整合性服務資料平台整合性服務 (Integration Services)(Integration Services)bull 分析服務分析服務 (Analysis Services)(Analysis Services)bull 報表服務報表服務 (Reporting Services)(Reporting Services)

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 16: Data Mining Microsoft SQL Server 2005

1616

Data MiningData Mining 評估評估

Database TheoryDatabase Theory Artificial IntelligenceArtificial Intelligence

Machine LearningMachine LearningStatisticsStatisticsData WarehousingData Warehousing

Data MiningData Mining

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 17: Data Mining Microsoft SQL Server 2005

1717

Data MiningData Mining 工具工具 資料採礦工具是利用資料來建立一些模擬真實資料採礦工具是利用資料來建立一些模擬真實

世界的模式(世界的模式( ModelModel )利用這些模式來描述)利用這些模式來描述資料中的特徵(資料中的特徵( PatternsPatterns )以及關係()以及關係( RelatioRelationsns )這些模式有兩種用處)這些模式有兩種用處bull 瞭解資料的特徵與關係可以提供你做決策所需要的瞭解資料的特徵與關係可以提供你做決策所需要的

資訊資訊bull 資料的特徵可以幫助你做預測資料的特徵可以幫助你做預測

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 18: Data Mining Microsoft SQL Server 2005

1818

Data MiningData Mining 的商業價值的商業價值

99 個新個新 algorithms+Text Mininalgorithms+Text Miningg

親切的使用者介面親切的使用者介面 12 12 種 種 viewerviewer

與現有 與現有 BI BI 系統整合系統整合 與 與 Web amp Office Web amp Office 整合整合

SQL Server 2005SQL Server 2005

Reports ( 動態 amp Ad hoc)

Data Mining

Business Knowledge

Easy Difficult

使用容易度

OLAP

Reports ( 靜態 )

資料來源 Microsoft Taiwan

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 19: Data Mining Microsoft SQL Server 2005

1919

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 20: Data Mining Microsoft SQL Server 2005

2020

Data MiningData Mining 在各產業的應用在各產業的應用 金融服務業金融服務業 客戶貢獻度分析信用評分風險評估客戶區隔交叉客戶貢獻度分析信用評分風險評估客戶區隔交叉

行銷等行銷等 保險業保險業 顧客貢獻度分析信用評分風險評估客戶區隔交叉顧客貢獻度分析信用評分風險評估客戶區隔交叉

行銷客戶流失分析和詐欺偵測等行銷客戶流失分析和詐欺偵測等 電信業電信業 顧客貢獻度分析信用評分客戶區隔交叉行銷客戶顧客貢獻度分析信用評分客戶區隔交叉行銷客戶

流失分析銷售預測和詐欺偵測等流失分析銷售預測和詐欺偵測等

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 21: Data Mining Microsoft SQL Server 2005

2121

Data MiningData Mining 在各產業的應用在各產業的應用 製造業製造業 客戶貢獻度分析品質管制行銷績效分析生產分析和客戶貢獻度分析品質管制行銷績效分析生產分析和

存貨分析等存貨分析等 零售業零售業 客戶忠誠度客戶區隔購物籃分析定價分析交叉行客戶忠誠度客戶區隔購物籃分析定價分析交叉行

銷和銷售預測等銷和銷售預測等 生物科技醫療保健航太空業環境生物科技醫療保健航太空業環境

法律等法律等

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 22: Data Mining Microsoft SQL Server 2005

2222

商業智慧流程商業智慧流程

cedil ecircreg AEligcurren Agraveordf RData Mining

OLAP

cedil ecircreg AEligordm THORNsup2 zordf Igrave

MIS

cedil ecircreg AEligAcirc agrave laquoordf ordmcurren u atilde

ExtractTransform

Load

cedil ecircreg AElig UumlAgrave xcedil ecircreg AEligyen laquopara deg

Metadata

Templates

cedil ecircreg AEligmiddot frac12

Data Source

uml Iumlyen Icircordf IgraveDecision Making

CRMMarketing Campaign

acute y z ecircreg AEligordf ordm ecircreg AEligMeta Data

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 23: Data Mining Microsoft SQL Server 2005

2323

商業智慧的核心商業智慧的核心

如何收集資料如何收集資料 營運資料市場調查資料固定營運資料市場調查資料固定 PanelPanel 追蹤追蹤

如何管理資料如何管理資料 ETLETL Data warehousingData warehousing

如何從資料中獲取智慧如何從資料中獲取智慧 Data MiningData Mining OLAPOLAP StatisticsStatistics

如何應用智慧如何應用智慧 行銷策略主管決策互動化行銷策略主管決策互動化 CRMCRM 機制機制

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 24: Data Mining Microsoft SQL Server 2005

2424

商業智慧之整合運用商業智慧之整合運用

「不論是行銷或服務部門「不論是行銷或服務部門如何如何將分析所得到的資訊將分析所得到的資訊進一步轉換進一步轉換成經營管理可資利用的材料並且在實際線上作業環境中成經營管理可資利用的材料並且在實際線上作業環境中將整個將整個回應機制完全自動化回應機制完全自動化充分充分運用這些資訊」運用這些資訊」

「將資料分析所得的結果回饋入企業資源規劃系統「將資料分析所得的結果回饋入企業資源規劃系統 (ERP)(ERP) 客戶關係客戶關係管理管理 (CRM)(CRM) 以及電子商務以及電子商務 (EC)(EC) 等系統中藉此快速地提昇在這些等系統中藉此快速地提昇在這些系統上所花費大量支出的投資報酬率系統上所花費大量支出的投資報酬率(( return on investment Rreturn on investment ROIOI )) 」 」

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 25: Data Mining Microsoft SQL Server 2005

2525

透過提供企業所有成員商業洞察力以提昇企業組織能夠更快速更正確的產生營運決策

完整且高度整合的商業智慧解決方案完整且高度整合的商業智慧解決方案 可透過可透過 Microsoft OfficeMicrosoft Office 傳遞商業智傳遞商業智

慧訊息慧訊息 符合預算考量的企業級解決方案符合預算考量的企業級解決方案

Microsoft Microsoft 商業智慧商業智慧遠景 與 策略遠景 與 策略

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 26: Data Mining Microsoft SQL Server 2005

2626

Integration ServicesIntegration Services

ETLETL 的重要性的重要性 ETLETL 的重大突破的重大突破 新一代新一代 ETLETL 平台的工具平台的工具標準標準

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 27: Data Mining Microsoft SQL Server 2005

2727

Integration ServicesIntegration ServicesETLETL 的重要性的重要性

整合異質資料來源 文字檔案 大型主機試算表 關連式資料庫

快速更新資料倉儲與資料超市

載入資料前可以清除錯誤資料

可以高效率進行線上交易處理系(OLTP) 與線上分析處理的資料(OLAP) 轉換作業

回報作業成功與失敗的狀態

透過整合服務可以不用在資料轉換過程中需要暫存資料庫處理作業包含資料自動管理功能

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 28: Data Mining Microsoft SQL Server 2005

2828

傳統資料整合作業傳統資料整合作業

CRM semi structured

Legacy data binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts amp escalation

bull資料整合與資料倉儲建立過程中需要額外的暫存性資料區 (Stage) 與作業 ( 如彙總 )bull資料處理需要不同多種工具 ( 如 CRM 系統的文字採礦工具 ) 且工具間有相容性問題存在bull回報機制與問題層級提升的速度緩慢bull資料過多時往往會造成該策略無法運作

Handcoding

StagingText Mining

ETL Staging

Cleansing amp

ETL

Staging

ETL

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 29: Data Mining Microsoft SQL Server 2005

2929

整合整合 Integration ServicesIntegration Services 的運作方式的運作方式

CRM Semi-structured data

Legacy data binary files

Application database

Alerts amp escalation

bull使用 Integration Services 可以在作業過程將原需要資料庫處理的部分直接處理完畢 bull所有的作業包括文字採礦彙總合併資料比對等都可以整合在同一個服務中bull分離增加資料庫與 ETL 工具的作業範圍強化資料庫的高可用度bull直接透過 Integration Services 進行問題的警示與回報

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 30: Data Mining Microsoft SQL Server 2005

3030

Data Flow Task Data Flow Task 運作方式運作方式

設定資料源可以是多種不同來源也可以包含客制化來源或是設定檔如 udl

使用轉換作業進行資料轉換如 Merge Aggregate Sort 等資料可以根據規則進行分類或是合併如 Multicast Conditional Split 等資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取最後資料可以同時寫入到不同的檔案格式如 Excel Flat File Database 等

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 31: Data Mining Microsoft SQL Server 2005

3131

Integration ServicesIntegration Services新一代新一代 ETLETL 平台的工具標準平台的工具標準

資料整合資料整合提供資料採礦與專家經提供資料採礦與專家經驗值驗值提供任何專業領域的資提供任何專業領域的資料整合作業料整合作業

模糊查閱模糊查閱查詢最適切的資料查詢最適切的資料找出最佳的符合資料找出最佳的符合資料

去除重複去除重複移除相似的重複性資料移除相似的重複性資料ldquoldquoWindows XPrdquo ldquoWiWindows XPrdquo ldquoWinXPrdquo nXPrdquo 找出字義相同找出字義相同

管理緩時變維度管理緩時變維度例如 業務組織的改變例如 業務組織的改變例如 客戶的遷移改變例如 客戶的遷移改變例如 產品目錄的改變例如 產品目錄的改變

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 32: Data Mining Microsoft SQL Server 2005

3232

Analysis ServicesAnalysis Services

OLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性 擴充的 擴充的 OLAP OLAP 與 與 Data Mining Data Mining 能力能力 更豐富的更豐富的 Analysis ServicesAnalysis Services 功能功能 New Paradigm for the Analytics PlatformNew Paradigm for the Analytics Platform

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 33: Data Mining Microsoft SQL Server 2005

3333

OLAP OLAP 市場領導者市場領導者

httpwwwolapreportcomhttpwwwolapreportcom

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 34: Data Mining Microsoft SQL Server 2005

3434

Analysis ServicesAnalysis ServicesOLAP OLAP 與 與 Data Mining Data Mining 的重要性的重要性

全新的商業智慧資料模型全新的商業智慧資料模型大幅簡化架構且減少資料重複大幅簡化架構且減少資料重複運用運用 UDMUDM 模型整合異質資料模型整合異質資料提供從 提供從 MOLAP MOLAP 到 到 ROLAPROLAP 的完整的完整選擇選擇豐富多元的分析範本豐富多元的分析範本關鍵績效指標關鍵績效指標 KPIKPI即時高效率即時高效率多種即時多種即時 OLAP CubesOLAP Cubes架構可供選擇架構可供選擇提供快速而彈性的分析架構提供快速而彈性的分析架構

XML XML 資料存取標準與資料存取標準與 Web ServiceWeb Services s 整合整合 OLAPOLAP 與資料採礦與資料採礦支援大量運算架構支援大量運算架構

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 35: Data Mining Microsoft SQL Server 2005

3535

數位儀表板

固定式報表

BI 前端工具

EXCEL 試算表

Ad Hoc 報表

AnalysisServices

快取快取X

ML

A o

r O

DB

OX

ML

A o

r O

DB

O

UDMUDM

SQL SQL ServerServer

TeradataTeradata

OracleOracleDB2DB2 LOBLOB

DWDW

DatamartDatamart

Analysis ServicesAnalysis Services全新的資料模型架構全新的資料模型架構

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 36: Data Mining Microsoft SQL Server 2005

3636

關鍵績效指標關鍵績效指標 KPIKPI

為何需要為何需要 KPIKPI 視覺化績效指標視覺化績效指標

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 37: Data Mining Microsoft SQL Server 2005

3737

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 38: Data Mining Microsoft SQL Server 2005

3838

商業智慧商業智慧關鍵績效指標關鍵績效指標 KPIKPI

Calculations that drive visual indicatorsCalculations that drive visual indicatorsbull 快速掌握數據且便於解讀快速掌握數據且便於解讀bull設定且監控績效目標設定且監控績效目標bull監控指標隨時間變動趨勢監控指標隨時間變動趨勢

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 39: Data Mining Microsoft SQL Server 2005

3939

Data MiningData Mining

資料採礦的重要性資料採礦的重要性 全新資料採礦功能全新資料採礦功能

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 40: Data Mining Microsoft SQL Server 2005

4040

完整的演算法完整的演算法

決策樹決策樹 群集群集 時間序列時間序列

時序群集時序群集 關聯規則關聯規則

貝氏機率分貝氏機率分類類

類神經網路類神經網路

SQL Server 2000 已提供

羅吉斯迴歸羅吉斯迴歸

線性迴歸線性迴歸 文字資料採礦

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 41: Data Mining Microsoft SQL Server 2005

4141

Decision Tree Decision Tree 決策樹決策樹

基本觀念基本觀念bull決策樹是從一個或多個預測變數中針對類別決策樹是從一個或多個預測變數中針對類別應變數的階級預測案例或物件的關係應變數的階級預測案例或物件的關係 ((會員會員數數 ))

bull決策樹的目標是針對類別應變數加以預測或解決策樹的目標是針對類別應變數加以預測或解釋反應結果決策樹的彈性使得資料本身更釋反應結果決策樹的彈性使得資料本身更加具吸引人的分析選項加具吸引人的分析選項

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 42: Data Mining Microsoft SQL Server 2005

4242

採礦模型檢視器採礦模型檢視器

放大 縮小

複製圖

Decision Tree Decision Tree 決策樹決策樹

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 43: Data Mining Microsoft SQL Server 2005

4343

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 44: Data Mining Microsoft SQL Server 2005

4444

Cluster Cluster 群集演算法群集演算法

基本觀念基本觀念bull目的在將相似的事物歸類可以將變數分類目的在將相似的事物歸類可以將變數分類但更多的應用是透過顧客特性做分類使同類但更多的應用是透過顧客特性做分類使同類中的事物相對於某些變數來說是相同的相似中的事物相對於某些變數來說是相同的相似的或是同質的而類與類之間確有著顯著的差的或是同質的而類與類之間確有著顯著的差異或是異質性異或是異質性

bull 主要是在檢驗某種相互依存關係主要是顧客間特性主要是在檢驗某種相互依存關係主要是顧客間特性的相似或是差異關係透過將顧客特性進一步分割成的相似或是差異關係透過將顧客特性進一步分割成若干類別而達到市場區隔之目的 若干類別而達到市場區隔之目的

Cluster

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 45: Data Mining Microsoft SQL Server 2005

4545

Cluster Cluster 群集演算法群集演算法

在群集 2 中則無rdquo 0-1 Milesrdquo的資料

在群集 3 中 rdquo 0-1 Milesrdquo 的比例最高有 74

群集圖表群集圖表

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 46: Data Mining Microsoft SQL Server 2005

4646

Cluster Cluster 群集演算法群集演算法群集設定檔群集設定檔

說明了解各群集中各變數的分佈比例以圖中為例群集 2 中距離為rdquo 0-1 Milesrdquo的有 04 rdquo 1-2 Milesrdquo 的有 257 rdquo 2-5 Milesrdquo 的有 136 rdquo 5-10 Milesrdquo 的有 32 rdquo 10+Milesrdquo 的有 283

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 47: Data Mining Microsoft SQL Server 2005

4747

採礦模型檢視器採礦模型檢視器

滑鼠右鍵

檢視 BukeBuyer 的比例及其條件式

觀察屬於該節點之觀測值

Cluster Cluster 群集演算法群集演算法

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 48: Data Mining Microsoft SQL Server 2005

4848

Association Association 關聯規則演算法關聯規則演算法

關聯規則是分析發現資料庫中不同變數或個體間關聯規則是分析發現資料庫中不同變數或個體間(( 例如商品間的關係及年齡與購買行為hellip例如商品間的關係及年齡與購買行為hellip )) 之間之間的關係程度的關係程度 (( 機率大小機率大小 )) 用這些規則找出顧客用這些規則找出顧客購買行爲模式購買行爲模式

如購買了桌上型電腦對購買其他電腦週邊商品如購買了桌上型電腦對購買其他電腦週邊商品((印表機喇叭硬碟印表機喇叭硬碟 )) 的相關影響的相關影響

發現這樣的規則可以應用於商品貨架擺設庫存發現這樣的規則可以應用於商品貨架擺設庫存安排以及根據購買行為模式對客戶進行分類安排以及根據購買行為模式對客戶進行分類

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 49: Data Mining Microsoft SQL Server 2005

4949

相依性網路相依性網路

主要目的在於了解各產品間的關聯性

主要目的在於了解各產品間的關聯性

Association Association 關聯規則演算法關聯規則演算法

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 50: Data Mining Microsoft SQL Server 2005

5050

項目項目

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Touring-3000 = 現有的 Water Bottle = 現有的 Road Bottle Cage = 現有的

Association Association 關聯規則演算法關聯規則演算法

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 51: Data Mining Microsoft SQL Server 2005

5151

Sequence Cluster Sequence Cluster 時序群時序群集演算法集演算法

Sequence DataSequence Data 有順序事件序列組成有順序事件序列組成的資料相關的變數是以時間區分開來的資料相關的變數是以時間區分開來 但不一定要有時間屬性 但不一定要有時間屬性

例如瀏覽例如瀏覽 WebWeb 的資料屬於序列資料的資料屬於序列資料

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 52: Data Mining Microsoft SQL Server 2005

5252

Sequence ClusteringSequence Clustering 在找出在找出先後先後發生發生事物的關係重點在於分析資料事物的關係重點在於分析資料間先後序列關係間先後序列關係

AssociationAssociation 則是找出某一事件或資則是找出某一事件或資料中會料中會同時出現同時出現的狀態例如項目的狀態例如項目 AA是某事件的一部份則項目是某事件的一部份則項目 BB 也出現也出現在該事件中的機率有在該事件中的機率有 a a

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 53: Data Mining Microsoft SQL Server 2005

5353

顧客通常在購買某類商品後經過一段時顧客通常在購買某類商品後經過一段時間會再購買另一類商品間會再購買另一類商品bull例如例如 租過黃飛鴻第一集經過一段時間通租過黃飛鴻第一集經過一段時間通常會再租黃飛鴻第二集之後再租黃飛鴻第三常會再租黃飛鴻第二集之後再租黃飛鴻第三集集

bull例如例如 買過ldquo棉被枕頭床單rdquo之後經過買過ldquo棉被枕頭床單rdquo之後經過一段時間 通常會再購買ldquo紙尿褲奶粉rdquo一段時間 通常會再購買ldquo紙尿褲奶粉rdquo

bull例如例如 購買印表機的顧客有購買印表機的顧客有 8080的客戶在三的客戶在三個月內購買墨水盒個月內購買墨水盒

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 54: Data Mining Microsoft SQL Server 2005

5454

Sequence ClusteringSequence Clustering 應用範圍應用範圍bull 顧客購買行為模式預測顧客購買行為模式預測bull WebWeb訪問模式預測訪問模式預測bull疾病診斷疾病診斷bull自然災害預測自然災害預測bull DNADNA序列分析序列分析

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 55: Data Mining Microsoft SQL Server 2005

5555

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 56: Data Mining Microsoft SQL Server 2005

5656

群集設定檔群集設定檔

列出各群集中所有產品比例

僅列出各群中比例較高之產品及其比例

各群集之個數

Sequence Cluster Sequence Cluster 時序群集演算法時序群集演算法

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 57: Data Mining Microsoft SQL Server 2005

5757

Time Series Time Series 時間序列演算法時間序列演算法 時間序列時間序列

bull 生物現象的觀察值有時常依時間的變化而發生物現象的觀察值有時常依時間的變化而發生一系列有規則的變化此種資料謂之時間序生一系列有規則的變化此種資料謂之時間序列的資料而對此種資料的分析方法謂之時間列的資料而對此種資料的分析方法謂之時間序列分析法序列分析法

bull 在自然界中常常有很多資料具有時間序列的在自然界中常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息 特色可給予使用者解決問題的重要訊息

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 58: Data Mining Microsoft SQL Server 2005

5858

人類社會的各種活動所產生的資料如以發人類社會的各種活動所產生的資料如以發生的時間來區分則可分為生的時間來區分則可分為bull橫斷面資料(橫斷面資料( Cross Section DataCross Section Data ))

指發生於同一時期的資料 指發生於同一時期的資料 bull時間數列資料(時間數列資料( Time Series DataTime Series Data ))

同一元素的同一特質(變數)於不同時點或不同時同一元素的同一特質(變數)於不同時點或不同時期的資料包括逐日的日資料週資料月資料期的資料包括逐日的日資料週資料月資料季資料及年資料等 季資料及年資料等

Time Series Time Series 時間序列演算時間序列演算

法法

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 59: Data Mining Microsoft SQL Server 2005

5959

時間序列定義時間序列定義bull依時間過程所得變數的觀測值稱為時間數列依時間過程所得變數的觀測值稱為時間數列即依事件或資料發生的時間先後依序排列的即依事件或資料發生的時間先後依序排列的一群觀測值 一群觀測值

bull時間數列是一群發生在連續的時間點上或是整時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合 個連續時期上的觀察值所形成的集合

Time Series Time Series 時間序列演算時間序列演算

法法

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 60: Data Mining Microsoft SQL Server 2005

6060

時間數列分析其主要目的為時間數列分析其主要目的為bull對數列未來趨勢作預測對數列未來趨勢作預測bull將數列分解成主要趨勢成份將數列分解成主要趨勢成份 (Trend Compone(Trend Compone

nts)nts) 季節變化成份季節變化成份 (Seasonal Components)(Seasonal Components) bull對理論性模式與數據進行適合度檢定以討論對理論性模式與數據進行適合度檢定以討論

模式是否能正確地表示所觀測之現象如一些模式是否能正確地表示所觀測之現象如一些常見的經濟模式常見的經濟模式

Time Series Time Series 時間序列演算時間序列演算

法法

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 61: Data Mining Microsoft SQL Server 2005

6161

預測期數顯示預測誤差區間

趨勢圖預測圖

Time Series Time Series 時間序列演算時間序列演算

法法

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 62: Data Mining Microsoft SQL Server 2005

6262

各變數之係數

該時間序列方程式

Time Series Time Series 時間序列演算時間序列演算

法法

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 63: Data Mining Microsoft SQL Server 2005

6363

Neural Network Neural Network 類神經網路演算法類神經網路演算法

類神經網路( 類神經網路( Neural Neural NetworkNetwork NNNN))類類似人類神經似人類神經結構是結構是「一種基於腦與神經「一種基於腦與神經系統研究所啟發的系統研究所啟發的資訊處理技術」資訊處理技術」

具有人腦功能基本特具有人腦功能基本特性學習記憶和歸性學習記憶和歸納納

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 64: Data Mining Microsoft SQL Server 2005

6464

NNNN並不需要瞭解系統的數學模型直接以並不需要瞭解系統的數學模型直接以神經網路取代系統的模型一樣可以得到神經網路取代系統的模型一樣可以得到輸入與輸出之間的關係輸入與輸出之間的關係

Input 類神經網路模型

Output

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 65: Data Mining Microsoft SQL Server 2005

6565

類神經網路和迴歸分析不同沒有任類神經網路和迴歸分析不同沒有任何假設的機率分佈是模式識別和誤何假設的機率分佈是模式識別和誤差最小化的過程在每一次經驗中提差最小化的過程在每一次經驗中提取和學習資訊取和學習資訊

類神經網路可以處理連續型和類別型類神經網路可以處理連續型和類別型的資料對資料進行的資料對資料進行預測預測

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 66: Data Mining Microsoft SQL Server 2005

6666

Neural Network Neural Network 類神經網路演算法類神經網路演算法

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 67: Data Mining Microsoft SQL Server 2005

6767

Dependency NetworkDependency Network

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 68: Data Mining Microsoft SQL Server 2005

6868

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 用於大型資料庫可以得出準確高切有效率的用於大型資料庫可以得出準確高切有效率的

分類結果分類結果bull單純貝氏分類器主要是根據貝氏定理 單純貝氏分類器主要是根據貝氏定理 (Bayesia(Bayesia

n Theorem) n Theorem) 來預測分類的結果來預測分類的結果

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 69: Data Mining Microsoft SQL Server 2005

6969

何謂何謂 Naiumlve Bayes ClassiferNaiumlve Bayes Classiferbull 主要的運作原理是透過訓練樣本學習記憶主要的運作原理是透過訓練樣本學習記憶

分類根據所使用屬性的關係產生這些訓練樣分類根據所使用屬性的關係產生這些訓練樣本的中心概念再用學習後的中心概念對未歸本的中心概念再用學習後的中心概念對未歸類的資料進行類別預測以得到受測試資料物類的資料進行類別預測以得到受測試資料物件的目標值件的目標值

bull每筆訓練樣本一般含有分類相關連屬性的值每筆訓練樣本一般含有分類相關連屬性的值及分類結果 及分類結果 ((又稱為目標值又稱為目標值 ))一般而言屬一般而言屬性可能出現兩種以上不同的值而目標值則多性可能出現兩種以上不同的值而目標值則多半為兩元的相對狀態如 rdquo是半為兩元的相對狀態如 rdquo是 否rdquordquo好否rdquordquo好 壞rdquordquo對壞rdquordquo對 錯rdquordquo上錯rdquordquo上 下rdquo 下rdquo

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 70: Data Mining Microsoft SQL Server 2005

7070

Microsoft Naive BayesianMicrosoft Naive Bayesian

Naive Bayesian can only accept categorical attributesYou need to discrete the numerical Attributes into the categorical one

No parameters need to be adjusted in SSAS

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 71: Data Mining Microsoft SQL Server 2005

7171

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 72: Data Mining Microsoft SQL Server 2005

7272

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 73: Data Mining Microsoft SQL Server 2005

7373

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 74: Data Mining Microsoft SQL Server 2005

7474

Naiumlve Bayes ClassiferNaiumlve Bayes Classifer貝氏機率分類演算法貝氏機率分類演算法

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 75: Data Mining Microsoft SQL Server 2005

7575

Lift ChartLift Chart

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 76: Data Mining Microsoft SQL Server 2005

7676

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

迴歸分析迴歸分析bull 建立變數關係的數學方程式之統計程序是將研究的建立變數關係的數學方程式之統計程序是將研究的變數區分為因變數與自變數並建立因變數為自變數變數區分為因變數與自變數並建立因變數為自變數之函數模型其主要目的是用來解釋資料過去的現象之函數模型其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值及自由變數來預測因變數未來可能產生之數值

自變數自變數 (Independent variable)(Independent variable)bull 由數學方程式預測的變數由數學方程式預測的變數

因變數因變數 (Dependent variable)(Dependent variable)bull 據以預測因變數的值之變數據以預測因變數的值之變數

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 77: Data Mining Microsoft SQL Server 2005

7777

簡單線性迴歸簡單線性迴歸 (Simple Linear Regression)(Simple Linear Regression)bull僅有一自變數與一因變數且其關係大致上可僅有一自變數與一因變數且其關係大致上可

用一直線表示用一直線表示 複迴歸複迴歸 (Multiple Regression)(Multiple Regression)

bull 兩個以上自變數的迴歸兩個以上自變數的迴歸 多變量迴歸多變量迴歸 (Multi-Variable Regression)(Multi-Variable Regression)

bull 用多個自變項預測數個因變數建立之迴歸關用多個自變項預測數個因變數建立之迴歸關係係

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 78: Data Mining Microsoft SQL Server 2005

7878

線性迴歸係數線性迴歸係數

線性迴歸模型線性迴歸模型

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 79: Data Mining Microsoft SQL Server 2005

7979

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 80: Data Mining Microsoft SQL Server 2005

8080

透過透過 scatter plotscatter plot 將實際值與預測值比對將實際值與預測值比對

Linear RegressionLinear Regression 線性迴歸演算法線性迴歸演算法

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 81: Data Mining Microsoft SQL Server 2005

8181

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

Logistic Regression Logistic Regression 就是針對二元因變數 就是針對二元因變數 即是即是 1 1 或或 00 在 在 Logistic Curve Logistic Curve 中有一個中有一個臨界遞增的 臨界遞增的 S S 型函數適用於分析一機率型函數適用於分析一機率模型而根據分類性變數產生輸出變數模型而根據分類性變數產生輸出變數其值可為其值可為 0 0 或或 1 1 常代表選擇量度中的常代表選擇量度中的「是」與「否」兩類「是」與「否」兩類

BASEL II BASEL II 算信用評分卡的標準演算法算信用評分卡的標準演算法

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 82: Data Mining Microsoft SQL Server 2005

8282

在統計學上許多學者認為在統計學上許多學者認為 Logistic RegressionLogistic Regression的優點主要能處理依變項有兩個類別的名目變的優點主要能處理依變項有兩個類別的名目變項用以預測事件發生的勝算比項用以預測事件發生的勝算比 (Odds Ratio) (Odds Ratio) 它可解決了傳統線性迴歸模式中不能處理依變它可解決了傳統線性迴歸模式中不能處理依變項是兩個類別的名目變項的缺點 項是兩個類別的名目變項的缺點

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 83: Data Mining Microsoft SQL Server 2005

8383

羅吉斯迴歸模型與羅吉斯迴歸模型與 ProspectiveBuyerProspectiveBuyer 資料表產生連結資料表產生連結之後可按增益圖可以看到預測模型的準確率之後可按增益圖可以看到預測模型的準確率

Logistic RegressionLogistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 84: Data Mining Microsoft SQL Server 2005

8484

Logistic Regression Logistic Regression 羅吉斯迴歸演算法羅吉斯迴歸演算法

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 85: Data Mining Microsoft SQL Server 2005

8585

Text MiningText Mining新增文字資料採礦功新增文字資料採礦功

能能 Term Extract Term LookupTerm Extract Term Lookupbull 目前僅支援英語目前僅支援英語bull 可擷取單字或是片語可擷取單字或是片語bull 可列舉排除關鍵字可列舉排除關鍵字

Fuzzy lookup Fuzzy GroupingFuzzy lookup Fuzzy Groupingbull 容錯指標容錯指標 Error-Tolerant IndexError-Tolerant Index

可應用在專利文件病例論文研究文件分類可應用在專利文件病例論文研究文件分類知識管理信用評等 知識管理信用評等

資料來源 Microsoft Taiwan

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 86: Data Mining Microsoft SQL Server 2005

8686

詞彙索引詞彙索引

前 置 處 理既有詞彙擷取既有詞彙擷取

文件文件

新生詞彙擷取新生詞彙擷取

關鍵詞彙篩選及排名(Ranking)

關鍵詞彙篩選及排名(Ranking)

概念式分類 分群概念式分類 分群

多國語言中 (簡繁体字 )英日德俄hellip

詞庫式斷詞 專家斷詞

領域相關經驗法則

指引式文件分類

文件自動分類(相似 )

資訊截取(InformationExtraction)

概念式搜尋

資訊分享

統計斷詞統計斷詞

關聯與相依分析

(Association ampDependent Analysis)

專家校正

圖形模式

貝氏機制

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 87: Data Mining Microsoft SQL Server 2005

8787

相似類歸相似類歸

特徵向量

資料向量化 排序 分數

評量

拒絕

接受

文件差異化

臨界值調整

評估函數

Ontology

定義向量初值臨界值設定

特徵粹取

分數 gt

臨界值

依關聯調整 關聯校正

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 88: Data Mining Microsoft SQL Server 2005

8888

文獻分類文獻分類 分群分群文獻 知識表達方式之轉換

資料探勘技術

Clustering ndash k-means EM agglomerativehellipCategorization ndash kNN DT Bayes

表達方式之處理-藉以取得運算矩陣

UMLS MeSH medical hierarchy UMLS MeSH medical hierarchy

Library of Congress subject headings Library of Congress subject headings

ACM keyword hierarchyACM keyword hierarchy

概念階層Concept Hierarchical Analysis

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 89: Data Mining Microsoft SQL Server 2005

8989

文件分類文件分類

自動分群 分類

文件文件

類別 1 類別 2 類別 nhellip

專家

分類器新文件新文件

hellip

hellip

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 90: Data Mining Microsoft SQL Server 2005

9090

關聯與法則關聯與法則議題關聯相關

議題法則

法則推論

文獻

相似分析 相依原理

法則邏輯推論

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 91: Data Mining Microsoft SQL Server 2005

9191

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 92: Data Mining Microsoft SQL Server 2005

9292

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 93: Data Mining Microsoft SQL Server 2005

9393

Data Mining Model Data Mining Model EvaluationEvaluation

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 94: Data Mining Microsoft SQL Server 2005

9494

Data Mining Model EvaluationData Mining Model Evaluation

分類矩陣分類矩陣bull 橫軸為預測結果縱軸為實際結果橫軸為預測結果縱軸為實際結果

增益圖增益圖bull 橫軸為名單百分比縱軸為累積佔全體之百分比橫軸為名單百分比縱軸為累積佔全體之百分比

收益圖收益圖bull 根據成本以及銷售成功利潤並計算出累積利潤圖根據成本以及銷售成功利潤並計算出累積利潤圖

散佈圖散佈圖bull 針對連續變數可以利用此功能了解實際值與預測值針對連續變數可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形間之差異性以及預測之趨勢變動情形

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 95: Data Mining Microsoft SQL Server 2005

9595

選擇ldquo vTargetMail(dbo)rdquo

勾選需要比較之模型

Data Mining Model EvaluationData Mining Model Evaluation說明在進行模型效益評估前必須先選入資料表並在模型中勾選要進行評估比較之模型

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 96: Data Mining Microsoft SQL Server 2005

9696

Data Mining Model EvaluationData Mining Model Evaluation分類矩陣分類矩陣

藉由分類矩陣進一步比較判別兩模型的預測能力由決策樹模型發現預測正確的資料有 7103+5857=12960而群集分析模型的正確預測資料為 5395+5308=10703 也可看出決策樹分類結果較群集分析分類結果好

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 97: Data Mining Microsoft SQL Server 2005

9797

Data Mining Model EvaluationData Mining Model Evaluation增益圖增益圖

增益圖主要展現在整體的百分上所累積的效益狀況

增益圖主要展現在整體的百分上所累積的效益狀況

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 98: Data Mining Microsoft SQL Server 2005

9898

Data Mining Model EvaluationData Mining Model Evaluation收益圖收益圖

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

收益圖可根據所設定之固定成本單位成本以及單位營收加以計算找出最佳獲利點

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 99: Data Mining Microsoft SQL Server 2005

9999

Data Mining Model EvaluationData Mining Model Evaluation散佈圖散佈圖

散佈圖了解各模型之預測值預測趨勢以及實際值

散佈圖了解各模型之預測值預測趨勢以及實際值

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 100: Data Mining Microsoft SQL Server 2005

100100

資料採礦無處不在資料採礦無處不在商業問題商業問題 Microsoft Microsoft 演算法演算法預測類別變數例如行銷回應顧客流失違約預測預測類別變數例如行銷回應顧客流失違約預測((巴塞爾資本協定巴塞爾資本協定 IRB)hellipIRB)hellip

決策樹決策樹貝氏機率分類貝氏機率分類群集群集類神經網路類神經網路羅吉斯迴歸羅吉斯迴歸

預測連續變數例如預測銷售量預測客戶價值變動預測連續變數例如預測銷售量預測客戶價值變動預測金融商品價格波動預測金融商品價格波動

迴歸樹迴歸樹時間序列時間序列類神經網路類神經網路

預測序列例如找出網站使用者的點選路徑模式客戶預測序列例如找出網站使用者的點選路徑模式客戶繳款行為模式商品購物順序繳款行為模式商品購物順序

時序群集時序群集

找出產品交叉銷售關聯性又稱為購物籃分析找出產品交叉銷售關聯性又稱為購物籃分析 關聯規則關聯規則決策樹決策樹

找出潛在相似性例如市場區隔偵測晶圓瑕疵分配找出潛在相似性例如市場區隔偵測晶圓瑕疵分配文件分類保險浮濫理賠偵測偽卡偵測文件分類保險浮濫理賠偵測偽卡偵測

群集群集時序群集時序群集

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 101: Data Mining Microsoft SQL Server 2005

101101

Reporting ServicesReporting Services

報表的重要性報表的重要性 報表的強化報表的強化 整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境商業智慧開發環境

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 102: Data Mining Microsoft SQL Server 2005

102102

即時透視企業問題與發展趨勢即時透視企業問題與發展趨勢

運用在跨組織進行資訊分析作業運用在跨組織進行資訊分析作業

單一報表同時支援多種資料來源單一報表同時支援多種資料來源

允許使用者進行即時互動作業允許使用者進行即時互動作業

允許使用者立即編輯與修改報表允許使用者立即編輯與修改報表

支援多樣畫報表輸出格式支援多樣畫報表輸出格式

輕鬆整合前端整合應用程式輕鬆整合前端整合應用程式

Reporting ServicesReporting Services報表的重要性報表的重要性

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 103: Data Mining Microsoft SQL Server 2005

103103

Reporting ServicesReporting Services報表的強化報表的強化

高擴充性報表伺服器 豐富 企業級的報表平台

(靜態與互動式報表 )多重資料來源搭配多重格式輸出選項整合 Web Services架構強化報表規模與管理功能

可排時程 報表快照 報表快取 hellip

高整合性開發工具利用 Visual Studio環境進行開發報表定義語言 (RDL) 使用 XML規格可以利用 3rd party 元件

支援前端使用者報表開發強大的管理支援

提供 SOAP Web Service 程式介面提供報表管理入口網站提供高安全性管理模式整合分析服務與整合服務等管理工具

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 104: Data Mining Microsoft SQL Server 2005

104104

設計階段報表開發工具設計階段報表開發工具 報表設計器報表設計器多種資料來源多種資料來源 (SQL Oracle DB2 hellip)(SQL Oracle DB2 hellip)多種輸出控制項 多種輸出控制項 (( 表格式表格式 矩陣式矩陣式 圖表圖表 ))SQLSQL指令自動產生器指令自動產生器MDXMDX 指令自動產生器指令自動產生器全新報表控制項全新報表控制項 互動式排序互動式排序浮動式標頭浮動式標頭日曆控制項日曆控制項多重選項多重選項

Reporting ServicesReporting Services整合 整合 SQL Server 2005 SQL Server 2005 商業智慧開發環境 商業智慧開發環境

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 105: Data Mining Microsoft SQL Server 2005

105105

SQL Server Database SQL Server AgentSQL Server Database SQL Server Agent

Shared ComponentsShared Components

Web ServiceWeb Service(IIS ASPNET)(IIS ASPNET)

Win32 ServiceWin32 Service

URL AccessURL Access SOAP EndpointsSOAP Endpoints

資料提取資料提取

WMIWMI

傳送機制傳送機制

安全性安全性

報表管理員報表管理員

報表輸出報表輸出

瀏覽器瀏覽器 開發環境開發環境VS 20032005VS 20032005

SQL Server 2005SQL Server 2005Management StudioManagement Studio

報表服務報表服務組態管理員組態管理員

ReportServerReportServer ReportServerTempDBReportServerTempDB

SQL Server 2005SQL Server 2005 報表服務架構報表服務架構

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 106: Data Mining Microsoft SQL Server 2005

106106

Report Builder-Report Builder- 報表產生器報表產生器延伸報表服務功能延伸報表服務功能針對使用者自訂報表針對使用者自訂報表簡單化報表部署簡單化報表部署報表產生器功能報表產生器功能

使用者導向方式開發使用者導向方式開發透過畫面產生查詢指令透過畫面產生查詢指令使用者可以修改報表使用者可以修改報表簡單化資料來源整合簡單化資料來源整合

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 107: Data Mining Microsoft SQL Server 2005

107107

完整商業智慧的工具完整商業智慧的工具 強化的功能強化的功能 新一代 新一代 Business Scorecard Manager 200Business Scorecard Manager 200

55 整合 整合 Office ldquo12rdquoOffice ldquo12rdquo

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 108: Data Mining Microsoft SQL Server 2005

108108

SQL Server 2005SQL Server 2005關連式的資料倉儲關連式的資料倉儲

分割資料表與分割索引分割資料表與分割索引強化高規模與同時存取的功能強化高規模與同時存取的功能簡單化資料管理簡單化資料管理

線上索引作業線上索引作業資料庫鏡像與快照隔離等級資料庫鏡像與快照隔離等級讀取動作不等待寫入動作 讀取動作不等待寫入動作 寫入動作不干擾讀取動作寫入動作不干擾讀取動作

新增與資料載入強化新增與資料載入強化T-SQL T-SQL 強化強化

Data Warehouse Data Warehouse ReadyReady

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 109: Data Mining Microsoft SQL Server 2005

109109

Microsoft Office Business Scorecard Manager 提供組織以下的功能強化的計分卡平台洞悉企業問題協同組織分析與協調作業提供前端使用者強大分析功能擴充性平台

SQL Server 2005 提供 Business Scorecard Manager 以下功能 集中化管理與指標 多維度計分卡 提供 KPI 給前端應用程式 利用 UDM 整合資料處理

監控指標 分析問題 協同作業定義目標

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 110: Data Mining Microsoft SQL Server 2005

110110

整合整合 Office Office ldquoldquo12rdquo12rdquo利用 利用 ExcelExcel 分析資料建立分析資料建立企業分析資料文件企業分析資料文件

整合試算表與文件到 整合試算表與文件到 ShaSharePoint rePoint

直接在應用程式中進行直接在應用程式中進行 Office Office 文件的使用文件的使用

直接在入口網站直接在入口網站進行資料存取檢視進行資料存取檢視

整合 整合 SQLSQL

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 111: Data Mining Microsoft SQL Server 2005

111111

從各種資料來源取從各種資料來源取得資料得資料整合與轉換資料整合與轉換資料

從商業邏輯的角從商業邏輯的角度呈現與分析資度呈現與分析資料料以 以 Data Mining Data Mining 預測與分析預測與分析

發布與呈現資料發布與呈現資料簡單易用簡單易用Report BuilderReport Builder

整合整合 分析分析 報表報表

加速企業決策效能加速企業決策效能商業智慧商業智慧

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 112: Data Mining Microsoft SQL Server 2005

112112

Data Mining Data Mining in SQL Server 2005in SQL Server 2005

113113

Page 113: Data Mining Microsoft SQL Server 2005

113113