淺介巨量網路資料下之 「即時交易監控系統」 · 往資料倉儲層存放。 圖1...
Transcript of 淺介巨量網路資料下之 「即時交易監控系統」 · 往資料倉儲層存放。 圖1...
www.fisc.com.tw ■ 41
淺介巨量網路資料下之「即時交易監控系統」〡資訊分享
淺介巨量網路資料下之「即時交易監控系統」
湯曜年 / 財金資訊股份有限公司系統部網路組工程師鍾桓城 / 財金資訊股份有限公司系統部網路組工程師
一、 前言
當前企業或雲端網路基礎設備架構,為因
應各式即時、動態且巨量的資料傳輸需求,
網路頻寬配置已從過去 10 Mbps/100 Mbps/1
Gbps,進展到目前主流的 10 Gbps,未來更
將擴展到 25 Gbps/40 Gbps/100 Gbps的水
準。在頻寬愈大,內含資料量愈多之際,企業
所須關注及監控的網路作業項目亦愈趨細緻與
複雜,其監控範圍包含:系統連線、網路流量、
程式行為、乃至於對特定交易的連線監控等;
要如何快速且精確的篩選及分析這些資料,並
妥適地保存、分類與利用,以提升整體網路服
務品質,對於資訊人員而言,無疑是一大難題
與挑戰。
二、 巨量網路資料下,監控作業面臨之困境
(一 ) 各式監控系統的管理與維護、以及資
訊人力配置問題
當前企業監控作業,主要係以主機、網
路、防火牆及磁碟機等設備為主,以及運行於
設備中之應用系統與程式狀態監控。諸多的監
控需求,導致企業通常配置多套監控工具,以
網路監控作業而言,如:設備狀態、數據流量、
事件紀錄與告警及連線行為監控等,需搭配好
幾套不同的監控工具。因此,對於監控工具選
擇與資訊收集,乃至於後續監控資料的查詢、
訊息組合、與事件原因之判斷分析,乃至於各
式監控工具的管理與維護等,在在需要管理人
員個別操作與維運,資訊人力的配置、以及人
員對於監控工具的熟悉與掌握,皆是企業須面
對的重大課題。
(二 ) 網路交換器流量「鏡像埠」資源分配
問題
在規劃網路監控作業時,管理人員通常會
在網路流量必經的交換器上使用「鏡像埠」
(Switch Port Analyzer , SPAN)技術來複製流
經其上的網路資料流量,並導向至後台的監控
工具進行分析、處理,以達成監控目的;但每
一台交換器能提供之鏡像埠數量有限,依設備
本身的型號通常 2個、大型網路設備可配置到
4個鏡像埠。在現今強調網路流量可視化的趨
勢下,如果後端架構的分析工具越多,前端所
需要的鏡像埠資源就越多,導致鏡像埠資源分
配經常面臨不足的問題;例如,一般企業最常
42 ■ 財金資訊季刊 / No.91 / 2018.01
資訊分享〡淺介巨量網路資料下之「即時交易監控系統」
用的交換器可提供 2個鏡像埠,通常用來監控
分析網路連線及資訊安全兩種用途,致後續如
有其他需求 (如應用系統行為分析 ),在資源
使用上須重新修改網路配置及部署,資源分配
不具彈性之狀況,將造成管理上的困擾。
以往,在網路監控機制尚未發展出流量可
視化概念時,對於使用者而言,網路就像是黑
盒子,其內部資訊是摸不到、看不見,就算透
過交換器 SPAN技術所得到的封包,也是艱澀
難懂的專業資訊,供作問題查測尚可,但用於
理解網路的運作,或提供持續且具時間序列的
網路數據資料,就相當困難。爰此,網路可視
化概念已成為近幾年來網路監控之發展核心,
以此概念建置的「即時交易監控系統」則是本
文要闡述的重點,期與金融同業分享系統建置
之相關經驗。
三、 系統架構與設計
(一 ) 系統架構
「即時交易監控系統」架構分為三層
(如圖 1),第一層為「資料收集及處理層」
(Network Visibility Fabric),第二層為「資料
倉儲層」(Data Store Fabric),第三層為展示
及應用使用者需求的「分析及儀表板顯示層」
(Analysis and Dashboard)。
1. 資料收集及處理層
以介接主機的交換器做為資料來源收集,
主機流量從交換器流經後,運用交換器 SPAN
技術複製出來的資料,統一收集到網路可視化
設備,經分流、過濾等相關處理完成後,再送
往資料倉儲層存放。
圖 1 「即時交易監控系統」架構
2. 資料倉儲層
從資料收集及處理層得到的資料,將被儲
存在開源分散式資料庫架構中,資料倉儲架
構建議至少使用 3個主要節點 (Master Node)
及 5個資料節點 (Data Node)以組成 1個叢集
(Cluster)架構 (如圖 2);惟實際的節點數量可
依照存放資料的需求量做動態調整,以達到最
佳的分流機制。
www.fisc.com.tw ■ 43
淺介巨量網路資料下之「即時交易監控系統」〡資訊分享
圖 2 資料倉儲架構
圖 3 儀表板示意圖
3. 分析及儀表板顯示層
將資料倉儲層所儲存的資料依照不同的需
求與用途,經過分析後依使用者定義的方式呈
現於儀表板 (Dashboard),其內容具有高度彈
性,當使用者想要同時呈現正常及失敗交易,
則於瞭解正常及失敗交易之訊息代碼後,才能
明確定義查詢,而查詢結果的呈現方式則可為
圖形或表格,使用者還可將數個查詢結果排列
於同一個儀表板中 (如圖3),讓監控更方便、
資訊更豐富。
(二 ) 系統設計
1. 設計原則
財金資訊股份有限公司(以下稱本公司)擔
當全國跨行交易資訊傳輸之樞紐,須隨時掌握各
項跨行交易情況,當初在設計「即時交易監控系
統」時,即以資料取得不應影響交易主機運作效
能之角度進行規劃;因此,資料來源係擷取資料
流必經之交換器,而不是在交易主機上安裝代理
程式(Agent)或另行開發程式等可能耗用主機資
44 ■ 財金資訊季刊 / No.91 / 2018.01
資訊分享〡淺介巨量網路資料下之「即時交易監控系統」
源的方式來查詢及取得資料。如此設計最大優點
是將監控設備與交易主機之運作環境脫鉤,不需
要對線上資料庫做查詢。另外,為讓資料發揮最
大用途,從交換器SPAN技術複製出來的資料,
經過資料收集及處理層的處理後,除供「即時交
易監控系統」使用外,尚可分流予後端不同的工
具軟體應用,例如資訊安全入侵防禦或入侵偵測
系統、應用效能監控系統等監控工具,同時一併
解決鏡像埠資源不足的問題,有效利用資源以滿
足不同的需求與用途。
2. 採用網路封包去重複化技術
以交換器SPAN技術為基礎之封包收集方
式,須特別留意並加工處理的是,當同一個封
包流經兩個以上的網路交換器,而且每台交換
器都備有SPAN技術複製封包時,則會面臨同
一筆封包被重複收集的情形;此時,如果不做
任何處理,將造成監控資料膨脹,進而影響分
析結果之精準度,並增加事件或問題判斷的難
度。因此,在建置「即時交易監控系統」時,
採用網路封包去重複化之技術,在資料收集及
處理階段,即剔除重複出現的封包,務求精確
收集及留存資料,俾便後續資料分析與判讀。
3. 過濾及擷取必要資料
封包收集後即可針對封包內容進行有條件
的過濾及擷取,以本公司跨行交易為例,封包內
容包含交易屬性與交易內容,交易屬性可區分為
交易種類、回應代碼、時間戳記、交易流水號
等;而交易內容則包含敏感性資料,如金融帳戶
帳號、交易金額等。基於「即時交易監控系統」
建置的目的,主要在於即時瞭解跨行交易是否正
常,並不需要得知交易內容資料,只須針對交易
屬性資料進行監控即可;因此,系統在規劃設計
之初,關於資料收集與處理,業依跨行交易訊息
長度,定義好須保留的交易屬性資料,剔除不必
要的交易內容資料,一來可節省資料收集存放空
間的使用,也可避免留存敏感性資料所衍生的資
料保全及安全控管議題。
4. 善用網路連線盤查資訊
在日益複雜的網路連線環境中,如何釐清
並掌握網路連線資訊,是網管人員重要職責之
一。關注的重點有二,一是如何釐清特定端點
(End Host)網路連線行為,其次是在複雜的網
路架構下,網路流量是否如實依規劃設計傳送
至目的地;如能清楚瞭解此兩個面向的相關資
訊,即可有效掌握網路連線情況。
有關特定端點的網路連線情況,目前主流
及成熟度較高的技術方案是運用「網路流量監
測技術」(Netflow,如圖4)來增加網路監控可
視度及建立紀錄;Netflow透過蒐集網路設備
上IP封包,轉送至後端分析儀器後,即可得知:
封包來源地址、來源埠、目的地址、目的埠、
封包數量、傳輸量與傳輸協定種類等資料。
雖然 Netflow技術是一種成熟且通用的規
格,但並非每一種網路設備都能產生Netflow,
目前僅有具路由功能之第三層網路設備 (如第
三層交換器或路由器 )支援此功能,而啟用
Netflow功能,多少會耗用設備的資源,致使
應用層面無法涵蓋整體網路架構。為此,本公
司所建置之「即時交易監控系統」,特別引進
「網路封包轉Netflow」(Packet to Flow)機制,
此機制可將任一交換器透過 SPAN技術,將複
製之封包轉換為 Netflow資料,解決僅有第三
層網路設備方可產生 Netflow之情形,有效提
升 Netflow使用率;其次,針對僅在第二層網
路設備傳送就結束之資料傳輸行為,也可透過
Packet to Flow功能產生 Netflow資料,大幅提
升網路可視度與參考價值。
www.fisc.com.tw ■ 45
淺介巨量網路資料下之「即時交易監控系統」〡資訊分享
圖 4 Netflow架構
不同於第一個面向強調的是主機於網路上
傳送的各項資訊是否清楚,第二個面向關注的
重點在於網路流量的傳輸繞送,是否依網路架
構設計而被正確地轉送。本公司為跨行交易樞
紐,在建置各式金流基礎建設時,如何確保服
務的高可用性是一項極重要的考量,跨行系統
之底層設備架構均採用高可用技術,以達成整
體服務之高可用性;於此架構下,主機對外連
線具備 2條以上的邏輯通道,設計上可能有全
部通道均為運作中 (Active)、或只有 1個運作
中,其他則是備援 (Standby)之情形,管理人
員在規劃流量監控時,就須預先考量監控範圍
是否涵蓋各個網路設備。
為瞭解特定主機流量是否依規劃設計架構
進行連線,一般可運用交換器 SPAN技術分
析,來觀察特定主機之流量是否與規劃相符。
在網路通道均為運作中之情形下,應可在各
通道經過的網路設備上觀察到主機流量;相對
地,如設備架構處於營運與備援的機制下,平
時流量應只存在於營運之設備,如發生備援切
換時,則流量應正常切換至備援設備。實務
上,不論基礎架構設計為何,監控機制之設計
與建置須全盤考量整體架構之布建,方能完
備。
四、 資料收集、存放與處理
(一 ) 資料收集
如何妥善收集從交換器 SPAN技術複製之
封包,攸關「即時交易監控系統」後續的資料
存放與處理。通常 1台交換器配備有數 10個
埠可用,但收集這些埠上的總流量經常超過該
交換器鏡像埠 (1Gbps)的流量負荷,造成收集
的資料在轉送至後端網路可視化設備處理前,
就已發生資料遺失之狀況,為避免此種情況,
建議採用以下兩種方式來改善與優化:
1. 使用交換器上的 10Gbps埠來取代 1Gbps
的鏡像埠,以增加 SPAN技術處理量
(Throughout),但此做法的前提為交換器
46 ■ 財金資訊季刊 / No.91 / 2018.01
資訊分享〡淺介巨量網路資料下之「即時交易監控系統」
本身必須具備 10Gbps埠。
2. 一般交換器具備 2個鏡像埠可執行 SPAN
技術以複製封包,如果將交換器埠依流量
多寡進行分類,並同時使用 2個鏡像埠以
執行 SPAN技術轉送至後端網路可視化
設備,則可適度分散及平均流量。
以上兩個方案可單獨使用或併用,以達到
資料收集的完整性。
(二 ) 資料存放
當封包資料被送往資料倉儲層存放時,先
前已說明現行基本配置架構為 3個主要節點
及 5個資料節點所組成,可依照資料量需求
調整節點數量。在開源分散式資料庫架構中,
最基本元件是文件檔 (Document),而存放於
文件檔中的資料係由一群關鍵值 (Key)與數值
(Value)所組成;再利用索引 (Index)將一群文
件檔組合起來,並加入時間序列;最後則將索
引運用分片 (Sharding)技術,分為主要分片
(Primary)和複製分片 (Replicas)後,儲存至
不同的資料節點。因資料被切割成較小單元,
故儲存時可同時達到分散及加速的效果,分散
式資料庫之資料架構如圖 5所示。
圖 5 分散式資料庫之資料架構示意圖
在資料存放上,每個主要分片皆有 1個複
製分片,若存放主要分片的資料節點發生異常
致資料遺失時,可將複製分片資料直接在其他
仍存活的資料節點中復原。基本上資料分片數
量預設值為 5個,可視需要調整預設值;惟當
分片數量調整時,資料節點也須相對應調整增
減。最佳配置是 1個資料節點,對應 1個主要
分片及複製分片。
在 3個主要節點中,同一時間只會有 1個
為主控者,其餘則處在備援狀態;主控者之工
作為控制分片分派及索引控制,同時負責確認
資料節點之運作狀態,如果有資料節點消失,
主控者即重新安排將原本存放在該資料節點上
的分片,轉移至其他存活的資料節點處理。其
www.fisc.com.tw ■ 47
淺介巨量網路資料下之「即時交易監控系統」〡資訊分享
次,主控者與備援節點間亦透過相互檢查以偵
測彼此存活狀態,若主控者發生異常,備援節
點將會立即接手。
(三 ) 資料處理
「即時交易監控系統」後端資料處理係採
用「正規表示式」(Regular Expression)進行
資料的篩選與分析,例如成功的交易結果代
碼 (Return code)為 0,則可以把結果代碼為
非 0的交易篩選出來,再進一步對各種不同結
果代碼進行分類與統計;亦可針對特定交易代
碼 (Transaction code)進行分析,找出一定時
間內特定交易的筆數,以及其成功與失敗的比
例等分析資訊。若要以更詳細的表格來呈現每
一筆完整訊息內容,還可利用資料表格 (Data
Table)功能顯示交易屬性的細項資料,以利後
續參照。
有關資料處理效能方面,在「即時交易監
控系統」實驗環境中,本公司以 3個主要節點
及 5個資料節點組成的 1個叢集為架構,並以
每秒鐘約 5,000筆文件檔的資料量 (每分鐘約
30萬筆 ),進行資料庫寫入壓力測試,平均每
個文件檔大小約 40~1,500 Bytes,於寫入資
料當下,同時查詢資料;測試結果,其寫入運
作與查詢結果皆能正常完成。
五、 系統效益與應用場景
(一 ) 監控即時交易,提升跨行平台整體服
務之監控效能
因應各種支付工具的蓬勃發展,交易管道
亦愈趨多元,以金融帳戶為基礎之跨行交易
為例,無論是實體 ATM、刷卡 POS機、QR
Code掃碼機,或網路 ATM、線上收單,乃至
於行動支付 APP(如「台灣 Pay」APP)及各
式第三方支付等,各類交易的最終訊息轉送都
會傳遞到本公司清 (結 )算主機做相對應之處
理;建置「即時交易監控系統」之最大價值在
於可即時得知來自於各類交易管道之傳輸訊息
是否正常,以及交易量 (值 )統計、成功與失
敗交易比例、交易失敗原因分析等,皆可藉
由系統獲取對應的資料及分析結果。(如圖 6
ATM相關交易即時統計資訊 )。
「即時交易監控系統」現階段已完成主機
圖 6 ATM相關交易即時統計資訊
48 ■ 財金資訊季刊 / No.91 / 2018.01
資訊分享〡淺介巨量網路資料下之「即時交易監控系統」
圖 7 特定失敗交易統計
清 (結 )算作業之交易監控,未來將規劃針對
不同的交易連線傳輸行為進行分析,逐步提升
跨行平台整體服務之監控效能。
(二 ) 即時掌握網路連線動態,精進問題查
解時效
有關網路架構之整體監控作業,通常可
從三個面向執行。第一項為設備狀態與流量
監控,係透過網路管理主機利用「簡易網路
管 理 協 定 」(Simple Network Management
Protocol , SNMP)來實現,為企業最常見之網
路監控措施;第二項為特定端點間之流量與行
為監控,主要採用 Netflow技術來蒐集流量資
料;第三項為特定端點間之連線分析,係透過
封包收集與解析來判讀與處理。第二項及第三
項監控作業皆可透過建置「即時交易監控系
統」達成與強化;當掌握這三個面向的即時動
態監控,則不論是因設備障礙造成的大範圍連
線異常,或因單一主機或單一應用程式異常造
成之連線異常,都可迅速、明確地界定出影響
層面及影響範圍。此外,經由落實常態性資料
收集與分析之優點,能將正常狀況下所產生之
資料建立基準水位,藉此瞭解跨行交易正常營
運之行為模式與異常狀況發生時之差異處,精
進問題查解及處理時效。
以特定失敗交易為例 (如圖 7),當使用者
發動交易從金融機構 A將資金轉移到金融機
構 B時,遭遇異常導致交易發生失敗或緩慢
時,如何即時得知是哪一個環結出了問題?過
去查測問題的流程一般是:(1)先確認本公司
跨行轉接系統是否異常? (2)本公司與金融機
構 A與 B間之連線是否異常? (3)由應用系統
人員檢視系統運作是否異常? (4)如須再進一
步瞭解交易內容,則業務與應用系統人員尚須
至資料庫查詢交易訊息,才能釐清問題。自本
公司建置「即時交易監控系統」後,透過系統,
業務營運人員可即時瞭解異常交易情形並找出
失敗原因;迅速掌握問題發生之環節,對於問
題之釐清與處理,具有很大助益。
(三) 整合各式監控作業,減少人工處理負擔
面對來自四面八方各式動態且即時之跨行
交易資料傳輸,當監控資料內容愈多、愈趨複
雜時,所需配置之專屬人力 (如第一線業務營
運人員或系統監控人員 )亦愈形重要;且該等
人員尚須具備解讀正常或異常交易之資訊判斷
能力,俾做出相對應之妥適處理。爰此,「即
www.fisc.com.tw ■ 49
淺介巨量網路資料下之「即時交易監控系統」〡資訊分享
圖 8 跨行提款、轉帳交易監控
時交易監控系統」利用開源軟體兼容且具調整
彈性之特點,將多樣化監控作業整合至統一的
儀表板,並可將異常情況設定告警機制,原本
需使用多項監控工具才能達到之效果,現已可
於單一平台上完成,大幅減輕第一線人員之作
業負擔。
以跨行提款與轉帳交易之監控為例 (如圖
8),現已可將正常及異常交易之運作狀況一併
納入監控儀表板,俾利監控人員即時對交易訊
息進行判讀與分類,另輔以分散式資料庫技術
以實現快速的資料讀取與存儲,再搭配可依需
求調配資料版面內容之儀表板呈現方式,大幅
提升維運單位對即時交易情況之掌握度,精進
問題的查找與處理時效,同時減輕人員的作業
負擔,促進人力資源有效運用。
六、結語
本公司建置「即時交易監控系統」,旨在
即時掌握跨行交易之網路連線與流量、以及特
定交易之實時監控,並應用如封包分流、去重
複化及剔除機敏性資料等網路可視化工具,儘
管建置過程初期,常有因資料流量太過龐大,
導致後端分析系統無法承載負荷而當機之情形;
但也因為如此,才有機會於反覆的問題解決與
方案思考中,接觸到分散式資料庫,進而透過
其完整且效率甚佳之資料倉儲架構,解決資料
儲存與擷取效率不佳等問題。「即時交易監控
系統」現階段的監控範圍包含:金融卡、國際
卡、匯款、企業資金調撥等交易種類,未來將
逐步擴充及調校基礎架構,期望能將本公司其
他重要業務之交易內容一併納入系統監控。
展望未來,當「即時交易監控系統」具備
並掌握跨行交易平台所有網路流量資料後,實
宜進一步思考以區域聯防之概念,聯合設備
事件紀錄、防火牆、資訊安全入侵防禦系統
或入侵偵測系統、進階持續性滲透威脅防護
(Advanced Persistent Threat , APT)等資安措
施,從點、線、面的角度逐步擴展監控範圍,
最終協同業務運作、資安防護、系統維運及網
路連線等監控作業,以期提升跨行交易平台之
整體網路服務品質與效能。
※參考文獻 /資料來源:1. Gigamon公司。2. Elastic,https://www.elastic.co。3. Grafana Labs,https://grafana.com。4. 維基百科,https://zh.wikipedia.org/wiki/
NetFlow。