기업을위한Big data Analytics 접근제언 - entrue.com...
Transcript of 기업을위한Big data Analytics 접근제언 - entrue.com...
![Page 1: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/1.jpg)
2014년 4월 17일
기업을 위한 Big data Analytics 접근 제언
![Page 2: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/2.jpg)
2
요즘 Big data 소식들…
정부 3.0 따른 Big data 사례
- 통계청 물가지수
- 충북 사과
- 경기도 빅데이터 …
정부 3.0 따른 Big data 사례
- 통계청 물가지수
- 충북 사과
- 경기도 빅데이터 …
![Page 3: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/3.jpg)
![Page 4: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/4.jpg)
![Page 5: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/5.jpg)
5
Big Data
VelocityVariety
Volume
기술(Technology) 위주의 접근에서 가치(Value) 기반의 접근 중요
![Page 6: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/6.jpg)
6
현재 상황 분석에서 미래의 예측으로 진화 중
Analytics
![Page 7: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/7.jpg)
7
3V의 기술적 동인으로 전통적인 분석과 고급 분석의 활용, 가치(Value) 극대화
Big Data Analytics
Insight
Advanced AnalyticsTraditional AnalyticsBig Data (e.g 주식)
Big data Analytics
![Page 8: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/8.jpg)
II. Technology(Hadoop 최신 아키텍처, Real-time Analytics 중심)
![Page 9: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/9.jpg)
9
Big data Analytics는 데이터 수집, 저장, 처리, 분석의 반복적 과정이며, 다양한 기술 존재
Process & Technology
![Page 10: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/10.jpg)
10
Data
IT Budgets
GROWING AT 40%
GROWING AT 2.5%
$9,000
$40,000
<$1,000
ENTERPRISE STORAGE
DATABASE WAREHOUSE
![Page 11: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/11.jpg)
11
업무의 성격에 맞게 서버 구조 방식을 선택해야 하며, All or Nothing 아닌 필요에 따라혼합하여 사용하는 아키텍처도 필요함
Scale up, Scale out
![Page 12: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/12.jpg)
12
Enterprise Data Hub를 지향하는 New 분산 병렬 처리 플랫폼 기술
Hadoop 2.0 (1/3)
![Page 13: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/13.jpg)
13
보다 더 효율적인 Resource Management 가능
Hadoop 2.0 (2/3)
![Page 14: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/14.jpg)
14
Hadoop 2.0 (3/3)
주요 기능 및 성능을 점검한 결과 당장 적용할 수 있는 부분과 조금 더 시간이 필요한 부분 존재확인
항목 성숙도 평가 적용 예상 비즈니스 고려사항
Performance Stable 모든 비즈니스 MapReduce의 경우 JDK7 유리HBase의 경우 JDK6 유리
YARN Scheduler GA 상호영향이 있는 서비스(Big Batch + OLTP)가 공존하는 빅데이터 시스템 구축
메모리 기준으로 자원 컨트롤됨으로 CPU에 대한 컨트롤이 아직 완벽하지 않는 것으로 확인됨, 차후 버전에서 해결 될 것으로 판단됨
HDFS HA Stable 고 가용성을 요구하는 엔터프라이즈환경 적용 가능
비즈니스 적용 가능
YARN HA Ready 고 가용성을 요구하는 엔터프라이즈환경 적용 가능
구성방식은 HDFS HA와 동일하나 안정성이 떨어짐. 1.x 의 HA방안(표준 HA Framework)을 대안으로 적용
HDFS Federation Stable 지역/그룹별 데이터관리가 필요한업무 적용 가능필요 시 두 지역/그룹영역의 데이터를 함께 작업 가능
확장성을 고려하여 개발된 기술이나, 업무 특성상 그룹핑이 필요한 경우 활용 가능할 것을 예상
HDFS Snapshot GA 중요 데이터의 백업으로 활용 현재 상태는 스냅샷에 의한 성능저하 리스크 예상됨. 전체가 아닌 중요 데이터에만 적용
HDFS Migration Stable 1.x 버전의 기 구축된 사이트에성능 및 고 가용성을 위해 적용
플랫폼은 성공이나 개발 영역(MR, python 등)은 마이그레이션 프로젝트를 통해 통합테스트 필요
YARN Migration Stable 1.x 버전의 기 구축된 사이트에성능 및 고 가용성을 위해 적용
MR의 경우 counter API의 수정과 재컴파일이 필요함. MRD의 기등록 workflow를 일괄 적용을 위한 도구또는 절차의 준비가 필요
![Page 15: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/15.jpg)
15
Gartner는 올해 전통적인 DW 시장에 Hadoop 을 중요 기술로 포함시켰으며, DW 솔루션업체들은 Hadoop 간 연결성만 보장하다가, Hadoop을 적극적으로 끌어들이기 시작함
전통적인 DW, 새로운 변화, 변화 시도 중
![Page 16: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/16.jpg)
16
데이터 저장 전 In memory 에서 처리 및 분석하는 것과 데이터 저장 후의 검색,쿼리 및 분석이혼용되고 있지만, 기술 낭비 방지를 위해서는 기업 업무에서의 실시간의 의미를 찾는 것이 중요
Real-time Analytics (1/3)
Architecture (확장성, Low latency, 가용성)
개발/운영편의
alert
Server log
Network event
Orders, Trades
.
.
.
Ingest
>In Memory After Store
Sensor
• 실시간 데이터 수집• 다양한 수집 대상• 무 중단 설정 반영
• Event 파티셔닝, Correlation• Rule 기반 처리• 집합 연산 및 쿼리, 패턴 분석
1 window
Rules
Stream Processing / Analytics Batch Processing /Analytics
• Search• Data Query• 데이터 통계 분석 (시계열)
• Advanced Analytics- predictive analytics- machine learning
2
![Page 17: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/17.jpg)
17
Real-time Analytics (2/3)
Streaming Processing : ESP, CEP
구 분 특 징 솔루션
ESP(Event Stream Processing)
•시간에 따른 이벤트들의 일련의 연속된 흐름 처리•Computation 중심 처리 (Filtering, Aggregation)•Scale out 아키텍처 지향
IBM InfoSphere Streams, Storm, S4, Spark Streaming
CEP(Complex Event
Processing)
•시간에 따른 이벤트들의 일련의 연속된 흐름 처리•선언적 Rule 기반 처리•특정한 time window 연속적으로 처리•Scale up 아키텍처 지향•CEP = ESP & 패턴 감지
Tibco CEP, Oracle CEP, Esper
![Page 18: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/18.jpg)
18
In-Memory Computing : HDD의 속도 문제를 해결하기 위해 Memory를저장 공간으로 사용하는 기술
Real-time Analytics (3/3)
![Page 19: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/19.jpg)
III. 적용 모델
![Page 20: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/20.jpg)
20
적용 모델 (많이 시도하는…)
구분 업무 특징 / 설명 사례 비고
Big Batch• 기존 RDBMS 기반 대용량 데이터 Batch 처리 à Hadoop 클러스터
à 처리시간 단축, 성능 개선
• 분석 회계 데이터 처리• 생산 품질 데이터 분석• 공급망 관리 Planning
• 가장 간단한 구성
HybridArchitecture
• DW의 성능, 데이터 저장 기간, 비정형 데이터 처리 이슈 보완 +빅 데이터 기술 접목
à ETL 성능 개선, 데이터 저장비용 절감, 대용량 데이터 준 실시간 조회
• 생산 품질 데이터 준 실시간조회
• OLAP 도구 의존성
Log Analytics
• 서버(접속 로그, 명령어 로그), N/W 로그, DB 접속 로그 및 쿼리 로그, Application 접속 및 조회/권한 로그 등을 수집하여 임직원 정보 유출 등에대한 잠재적 인자를 분석하여 사전 예방
à 기존에 버렸던 정보를 저장, 패턴 분석, 룰 적용 선 순환 실시간 분석 가능
• 보안 로그 분석
• 시스템 로그 분석
• 색인, 검색 서비스필수
Search & Text
Analytics
• 비정형/반정형 텍스트 및 문서 데이터를 색인하고 텍스트 마이닝을 통해의미에 기반한 분석, 리포팅 가능
à 컨텐츠 범주화, 긍/부정 판정, 연관 정보 등 의미 기반 데이터 분석
• Social Media Analytics (SMA)
• VoC분석
• KM 고도화
• 색인, 검색 서비스필수
Data mining /
machine learning
• 데이터에 대한 분류, 군집화, 예측 등으로 데이터에 숨겨 진 지식, 정보 발굴
• 컨텐츠/상품/서비스 추천, 이상 감지, 고객 이탈 감지 등
• 통신사 사용자 성향 분석
• 온라인 쇼핑몰 상품 추천
• 고급 분석 기법과기술 요소 필요
DataArchiving
• 데이터 생명주기에 따라 중장기 데이터를 보관하는 저장소로 활용
• 데이터 분석, 요약, 색인 등의 작업을 병행하여 백업 데이터의 활용성제고
• Facebook 사용자 메시지백업(1일 4TB HDFS 백업)
• 데이터 중요도에따른 copy수 조정으로 저장 공간 효율화 (3à2 copy)
![Page 21: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/21.jpg)
21
Architecture
앞서 적용 모델들은 오픈 소스 기반의 기술을 이용하여 구현 가능하며, LG CNS는 아래와 같은오픈 소스 기반 아키텍처를 이용하여 구축 중임
실시간 로그 데이터
RDB Import
수집 데이터
저장 데이터
HDFS
HBase(NoSQL)Indexing
데이터 색인 서비스 데이터 검색 서비스
SearchEngine
Mahout
고급분석
AnalyticService
Web UI
조회/시각화
AnalyticTool
C/S UI
Web Crawler
Event Query Engine
[ EPL }
CEP / ESP
Input A
dap
ter
Outp
ut Adap
ter
Flume
Zookeeper(Hive Metastore)
API Coprocessor
HBase기반 (준)실시간 데이터 처리
MapReduce Hive Pig
HDFS기반 Batch 데이터 처리
Elastic Search
Source sink
Channel
수집 데이터
저장 데이터
![Page 22: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/22.jpg)
22
Big Batch
실시간 로그 데이터
RDB Import
Indexing
데이터 색인 서비스 데이터 검색 서비스
SearchEngine
Mahout
고급분석
AnalyticService
Web UI
조회/시각화
AnalyticTool
C/S UI
Web Crawler
Event Query Engine
[ EPL }
CEP / ESP
Input A
dap
ter
Outp
ut Adap
ter
Flume
API Coprocessor
HBase기반 (준)실시간 데이터 처리
Elastic Search
Source sink
Channel
Result
Needs
수집 데이터
저장 데이터
HDFS
MapReduce Hive Pig
HDFS기반 Batch 데이터 처리
HBase(NoSQL)
수집 데이터
저장 데이터
![Page 23: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/23.jpg)
23
Hybrid Architecture (1/2)
![Page 24: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/24.jpg)
24
Hybrid Architecture (2/2)
RDB Import
수집 데이터
저장 데이터
HDFS
Indexing
데이터 색인 서비스 데이터 검색 서비스
SearchEngine
Mahout
고급분석
AnalyticService
Web UI
조회/시각화
AnalyticTool
C/S UI
Web Crawler
Event Query Engine
[ EPL }
CEP / ESP
Input A
dap
ter
Outp
ut Adap
ter
API Coprocessor
HBase기반 (준)실시간 데이터 처리
MapReduce Hive Pig
HDFS기반 Batch 데이터 처리
Elastic SearchRDB Export
HBase(NoSQL)
ODS/DW/DM
DW
수집 데이터
저장 데이터
실시간 로그 데이터
FlumeSource sink
Channel
LG CNS HBase Framework
![Page 25: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/25.jpg)
IV. 마무리
![Page 26: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/26.jpg)
26
LG CNS Big data Solutions
![Page 27: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/27.jpg)
27
SBP – MR Designer
Drag&Drop Search and Click Top-down Workflow monitoring
![Page 28: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/28.jpg)
28
제언
① 빅 데이터 플랫폼을 일단 도입하고, 데이터를 모으자는 생각은 버려야 함
② 기업 내에 어떤 데이터가 존재하는 지 파악 필요
③ 제품을 갖추었다고 분석이 저절로 되는 것은 아니다. 분석 모델링이 중요
④ 업무를 알아야 분석도 할 수 있다
⑤ 오픈 소스 그냥 써도 된다. 관리가 어렵다. 개발 어렵다. à 상용 사용도 고려
⑥ 규모가 작더라도 지금 바로 시작하세요
![Page 29: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/29.jpg)
![Page 30: 기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션 업체들은Hadoop간연결성만보장하다가,](https://reader034.fdocuments.net/reader034/viewer/2022051508/5aaaebf67f8b9a81188ea25a/html5/thumbnails/30.jpg)