Post on 19-Nov-2014
description
빅데이터 분석
2013.10.10
전략사업팀 / 빅데이터사업부송원문
CONTENTS
빅데이터 분석 - 데이터 마이닝과 사례Ⅰ
빅데이터 분석 예 – 1. 군집 분석Ⅲ
빅데이터 분석 예 – 2. 추천 분석Ⅳ
빅데이터 분석 도구 - AnkusⅤ
빅데이터 분석 기술 : MapReduceⅡ
Ⅰ. 데이터 분석 – 데이터 마이닝
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터가 아닌 빅앤서I. 빅데이터 분석 – 데이터 마이닝과 사례
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터와 데이터 마이닝I. 빅데이터 분석 – 데이터 마이닝과 사례
SYSTEM / MANAGEMENT ANALYSIS / APPLICATION
Hadoop and Ecosystem/ MapReduce
Data Mining andMachine Learning
빅데이터 분석 MapReduce 기반의 데이터 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝I. 빅데이터 분석 – 데이터 마이닝과 사례
• Description• 대량의 데이터로부터 그 안에 숨어있는 (implicit) 새롭고 (previously unknown), 가치 있고 (non-
trivial), 의사결정에 유용한 (potentially useful) 정보를 찾는 작업
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝을 위한 접근I. 빅데이터 분석 – 데이터 마이닝과 사례
DataData Minin
g
질문 어떤 사람들이 신용불량자 ( 잠재 ) 일까 ?
[ 가설의 생성 ]* 직업이 자영업 , 무직 등에 속한 사람들* 수입이 233 만원 이하이고 , 지역이 A 지역에 거주하는 경우 신용불량 확률 높음
학습
( 가설 )
검증 모델 저장소
가설
Data검증
고객의 직업과 수입 정도가신용불량 여부와 관련이 많다 .
질의도구
시각화도구
OLAP도구
기존 – 가설 확인 중심 데이터 분석
데이터 마이닝 - 가설 발견 중심 프로세스
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝 수행 방법I. 빅데이터 분석 – 데이터 마이닝과 사례
Mining / Training
Test/Evaluation/Verification
Prediction/Application
Data Set (DB, DW)
Training Data Test(Evaluation) Data
New Data
Training Model
Data Mining Process
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝 기법의 분류I. 빅데이터 분석 – 데이터 마이닝과 사례
Data Mining
Predictive
Classification(Supervised)
Descriptive
Clustering(Unsupervised)
Association
Recommenda-tion
k-NNDecision TreeNeural NetworksSVMRegressionBayes Networkk-meansEMDensity BasedSOMHierarchical
AprioriFP-Growth
Collaborative FilteringContents BasedAssociation Rule Based
MachineLearning
Text MiningSocial Analysis, ….
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
분류 및 군집 문제의 예I. 빅데이터 분석 – 데이터 마이닝과 사례
Classification ( 분류 ) Clustering ( 군집 )
• Supervised Learning (Predictive DM)• 데이터 ( 레코드 ) 들을 미리 지정된 부류나
등급으로 나누는 작업• 예 ) 신용 등급에 따라 고객을
분류 하는 모델을 구축하고 ,
신규 고객의 정보에 따라 신용 등급을 예측
• Unsupervised Learning (Descriptive DM)• 데이터 ( 레코드 ) 들을 유사한 성격을 가지는
그룹으로 분할하는 작업• 예 ) 고객을 특징이 유사한
그룹으로 분할하고 그룹별특징을 분석
• 스팸 메일 자동 분류• 문서의 카테고리 자동 분류• 인터넷 중독 진단 시스템
• 학업 성취도 / 능력에 따른 학생 특징 분석• 특정 질병에 대한 유전자 발현 특징 분석• 구매 패턴 유사 고객 특징 분석
ID 월소득 직업 나이 학력 지역 기대출금 연체여부 … 신용등급1 500 개발 45 대졸 강남 2,000 No … A
2 300 영업 30 고졸 은평 0 No … B
.. .. .. .. .. .. .. .. .. ..
특징 (features)/ 속성 (attributes) 목표 클래스 (target class)
- 350 영업 40 대졸 구로 1,000 No .. ?
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
연관 분석I. 빅데이터 분석 – 데이터 마이닝과 사례
• 장바구니 분석 ( 마트 등에서의 구매 상품 목록 )• 금융 상품 구매 분석• 영화 /VOD 등 디지털 콘텐츠 구매 분석
Walmart
• Association• 거래 ( 구매 ) 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내는 분석
vs.
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
추천 분석I. 빅데이터 분석 – 데이터 마이닝과 사례
• Recommendation (Personalization)• 사용자가 좋아할 만한 콘텐츠 / 아이템을 선별해 내어 사용자에게 권유 / 소비를 유도 하는 것
[ 협력적 추천 – 사용자 기반 ]
나와 선호 ( 시청 ) 성향이 유사한 사용자들이 좋다고 한 아이템 ( 영화 ) 를 나에게 추천한다 .
Amazon, Netflix, MovieLens, Watcha
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
공공데이터 분석의 주요 사례 분류I. 빅데이터 분석 – 데이터 마이닝과 사례
해외 사례 국내 사례도로 / 교통 기상 / 교통 예측 ( 브라질 )
심야버스 노선 결정 ( 서울시 )
기상 / 재해 / 재난치안 범죄 예방 시스템 ( 미국 )
복지 맞춤형 복지 사회 ( 싱가포르 ) 수요자 중심 복지 서비스 ( 보건복지부 )
기타 탈세 방지 시스템 ( 미국 ) 민원 정보 분석 ( 국민권익위원회 )
• 국내 및 해외의 공공 부분 ( 지자체 및 정부 기관 등 ) 빅데이터 분석 활용 주요 사례• 다양한 사례들 중 공공 분야별로 비교적 잘 알려졌거나 성공적으로 운영된 사례 중심
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
범죄 예방 시스템 / 미국 샌프란시스코I. 빅데이터 분석 – 데이터 마이닝과 사례
• 범죄 발생 지역 및 발생 시각을 예측하여 범죄를 미연에 방지하기 위한 시스템• 범죄 발생 지역 및 시각을 예측하여 필요한 곳에 경찰 인력을 배치 , 범죄를 예방• 과거 발생한 범죄 패턴을 분석하여 후속 범죄 가능성 예측• 과거 데이터에서 범죄자 행동을 분석하여 사건 예방을 위한 해법 제시
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
탈세 방지 시스템 / 미국 국세청I. 빅데이터 분석 – 데이터 마이닝과 사례
• 빅데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축• 사기 방지 솔루션 , 소셜 네트워크 분석 , 데이터 통합 및 마이닝 등 활용• 방대한 데이터로부터 탈세 / 사기 징후를 찾아내어 감시• 연간 3,450 억 달러의 세금 누락 및 불필요한 세금 환급 절감 효과 발생
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
맞춤형 복지사회 / 싱가포르I. 빅데이터 분석 – 데이터 마이닝과 사례
• 데이터 분석을 통한 지역사회의 화합 및 맞춤형 복지사회 구현• 다양한 인종 , 나이 , 문화 , 소득 , 연령에 따른 주민의 데이터를 수집 / 분석하여 맞춤형 서비스 제공
가능한 플랫폼 구현• 1,800 개 이상의 주민위원회 센터를 네트워크로 연결하고 서비스 수요와 경험 데이터를 분석• 주요 서비스 니즈별 ( 인종 , 문화 , 소득 , 연령을 고려한 ) 세분화를 통한 맞춤식 서비스 및 캠페인
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
기상 및 교통 예측 / 브라질 리우데자네이루I. 빅데이터 분석 – 데이터 마이닝과 사례
• 환경 , 교통 , 치안 등 도시에서 발생하는 모든 정보를 통합한 똑똑해지는 도시 구현• 강 유역의 지형 측량 자료 , 강수량 통계 , 레이더 사진 등의 데이터와 교통 체증 , 정전 사태 등 30 여
개의 시 / 정부 산하 부서 및 기관 공유 자료를 통합하여 도시에 영향을 미치는 데이터를 분석• 48 시간 전에 기상 ( 폭우 및 홍수 ) 및 교통 상황을 예측하는 지능형 운영 센터 운영• 정보를 시민들에게 제공하고 공무원 및 관련 팀에 내용 전달
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
심야버스 노선 결정 / 서울시I. 빅데이터 분석 – 데이터 마이닝과 사례
• 이통사의 콜로그를 바탕으로 한 유동인구 정보를 기반으로 최적의 심야 버스 노선 결정• 심야 시간대에 발생하는 콜 로그와 청구지 주소 등의 연관 분석을 통한 유동인구와 출발 / 목적지 예측• 구역별 유동인구 밀집도 및 노선 / 시간 / 요일별 패턴을 분석하여 최적 노선 정보를 추출• 정류장 단위 통행량 추정과 요일별 배차 간격 조정을 통한 최적 노선 운영
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
민원정보분석 / 국민권익위원회I. 빅데이터 분석 – 데이터 마이닝과 사례
• 월별 , 지역별 , 주요 민원을 캘린더로 제작하여 민원의 사전 예방과 대책 마련이 가능하도록 중앙 행정 기관 및 지방 자치 단체 등에 제공
• 주요 민원 캘린더와 주요 민원 지도를 토대로 민원 사전 예방과 대책 마련• 지역별 , 계절별 주요 민원을 체계적으로 분석• 불필요한 행정력 낭비 방지와 신뢰 행정 구현이 가능한 시스템으로 발전• 온라인국민소통시스템의 홈페이지를 통한 민원 제안 콜센터 상당 등 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
수요자 중심 복지 서비스 / 보건복지부I. 빅데이터 분석 – 데이터 마이닝과 사례
• 지자체 공무원들의 복지 행정 처리를 지원하는 정보 시스템• 지방 자치 단체에서 집행하는 120 여가지 복지 급여 및 서비스 이력 데이터 이용• 복지대상자 선정이 정확하고 효율적으로 이루어져 복지 행정의 획기적인 변화 기대• 다양한 복지 사업별 유사 / 중복 서식을 통합하고 데이터를 공유하여 행정 효율 및 민원 편의 증대• 지자체의 복지급여 및 서비스 이력을 통합 관리하여 복지 대상자 선정 , 사후 관리 등의 업무를 지원
Ⅱ. 빅데이터 분석 기술 : MapRe-duce
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터 처리를 위한 분산 프로세스 구조II. 빅데이터 분석 기술 : MapReduce
• In Wikipedia• MapReduce is a programming model for processing large data sets with a parallel,
distributed algorithm on a cluster.• A MapReduce program comprises a Map() procedure that performs filtering and
sorting and a Reduce() procedure that performs a summary operation.
• Hadoop 으로 대표되는 빅데이터 플랫폼에서의 데이터 처리 프로세스
• Map/Reduce : Key, Value 구조를 기반으로 하는 데이터 분산 처리 구조( 프레임워크 )
• Google 에서 2004 년 최초 발표
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
MapReduce 프레임워크의 프로세스 예시II. 빅데이터 분석 기술 : MapReduce
< Map >라인 단위입력 내용을 Key 와 Value 로 구분하여 표기
< Reduce >동일 Key 의 Value 를 List 로 전달받아 일괄 처리
파일 내 출현 단어들의 횟수를 확인하는 Map/Reduce 프레임워크 구조
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
MapReduce 프레임워크의 프로세스 예시 : Mapper
II. 빅데이터 분석 기술 : MapReduce
Deer Beer RiverCar Car River
Mapper Key (Line Offset) Value (String)
Mapper – 1 ?????? Deer Beer River
Mapper - 2 ?????? Car Car River
Data File Mapper Input from Data File
ex) Split Words Set Word as “Key” Set 1 as “Value” for count
Mapper
Value Processing: Key Value Setting
Mapper Key Value
Mapper – 1
Deer 1
Beer 1
River 1
Mapper - 2
Car 1
Car 1
River 1
Mapper Output for Reducer
6 Key-Value Pairs
the number of mappers= the number of lines
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
MapReduce 프레임워크의 프로세스 예시 : Reducer
II. 빅데이터 분석 기술 : MapReduce
Key ValueDeer 1
Beer 1
River 1
Car 1
Car 1
River 1
Input from Mapper(6 key-Value Pair)
Key ValueDeer 1
Sort / Shuffle
Key ValueRiver 1
River 1
Key ValueBeer 1
Key ValueCar 1
Car 1
Reducer Key Value (List)
Reducer-1 Beer {1}
Reducer-2 Car {1, 1}
Reducer-3 Deer {1}
Reducer-4 River {1, 1}
Reducer Input
Reducer
Value Processing (Iterative): Key Value Writing
ex) Compute Value Sum Set Key as “Key” Set Sum as “Value”
Beer 1Car 2Deer 1River 2
Result File
the number of reducers= the number of distinct keys
Reducer Output
Ⅲ. 빅데이터 분석 예- 1. 군집 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
K-means 군집 분석의 개념III. 빅데이터 분석 예 – 1. 군집 분석
• 군집 분석 – 데이터를 속성이 유사한 데이터들끼리 그룹을 만드는 것• K-means – 데이터를 가장 가까운 군집에 할당 시키고 , 동일 소속 데이터들의 정보에 따라
군집의 중심을 업데이트 해 가는 과정을 반복하여 군집을 형성 하는 것
(a) 초기 군집 중심 설정 (b) 데이터에 군집 할당 (c) 군집 중심 업데이트
(b 반복 ) 데이터에 군집 할당
(c 반복 ) 군집 중심이 변경되지 않을 때 까지 b 와 c를 반복 수행 군집 중심이 변경되지 않으면 종료
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
K-means 군집 분석의 MapReduce 수행 설계III. 빅데이터 분석 예 – 1. 군집 분석
1. 군집의 초기 중심을 설정 한다 .
2. 모든 데이터에 대해 다음을 수행 ( 반복 )- 데이터 자신과 각 군집 중심과의 거리를 측정한다 .- 가장 가까운 군집 중심에 데이터 자신을 할당한다 .
3. 모든 군집에 대해 다음을 수행 ( 반복 ) - 군집에 할당된 모든 데이터의 평균을 계산한다 .- 계산된 평균을 군집의 중심 정보로 업데이트 한다 .
4. 업데이트 된 군집 중심 정보와 업데이트 이전의 군집 중심을 비교 한다- 만약 , 군집 중심이 달라졌다면 , 다시 2 번 과정부터 반복 한다 .- 만약 군집 중심이 변경되지 않았다면 , 군집을 종료 한다 .
K-means 군집 프로세스와 MapReduce 변환
모든 데이터에 대해 동일 과정 반복 수행 Mapper
각 군집별 데이터를 이용하여 군집별로 수행 Reducer
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
K-means 군집 분석의 MapReduce 수행 설계 : MapReduce
III. 빅데이터 분석 예 – 1. 군집 분석
Map1, 1 1, (1, 1)2, 2 2, (2, 2)9, 9 2, (9, 9)
10, 10 2, (10, 10)
Reduce1, {(1, 1)} (1, 1)
2, {(2, 2), (9, 9), (10, 10)}
(7, 7)동일 Key 로셔플 / 정렬
Cluster ID Cluster Info
1 1, 1
2 2, 2
XX
XX
Map1, 1 1, (1, 1)2, 2 1, (2, 2)9, 9 2, (9, 9)
10, 10 2, (10, 10)
MapReduce 반복Reduce
1, {(1, 1), (2, 2)}
(1.5, 1.5)
2, {(9, 9), (10, 10)}
(9.5, 9.5)
XX
X
X
Ⅳ. 빅데이터 분석 예- 2. 추천 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
추천 분석 – 협력적 추천 (Collaborative Filtering based Recommendation)
IV. 빅데이터 분석 예 – 2. 추천 분석
Process - 1 Users Extraction having Similar Preference
Process - 2
Recommenda-tion based on Similar User’s Preferences
[ 협력적 추천 – 사용자 기반 ]
나와 선호 ( 시청 ) 성향이 유사한 사용자들이 좋다고 한 아이템 ( 영화 ) 를 나에게 추천
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
유사 사용자 정보와 협력적 추천IV. 빅데이터 분석 예 – 2. 추천 분석
Iiwiw
Iiuiu
Iiwiwuiu
RRRR
RRRRwuPCC
2,
2,
,,
)()(
))((),(
U2 = {I2=1, I3=-1, I4=-1}U5 = {I1=1, I2=1, I3=-1} PCC(U2, U5) = 1
PCC (Pearson Correlation Coefficient): 두 벡터간 공통 항목 값의 상관 관계 , -1~1 사이의 실수 - 1 인 경우 두 벡터는 음의 상관관계 , 1 인 경우 양의 상관관계 , 0 인 경우 특별한 관계가 없음
U1
U2
U3
U4
U5
I1 I2 I3 I4
U2 와 U5 의 pcc 가 1 양의 상관 관계 U2 의 I4 값이 -1 이므로 U5 의 I4 값 또한 -1 일 것
협력적 추천의 핵심
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
실제 데이터에 PCC 계산을 적용한 예IV. 빅데이터 분석 예 – 2. 추천 분석
uid item-1 item-2 item-3 item-4 item-5 item-6 item-7 item-8
u 5 3 1 2 1 4 5 3
w 4 3 2 1 2 5 4 3
Iiwiw
Iiuiu
Iiwiwuiu
RRRR
RRRRwuPCC
2,
2,
,,
)()(
))((),(
82.0),( wuPCCuid item-100
u 5
w ? 4 or 5
서로 동일한 성향인 정도가 0.82( 최대값 1)
• Netflix(DVD 대여 회사 ) 평가 데이터의 PCC 계산 예• 사용자들이 대여한 DVD 에 대해 1~5 점 사이로 평점을 표기한 데이터
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산IV. 빅데이터 분석 예 – 2. 추천 분석
Alice, Matrix, 5Alice, Alien, 1Alice, Inception, 4
Bob, Alien, 2Bob, Inception, 5
Peter, Matrix, 4Peter, Alien, 3Peter, Inception, 2
Netflix 데이터 예 ( 사용자 , 영화 , 평점 )
PCC(Alice, Bob) = ?PCC(Alice, Peter) = ?PCC(Bob, Peter) = ?
Matrix Alien Inception
Alice 5 1 4
Bob 2 5
Peter 4 3 2
2 번의 Map/Reduce 작업을 통해 사용자간의 PCC 계산 가능
Sequential 프로그래밍이 아닌 Map/Reduce 구조에 기반한 PCC 계산 로직 설계 / 개발 필요
• 1 단계 Map/Reduce – 동일 영화를 본 사용자 쌍 정보를 추출• 2 단계 Map/Reduce – 사용자 쌍 ( 동일 영화에 대한 평점 목록 ) 에 대하여 PCC 를 계산
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산 – 1st MapReduce
IV. 빅데이터 분석 예 – 2. 추천 분석
MapAlice, Matrix, 5 Matrix (Alice, 5)Alice, Alien, 1 Alien (Alice, 1)Alice, Inception, 4 Inception (Alice, 4)Bob, Alien, 2 Alien (Bob, 2)Bob, Inception, 5 Inception (Bob, 5)Peter, Matrix, 4 Matrix (Peter, 4)Peter, Alien, 3 Alien (Peter, 3)Peter, Inception, 2 Inception (Peter, 2)
ReduceMatrix {(Alice, 5) , (Peter, 4)} (Alice, Peter) (Matrix) (5, 4)
Alien {(Alice, 1) , (Bob, 2) , (Peter, 3)}
(Alice, Bob) (Alien) (1, 2)(Alice, Peter) (Alien) (1, 3)(Bob, Peter) (Alien) (2, 3)
Inception {(Alice, 4) , (Bob, 5) , (Peter, 2)}
(Alice, Bob) (Inception) (4, 5)(Alice, Peter) (Inception) (4, 2)(Bob, Peter) (Inception) (5, 2)
동일 Key 로 셔플 / 정렬
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산 – 2nd MapReduce
IV. 빅데이터 분석 예 – 2. 추천 분석
MapAlice, Peter, Matrix, 5, 4 (Alice, Peter) (5, 4)Alice, Bob, Alien, 1, 2 (Alice, Bob) (1, 2)Alice, Peter, Alien, 1, 3 (Alice, Peter) (1, 3)Bob, Peter, Alien, 2, 3 (Bob, Peter) (2, 3)Alice, Bob, Inception, 4, 5 (Alice, Bob) (4, 5)Alice, Peter, Inception, 4, 2 (Alice, Peter) (4, 2)Bob, Peter, Inception, 5, 2 (Bob, Peter) (5, 2)
Reduce
(Alice, Peter) {(5, 4) , (1, 3) , (4, 2)}
(Alice, Peter) (0.24)
(Alice, Bob) {(1, 2) , (4, 5)} (Alice, Bob) (1.00)
(Bob, Peter) {(2, 3) , (5, 2)} (Bob, Peter) (-1.00)
Matrix Alien Inception
Alice 5 1 4
Bob 2 5
Peter 4 3 2
동일 Key 로 셔플 / 정렬
Iiwiw
Iiuiu
Iiwiwuiu
RRRR
RRRRwuPCC
2,
2,
,,
)()(
))((),(
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산 – Summary
IV. 빅데이터 분석 예 – 2. 추천 분석
Alice, Matrix, 5Alice, Alien, 1Alice, Inception, 4
Bob, Alien, 2Bob, Inception, 5
Peter, Matrix, 4Peter, Alien, 3Peter, Inception, 2
PCC(Alice, Bob) = 0.24PCC(Alice, Peter) = 1.00PCC(Bob, Peter) = -1.00
Mapper
Reducer
Mapper
Reducer
영화를 키로 , 사용자와 점수를 추출
동일 영화를 함께 본 사용자 점수 쌍을 생성
사용자 쌍을 키로 , 함께 본 영화의 점수 쌍을 추출
동일 사용자 쌍에 대해 함께 본 영화의 점수 쌍을취합하여 PCC 를 계산
Ⅴ. 빅데이터 분석 도구 - AnkusMapReduce based Data Mining and Machine Learning Algorithms
for Intelligent Big Data Analysis in Hadoop Framework
http://www.openankus.org
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
지능형 빅데이터 분석 라이브러리V. 빅데이터 분석 도구 - Ankus
• Ankus: Intelligent Big Data Analyzer• 빅 데이터 분석 / 활용 통합 프레임워크 환경을 제공을 위한 Hadoop 기반 분산 빅데이터
환경에서의 데이터 마이닝 및 기계학습 기반의 데이터 분석 라이브러리
• 오픈 소스 기반의 SW 이며 , Java 라이브러리 형태로 배포됨
Ankus 와 통합 프레임워크 Flamingo Hadoop Manager & Appliance
지능형 분석을 위한
Ankus 의 요소 기술
기초 통계 분석 및 데이터 전처리 데이터 유사 / 상관 분석 분류 / 군집 등 기계학습 분석 맞춤형 콘텐츠 추천 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
지능형 빅데이터 분석 라이브러리V. 빅데이터 분석 도구 - Ankus
• Ankus: Intelligent Big Data Analyzer
빅데이터 기반 의사 결정 지원을
위한 데이터 마이닝 및 기계학습
기반 분석
Apache Hadoop 과 의 연 동 을
통 한 Mahout 대 체 국 내 공 개
SW 기술
활용 분야
분산 빅데이터 환경을 위한 MapReduce 기반의 분산 분석 알고리즘 제공
기초 통계 및 전처리 등 패턴 분석과 분류 / 군집 분석 등의 기계학습 기반 분석 제공
기업 실무 적용 / 활용을 위한 개인 맞춤형 추천 분석 모듈 제공
빅데이터 활용 통합을 위한 Flamingo Hadoop Manager/Appliance 와의 연동 제공 예정
주요 특징
개발 마일스톤
감사합니다송원문
moonie@onycom.com