MapR Converged Data Platform
Transcript of MapR Converged Data Platform
ยฉ 2017 MapR Technologies 1 Converged Data Platform
MapR Converged Data Platform
ยฉ 2017 MapR Technologies 2 Converged Data Platform
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
ยฉ 2017 MapR Technologies 3 Converged Data Platform
๊ธฐ์ IT ํ๊ฒฝ์ ๋ณํ
โ1980๋ ๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ๋ซ ํ์ผ๋ก ๊ด๋ฆฌํ๋ ์ด๋ ค์์ ๊ทน๋ณตํ๊ณ ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์์คํ ์ด ์์ฅ์ ์ถ์ ๋ ์ดํ๋ก ๊ธฐ์ ์ฉ
์ดํ๋ฆฌ์ผ์ด์ ๋ฑ์ฅ, ์ธํฐ๋ท์ ๋ฑ์ฅ, ๋์งํธ ๋ณํ ์ ๋ชฉ ๋ฑ ๊ธฐ์ ํ์ ์ ํต์ฌ์๋ ํญ์ ๋ฐ์ดํฐ๊ฐ ์ค์ํ ์ญํ ์ ํจโ
1980s Now
Early
databases
Enterprise
applications
The Internet Digital
Transformation
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
ยฉ 2017 MapR Technologies 4 Converged Data Platform
๊ธฐ์ IT ํ๊ฒฝ์ ๋ณํ์ ๋ฐ์ดํฐ
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
(100,000)
(80,000)
(60,000)
(40,000)
(20,000)
-
20,000
40,000
60,000
80,000
100,000
120,000
2013 2014 2015 2016 2017 2018 2019 2020
์ฐจ์ธ๋ IT ๋น์ฉ vs. ๋ ๊ฑฐ์ IT ๋น์ฉ ($M)
$120
100
80
60
40
20
(20)
(40)
(60)
(80)
(100)
In Billions
IT ์์ฅ์ ์ ์ฒด ํฌ์ ๊ท๋ชจ($) ์ฐจ์ธ๋ IT ์์ฅ์ ํฌ์ ๊ท๋ชจ($) ๋ ๊ฑฐ์ IT ์์ฅ์ ํฌ์/์ญ๊ฐ ๊ท๋ชจ($)
โ๊ฐํธ๋์ ๊ฐ์ ์์ฅ ์กฐ์ฌ ๊ธฐ๊ด๋ค์ ํฅํ 4๋ ์ด๋ด์ ๊ธฐ์ ๋ด ๋ฐ์ดํฐ์ 90%๊ฐ Hadoop๊ณผ ๊ฐ์ ์ฐจ์ธ๋ IT ํ๊ฒฝ์ ์ ์ฅ๋ ๊ฒ์ผ๋ก ์์ธก.โ
Source: IDC, Gartner; Analysis & Estimates: MapR
Next-gen consists of cloud, big data, software and hardware related expenses
ยฉ 2017 MapR Technologies 5 Converged Data Platform
๊ธฐ์กด IT ํ๊ฒฝ์ ํน์ง
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
โ๊ธฐ์กด IT ํ๊ฒฝ์ ์ ํต์ ์ธ ๋ฐ์ดํฐ ์ ๊ทผ๋ฒ์ ์ํด ๋จ์๋ถ์ ๋ณ๋ก ๊ฐ๊ธฐ ๋ค๋ฅธ ์ดํ๋ฆฌ์ผ์ด์ ์ด ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค๋ฅผ ํ์ฉํ๋ ๊ตฌ์กฐโ
< ๊ธฐ์กด IT ์ํคํ ์ฒ >
๊ธฐ์กด ํ๊ฒฝ์ ํน์ง
๋จ์ ์ฌ์ ๋ณ๋ก ๊ตฌ์ถ
์ฌ์ผ๋ก ํํ์ ๊ตฌ์ฑ
์ด๊ธฐ์ข ์์คํ ๋ค๊ฐ์ ๋ณต์กํ
์ธํฐํ์ด์ค ๊ด๊ณ
์ ํ ๋ฐ์ดํฐ ์์ฃผ์ ์ฒ๋ฆฌ
IT ์์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ๋ฐ ์ฒ๋ฆฌ
Oracle, SAP, Microsoft ๋ฑ์
์ ํต์ ์ดํ๋ฆฌ์ผ์ด์
ํ๊ณํ
์์ ํ
๋ง์ผํ ํ
๊ฒฝ์๋ถ์ํ
๊ฐ๋ฐํ
์ธ์ฌํ
ITํ
ยฉ 2017 MapR Technologies 6 Converged Data Platform
์ฐจ์ธ๋ IT ํ๊ฒฝ์ ํน์ง
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
โ์ฐจ์ธ๋ IT ํ๊ฒฝ์ ๊ณ ๊ฐ๋์ฆ ๋๋ ๊ฒฝ์์งํ๋ฅผ ๋ณด๋ค ์ฌ๋์๊ฒ ๋ถ์ํ๊ธฐ ์ํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ํตํฉ๋ ํ๋ซํผ ํํ์ ๊ตฌ์กฐโ
๋น ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ๋ซํผ
์๊ถ๋ถ์ ๋ง์ถคํ ์ํ ์ถ์ฒ ์ค์๊ฐ ์ํ ์ถ์ฒ ๊ณ ๊ฐ ์ธ๋ถํ
ํธ๋ ๋๋ถ์
๊ฒฝ์์ฌ๋ถ์
SNS๋ถ์
์์ฅ๋ถ์
์ํต๊ธฐ๋ฐ ์ํ
๊ฐ์ธํ ์ํ
์ฐ๊ณ์ฐ์ ์ํ
360 ยฐ ๊ณ ๊ฐ ๋ถ์ ์์น๊ธฐ๋ฐ ์๋น์ค
์ฌ๋ฌผ์ธํฐ๋ท ์ฐ๊ณ
์ด์๊ธฐ๋ฐ ์๋น์ค
O2O ์๋น์ค
์์์์ธก ๊ฐ์ธํ ๋ถ์ ์ค์๊ฐ ํ์ง ์ค์๊ฐ ๋ง์ผํ ์ํ์ค๊ณ
< ์ฐจ์ธ๋ IT ์ํคํ ์ฒ >
์ด์๊ฑฐ๋ ํ์ง
์ค์๊ฐ ์๋น ํ์ง
SNS ์ด์ ํ์ง
์๋นํจํด ๋ถ์
์ฐจ์ธ๋ ํ๊ฒฝ์ ํน์ง
ํตํฉ ์ฌ์ ์ผ๋ก ๊ตฌ์ถ
์ด๊ธฐ์ข ์์คํ ๋ค์ ๋ฐ์ดํฐ
๊ธฐ๋ฐ์ผ๋ก ํตํฉํ๋ ํํ
์ ํ/๋ฐ์ ํ/๋น์ ํ ๋ฐ์ดํฐ๋ฅผ
๋ชจ๋ ํตํฉ
IT/OT ๋ชจ๋ ์์ญ์์ ๋ฐ์ดํฐ๋ฅผ
๋ฐ์ ๋ฐ ์ฒ๋ฆฌ
๊ฐ์ธํ ๋ถ์, ์ค์๊ฐ ์คํผ๋ฑ์
์๋ก์ด ํจ๋ฌ๋ค์
ยฉ 2017 MapR Technologies 7 Converged Data Platform
ํตํฉ ๋ฐ์ดํฐ ํ๋ซํผ์ ํ์์ฑ
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
โ์๋ก์ด ์ฐจ์ธ๋ IT ์ํคํ ์ฒ๋ ์ ํต์ ์ธ ์์คํ ๊ณผ ์๋ก์ด ์์คํ ๋ชจ๋์ ํธํ์ด ๊ฐ๋ฅ ํ๋ฉด์ ์ ์ฌ ํตํฉ์ด ๊ฐ๋ฅํ ์ํคํ ์ฒ.โ
์๋ก์ด ์ดํ๋ฆฌ์ผ์ด์ ์ ํต์ ์ดํ๋ฆฌ์ผ์ด์
์คํ์์ค ์์คํ ๋ถ์ ์์คํ ๊ธฐ์กด ๋์ ์์คํ
์๋ก์ด ํตํฉ ๋ฐ์ดํฐ ํ๋ซํผ
์จํ๋ ๋ฏธ์ค ํ๋ผ์ด๋น ํด๋ผ์ฐ๋ ํผ๋ธ๋ฆญ ํด๋ผ์ฐ๋
๋ค์ํ ํ๋์จ์ด
ยฉ 2017 MapR Technologies 8 Converged Data Platform
๋น ๋ฐ์ดํฐ ์๋์ ์ฐ์ ๋ฐฉํฅ
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
โMcKinsey๋ฑ์ ์์ฅ์กฐ์ฌ ๊ธฐ๊ด๋ค์ ๊ธ์ต์ ์ ๋น ๋ฐ์ดํฐ ํ์ฉ์ ์ ์ฌ ๊ฐ์น๊ฐ ๋์ ์ฐ์ ์ผ๋ก, ๊ธฐ์กด ๋ฐ์ดํฐ ๋ณด์ ๋์ด ๋ง๊ณ ์๋ก ์ ์ ๋๋
๋ฐ์ดํฐ ์์ด ๋ง๊ธฐ ๋๋ฌธ์ VoC ๋ถ์, 360ยฐ ๊ณ ๊ฐ ์ฑ๊ธ๋ทฐ ๊ตฌ์ฑ ๋ฑ ํ์ฉ๊ฐ์น๊ฐ ๋งค์ฐ ๋์ ์ฐ์ ์ผ๋ก ๋ถ๋ฅ ํ๊ณ ์์ต๋๋ค.โ
๊ฐ์ธํ ์ํ ์ค๊ณ
AI ์๋์๋ด
360ยฐ ๊ณ ๊ฐ ์ฑ๊ธ๋ทฐ
DW ํ์ฅ VoC ๋ถ์
์ตํฉ ์ฐ์ ๋น์ ํ ๋ฐ์ดํฐ ํตํฉ ์ ๊ทผ์ด๋ ฅ ๊ฐ์ฌ
์ฌ๋ฌผ์ธํฐ๋ท ์ฐ๊ณ ์ด์๊ฑฐ๋ ํ์ง
ยฉ 2017 MapR Technologies 9 Converged Data Platform
๊ธฐ์ ๋ค์ด MapR ํ๋ซํผ์ ์ ํํ๋ ์ด์
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
โMapR ํ๋ซํผ์ ๋จ์ํ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ผ๋ก์์ ๊ธฐ๋ฅ์ด ์๋ ์ํฐํ๋ผ์ด์ฆ ์์ค์ ๊ฐ์ฉ์ฑ๊ณผ ์์ ์ฑ์ ์ ๊ณตํ๋ ๊ธฐ์ ์ฉ ํ๋ซํผโ
ํต์ฌ ๊ธฐ์ ์์
โข ๋ถ์ฐ ํ์ผ ์์คํ โ MapR-FS
โข NoSQL DB ์์คํ โ MapR-DB
โข ๊ธ๋ก๋ฒ ๋ฉ์ธ์ง ์์คํ โ MapR- Streams
๊ณ ์์ฒ๋ฆฌ๋ฅผ ์ํ ์ต์ ํ
โข ๋์ฉ๋ ๋ถ์ฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ง์
โข ์ ํ ๋ฐ ๋น์ ํ๋ฑ์ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ํตํ ๋๊ท๋ชจ ๋ถ์ ๋ฐ ๊ธฐ๊ณ ํ์ต ๊ตฌํ
๊ท๋ชจ์ ๋ฐ๋ฅธ ํ์ฅ
โข ์ ์กฐ ๋จ์๊น์ง ํ์ฅ๋๋ ์ ํ์๋ ํ์ผ ์์คํ
โข ๋๊ท๋ชจ ๋ถ์ฐ ์ฒ๋ฆฌ ํ๊ฒฝ์์ ๋์ฉ๋ ๋ฐ์ดํฐ ๊ณ ์ ์ฒ๋ฆฌ
์ํฐํ๋ผ์ด์ฆ ์์ค์ ์์ ์ฑ
โข ๋ฌด์ค๋จ ๋ฐ์ดํฐ ์ก์ธ์ค๋ฅผ ์ง์ํ๋ ๋ค์ํ ์๋ ๋ณต๊ตฌ ๊ธฐ๋ฅ
โข ์ฌํด ๋ณต๊ตฌ์ ์ค๋ ์ท์ ํฌํจํ ๊ณ ๊ฐ์ฉ์ฑ ์ ๊ณต
โข ์์ ์ ์ธ ๊ณ ๊ฐ ์ง์ ์ฒด๊ณ
ยฉ 2017 MapR Technologies 10 Converged Data Platform
MapR ํ๋ซํผ์ ํตํ ๋น์ฆ๋์ค ๋ชฉํ
๋น ๋ฐ์ดํฐ ์์ฅ๋ํฅ
โ๋์งํธ ๋ณํ์ ๋ํ ํ์ ์ฑ๊ณผ์ ๋น์ฉ ์ ๊ฐ์ ๋ํ ๊ฒฝ์ ์ฑ๊ณผ๋ฅผ ๋ชจ๋ ๋ฌ์ฑํ ์ ์๋ ํ์ ํ๋ซํผ์ผ๋ก์ MapR์ ์ ํโ
Financial Services Telco & Media
Ad tech
Government
Retail UnitedHealth Group์ ๊ฑด๊ฐ ๋ณดํ๋ฃ ์ง๋ถ๊ณผ ํด๋ ์ ๊ด๋ฆฌ ๋ฑ 80์ฌ๊ฐ์ง ์ ์ค์ผ์ด์ค๋ฅผ MapR ๊ธฐ๋ฐ์ผ๋ก ๋์ ํ์ฌ ์ง๋ถ์ค๋ฅ, ์ฌ๊ธฐ ๋ฑ ์ 2๋ฐฑ๋ง ๋ฌ๋ฌ์ ๋น์ฉ ์ ๊ฐ
IRi์ฌ๋ ๊ธฐ์กด ์ด์์ค์ด๋ ๋ฉ์ธํ๋ ์์์ MapR ํ๋ซํผ๊ณผ์ DW ์คํ๋ก๋๋ฅผ ํตํด ์ฐ๊ฐ 2.5๋ฐฑ๋ง ๋ฌ๋ฌ์ ๋น์ฉ์ ์ ๊ฐ
Experian์ฌ๋ ๊ธฐ์กด DB2 ํ๊ฒฝ์ ์ ์ฉํ๊ฐ ์ค์ฝ์ด๋ง ์์คํ ์ MapR ํ๋ซํผ์ ์ด์ํ์ฌ 20๋ฐฐ์ ๋น์ฉ ์ ๊ฐ
AADHAAR ์ฌ๋ ์ธ๋์ 12์ต5์ฒ๋ง๋ช ์ ์์ฒด์ธ์ ์์คํ ์ ๊ฐ๋ฐํ์ฌ ๋ถ๋ฒ์ ์ผ๋ก ๋ณดํ๊ธ์ ์๋ นํ๋ ์ฌ๊ธฐํ์ง ์์คํ ์ ๊ฐ๋ฐํด 1.3B$๋ฅผ ์ ๊ฐ
TransUnion ์ฌ๋ MapR ํ๋ซํผ์์ ์๋ก์ด ์ ํ์๋น์ค ๋ถ์ ํ๋ซํผ์ ํตํด ๊ณ ๊ฐ์๊ฒ ๋ ๋์ ์์ฅ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํ์ฌ ์์ฌ๊ฒฐ์ ์ ๋์
AMEX ์นด๋์ฌ๋ MapR ํ๋ซํผ ๊ธฐ๋ฐ์ ์ด์๊ธ์ต๊ฑฐ๋ ํ์ง ์์คํ ์ผ๋ก ๋งค๋ 1์กฐ ๋ฌ๋ฌ์ ๊ฑฐ๋์์ ์ฌ๊ธฐ๋ฅผ ๋ณดํธ
๋น์ฆ๋์ค ํ์
๋น์ฉ ์ ๊ฐ
ยฉ 2017 MapR Technologies 11 Converged Data Platform
1. MapR Technologies ์๊ฐ
ยฉ 2017 MapR Technologies 12 Converged Data Platform
MapR Technologies ์ฐํ
1. MapR Technologies ์๊ฐ
โMapR Technologies๋ 2009๋ ์ค๋ฆฝ๋์์ผ๋ฉฐ, ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์ด ์๊ตฌํ๋ ์ ๋ขฐ์ฑ ๋์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ ์ ๊ณตํ๋ ํ์ฌ์ ๋๋ค.
๋ณธ์ฌ๋ ๋ฏธ๊ตญ ์ฐํธ์ธ์ ์์นํด ์์ผ๋ฉฐ, ๋น ๋ฐ์ดํฐ ํ๋ซํผ ์์ฅ์์ ๊ฐ์ฅ ๋ง์ ์ ๋ฃ๊ณ ๊ฐ์ ํ๋ณดํ๊ณ ์์ต๋๋ค.โ
MapR ์ฃผ์ ์ฐํ ๋ฐ ์ ํ ์ถ์ ํํฉ
2009 2011 2012 2013 2014 2015 2016
MapR Technologies ๋ฏธ๊ตญ ์ค๋ฆฝ
MapR ์ํฐํ๋ผ์ด์ฆ ๋น ๋ฐ์ดํฐ ํ๋ซํผ ์ถ์
ํ์ค API๋ฅผ ํ์ฉํ Unified ํ๋ก ํ๋ซํผ ์ถ์
MapR Enterprise Hadoop V1
ENTERPRISE EDITION
์ธ๊ณ ์ต๋ ๋น ๋ฐ์ดํฐ ์ ์ฒด์ ํํธ๋ ์ฒด๊ฒฐ
MapR Enterprise Hadoop V2
MapR ์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์๋์ ์ถ์
์ ๊ณ ์ต์ด ํ๋กํ์ผ์์คํ ๊ณผ NoSQL ๋ฐ์ดํฐ๋ฒ ์ด์ค ํตํฉ
MapR Enterprise Hadoop V3
ENTERPRISE DATABASE EDITION
MapR ํ๊ตญ์ง์ฌ ์ค๋ฆฝ
MapR Enterprise Hadoop V4
์ ๊ณ์ ์ผ์ ํ๋ก ๋ฒ์ ํธํ์ฑ(MR1/MR2) ์ ๊ณต
ํ๋ก์ ์ฒด ์ต์ด ๋ก์ปฌ ์ง์ ์ธ๋ ฅ ๋ฐ ํ๊ตญ์ด ์๋น์ค ์ ๊ณต
MapR Enterprise Hadoop V5
์ ๊ณ์ ์ผ ์ค์๊ฐ NoSQL ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ณต์ ๊ตฌํ
MapR Converged Data Platform V5.2
MapR ์ปจ๋ฒ์ง๋ ๋ฐ์ดํฐ ํ๋ซํผ ์ถ์
๋ถ์ฐ ๋ฉ์์ง ์์คํ ์ ํฌํจํ๋ ์ปจ๋ฒ์ง๋ ๋ฐ์ดํฐ ํ๋ซํผ
ยฉ 2017 MapR Technologies 13 Converged Data Platform
MapR ๊ธ๋ก๋ฒ ํํธ๋
1. MapR Technologies ์๊ฐ
APPLICATIONS & OS
ANALYTICS & BUSINESS INTELLIGENCE
DATA WAREHOUSE & INTEGRATION
INFRASTRUCTURE & CLOUD
CONSULTANTS & INTEGRATORS
ยฉ 2017 MapR Technologies 14 Converged Data Platform
MapR ์ฐ์ ๋ณ ๊ธ๋ก๋ฒ ๊ณ ๊ฐ
1. MapR Technologies ์๊ฐ
Top
Fashion
Retailer
FINANCIAL SERVICES RETAIL CPG &
MANUFACTURING ONLINE SERVICES &
SECURITY MEDIA &
ENTERTAINMENT
MARKET RESEARCH ADVERTISING HEALTH COMMUNICATIONS GOVERMENT
ยฉ 2017 MapR Technologies 15 Converged Data Platform
MapR Converged Data Platform
1. MapR Technologies ์๊ฐ
Open Source Engines & Tools Commercial Engines & Applications
Enterprise-Grade Platform Services
Data
P
roces
sin
g
Web-Scale Storage MapR-FS MapR-DB
Search and
Others
Real Time Unified Security Multi-tenancy Disaster Recovery Global Namespace High Availability
MapR Streams
Cloud and Managed Services
Search and
Others
Un
ified
Man
ag
em
en
t an
d M
on
itorin
g
Search and
Others
Event Streaming Database
Custom Apps
HDFS API POSIX, NFS HBase API JSON API Kafka API
ยฉ 2017 MapR Technologies 16 Converged Data Platform
MapR ์ปจ๋ฒ์ง๋ ๋ฐ์ดํฐ ํ๋ซํผ (Read/Write)
NFS HDFS API
MapR-FS (POSIX)
HBase API JSON API
MapR-DB (High-Performance NoSQL)
Kafka API OJAI API
MapR Streams (Global Event Streaming)
MapR Core & MapR Ecosystem Pack
1. MapR Technologies ์๊ฐ
์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ๋ณดํธ ํ๋ซํผ ๊ด๋ฆฌ ์ฑ๋ฅ ๋์์ฌ์ฉ์ฑ ์ํธํธํ์ฑ
๊ธฐ์กด์ DB๋ ๋ก๊ทธ์๋ฒ ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์์ง
Storm
Spark Steaming
Pig
Sqoop
MapR-NFS
Flume
MapR Ecosystem Pack
Hive
Spark SQL
Drill
Zookeeper
Sentry
Oozie
R / Python / Scala
Mahout
Spark MLlib
๋ฐ์ดํฐ ์์ง ๋ฐ์ดํฐ ์ ์ฅ ๋ฐ ์ฒ๋ฆฌ ๊ฐ๋ฐ ๋ฐ ๊ด๋ฆฌ ๋ฐ์ดํฐ ๋ถ์
HUE
๋ฐ์ดํฐ ํ๋ซํผ์ ์ ์ฅ๋์ด ์๋ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ
๋๋์ ์ ํ ๋ฐ์ดํฐ๋ฅผ SQL ๊ธฐ๋ฐ์ผ๋ก ์ฒ๋ฆฌ
์คํธ๋ฆฌ๋ฐ์ผ๋ก ์์ฑ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ฒ๋ฆฌ
๋ฐ์ดํฐ ๋ง์ด๋, ๊ธฐ๊ณ ํ์ต์ ํตํ ๋ฐ์ดํฐ ๋ถ์
์ดํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ, ํด๋ฌ์คํฐ ๊ด๋ฆฌ
YARN Framework
ยฉ 2017 MapR Technologies 17 Converged Data Platform
2. Hadoop ๊ธฐ๋ฐ ํ๋ซํผ ๊ตฌ์ถ๊ณผ ํ๊ณ
ยฉ 2017 MapR Technologies 18 Converged Data Platform
Hadoop ์ด๋?
2. Hadoop ๊ธฐ๋ฐ ํ๋ซํผ ๊ตฌ์ถ๊ณผ ํ๊ณ
โHadoop์ด๋ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ด ๋ฐ ์ฒ๋ฆฌํ ์ ์๋ ๋ถ์ฐ ์ ์ฅ์ ๋ฐ ๋ถ์ฐ์ฒ๋ฆฌ ํ๋ ์์ํฌ ์ด๋ฉฐ Hadoop์ ์ ์ฅ๋์ด ์๋ ๋ฐ์ดํฐ๋ฅผ
์์ง, ์ ์ฅ, ์ฒ๋ฆฌ, ๋ถ์ ํ๊ธฐ ์ํ ๋ค์ํ ์์ฝ์์คํ ์ด ํด๋ฌ์คํฐ ์ปดํจํ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ ํ๊ฒฝโ
๋ถ์ฐ ์ ์ฅ์
๋ถ์ฐ ์ฒ๋ฆฌ ํ๋ ์์ํฌ
์คํ์์ค ์์ฝ ์์คํ
ยฉ 2017 MapR Technologies 19 Converged Data Platform
๋ค์๋ ธ๋
NoSQL ํด๋ฌ์คํฐ
Impala ํด๋ฌ์คํฐ
์คํธ๋ฆฌ๋ฐ ํด๋ฌ์คํฐ
ํ์ง๋ง ์ค์ Hadoop ํ๋ซํผ์ ๊ตฌ์ถํด ๋ณด๋ฉดโฆ
2. Hadoop ๊ธฐ๋ฐ ํ๋ซํผ ๊ตฌ์ถ๊ณผ ํ๊ณ
โ๊ธฐ์ ํ๊ฒฝ์์ Apache Hadoop ๊ธฐ๋ฐ์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ ๊ตฌ์ถํ์ฌ ๋ณด๋ฉด, ๋ค์ํ ๊ธฐ์ ๋์ฆ์ ๋์ํ๊ธฐ ์ํด ์๋ง์ ์ปดํฌ๋ํธ๋ค์ด
ํ์ฉ๋๊ฒ ๋๊ณ ์ด๋ฌํ ์ปดํฌ๋ํธ์ ๋ถ์์ ํ ๊ฒฐํฉ์ผ๋ก ์ธํด ๋น ๋ฐ์ดํฐ ํตํฉ ํ๋ซํผ์ ๋ณต์ก๋๊ฐ ์คํ๋ ค ์ฆ๊ฐํ๋ ํ์์ด ๋ฐ์โ
๋ฐ์ดํฐ๋ ธ๋(HDFS)
์(YARN) ํ๋ ์์ํฌ
์คํ์์ค ์์ฝ ์์คํ
ยฉ 2017 MapR Technologies 20 Converged Data Platform
๋ค์๋ ธ๋
NoSQL ํด๋ฌ์คํฐ
Impala ํด๋ฌ์คํฐ
์คํธ๋ฆฌ๋ฐ ํด๋ฌ์คํฐ
ํ์ง๋ง ์ค์ Hadoop ํ๋ซํผ์ ๊ตฌ์ถํด ๋ณด๋ฉดโฆ
2. Hadoop ๊ธฐ๋ฐ ํ๋ซํผ ๊ตฌ์ถ๊ณผ ํ๊ณ
โ๊ธฐ์ ํ๊ฒฝ์์ Apache Hadoop ๊ธฐ๋ฐ์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ ๊ตฌ์ถํ์ฌ ๋ณด๋ฉด, ๋ค์ํ ๊ธฐ์ ๋์ฆ์ ๋์ํ๊ธฐ ์ํด ์๋ง์ ์ปดํฌ๋ํธ๋ค์ด
ํ์ฉ๋๊ฒ ๋๊ณ ์ด๋ฌํ ์ปดํฌ๋ํธ์ ๋ถ์์ ํ ๊ฒฐํฉ์ผ๋ก ์ธํด ๋น ๋ฐ์ดํฐ ํตํฉ ํ๋ซํผ์ ๋ณต์ก๋๊ฐ ์คํ๋ ค ์ฆ๊ฐํ๋ ํ์์ด ๋ฐ์โ
๋ฐ์ดํฐ๋ ธ๋(HDFS)
์(YARN) ํ๋ ์์ํฌ
์คํ์์ค ์์ฝ ์์คํ
๋จ์ผ ์ฅ์ ์ ๋ฐ์
์ธ๋ถ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ง์ฐ ์๋น์ค ๊ฐ์ฉ์ฑ ์ถ์
๋๋ฉด/๋น๋๋ฉด ๊ฒฐํฉ ์ ํด ๋น์ ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ด๋ ค์
๋ ธ๋ ์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ๋น์ฉ ์ฆ๊ฐ
๋๊ณ ๊ฐ ์๋น์ค ํ์ง ์ ํ ์ํฐํ๋ผ์ด์ฆ ์์ค ๊ฐ์ฉ์ฑ ํ๋ณด ๋ถ๊ฐ
ยฉ 2017 MapR Technologies 21 Converged Data Platform
์ด๋ ๋น ๋ฐ์ดํฐ ํ๋ก์ ํธ ๋งค๋์ ์ ๊ณ ๋ฏผ
2. Hadoop ๊ธฐ๋ฐ ํ๋ซํผ ๊ตฌ์ถ๊ณผ ํ๊ณ
โ๋ง์ Hadoop ํ๋ก์ ํธ๋ฅผ ๋ค ๋๋ด๋๊ณ ๋ณด๋โฆโ
์๋ง์ ์ปดํฌ๋ํธ๋คโฆ ์๋ง์ ํด๋ฌ์คํฐ๋คโฆ
๋์ฒด ์ด ๋ง์ ๊ด๋ฆฌํฌ์ธํธ๋ฅผ ์ด๋ป๊ฒ ๊ด๋ฆฌํ๋ผ๋๊ฑฐ์ผโฆ
๋ญ๊ฐ ์ด๋ ๊ฒ ์ด๋ ค์ด๊ฑฐ์ผ ์ต์ํ ๊ธฐ์ ์ด๋ผ๊ณ ๋ ํ๋๋ ์๊ณ โฆํ์โฆ
ํ์ ๊ต์ก์ด ๊ฑฑ์ ์ด๋คโฆ
๊ทธ๋ฆฌ๊ณ Hadoop ์ด๋ผ๋๊ฒ ์๋ ์ด๋ ๊ฒ ๋๋ฆฐ๊ฑฐ์์ด? ์ด๊ฑด ๋ด ์์๋ณด๋ค ํจ์ฌ ์ฑ๋ฅ์ด ์๋์ค์์โฆ
์ด๊ฑฐ ์ ๋ง ๊ธฐ์ ์์ ์ฌ์ฉํ๋ผ๊ณ ๋ง๋ ๊ฑฐ์ผ? ์ฌ๋๋์ฑ ์? ๋ณด์์?
๊ฑฑ์ ์ด๋คโฆ
ยฉ 2017 MapR Technologies 22 Converged Data Platform
3. MapR Converged Data Platform ํน์ฅ์
ยฉ 2017 MapR Technologies 23 Converged Data Platform
๋จ์ผ ์ฅ์ ์ ์ ๊ฑฐ๋ก ์๋น์ค ๋ ๋ฒจ ํ์ง ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
ยฉ 2017 MapR Technologies 24 Converged Data Platform
๋จ์ผ ์ฅ์ ์ ์ ๊ฑฐ๋ก ์๋น์ค ๋ ๋ฒจ ํ์ง ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
ยฉ 2017 MapR Technologies 25 Converged Data Platform
๋จ์ผ ์ฅ์ ์ ์ ๊ฑฐ๋ก ์๋น์ค ๋ ๋ฒจ ํ์ง ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
ยฉ 2017 MapR Technologies 26 Converged Data Platform
๋จ์ผ ์ฅ์ ์ ์ ๊ฑฐ๋ก ์๋น์ค ๋ ๋ฒจ ํ์ง ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
ยฉ 2017 MapR Technologies 27 Converged Data Platform
๋จ์ผ ์ฅ์ ์ ์ ๊ฑฐ๋ก ์๋น์ค ๋ ๋ฒจ ํ์ง ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
โApache Hadoop์ ํ์์ ์ธ ์์์ธ ๋ค์๋ ธ๋๋ ๋ถ์ฐํ๊ฒฝ์์ ๋ฐ์ดํฐ ๋ธ๋ญ์ ์์น๊ณผ ๋ณ๊ฒฝ์ฌํญ์ ๊ด์ฅํ๋ ํต์ฌ ์์์ด๋ ๋จ์ผ
๊ตฌ์ฑ์ผ๋ก ์ฅ์ ์ ๋ณ๋ชฉ์ ์ฃผ์ ์์. MapR์ ๋ค์๋ ธ๋๋ฅผ ์ ๊ฑฐํ ์ํคํ ์ฒ๋ก ์๋น์ค ๋ ๋ฒจ์ ํ์ง ํ๋ณด๊ฐ ๊ฐ๋ฅํ ์ ์ผํ ํ๋ซํผโ
๊ธฐ์กด Hadoop File System MapR File System
๋ค์ ๋ ธ๋
๋ฐ์ดํฐ ๋ ธ๋
๋ค์ ๋ ธ๋(HA)
๋ฐ์ดํฐ ๋ ธ๋
๋ค์๋ ธ๋ ์ฅ์ ์ ์ ์ฒด ํด๋ฌ์ค๊ฐ ์ค์ง๋๋ ๋จ์ผ ์ฅ์ ์ ๋ฐ์
๋๊ธฐ(Stand-by) ๋ค์๋ ธ๋๋ ๋ถ์ฐ์ฒ๋ฆฌ๊ฐ ์๋ ์ฅ์ ๋๋น
๋๋์ ๋ ธ๋๊ฐ ๊ตฌ์ฑ๋ ํด๋ฌ์คํฐ ํ๊ฒฝ์์ ๋ค์๋ ธ๋๊ฐ ๋ถํ์
์ ์ฒด ํด๋ฌ์คํฐ์ ์ฑ๋ฅ์ด ์ ํ๋๋ ์น๋ช ์ ์ธ ๊ตฌ์กฐ
๋ค์๋ ธ๋๋ฅผ ์ ๊ฑฐํ์ฌ ๋จ์ผ ์ฅ์ ์ (SPOF) ์ ๊ฑฐ
CLDB(Container Location Database) ๊ธฐ์ ๊ธฐ๋ฐ ์ด์
๋๋์ ๋ ธ๋๊ฐ ๊ตฌ์ฑ๋ ํด๋ฌ์คํฐ ํ๊ฒฝ์์๋ ์ปจํ ์ด๋ ์์น์
๋ณ๊ฒฝ์ฌํญ์ ๋ถ์ฐ์ฒ๋ฆฌ ํ์ฌ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์๋ ๊ตฌ์กฐ
ยฉ 2017 MapR Technologies 28 Converged Data Platform
์ค์๊ฐ ๋น ๋ฐ์ดํฐ์ ์๋น์ค ์ฑ๋ฅ ํ์ง
3. MapR Converged Data Platform ํน์ฅ์
โ๊ธ์ต์ฐ์ ์์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ ํตํ ์ ์ ์ ์์ฌ๊ฒฐ์ ํ๊ฒฝ์ ๊ตฌํํ๊ธฐ ์ํด์๋ ์ ์์ฑ์ ํ๋ณดํ๋ ๊ฒ์ด ํต์ฌ. MapR ํ๋ซํผ์
๊ธฐ์กด Hadoop์ ์ํคํ ์ฒ๋ฅผ ์์ ํ ํ์ ํ์ฌ ๊ธฐ์ ์์ค์ ์ ์์ฑ ํ๋ณด์ ๊ธฐ์กด ๊ฐ๋ฐ ํ๊ฒฝ๊ณผ ์ ์ฌํ ํ๊ฒฝ์ ์ ๊ณตโ
๊ธฐ์กด Hadoop File System MapR File System
Disk
Linux File System
Java Virtual Machine
Hadoop File System (Java Code)
Disk
MapR File System (C Code)
๋ค์ค ๊ณ์ธต
์ผ๋ก ์ธํ
์ฑ๋ฅ ์ ํ
๊ณ์ธต
๊ฐ์ํ๋ก
์ฑ๋ฅ ํฅ์
POSIX
์ง์
HDFS
API
Direct
NFS
8 KB
I/O
Volume
๊ด๋ฆฌ
HDFS
API
128 MB
I/O
ยฉ 2017 MapR Technologies 29 Converged Data Platform
๋น ๋ฐ์ดํฐ ์ ์ฅ์ ์ต์ ํ๋ MapR-FS์ ์์คํ ๊ตฌ์กฐ
3. MapR Converged Data Platform ํน์ฅ์
8KB 8KB (Fixed)
10-30GB (Self-adjusting)
3 disks (default)
Physical/Virtual
Physical/Virtual
User-Defined
Sizes vary
Sizes vary
Volume
Container
Chunks Tablets Partitionlets
Blocks
Storage Pools
Disks
Data Node
MapR-FS Files MapR-DB Tables MapR Streams
ยฉ 2017 MapR Technologies 30 Converged Data Platform
๋น ๋ฐ์ดํฐ ์ ์ฅ์ ์ต์ ํ๋ MapR-FS์ ์์คํ ๊ตฌ์กฐ
3. MapR Converged Data Platform ํน์ฅ์
โMapR-FS๋ Random Read/Write๋ฅผ ์ํ 8KB IO๋จ์๋ฅผ ๊ฐ์ผ๋ฉด์๋ ๋ฐ์ดํฐ๋ ํจ๊ณผ์ ์ผ๋ก ๋ถ๋ฐฐ๋์ด ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ์งํํ๋ฉฐ GB ๋จ์์
๋ณต์ ๋ฅผ ํตํด ๋ฉํ๊ด๋ฆฌ๋ฅผ ๋ณด๋ค ๊ฐ์ํ๊ฒ ๊ด๋ฆฌํ๋ ํ์ ์ ์ธ ๋น ๋ฐ์ดํฐ ํ๋ซํผ ์ ๋๋ค.โ
๊ธฐ์กด Hadoop File System MapR File System
Name Node CLDB
Block Containers
Chunks
Blocks 8
KB
๋ณต์
๋ถ์ฐ ๋ฉํ
๋ณ๋ ฌ ๋ถ์ฐ
8KB IO
๋ณต์ ๋นํจ์จ ๋ถ์ฐ 64MB < IO
์ฑ๊ธ ๋ฉํ
IO ์ฒ๋ฆฌ ๋จ์, ์ ์ฅ ๋จ์, ๋ณต์ ๋จ์๊ฐ ๋ชจ๋ ๋์ผํ์ฌ
๋น ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌ๊ฐ ๋ถ๊ฐ๋ฅ
๋ฐ์ดํฐ ์ฌ์ด์ฆ ์ฆ๊ฐ๋ก ๋๋์ Block์ด ์์ฑ๋๊ณ ์ฒ๋ฆฌ
๋ ๋ Name Node์ ๋ถํ๋ก ์ธํ ๊ธ๊ฒฉํ ์ฑ์ฆ์ ํ
์ค๋ก์ง Read๋ง์ ์ํ ๊ตฌ์กฐ
ยฉ 2017 MapR Technologies 31 Converged Data Platform
๋์ผํ ์ฌ์ฉ์ ๊ฒฝํ์ ์ํ MapR NFS
3. MapR Converged Data Platform ํน์ฅ์
๋๋๊ทธ&๋๋กญ์ ํตํ ํ์ผ์ ํ์ฉ ๊ฐ๋ฅ
์ผ๋ฐ์ ์ธ ํ์ผ ๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํ์ฌ MapR-FS์ ๋ฐ์ดํฐ๋ฅผ
์์ฝ๊ฒ ํ์ฉ
๋ก๊ทธ์ ๊ฐ์ ํ์ผ์ MapR-FS ์ ์ง์ Write
๊ฐ๋ณ ์๋ฒ ๋ด๋ถ์ ๋ก๊ทธ๋ฅผ ์ ์ฅํ๊ณ Hadoop ์ผ๋ก ์ด๊ดํ๋ ๋ฐฉ๋ฒ์ด ์๋
MapR-FS์ ๋ฐ๋ก Write
$ find . | grep log $ cp /mapr/cluster $ scp /mapr/cluster $ vi results.csv $ tail -f part-00000
์ปค์คํฐ ๋ง์ด์ง ์์ด ์ดํ๋ฆฌ์ผ์ด์ ์์ ํ์ฉ
MapR-FS ๋ POSIX ๊ธฐ๋ฐ ํ์ผ ์์คํ ์ผ๋ก ์ผ๋ฐ์ ์ธ ๋ฆฌ๋ ์ค ์ ํธ๋ฆฌํฐ๋ฅผ ๊ทธ๋๋ก ํ์ฉ ๊ฐ๋ฅ
ํ์ค OS ์ ํธ๋ฆฌํฐ ์ฌ์ฉ
Read/Write ํ์ผ ์์คํ ์ ํตํด Hadoop ์ ์ฉ ์ปค๋ฅํฐ๊ฐ ์๋ ์ดํ๋ฆฌ์ผ์ด์ ๋ ํ์ฉ
โMapR์ NFS ๊ธฐ๋ฅ์ IT ๊ด๋ฆฌ์, ๊ฐ๋ฐ์, ๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ์ด ํน๋ณํ Hadoop ์ปค๋งจ๋๋ฅผ ์ตํ์ง ์๊ณ ๋ ๊ธฐ์กด์ ํ์ผ์์คํ ๊ณผ
๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก MapR-FS๋ฅผ ์ฌ์ฉํ ์ ์๋๋ก ์ง์ํ๋ ๊ธฐ๋ฅ ์ ๋๋ค. ์ด ๊ธฐ๋ฅ์ ํตํ์ฌ ๋ ๊ฑฐ์ ์๋ฃจ์ ๊ณผ๋ ์ฐ๋์ด ๊ฐ๋ฅ ํฉ๋๋คโ
ยฉ 2017 MapR Technologies 32 Converged Data Platform
๋ฐ์ดํฐ ์์ถ
3. MapR Converged Data Platform ํน์ฅ์
โMapR File System์ ๊ธฐ๋ณธ์ ์ผ๋ก ์์ถ ๊ธฐ๋ฅ์ด ์ ์ฉ. Hadoop ํ์ผ ์์คํ ์์ถ ๊ธฐ๋ฅ ์ฌ์ฉ์ ๊ณผ๋ํ ์ฑ๋ฅ์ ํ๊ฐ ๋ฐ์ํ๋ ๊ฒฝ์์ฌ
์ ํ๊ณผ ๋ฌ๋ฆฌ MapR ํ์ผ ์์คํ ์ IO ๋ ์ด์ด์ ๊ฐ์ํ๋ฅผ ํตํด ์์ถ ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ๋ ์ต์ํ์ ์ค๋ฒํค๋๋ง ๋ฐ์โ
์์ถ ํ์ ์์ถ๋ฅ ์์ถ ์๋ ์์ถํด์ ์๋
LZ4 2.084 330 MB/s 915 MB/s
LZF 2.076 197 MB/s 465 MB/s
ZLIB 3.095 14 MB/s 210 MB/s
ยฉ 2017 MapR Technologies 33 Converged Data Platform
์ํฐํ๋ผ์ด์ฆ ์์ค์ ๊ฐ์ฉ์ฑ ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
โ๊ธ์ต์ ์ ์ ์ ํน์ฑ์ DW ๋ฐ์ดํฐ๋ฅผ ํฌํจํ์ฌ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๋ฏธ์ ํฌ๋ฆฌํฐ์ปฌ ๋ฐ์ดํฐ๋ก ๋ถ๋ฅ๋๋ ์ฐ์ ์ผ๋ก ๋น ๋ฐ์ดํฐ ์ญ์ ๋ฐ์ดํฐ์
์์ ์ฑ ํ๋ณด๊ฐ ๋งค์ฐ ์ค์. MapR์ ์ด๋ฌํ ๊ธฐ์ ์๊ฑด์ ์ ํ์ ๋ฐ์ํ์ฌ ์ ํ ์์ง๋ ๋ฒจ์์ ๋ฐฑ์ ๋ฐ HA/DR ํ๊ฒฝ์ ๊ตฌ์ฑโ
๊ธฐ์กด Hadoop File System MapR File System
? Active
Active
ํ์์ ์ผ๋ก HA/DR ๊ตฌ์ฑ์ด ๊ณ ๋ ค๋์ง ์์ ์ํคํ ์ฒ
๋จ์ ํ์ผ ๋ณต์ ์์ค์ DR ์ผํฐ ๊ตฌ์ฑ์ผ๋ก ๋ฐ์ดํฐ ์ ์ค ๊ฐ๋ฅ
Active โ Standby ์์ค์ DR ์ผํฐ ๊ตฌ์ฑ
์ค๋ ์ท / ๋ฏธ๋ฌ๋ง ๊ธฐ๋ฅ์ ํตํ ๋ด/์ธ๋ถ๋ก์ ๋ฐ์ดํฐ ๋ณดํธ
์์ถ ๊ธฐ๋ฅ์ ํตํ ์ ๋น์ฉ ๊ณ ์ฑ๋ฅ DR ์ผํฐ ๊ตฌ์ถ ๊ฐ๋ฅ
Active โ Active HA/DR ์ผํฐ ๊ตฌ์ฑ์ผ๋ก ํด๋ฌ์คํฐ ํจ์จ ๊ทน๋ํ
Sanpshot
Sanpshot
ยฉ 2017 MapR Technologies 34 Converged Data Platform
์ํฐํ๋ผ์ด์ฆ ์์ค์ ๋ณด์ ๊ธฐ๋ฅ ์ ๊ณต
3. MapR Converged Data Platform ํน์ฅ์
โ๊ธฐ์ ์ ๋ณด์ ์๊ฑด์ ์ถฉ์กฑํ๊ธฐ ์ํด MapR์ ๊ถํ, ์ธ์ฆ, ์ํธํ, ๊ฐ์ฌ ๋ณด์ ๊ธฐ๋ฅ์ ์ ๊ณต. ํด๋ฌ์คํฐ์์ ํ์ผ ๋จ์๊น์ง ๋ฏธ์ธํ
๋ณด์์ค์ ์ผ๋ก ๊ธฐ์ ๋ด/์ธ๋ถ์ ํ๋ซํผ ์ฌ์ฉ์๋ค์ ๋ํ ์์ ํ ๋ฐ์ดํฐ ํ์ฉ ํ๊ฒฝ์ ์ ๊ณตโ
โข Access Control Lists (ACLs) ๊ด๋ฆฌ
โข ๋ณผ๋ฅจ ๋จ์ ๊ถํ ์ ์ด
โข MapR Table ์ ๊ทผ ๊ถํ ์ ์ด
โข ํ์ค UNIX ํ์ผ ์์คํ ํผ๋ฏธ์ ์ง์
Authorization
โข ๋ชจ๋ ์ด๋ฒคํธ JSON ๋ก๊ทธํ์ผ๋ก ์ ์ฅ
โข ๋ฐ์ดํฐ ์ก์ธ์ค ๋ฐ ๊ด๋ฆฌ ํฌํจ
โข SQL๊ณผ ํ์ค BIํด์ ํตํ ๊ฐ์๋ก๊ทธ ์ง์
๋ฐ ์ปค์คํ ๋ฆฌํฌํธ ์์ฑ
Auditing Authentication
โข MapR Ticket ์ ์ฉ
โข UserID & Password (PAM, LDAP)
โข Kerberos ์ฐ๋
Encryption
โข Wire-level ๋ฐ์ดํฐ ์ํธํ
โข NSA Suite B ์ํธํ (AES-256 ๋ฐ SHA-256)
๋ฅผ ํ์ฉํ์ฌ ํ์ค ๊ธฐ๋ฐ ๊ธฐ๋ณธ ์ธ์ฆ์ ์ง์
โข 3rd Party ์๋ฃจ์ ์ฐ๊ณ๋ฅผ ํตํ ํ์ผ/์ปฌ๋ผ ๋ ๋ฒจ
โข ์ํธํ
ยฉ 2017 MapR Technologies 35 Converged Data Platform
NoSQL ํด๋ฌ์คํฐ
Impala ํด๋ฌ์คํฐ
์คํธ๋ฆฌ๋ฐ ํด๋ฌ์คํฐ
MapR Converged Data Platform ํตํฉ
3. MapR Converged Data Platform ํน์ฅ์
โMapR Converged Data Platform์ ๊ธฐ์ ์๊ฑด์ด ๋ฐ์๋์ง ์์ ๋จ์ํ ์คํ์์ค ๊ธฐ๋ฐ์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ด ์๋ ์ํฐํ๋ผ์ด์ฆ
ํ๊ฒฝ์์ ํ์๋ก ๋๋ ์์ ์ฑ, ๋ณด์, ์ฑ๋ฅ์ ๊ฐํํ ์ ๊ณ ์ ์ผ์ ์ํฐํ๋ผ์ด์ฆ ๋์์ด ๊ฐ๋ฅํ ๋น ๋ฐ์ดํฐ ํ๋ซํผโ
MapR File System
์(YARN) ํ๋ ์์ํฌ
์คํ์์ค ์์ฝ ์์คํ
ยฉ 2017 MapR Technologies 36 Converged Data Platform
MapR Streams ๊ฐ์
3. MapR Converged Data Platform ํน์ฅ์
โ์คํธ๋ฆผ ๋ฐ์ดํฐ๋ ์์ง ์ ์ฅ๋์ง๋ ์์์ผ๋ ์ ์ ์ด ๋๊ณ ์๋ ๋ฐ์ดํฐ๋ก ๋น ๋ฐ์ดํฐ ํ๊ฒฝ์์ ํ์ฌ ๋ฐ์๋๊ณ ์๋ ์ํฉ์ด๋ ์ํ๋ฅผ
์ค์๊ฐ์ผ๋ก ํ์ฉํ๊ณ ์ ํ๋ ์๊ฑด์ด ์ฆ๊ฐ. ํ์ง๋ง ์คํ์์ค Kafka ๊ธฐ๋ฐ์ ์คํธ๋ฆผ ์ฒ๋ฆฌ๋ ๊ตฌ์กฐ์ ํ๊ณ๋ก ๋ง์ ์ด์๋ฅผ ๋ฐ์โ
๊ธฐ์กด Kafka ๊ตฌ๋ ๋ฐฉ์ MapR Streams ๊ตฌ๋ ๋ฐฉ์
Disk
Linux File System
Java Virtual Machine
Hadoop File System (Java Code)
Disk
MapR File System (C Code)
JVM
Kafka (Java Code)
MapR Streams (C Code)
๊ณ์ธต
๊ฐ์ํ๋ก
์ฑ๋ฅ ํฅ์
Event Processing
Local File System
Event Processing
ยฉ 2017 MapR Technologies 37 Converged Data Platform
์คํธ๋ฆผ ๋ฐ์ดํฐ์ ์ ์์ฑ ํ๋ณด
3. MapR Converged Data Platform ํน์ฅ์
โ๊ธ์ต์ ๊ณผ๊ฐ์ ์๋น์ค ์ํ์ฑ ์ ํ๋ค์ ์คํผ๋ง์ ์ ์์ฑ์ด ๋งค์ฐ ์ค์ํ ์์๋ก ์์ฉ ํฉ๋๋ค. ํนํ ์์ฅ ๋๋ ๊ฐ์ธ์ ์ํฉ์ ์ค์๊ฐ์ผ๋ก
ํ์ ํ ์ ์์ด์ผ ํฉ๋๋ค. SNS, IoT, Mobile ๋ฐ์ดํฐ์ ๋ํ ์ ์ค์๋ ์์ ์ ์คํธ๋ฆผ ์ฒ๋ฆฌ์ ๊ณ ์ ์ฒ๋ฆฌ๋ก ์ ์์ฑ ํ๋ณด๊ฐ ๊ฐ๋ฅโ
Producers
Consumers
Producers & Consumers
Producers & Consumers
๊ธฐ์กด Kafka ๊ตฌ๋ ๋ฐฉ์ MapR Streams ๊ตฌ๋ ๋ฐฉ์
์ธ๋ถ ๋ชจ๋์ธ MirrorMaker ์ ์ํ ๋ณต์ ๊ตฌ์กฐ
๋ฉ์์ง ์คํ์ ๋ค์ ์ ํด๋ฌ์คํฐ์ ์ ์ฅ
๋ฉ์์ง ๋ฃจํ์ ํผํ๊ธฐ ์ํ ๋ณต์กํ 2-stage ํด๋ฌ์คํฐ
์ฝ์ด ํ๋ซํผ์ ์ํ ๋ณต์ ๊ตฌ์กฐ
๋ฉํ๋ฐ์ดํฐ/์คํ์ ๋ค๊ณผ ํจ๊ป ๋ฉ์์ง ๋ณต์
๋ฉ์์ง ๋ฃจํ ๋ฐฉ์ง ๊ธฐ์ ๋ด์ฅ
ยฉ 2017 MapR Technologies 38 Converged Data Platform
์คํธ๋ฆผ ๋ฐ์ดํฐ์ ๋ถ์ฐ ์ฒ๋ฆฌ์ ๊ฐ์ฉ์ฑ
3. MapR Converged Data Platform ํน์ฅ์
โ๊ธฐ์กด Kafka ์คํธ๋ฆผ ํด๋ฌ์คํฐ๋ Hadoop ์ธ๋ถ์ ์์นํ์ฌ ๋คํธ์ํฌ ํต์ ์ ์ํด ๋ฉ์์ง ์ฒ๋ฆฌ๋ฅผ ์ํ ํฉ๋๋ค. ๋ง์ฝ ์คํธ๋ฆผ ์ฒ๋ฆฌ๋ฅผ ์ํ
CEP์ ๊ฐ์ ์คํธ๋ฆผ ๋ถ์ ์๋ฃจ์ ์ ์ฅ์ ๊ฐ ๋ฐ์์ Kafka ์๋ฒ ๋ด๋ถ ํ์ผ ๋ฒํผ์ ์ฌ์ด์ง ํ๊ณ๋ก ๋ฐ์ดํฐ์ ์ ์ค ๊ฐ๋ฅ์ฑ์ด ๋ฐ์ํฉ๋๋ค.โ
๊ธฐ์กด Kafka ๊ตฌ๋ ๋ฐฉ์ MapR Streams ๊ตฌ๋ ๋ฐฉ์
ํํฐ์ ์ ๋จ์ผ ๋์คํฌ์ ํ ๋น
ํํฐ์ ์ ์ ์ ๋ฅ , ๋ฆฌํ ์ ์ ์ฑ ๋ฑ์ ๊ณ ๋ คํ์ง ์๊ณ ํ ๋น
์์์ ์ ์ํ ํํฐ์ ์ด๋
ํํฐ์ ์ MapR ํ์ผ์์คํ ์ ๋ถํ /๋ถ์ฐํ์ฌ ํ ๋น
๋ถํ ๋ ํํฐ์ ์ ํ์ฉ์จ๊ธฐ๋ฐ์ผ๋ก ํ ๋น
์ฃผ๊ธฐ์ ์ผ๋ก ๋ถํ ๋ ํํฐ์ ์ ๋ฆฌ๋ฐธ๋ฐ์ฑ ์ํ
ยฉ 2017 MapR Technologies 39 Converged Data Platform
์คํ์์ค ์์ฝ ์์คํ
NoSQL ํด๋ฌ์คํฐ
Impala ํด๋ฌ์คํฐ
MapR Converged Data Platform ํตํฉ
3. MapR Converged Data Platform ํน์ฅ์
โMapR Converged Data Platform์ ๊ธฐ์ ์๊ฑด์ด ๋ฐ์๋์ง ์์ ๋จ์ํ ์คํ์์ค ๊ธฐ๋ฐ์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ด ์๋ ์ํฐํ๋ผ์ด์ฆ
ํ๊ฒฝ์์ ํ์๋ก ๋๋ ์์ ์ฑ, ๋ณด์, ์ฑ๋ฅ์ ๊ฐํํ ์ ๊ณ ์ ์ผ์ ์ํฐํ๋ผ์ด์ฆ ๋์์ด ๊ฐ๋ฅํ ๋น ๋ฐ์ดํฐ ํ๋ซํผโ
MapR File System | MapR Streams
์(YARN) ํ๋ ์์ํฌ
ยฉ 2017 MapR Technologies 40 Converged Data Platform
MapR-DB ๊ฐ์
3. MapR Converged Data Platform ํน์ฅ์
โHbase๋ Hadoop ํ๊ฒฝ์์ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ NoSQL ์๋ฃจ์ . ํ์ง๋ง Hbase ๊ตฌ์กฐ์ ํ๊ณ๋ก ์ธํด ์ฑ๋ฅ ๋ฐ ์์ ์ฑ ํ๋ณด๊ฐ ๋งค์ฐ
ํฐ ์ด์. MapR-DB๋ ์ด๋ฌํ ์ ์ฝ ์ฌํญ์ ์ ๊ฑฐํ์ฌ MapR FS์ DB๋ฅผ ๊ฒฐํฉ์์ผ ๊ณ ์์ผ๋ก Schema less ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌโ
Disk
Linux File System
Java Virtual Machine
Hadoop File System (Java Code)
Disk
MapR File System (C Code)
Java Virtual Machine
Hbase (Java Code) MapR-DB (C Code)
๋ค์ค ๊ณ์ธต
์ผ๋ก ์ธํ
์ฑ๋ฅ ์ ํ
๊ณ์ธต
๊ฐ์ํ๋ก
์ฑ๋ฅ ํฅ์
๊ธฐ์กด Hbase ๊ตฌ๋ ๋ฐฉ์ MapR-DB ๊ตฌ๋ ๋ฐฉ์
ยฉ 2017 MapR Technologies 41 Converged Data Platform
๊ธฐ์ ์์ค์ ๋ฐ์ ํ NoSQL ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ MapR-DB
3. MapR Converged Data Platform ํน์ฅ์
โ๊ณ ๊ฐ ๋์ ํ ์์ฑ๋๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์กด ์ ํ DBMS๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ ์คํค๋ง ๊ตฌ์ฑ ๋ฐ ๊ด๋ฆฌ์ ๋ํ ๋ถ๋ด์ด ๊ฐ์ค. ์น์ด๋ ๋ชจ๋ฐ์ผ์ฑ, ARS,
VoC๋ฑ์ผ๋ก ์์ฑ๋๋ ๋ฐ์ดํฐ๋ค์ ๋ํด ๊ณ ๊ฐ์ค์ฌ์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๊ธฐ ์ํด์๋ ์ฑ๋ฅ๊ณผ ์์ ์ฑ์ด ํ๋ณด๋ NoSQL DB๊ฐ ํ์.โ
๊ธฐ์กด Hbase ๊ตฌ๋ ๋ฐฉ์ MapR-DB ๊ตฌ๋ ๋ฐฉ์
๋ง์คํฐ ๋ ธ๋๊ฐ ๋จ์ผ์ฅ์ ์ (SPOF)
์ฐ์ฐ์์ญ์ด ๋ ๋ฆฝ๋ ์์ญ์์๋ง ์ฌ์ฉ
๋ฐ์ด๋๋ฆฌ ํ ์ด๋ธ๋ง ์ ๊ณต, ๋คํ๋จผํธ NoSQL์ ๋ณ๋๋ก ๊ตฌ์ฑ
HA/DR ์ํ ๊ธฐ๋ฅ ๋ฏธ์ ๊ณต
๋ง์คํฐ ๋ ธ๋๋ฅผ ์ ๊ฑฐํ์ฌ ๋จ์ผ ์ฅ์ ์ (SPOF)์ ์ ๊ฑฐ
MapR ํด๋ฌ์คํฐ ์ ์ฒด๋ฅผ ์ฐ์ฐ ์์ญ์ผ๋ก ํตํฉํ์ฌ ์ฌ์ฉ
๋ฐ์ด๋๋ฆฌ ํ ์ด๋ธ ๋ฟ๋ง ์๋ JSON ๋คํ๋จผํธ ํ ์ด๋ธ ์ ๊ณต
HA/DR์ ์ํ Table ๋ ๋ฒจ ๋๊ธฐํ ๊ธฐ๋ฅ ์ ๊ณต
๋ง์คํฐ
๋ ธ๋
Hbase ํด๋ฌ์คํฐ
๋ง์คํฐ
๋ ธ๋(HA)
MapR ํด๋ฌ์คํฐ MongoDB ํด๋ฌ์คํฐ
ยฉ 2017 MapR Technologies 42 Converged Data Platform
Apache Drill ์๊ฐ
3. MapR Converged Data Platform ํน์ฅ์
โHadoopํ๊ฒฝ์ ๋ง์ SQL on Hadoop ๊ธฐ์ ๋ค์ด ์กด์ฌ. Apache Drill์ MapR์ด ์ฃผ๋ํ๋ ํ๋ก์ ํธ๋ก ์ด๊ธฐ์ข Hadoop ์์ฝ
์์คํ ๋ค์ ๋ํด ๋์ผํ ANSI SQL์ ๊ธฐ์ค์ผ๋ก ๊ฐ๋ฐ ํ๊ฒฝ์ ํตํฉํ๋ ํ๋ก์ ํธ๋ก ๊ฐ์ฅ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋ SQL on Hadoop๊ธฐ์ โ
๊ธฐ์กด SQL on Hadoop ๊ธฐ์ Apache Drill
Apache Drill ( ANSI SQL )
HDFS/MapR FS Hbase/MapR-DB Hive HDFS Hbase Hive
Phoenix SQL HiveQL
๊ฐ๊ฐ์ ์์ฝ ์์คํ ๋ง๋ค ๋ ๋ฆฝ์ ์ธ SQL on Hadoop ์์ง
ANSI SQL์ด ์๋ ๋ ๋ฆฝ์ ์ธ SQL๊ธฐ๋ฐ์ ์ธ์ด๋ฅผ ์ฌ์ฉ
HDFS์ ํ์ผ์ ์คํค๋ง ๊ตฌ์ฑ์์ด SQL ์ง์ ์ ๊ทผ์ด ๋ถ๊ฐ
Drillbit ์ด๋ผ๋ ๋์ผํ SQL on Hadoop ์์ง ์ฌ์ฉ
ANSI 92 ํ์ค SQL์ ๋ชจ๋ ์์ค์ ๋ํด ๋์ผํ๊ฒ ์ฌ์ฉ
MapR FS ํ์ผ์ ์คํค๋ง ๊ตฌ์ฑ์์ด SQL ์ง์ ์ ๊ทผ ๊ฐ๋ฅ
Impala SQL
ยฉ 2017 MapR Technologies 43 Converged Data Platform
Apache Drill ์๊ฐ
3. MapR Converged Data Platform ํน์ฅ์
โApache Drill์ ์๋น ๋ถ๋ถ์ ์ปค๋ฏธํฐ๋ค์ด MapR ์์์ ๊ฐ๋ฐ์๋ค๋ก ๊ตฌ์ฑ๋์ด ์ฝ๋๋ฅผ ๊ธฐ์ฌํ๊ณ ์์ผ๋ฉฐ MapR-FS, HDFS, Hive, MapR-
DB, Hbase ๋ฑ ๋ฐ์ดํฐ ์์ค์ ์คํค๋ง์ ์์ ๋ก์ด SQL on Hadoop ํ๋ก์ ํธ. ์์ฒด ๊ฐ๋ฐ Web UI ๋๋ Zeppelin ๋ฑ๊ณผ ํตํฉํ์ฌ ํ์ฉโ
ยฉ 2017 MapR Technologies 44 Converged Data Platform
Apache Drill ์๊ฐ
3. MapR Converged Data Platform ํน์ฅ์
โApache Drill์ MapReduce ์์ง์ด ์๋ Drillbit์ด๋ผ๋ ์ ์ฉ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์ง์ ๋ณด์ . ์ฌ์ฉ์๋ Zookeeper๋ก๋ถํฐ ์ง์๋ฅผ ์ ๋ฌํ
Drillbit์์ง์ ํ ๋น๋ฐ๊ณ ์ง์๋ฅผ ์ํ ํ๋ฉฐ ๊ฐ ์์ง์ ์บ์๋ ๋ฉํ ๋ฐ์ดํฐ๋ฅผ ์กฐํํ์ฌ ๋ฐ์ดํฐ ์ง์ญ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํ์โ
Drillbit Engine
Zookeeper
โฆ
Select device, cust_id, order_id
FROM clicks.json t, hive.orders o
WHERE t.cust_id=o.cust_id
MapR File System
Yarn Framework
Drillbit Engine
Drillbit Engine
Drillbit Engine
Drillbit Engine
Drillbit Engine
ยฉ 2017 MapR Technologies 45 Converged Data Platform
Apache Drill ์๊ฐ
3. MapR Converged Data Platform ํน์ฅ์
โ์ง์๋ฅผ ํ์ฑํ๊ธฐ ์ํ Drillbit ์์ง์ด ์ ์ ๋๋ฉด ์ฟผ๋ฆฌ๋ฅผ Logical Plan๊ณผ Physical Plan์ผ๋ก ๊ฐ๊ธฐ ์ํ๊ณํ์ ์์ฑ. ์ด๋ ๋ฐ์ดํฐ์
์ง์ญ์ฑ์ ์ต๋ํ ํ์ฉํ๋๊ธฐ ์ํ ์ ๋ณด๋ฅผ ์์งํ๊ณ ๊ฐ ๊ณํ์ ํธ๋ฆฌ๊ตฌ์กฐ๋ก ์กฐ๊ฐ๋ด์ด ๊ฐ ๋ถ์ฐ ๋ ธ๋์ Drill ์์ง์ ์ ๋ฌโ
โฆ Rule/Cost ๊ธฐ๋ฐ ์ต์ ํ
Protobuf ๊ธฐ๋ฐ RPC
๋ฐ์ดํฐ ์ง์ญ์ฑ
์ง์ ๋ถ์ฐ
Drillbit Engine
RPC Endpoint
SQL Parser
Logical Plan
Optimizer
Physical Plan
Storage Engine Interface
Execution
Distributed Cache
Drillbit Engine
RPC Endpoint
SQL Parser
Logical Plan
Optimizer
Physical Plan
Storage Engine Interface
Execution
Distributed Cache
Drillbit Engine
RPC Endpoint
SQL Parser
Logical Plan
Optimizer
Physical Plan
Storage Engine Interface
Execution
Distributed Cache
ยฉ 2017 MapR Technologies 46 Converged Data Platform
์คํ์์ค ์์ฝ ์์คํ
MapR Converged Data Platform ํตํฉ
3. MapR Converged Data Platform ํน์ฅ์
โMapR Converged Data Platform์ ๊ธฐ์ ์๊ฑด์ด ๋ฐ์๋์ง ์์ ๋จ์ํ ์คํ์์ค ๊ธฐ๋ฐ์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์ด ์๋ ์ํฐํ๋ผ์ด์ฆ
ํ๊ฒฝ์์ ํ์๋ก ๋๋ ์์ ์ฑ, ๋ณด์, ์ฑ๋ฅ์ ๊ฐํํ ์ ๊ณ ์ ์ผ์ ์ํฐํ๋ผ์ด์ฆ ๋์์ด ๊ฐ๋ฅํ ๋น ๋ฐ์ดํฐ ํ๋ซํผโ
MapR File System | MapR Streams | MapR-DB
์(YARN) ํ๋ ์์ํฌ
ยฉ 2017 MapR Technologies 47 Converged Data Platform
MapR Converged Data Platform์ ํน์ฅ์ ์์ฝ
3. MapR Converged Data Platform ํน์ฅ์
โMapR Converged Data Platform์ ๊ธฐ์ ์ด ์ง๋ฉดํ๊ณ ์๋ ๋น ๋ฐ์ดํฐ ๋ฌธ์ ๋ฅผ ํด์ํ ์ ๊ณ ์ ์ผ์ ๊ธฐ์ ์ฉ ๋น ๋ฐ์ดํฐ ํ๋ซํผ ์ ๋๋คโ
์คํ์์ค ๊ธฐ๋ฐ Hadoop Platform MapR Converged Data Platform
๋ค์๋ ธ๋ ๋ฐ ๋ง์คํฐ๋ ธ๋์ ๋จ์ผ ์ฅ์ ์ ๋ฌธ์
JVM๋ฐ OS File System์ ๋ณต์กํ ๋จ๊ณ๋ก ์ธํ ์ฑ๋ฅ์ ํ
Hadoop ์ ๋ฌธ๊ฐ๋ง์ด ์์คํ ์ด์ ๋ฐ ๊ฐ๋ฐ์ด ๊ฐ๋ฅ
HA/DR ๋ฐ ๋ณด์๊ธฐ๋ฅ์ ์ทจ์ฝ์ผ๋ก ๊ธฐ์ ์์ค ๋์ ๋ถ๊ฐ
๋ค๋์ ๊ด๋ฆฌ๋ ธ๋ ๊ตฌ์ฑ์ด ํ์๋ก ๋์ด TCO ์ฆ๊ฐ
๋ค์๋ ธ๋ ๋ฐ ๋ง์คํฐ๋ ธ๋๋ฅผ ์ ๊ฑฐํ์ฌ ๋จ์ผ ์ฅ์ ์ ์ ๊ฑฐ
JVM ๋ฐ OS File System ์์ญ์ ์ ๊ฑฐํ์ฌ ์ฑ๋ฅ ํฅ์
POSIX, NFS ๊ธฐ๋ฅ ๋ฑ์ผ๋ก ๊ธฐ์กด์ ์ธ๋ ฅ์ผ๋ก ์ด์ ๋ฐ ๊ฐ๋ฐ ๊ฐ๋ฅ
์ฝ์ด๋ ๋ฒจ๋ก HA/DR ๋ฐ ๋ณด์๊ธฐ๋ฅ ์ ๊ณต์ผ๋ก ๊ธฐ์ ์์ค ๋์
๊ฐ์ํ๋ ํด๋ฌ์คํฐ ๊ตฌ์ฑ์ผ๋ก ๋ ธ๋๋ฅผ ๊ฐ์ํ์ฌ TCO ์ ๊ฐ
ยฉ 2017 MapR Technologies 48 Converged Data Platform
4. ์คํ์์ค ์์ฝ์์คํ
ยฉ 2017 MapR Technologies 49 Converged Data Platform
ํ๋ก ์์ฝ ์์คํ โ ๋ฐ์ดํฐ ์์ง
4. ์คํ์์ค ์์ฝ์์คํ
์ปดํฌ๋ํธ ์ค ๋ช
MapR-NFS โข ์ฝ๊ธฐ/์ฐ๊ธฐ๊ฐ ๊ฐ๋ฅํ NFS๋ฅผ ์ ๊ณตํ์ฌ ์์ค ๋ฐ์ดํฐ ์์คํ ์ ๋ง์ดํธํ์ฌ ์ ์ํ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ ํ ์ ์์
โข ํ๋ก ํ์ผ์์คํ ์ ๊ทผ์ ๋ํ POSIX ์ฌ์ฉ ์ง์
Apache Sqoop
โข ๊ฐ๋จํ CLI(Command Line Interface)๋ก Oracle, MySQL ๋ฑ์ RDBMS์ ํน์ ํ ์ด๋ธ ๋๋ ํน์ ์กฐ๊ฑด์ ๋ง๋ ๋ฐ์ดํฐ
๋ฅผ HDFS๋ก ์ฝ๊ฒ ์ฎ๊ธธ ์ ์์ผ๋ฉฐ, Hive, Pig, HBase ๋ฑ์ผ๋ก ๋ฐ๋ก ์ฎ๊ฒจ ํ์ธ ๊ฐ๋ฅ
โข HDFS์ ์ ์ฅ๋์ด ์๋ ๋ฐ์ดํฐ๋ฅผ RDBMS๋ก ์ ์ฌ ๋๋ RDBMS ๋ฐ์ดํฐ๋ฅผ HDFS๋ก ์ ์ฌ ๊ธฐ๋ฅ
โข ํ๋ก์ฉ ETL ๋๊ตฌ
Apache Flume
โข ๋์ฉ๋์ ๋ก๊ทธ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ,์์ ์ฑ,๊ฐ์ฉ์ฑ์ ๋ฐํ์ผ๋ก ํจ์จ์ ์ผ๋ก ์์ง,์ง๊ณ,์ด๋์ด ๊ฐ๋ฅํ ๋ก๊ทธ์์ง ๊ธฐ๋ฅ
โข ์ฅ์ ๊ฐ ๋๋๋ผ๋ ๋ก๊ทธ,์ด๋ฒคํธ๋ฅผ ์ ์ค ์์ด ์ ์กํจ์ ๋ณด์ฅ
โข ์ํํ์ฅ(Scale-Out)์ด ๊ฐ๋ฅํ์ฌ ๋ถ์ฐ์์ง์ด ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ก ์ค๊ณ๋จ
โข ๋ค์ํ ์์ค๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ค์ํ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ก์ด ๊ฐ๋ฅํ์ง๋ง, ์ํคํ ์ฒ๊ฐ ๋จ์ํ๊ณ ์ ์ฐํ
๋ฉฐ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ, ์ค์๊ฐ ๋ถ์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ฝ๊ฒ ๊ฐ๋ฐ
โข ๊ฐ์ข Source, Sink๋ฑ ์ ๊ณต์ผ๋ก ์ฝ๊ฒ ํ์ฅ ๊ฐ๋ฅ
โ๋ค์ํ ์์ฒ ์์คํ ์ ์๋ ๋ก์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐ ์ ์ฅ ์์ญ์ธ MapR-FS(HDFS)์ ์ฐ๊ณํ๊ธฐ ์ํด ์๋์ ๊ฐ์ ๊ธฐ์ ์ ์ฌ์ฉํฉ๋๋ค. โ
ยฉ 2017 MapR Technologies 50 Converged Data Platform
ํ๋ก ์์ฝ ์์คํ โ ๋ฐ์ดํฐ ์ฒ๋ฆฌ
4. ์คํ์์ค ์์ฝ์์คํ
์ปดํฌ๋ํธ ์ค ๋ช
Apache Drill โข ๋ค์ํ ์ ํ ๋๋ ๋น์ ํ ๋ฐ์ดํฐ(Hbase, Hive, MongoDB, Json., CSV๋ฑ)์์ ์ฆ๊ฐ์ ์ธ ๋ฐ์ดํฐ ํ์์ ์ ๊ณต
โข ANSI SQL ์ฌ์ฉ์ผ๋ก ์์ฝ๊ฒ ์ฟผ๋ฆฌ๋ฅผ ์์ฑ
Apache Spark โข ํ๋ก ๊ธฐ๋ฐ์ ๊ณ ๊ธ ์ค์๊ฐ ๋ถ์ ์์ง
โข ๊ณ ์ ์ฟผ๋ฆฌ ์ํ ํด, ๋จธ์ ํ์ต ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ๊ทธ๋ํ ํ๋ก์ธ์ฑ ์์ง, ์คํธ๋ฆฌ๋ฐ ๋ถ์ ์์ง ์ ๊ณต
Apache Hive
โข ์ ๋ฌธ์ ์ธ ๋ถ์์ฝ๋ฉ ๋ฅ๋ ฅ์ด ํ์ ์์ด ๊ฐํธํ๊ฒ, ์ ๊ทผํ๊ธฐ ์ฝ๋๋ก RDB์ SQL๋ฌธ๊ณผ ์ ์ฌํ HQL(Hive Query Language)
์ ์ ๊ณต
โข ํ ์ด๋ธ๊ณผ ํํฐ์ ๊ณผ ๊ด๋ จ๋ ๋ฉํ์ ๋ณด๋ฅผ ํ์ด๋ธ ๋ฉํ์คํ ์ด์ ์ ์ฅ
Apache Pig โข ๋์ฉ๋์ ๋ฐ์ดํฐ ์งํฉ์ ๋ถ์ํ๊ธฐ ์ํ ํ๋ซํผ
โข ํน์๋ชฉ์ ์ ๋ง๊ฒ ์ฌ์ฉ์ ํจ์๋ฅผ ๋ง๋ค์ด ํ์ฅ์ฑ์ ์ ๊ณต
โMapR์ ์์ง๋ ๋ฐ์ดํฐ์ ๋ํ ์กฐํ ๋ฐ ์ฒ๋ฆฌ๋ฅผ ์ํด SQL on Hadoop๊ณผ ๊ฐ์ ๋ค์ํ ์คํ ์์ค ๊ธฐ์ ๋ค์ ์ ๊ณต ํฉ๋๋ค. โ
ยฉ 2017 MapR Technologies 51 Converged Data Platform
ํ๋ก ์์ฝ ์์คํ โ ๋ฐ์ดํฐ ๋ณด๊ด ๋ฐ ์ํฌํ๋ก์ฐ ์ฒ๋ฆฌ
4. ์คํ์์ค ์์ฝ์์คํ
์ปดํฌ๋ํธ ์ค ๋ช
MapR-FS (HDFS)
โข ๋ถ์ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํด์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ธฐ ์ํ ํ์ผ ์์คํ โข ๋น NameNode ์ํคํ ์ฒ โข ๋ฏธ๋ฌ๋ง์ ํตํด ๋ณต์ ๋ณธ์ ์๊ฒฉ ์ฌ์ดํธ์ ์์ฑํ์ฌ ์ฌํด ๋ณต๊ตฌ(DR)๋ฅผ ์ง์ โข ๋์ฉ๋ ๋ฐ์ดํฐ (terabyte ๋๋ petabyte)๋ฅผ ์ ์ฅํ๋๋ก ๊ณ ์. ์ด๋ฅผ ์ํด์ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋์ ์ปดํจํฐ์ ๋๋์ด ์ ์ฅ.
์ฆ, NFS๋ณด๋ค ํจ์ฌ ํฐ ํ์ผ๋ ์ง์ โข ๋ฐ์ดํฐ ์ก์ธ์ค์ ๋ํ ์ฑ๋ฅ๊ฐ์ ๋ ์ฉ์ดํ๋ฉฐ ํ์ฅ ์ ํด๋ฌ์คํฐ์ ์ปดํจํฐ node๋ง ์ถ๊ฐํ๋ฉด ๋จ
MapR-DB (NoSQL) โข ๋ก๊ทธ ๋ฐ์ดํฐ, ์ผ์ ๋ฐ์ดํฐ, ๋ฉํ๋ฐ์ดํฐ, ํด๋ฆญ ๋ํฅ, ์ฌ์ฉ์ ํ๋กํ์ผ, ์ธ์ ์ํ ๋ฐ ๋งํฌ/์๋ฏธ/๊ด๊ณ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ
๊ด๋ฒ์ํ ์ด์ ๋ฐ์ดํฐ ํ์์ ๊ด๋ฆฌํ๊ธฐ ์ํด ์ด ๊ธฐ๋ฐ(column-oriented) NoSQL ๋ฐ์ดํฐ ๋ชจ๋ธ์ ์ง์ โข ๋์ ์ฒ๋ฆฌ๋ ๋ฐ ์ง์์ ์ธ ์งง์ ๋๊ธฐ์๊ฐ์ ์ ๊ณต
Apache Oozie
โข ํ๋ก ์ก์ ๊ด๋ฆฌํ๊ธฐ ์ํ ์ํฌํ๋ก์ฐ ์ค์ผ์ค๋ฌ ์์คํ โข ์ฐ์ง ์ํฌ ํ๋ก์ฐ ์ก์ ํ๋ก์ ๋ค์ํ ์ก์ ์คํํ ์ ์๋ ์ก์ (action)์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ฐฉํฅ์ฑ์ด ์๋ ๋น์ํ ๊ทธ๋ํ
(DAG: Directed Acyclic Graph)๋ฅผ ๊ตฌ์ฑ โข ํ๋ก ์คํ์ ๋ค์ํ ํ๋ก ์ก๊ณผ ๋์ํ๋๋ก ํตํฉ๋์์ผ๋ฉฐ, ์ฌ๊ธฐ์ด๋ ์๋ฐ ๋งต ๋ฆฌ๋์ค, ์คํธ๋ฆฌ๋ฐ ๋งต ๋ฆฌ๋์ค, ํผ๊ทธ, ํ์ด
๋ธ, ์ค์ฟฑ, Distcp ๋ฑ์ด ํฌํจ๋๋ฉฐ ์๋ฐ ํ๋ก๊ทธ๋จ์ด๋ ์ ์คํฌ๋ฆฝํฐ์ ๊ฐ์ ํน์ ์์คํ ์ ํนํ๋ ์ก๋ ์คํ ๊ฐ๋ฅ
โMapR์ ๋ณด์๊ณผ ์ฑ๋ฅ์ด ๊ฐํ๋ ๋น์ฉํจ์จ์ ์ธ ์ค์ผ์ผ ์์ ๋ฐฉ์์ ๋ถ์ฐ ์ ์ฅ ์์คํ ์ธ MapR-FS, MapR-DB๋ฅผ ์ ๊ณตํฉ๋๋ค. โ
ยฉ 2017 MapR Technologies 52 Converged Data Platform
ํ๋ก ์์ฝ ์์คํ โ ์ธ๋ถ ์๋ฃจ์ ์ฐ๊ณ
4. ์คํ์์ค ์์ฝ์์คํ
์ปดํฌ๋ํธ ์ค ๋ช
HBase-API โข MapR-DB์ ์ ์ฅ๋ ๊ฒฐ๊ณผ ๋ฐ์ดํฐ๋ฅผ HBase-API๋ฅผ ์ด์ฉํ์ฌ ๋ค์ํ ์ธ๋ถ ๋๊ตฌ๊ณผ ์ฐ๊ณ
Kafka-API โข MapR Streams์ ๋ฐ์ดํฐ๋ฅผ Kafka-API๋ฅผ ํตํ์ฌ ํ์ฉ ๊ฐ๋ฅ
Hadoop Connector โข Hadoop Connector๋ฅผ ์ด์ฉํ์ฌ ๋ค์ํ ์ธ๋ถ ๋๊ตฌ๊ณผ ์ฐ๊ณ
Apache Drill ODBC/JDBC Driver
โข Apache Drill์ ODBC ๋ฐ JDBC ๋๋ผ์ด๋ฒ๋ฅผ ์ด์ฉํ์ฌ ๋ค์ํ UI ํด๊ณผ ์ฐ๊ณ
JSON Interface โข MapR-DB, MapR Streams, MapR FS์ ๋ฐ์ดํฐ๋ฅผ JSON ๊ธฐ๋ฐ์ผ๋ก ์ธํฐํ์ด์ค
โMapR์ ๊ฐ๊ณต๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ธฐ ์ํด ๋ค์ํ ํ๋กํ ์ฝ ๋ฐ API ๋ฅผ ์ ๊ณต ํฉ๋๋ค. ๋ค์ํ SW๋ค๊ณผ ์ ์ฐํ ์ฐ๊ฒฐ์ฑ์ ์ ๊ณตํฉ๋๋คโ
ยฉ 2017 MapR Technologies 53 Converged Data Platform
๋จธ์ ๋ฌ๋ ๋๊ตฌ ํ์ฉ
4. ์คํ์์ค ์์ฝ์์คํ
โMapR ํ๋ซํผ์ Spark Mllib, Mahout ๋จธ์ ๋ฌ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ ๊ณตํ๋ฉฐ ๊ณ ๊ฐ์ฌ์ ์๊ตฌ์ ๋ฐ๋ผ Tensorflow, Caffe, H2O์ ๊ฐ์
๋จธ์ ๋ฌ๋ ํน์ ๋ฅ๋ฌ๋๊ณผ ๊ฐ์ AI ๋ถ์ ๋๊ตฌ๋ค์ ํ์ฉํจ์ ์์ด MapR NFS ๊ธฐ๋ฅ์ ํตํด ์์ฝ๊ฒ ๋ถ์ ๋๊ตฌ๋ค๊ณผ ์ฐ๊ณโ
Spark MLlib Tensorflow caffe
Spark์ ๊ธฐ๋ณธ ๋จธ์ ๋ฌ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์ธ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ์ผ๋ก ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์ฐ์ฒ๋ฆฌ
๊ตฌ๊ธ์์ ๊ฐ๋ฐํ ๋ฅ๋ฌ๋, ๋จธ์ ๋ฌ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก CPU/GPU ๋ชจ๋๋ก ์ํ
๋ฒํด๋ฆฌ๋์์ ๊ฐ๋ฐํ ๋ฅ๋ฌ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก CPU/GPU ๋ชจ๋๋ก ์ํ
Classification, Regression, Decision Tree, Recommendation, Clustering, Topic Modeling, Association Rule ๋ฑ์ ์๊ณ ๋ฆฌ์ฆ ์ ๊ณต
Classification, Regression, Clustering, Markov, Neural Network ๋ฑ์ ์๊ณ ๋ฆฌ์ฆ ์ ๊ณต
Artificial Neural Network, Convolutional Neural Network ๋ฑ Neural Network ์ค์ฌ์ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ์ ๊ณต
MapR File System MapR File System MapR File System
Tensorflow Server MapR Client
Caffe Server MapR Client
YARN
Spark MLlib
NFS NFS
ยฉ 2017 MapR Technologies 54 Converged Data Platform
Spark๊ฐ ์ง์ํ๋ ๊ธฐ๊ณํ์ต ์๊ณ ๋ฆฌ์ฆ
4. ์คํ์์ค ์์ฝ์์คํ
โApache Spark๋ ์ธ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ์ ๋ถ์์ ์ํด Mllib ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ๋ค์ํ ๊ธฐ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ณตโ
Basic statistics Classification and regression
Collaborative filtering Clustering Dimensionality reduction
Summary statistics
Correlations
Stratified sampling
Hypothesis testing
Random data
generation
SVMs, logistic
regression, linear
regression
Naive Bayes
Decision trees
Random Forests
Gradient-Boosted
Trees
alternating least
squares (ALS)
k-means
Gaussian mixture
Power iteration
clustering (PIC)
Latent Dirichlet
allocation (LDA)
Streaming k-means
Singular value
decomposition
(SVD)
Principal
component
analysis (PCA)
ยฉ 2017 MapR Technologies 55 Converged Data Platform
ETL ๋ฐ Workflow ์ฒ๋ฆฌ
4. ์คํ์์ค ์์ฝ์์คํ
โ์์ง, ์ฒ๋ฆฌ, ๋ถ์ ๋ฑ์ ์์ ์ ์ํฌํ๋ก์ฐ ๋จ์๋ก ์ค์ผ์ค๋ง ํ๊ธฐ์ํด Apache Oozie๋ฅผ ์ง์. Apache Oozie๋ฅผ HUE์ ํจ๊ป ์ฌ์ฉํ๋ฉด
GUI ๊ธฐ๋ฐ์ ๋๋๊ทธ&๋๋กญ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ ํ ์ ์์ผ๋ฉฐ ์์ ์ ์์, ์ค์ง, ์คํจ ๋ฑ์ ๋ชจ๋ํฐ๋ง๋ GUI ํ๊ฒฝ์์ ์์ฝ๊ฒ ํ์ธโ
Oozie ์์
Hive ์์ 1
Sqoop ์์
Hive ์์ 2 Hive ์์ 3
Spark ์์ Spark ์์
Oozie ์ข ๋ฃ
< HUE์์ Oozie ์ํ >
์์ง
์ฒ๋ฆฌ
๋ถ์
์์ ์ Workflow ๋์์ธ Email ์๋ ์ง์ ์ค์ผ์ค๋ง ๋ฐฉ๋ฒ ์ ํ(์๊ฐ, ๋ฐ์ดํฐ) ์์ ์ ๋ชจ๋ํฐ๋ง ์คํจํ ์์ ์ ์ฌ์คํ ์ค์
< Oozie ์์ ์ ๋ ผ๋ฆฌ ๊ตฌ์กฐ >
ยฉ 2017 MapR Technologies 56 Converged Data Platform
๋ถ์ ๋๊ตฌ ํ์ฉ
4. ์คํ์์ค ์์ฝ์์คํ
โMapR ํ๋ซํผ์ ๋ค์ํ ๋ถ์๋๊ตฌ ํ์ฉ์ ์ง์. ๋ถ์ ํ๊ฒฝ์ ๋ชฉ์ ๊ณผ ํน์ฑ์ ๋ฐ๋ผ ์ ์ ํ ๋ถ์ ๋๊ตฌ๋ฅผ ์ ์ ํ์ฌ ์ ์ฉ. ์ธํฐํ๋ฆฌํฐ
์ข ๋ฅ๋ ์๊ฐํ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ๋ถ์ ๋๊ตฌ์ ์ ํ์ด ๋ฌ๋ผ์ง ์ ์์ผ๋ ๊ณตํต์ ์ผ๋ก ๋ชจ๋ ๋๊ตฌ๊ฐ Spark๋ฅผ ์ ๊ทน์ ์ผ๋ก ์ง์โ
HUE Zeppelin Jupyter
Hadoop ๊ธฐ๋ฐ์ ๊ฐ์ฅ ๋์ค์ ์ธ ๋ถ์ ๋๊ตฌ๋ก ์ฟผ๋ฆฌ๋๊ตฌ ๋ฐ ๋ ธํธ๋ถ ๋ถ์ ์ ๊ณต
๊ฐ์ฅ ๋ง์ ๊ธฐ๋ณธ ์ธํฐํ๋ฆฌํฐ๋ฅผ ์ ๊ณตํ๋ฉฐ
๋ ธํธ๋ถ ๊ธฐ๋ฐ์ ๋ถ์
Python ๋ ธํธ๋ถ ๋ถ์์ ํนํ ๋์ด ์์ผ๋ฉฐ
๋ค์ํ ๋ฌด๋ฃ/์ ๋ก ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ง์
MapR ํ์ผ์์คํ ๊ด๋ฆฌ, ํ์ผ ๊ถํ ๊ด๋ฆฌ, Hive, Impala, Spark(Scala, Python, R)๋ฑ ๋ถ์ ์ง์
Hive, Drill, Impala, Spark(Scala, Python, R)
๋ฑ ๋ถ์ ์ง์ํ๋ฉฐ ํ ์ธํฐํ๋ฆฌํฐ ์ค์น ์ง์
Python ์ธํฐํ๋ฆฌํฐ๋ง ๊ธฐ๋ณธ ์ ๊ณตํ๊ณ ํ ์ธํฐ
ํ๋ฆฌํฐ๋ ๋ณ๋ ํ๋ฌ๊ทธ์ธ์ ์ค์นํ์ฌ ์ง์
ยฉ 2017 MapR Technologies 57 Converged Data Platform
โ์ด์์งํ ํฌ์ฐฉ ์์ ์ 1์ฐจ ์ค์๊ฐ, 2์ฐจ ๋น์ค์๊ฐ์ผ๋ก ๊ตฌ๋ถํ์ฌ 1์ฐจ ๋ถ์์์ ๋ฐ๊ฒฌ๋ ์ด์์งํ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ฆฌํฌํธํ๊ณ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ด
์ ์ฉ๋ 2์ฐจ ์ฌ์ธต๋ถ์์ ํตํ์ฌ ๋ฐ๊ฒฌ๋ ์งํ๋ฅผ ๋ฆฌํฌํธํ์ฌ ์ ์ฒด ํ์์ ์๋ฆฌ์ ์ผ๋ก ๋ถ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ด์์งํ์ ๋ํ ํ๊ฐ ๊ธฐ์ค์ผ๋ก ํ์ฉ.โ
๋ฐ์ดํฐ ์์ค ์ค์๊ฐ
์คํธ๋ฆผ ๋ถ์ ์ค์๊ฐ
๋์๋ณด๋
๋ฐ์ดํฐ ์ ์ฅ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
๋จธ์ ๋ฌ๋ ๋ชจํ ๋์
๊ณ ์ํ๊ตฐ ๋ฆฌํฌํธ
์ค์๊ฐ ์ฒ๋ฆฌ ๋ฐ ์ ์ฅ ๋ฐ์ดํฐ ์์ง ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ์ดํฐ ๋ถ์ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ
๋ค์ํ ์์ค์ ๋ฐ์ดํฐ ์์ง
์ค์๊ฐ ๋ถ์ ๋ฐ์ดํฐ ๋ถ๋ฅ
๋ฐฐ์น ๋ถ์ ๋์ ๋ฐ์ดํฐ ๋ถ๋ฅ
Apache Sqoop, Apache
Flume, MapR-NFS ๊ธฐ์ ํ์ฉ
MapR-Streams ์ Apache
Spark ์ฐ๊ณ๋ฅผ ํตํ ๋ฃฐ ๊ธฐ๋ฐ์
์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ๋ถ์
MapR-DB, MapR-FS์ ์๋ณธ
๋ฐ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ ์ ์ฅ
๋จธ์ ๋ฌ๋ ๋ถ์์ ์ํ ๋ฐ์ดํฐ
์ ์ ๋ฐ ๊ฐ๊ณต๋ฑ์ ์ ์ฒ๋ฆฌ ์ํ
๋ฐ์ดํฐ ์์นํ, ์ ํํ ์ํ
Apache Hive, Apache Spark
๋ฑ์ ์ฒ๋ฆฌ ๊ธฐ์ ์ ํ์ฉ
๋ชจํ ํ๋ จ ๋ฐ ํ๊ฐ๊ฐ ์๋ฃ๋
๋ถ๋ฅ๋ชจ๋ธ(Classification)์
์๋ก ์ ์ ๋ ๋ฐ์ดํฐ ์ ์ฉ
Apache Spark ๋๋ Apache
Mahout์ ๋จธ์ ๋ฌ๋ ๊ธฐ์ ํ์ฉ
๋ถ์ ์๋ฃ๋ ๊ฒฐ๊ณผ ๋ฐ์ดํฐ๋ฅผ
์๊ฐํ ๋ฐ ๋ฆฌํฌํธ๋ก ์์ฑ
Apache Drill ๊ธฐ์ ์ ํ์ฉํ์ฌ
ANSI SQL ๊ธฐ๋ฐ์ผ๋ก ๊ฒฐ๊ณผ
๋ฐ์ดํฐ ์กฐํ
์ด์์งํ ์์ธก ์์คํ ์ ์ฉ ์
4. ์คํ์์ค ์์ฝ์์คํ
ยฉ 2017 MapR Technologies 58 Converged Data Platform
๊ฐ์ธํ ๋ง์ผํ ์์คํ ์ ์ฉ ์
4. ์คํ์์ค ์์ฝ์์คํ
โ๋ค์ํ ์์ค๋ก ๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ํด๋ฌ์คํฐ๋ก ๊ตฌ์ฑ๋์ด ์๋ MapR ์ปจ๋ฒ์ง๋ ๋ฐ์ดํฐ ํ๋ซํผ์ ๋ฐ์ดํฐ๋ฅผ ์์ง, ์ ์ฅ, ์ฒ๋ฆฌ ํ
๋ถ์ ์๋ฒ๊ฐ ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์. ๋ถ์ ์๋ฒ๋ ๋ถ์ ๋ชฉ์ ์ ๋ฐ๋ผ ๊ฐ๊ธฐ ๋ค๋ฅธ ์๋ฒ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉด ์ ๊ธฐ์ ์ ์ํ ๋ณ๋ ์๋ฒ ๊ตฌ์ฑโ
MapR Converged Data Platform
ํต๊ณ๋ถ์ ์๋ฒ
ํ ์คํธ ๋ง์ด๋ ์๋ฒ
์๊ฐํ ์๋ฒ
์คํ์์ค ์๋ฒ
๊ธฐ๊ฐ๊ณ RDBMS
STT ์์คํ
SNS API
x86 ๋ฆฌ๋ ์ค ์๋ฒ / 10G ๋คํธ์ํฌ
ยฉ 2017 MapR Technologies 59 Converged Data Platform
๊ฐ์ธํ ๋ง์ผํ ์์คํ ์ ์ฉ ์
4. ์คํ์์ค ์์ฝ์์คํ
โ์ ํ ๋ฐ์ดํฐ์ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ ODS ์์ญ์ ์ ์ฅํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ํตํด ๋ฐ์ดํฐ ๋งํธ ๊ตฌ์ฑ. ๊ตฌ์ฑ ๋ ๋งํธ๋ ๊ธฐ์กด ๋ถ์๋ฐฉ๋ฒ์ผ๋ก
์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ์๋ก์ด ๋ถ์๋ฐฉ๋ฒ์ผ๋ก ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ ํ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๋ณด๋ค ์ ํํ ์์ธก ๋ชจ๋ธ์ ์์ฑโ
์ ํ ๋ฐ์ดํฐ
์นด๋ ์ฌ์ฉ ์ด๋ ฅ
์นด๋ ์น์ธ ์ด๋ ฅ
์ฝ์ผํฐ ์๋ด ์ด๋ ฅ โฆ
๋น์ ํ ๋ฐ์ดํฐ
์๋ด์ฌ ๊ธฐ๋ก
STT ์ถ์ถ
์น/๋ชจ๋ฐ์ผ/ARS
์ธ๋ถ SNS โฆ
MapR ์ปจ๋ฒ์ง๋ ๋ฐ์ดํฐ ํ๋ซํผ
ODS
์ธ๋ถ SNS ํ ์คํธ
์น/๋ชจ๋ฐ์ผ/ARS
์๋ด ์ด๋ ฅ / STT ํ ์คํธ
์ฝ์ผํฐ ์๋ด ์ด๋ ฅ
์นด๋ ์น์ธ ์ด๋ ฅ
์นด๋ ์ฌ์ฉ ์ด๋ ฅ
๋ฐ์ดํฐ ๋งํธ
..
์๊ธ๊ธฐ๊ฐ ์ ์ด ํํฉ
๋ฏผ์ ๊ฒฝ์ ํํฉ
๋ฏผ์ ์ ํ
๊ณ ๊ฐ๊ฐ์ธ ํํฉ
์นด๋๋ก ํํฉ
๊ฐ๋งน์ ์นด๋์ฌ์ฉ ํํฉ
..
๋ง์ผํ ๋ถ์
ํ๊ฒ ๋ง์ผํ
์ดํ/์ฐ์ฒด ์์ธก
์นด๋๋ก ์์ธก โฆ
๋ฏผ์ ๋ถ์
๋ฏผ์ ๋ถ๋ฅ
์ ์ด ์ด๋ ฅ
๋ฏผ์ ์ฌ๊ธฐ ์์ธก โฆ
ยฉ 2017 MapR Technologies 60 Converged Data Platform
๊ฐ์ธํ ๋ง์ผํ ์์คํ ์ ์ฉ ์
4. ์คํ์์ค ์์ฝ์์คํ
โMapR์ ๋ค์ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์ฝ์์คํ ๊ณผ SAS์ ๋ถ์ ์๋ฃจ์ ์ ์ฐ๋ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ถ์. MapR์ ๊ณ ์ฑ๋ฅ์ ํ์ฉํ์ฌ ๊ธฐ์กด ๋ฐ๋
์ฃผ๊ธฐ์ ๋ฐฐ์น ๋ฐ ๋ถ์ ์์ ์ ์์ฃผ๊ธฐ๋ก, ์ ์ฃผ๊ธฐ์ ๋ถ์ ์์ ์ ์ผ์ฃผ๊ธฐ๋ก ๋จ์ถ ํ์๊ณ ์ํฅ ๋ณ์์ ์ ๋ ํ์ฅํ์ฌ ๋ถ์โ
์ ํ ๋ฐ์ดํฐ
๋น์ ํ ๋ฐ์ดํฐ
๋ง์ด๋ ์๋ฃจ์
SAS CA
SAS EM
์๊ฐํ ์๋ฃจ์
Dashboard
Chart/Graph
Oracle DB
ํ ์คํธ ํ์ผ / ๋ก๊ทธ ํ์ผ
์คํ์์ค ์๋ฃจ์
Tensorflow/Cafe
R / Python
Jupyter/Zeppelin
MapR ์ปจ๋ฒ์ง๋ ๋ฐ์ดํฐ ํ๋ซํผ
Sqoop Hive Impala
MapR-NFS Spark
Oozie
HUE / MapR MCS
Zookeeper
๋ฐ์ดํฐ ์์ง ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ์ดํฐ ๋ถ์
ยฉ 2017 MapR Technologies 61 Converged Data Platform
๊ฐ์ธํ ๋ง์ผํ ์์คํ ์ ์ฉ ์
4. ์คํ์์ค ์์ฝ์์คํ
MapR File System
. . .
Spark
SAS Impala Connector
SAS Hive Connector
SAS Data Loader
SAS Enterprise Miner
Hive
Impala
Hiveserver2
Spark
Hive
Impala
Spark
Hive
Impala
MapR File System
. . .
SparkR
Impala JDBC Driver
Hive JDBC Driver
MapR Client
R Server
Hive
Impala
Hiveserver2
SparkR
Hive
Impala
SparkR
Hive
Impala
JDBC
JDBC
JDBC
JDBC
API API
< MapR & SAS ์ฐ๊ณ ์ํคํ ์ฒ > < MapR & R ์ฐ๊ณ ์ํคํ ์ฒ >
์ ์ฉ ์ปค๋ฅํฐ๋ฅผ ํตํด Impala ์ Hive๋ฅผ ์ฐ๊ณํ์ฌ SAS์ ๋ฐ์ดํฐ ์์ค๋ก ํ์ฉ
SAS Data Loader๋ฅผ ํตํด Spark์ ์ฐ๊ณํ์ฌ SAS์ ๋ฐ์ดํฐ ์ ์ฌ์์ ์ ์์
JDBC ๋๋ผ์ด๋ฒ๋ฅผ ํตํด Impala ์ Hive๋ฅผ ์ฐ๊ณํ์ฌ R์ ๋ฐ์ดํฐ ์์ค๋ก ํ์ฉํ์ฌ R
Server์์ ๋ถ์์ ์ํ
MapR Client๋ฅผ ํตํด SparkR์ API๋ฅผ ํธ์ถํ์ฌ Spark ํด๋ฌ์คํฐ์์ ๋ถ์ฐ์ฒ๋ฆฌ
NFS NFS
ยฉ 2017 MapR Technologies 62 Converged Data Platform
4. ์คํ์์ค ์์ฝ์์คํ
๊ตฌ์ฑ ์ํคํ ์ฒ ์์
ํ๋ก๊ธฐ๋ฐ ํ๋ซํผ ๊ตฌ์ถ
Analytics
Streaming Data
Sensing
Log
Unstructured Data
Text
Documents
Legacy System
RDBMS
File System
Visualization
Graph
Chart
BI
Report
Ad-hoc Report
Search
Data Exploration
MapR Converged Data Platform
MapR-DB MapR File
System MapR Streams
Event Streaming
Storm
Spark Streaming
Interactive Query
Drill
Spark SQL
Batch Processing
Hive
Spark
Data Integration
Sqoop
Flume
Workflow/Devel.
Oozie
HUE
Machine Learning
Spark
Mahout ๋ก๊ทธ ์คํธ๋ฆผ
์ผ์ ์คํธ๋ฆผ
๋น์ ํ ๋ฌธ์ ์ ์ฌ
๋ฐ์ดํฐ ์ ์ฌ(ETL)
์ ํ ๋ค์ฐจ์ ๋ถ์
์ ํ ๋ฐ์ดํฐ ์๊ฐํ
๋น์ ํ ๋ฐ์ดํฐ ์๊ฐํ
๋ฐ์ดํฐ ๋ถ์
Inte
rfa
ce
(N
FS
/ h
ttp
FS
/ A
PI
/ O
DB
C)
Inte
rfa
ce
(N
FS
/ h
ttp
FS
/ A
PI
/ O
DB
C)
ยฉ 2017 MapR Technologies 63 Converged Data Platform
4. ์คํ์์ค ์์ฝ์์คํ
๊ตฌ์ฑ ์ํคํ ์ฒ ์์
ํ๋ก์ ์ฌ์ฉํ ํ์ด๋ธ๋ฆฌ๋ DW
Analytics
Streaming Data
Sensing
Log
Unstructured Data
Text
Documents
Legacy System
RDBMS
File System
Visualization
Graph
Chart
BI
Report
Ad-hoc Report
Search
Data Exploration
MapR Converged Data Platform
MapR-DB MapR
File System MapR Streams
Event Streaming
Storm
Spark Streaming
Interactive Query
Drill
Spark SQL
Batch Processing
Hive
Spark
Data Integration
Flume
Sqoop
Workflow/Devel.
Oozie
HUE
Machine Learning
Spark
Mahout
DW Appliance
Query Node
Data Node
Data Node ์ ํ ๋ค์ฐจ์ ๋ถ์
์ ํ ๋ฐ์ดํฐ ์๊ฐํ
๋น์ ํ ๋ฐ์ดํฐ ์๊ฐํ
๋ฐ์ดํฐ ๋ถ์
์ฟผ๋ฆฌ ํ๋๋ ์ด์ ๋ฐ์ดํฐ ์ ํ(Offload)
๋ฐ์ดํฐ ์ ์ฌ(ETL)
๋ก๊ทธ ์คํธ๋ฆผ
์ผ์ ์คํธ๋ฆผ
๋น์ ํ ๋ฌธ์ ์ ์ฌ
Inte
rfa
ce
(N
FS
/ h
ttp
FS
/ A
PI
/ O
DB
C)
Inte
rfa
ce
(N
FS
/ h
ttp
FS
/ A
PI
/ O
DB
C)