제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

32
2014 3 iTalks 세미나 Oct. 1, 2014

description

Enterprise SW로 진화허는 Hadoop - 빅데이터와 Hadoop 현황 및 전망

Transcript of 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

Page 1: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

2014년제3회 iTalks 세미나

Oct. 1, 2014

Page 2: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

Contents

Page 4: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터의짧은역사

Big Data 용어의 원조– John R.Mashey(Chief Scientist at SGI), April 1998

출처: John R. Mashey, Big Data and the Next Wave of InfraStress,1998

Page 5: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터의짧은역사

Big Data 용어의 도화선– McKinsey Global Institute,“Big Data:The next frontier for innovation,competition, and productivity”보고서(2011)

• 빅데이타 속에서 누가 먼저 가치를 추출해 내느냐에 따라 기업의 성패가 나뉠 것이라고 언급

• 빅데이타가 새로운 유형의 기업 자산으로 자리 잡을 것이라고 예측

출처: McKinsey Global Institute, “Big Data: The next frontier for innovation, competition, and productivity”, 2011

Page 6: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터의짧은역사

빅 데이터의 정의(3V)

출처: Industry Insiders Report: Big Data in manufacturing - Part 1

Page 9: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

하둡의더짧은역사

Hadoop Timeline– 빅데이터의 사실상(de facto)의 기술 표준으로 인식, but…

출처: J. Yates Monteith, John D. McGregor, John E. Ingram, Hadoop and its evolving ecosystem, 2013.9.13, 참고수정

프로젝트로승격출시설립

로전환

회명참석

더그커팅 합류

최대하둡클러스터라주장 출시

Page 10: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

Hadoop 생태계– Distibutions

– 3rd PartyMgmt. SW

– Opreational Databases

– SQLonHadoop

– Frameworks/Languages

– Analytic Applications/Platforms

– Hadoopasa Service(Apps/Alaytics)

– Hadoopasa Servce(Infra.)

– HadoopRepackaged

– Competitive Platforms

– HDFSAlternatives

하둡의더짧은역사

출처: Gigaom,The Hadoop ecosystem: the (welcome) elephant in the room, 2013.5.5

Page 12: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

하둡의더짧은역사

Hadoop 지배자는?(2)

출처: Forrester Research, The Forrester Wave™: Big Data Hadoop Solutions, Q1 2014

Page 13: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

하둡2.0

YARN(Yet Another Resource Negotiator)

출처: Hortonworks, Hadoop Summit 2014, 2014.6

Page 14: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

Hadoop 1 vs Hadoop 2(1)

하둡2.0

Limited up to 4,000 nodes per

cluster

O(# of tasks in a cluster)

JobTracker bottleneck -

resource management, job

scheduling and monitoring

Only has one namespace for

managing HDFS

Map and Reduce slots are static

Only job to run is MapReduce

Potentially up to 10,000 nodes per

cluster

O(cluster size)

Supports multiple namespace for

managing HDFS

Efficient cluster utilization (YARN)

MRv1 backward and forward

compatible

Any apps can integrate with

Hadoop

Beyond Java

Page 15: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

하둡2.0

Hadoop 1 vs Hadoop 2(2)

HADOOP 1.0

HDFS(redundant, reliable storage)

MapReduce(cluster resource management

& data processing)

HDFS2(redundant, highly-available & reliable storage)

YARN(cluster resource management)

MapReduce(data processing)

Others

HADOOP 2.0

Single Use System

Batch Apps

Multi Purpose Platform

Batch, Interactive, Online, Streaming, …

출처: Hortonworks, Hadoop Summit 2014, 2014.6

Page 16: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

하둡2.0

Hadoop 1 vs Hadoop 2(3)

출처: Apache Software Foundation, 2013. 10.

Page 17: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

하둡2.0

YARN: the Data Operating System

출처: Hortonworks, Apache Hadoop YARN-Present and Future, 2014.6

Page 18: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

국내 Big Data 관심도

출처: Google Trends. 2014.6

Page 19: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

빅데이터의 자화상에대해 표현하자면…– “Big data is like teenage sex: everyone talks about it, nobody

really knows how todo it, everyone thinks everyoneelse is doing

it, so everyoneclaims theyaredoing it.”(작자 미상)

– “빅데이터의 현실은 아직 실체 없는 경험담과 성공사례 수집,목적 없

는 기계학습 스터디 등 나침반 없는 망망대해에 있는 상황”(최대우 교

수)

– Conference,세미나,Meetup만 하다가 끝나겠네(김동한)

Page 20: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

잘못된 사례-해외(구글 독감 예측)

빅데이터, 하둡의현주소및전망

출처: * Kate Crawford , Untangling algorithmic illusions from reality in big data, 2013.3

측면의데이터이슈

측면의데이터이슈

Page 21: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

잘못된 사례-국내(6.4 지방 선거)– 11개 관심 선거구, 6개 적중

– Data의 한계, Social Data만이 빅데이터?

출처: 와이즈넛, 한국형빅데이터선거분석사이트 '초이스화면, 2014.6

Page 22: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

좋은 사례-해외(브라질 월드컵)– SAP,‘매치 인사이트’,선수 움직임/유형 빅데이터로 실시간 분석

출처: http://blogs.wsj.com/cio/2014/07/10/germanys-12th-man-at-the-world-cup-big-data/

Page 23: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

좋은 사례-국내(서율시 심야 버스)– 기존 노선도:교통카드 데이터의 기/종착지 분석이 활용

– 심야버스 노선:이동통신사의 통화량 분석(약30억 건)

Page 24: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

빅데이터의 전망

출처: KISTI, 빅데이터산업의현황과전망, 2013.4

Page 25: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

Hadoop 도입

빅데이터, 하둡의현주소및전망

출처: Hortonworks, Hadoop Summit 2014, 2014.6

Page 26: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

Hadoop이 기존 DW 대체?

출처: Wikibon, Q2 2014 Big Data Survey, 2014

Page 27: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

Hadoop 시장 전망(1)

출처: Wikibon, Hadoop-NoSQL Software And Services Market Forecast 2012-2017, 2013.9

Page 29: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

빅데이터, 하둡의현주소및전망

하둡의 전망: 10 Reasons to Adopt Hadoop1. Hadoop is relatively inexpensive

2. Hadoophasanactiveopen sourcecommunity

3. Hadoop is beingwidely adopted inevery industry

4. Hadoopcaneasily scaleout as your datagrows

5. Traditional tools are integratingwith Hadoop

6. Hadoopcan storedata inany format

7. Hadoop is designed to run complexanalytics

8. Hadoopcanprocess a full data set

9. Hardware is beingoptimized for Hadoop

10. Hadoopcan increasingly handle flexibleworkloads

출처: By Dirk deRoos, Hadoop For Dummies, 2014.4

Page 30: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

마무리

오늘 iTalks을 마치며…(1)

출처: 전용준, 산업별 Big Data 사례, 이슈및발전방향, 2014.8

Page 31: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

마무리

오늘 iTalks을 마치며…(2)

출처: 전용준, 산업별 Big Data 사례, 이슈및발전방향, 2014.8

Page 32: 제3회 사내기술세미나-hadoop(배포용)-dh kim-2014-10-1

iTalks to be continued…