DLAB Big Data Issue Report 001

5
Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. In the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited. 초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류) Issue 001 April 8, 2014 DLAB Co., LTD. | 1128 HK-Tower 7F Guro-dong, Guro-gu, Seoul 152-779 KOREA | +82-2-3453-8124 | [email protected] | www.dlab.co.kr

description

일반인과 초보자를 위해 빅데이터의 이해를 돕기 위해서 DLAB에서 작성한 첫번째 Issue를 공개합니다. 본 자료 "빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들"는 비전문가와 일반인들이 가장 궁금해 할만한 내용을 선별해서 빅데이터 전략 및 사업 기획을 제안하는 전문가와 빅데이터 분석 전문가 그리고 빅데이터 IT 컨설턴트의 감수를 거친뒤에 배포가 됩니다. 이번 주제는 빅데이터를 이해하기 위한 가장 첫단계, 데이터의 개념과 종류편입니다. 아무쪼록, 빅데이터를 이해하는데 조금씩 도움이 되었으면 하는 바이며 지속적인 컨텐츠 제공으로 평소 빅데이터에 관심을 가지고 있었던 많은 분들에게 도움이 되었으면 합니다.

Transcript of DLAB Big Data Issue Report 001

Page 1: DLAB Big Data Issue Report 001

Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. In the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.

 

                                                                             

 

초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)

 

Issue 001 April 8, 2014

DLAB Co., LTD. | 1128 HK-Tower 7F Guro-dong, Guro-gu, Seoul 152-779 KOREA | +82-2-3453-8124 | [email protected] | www.dlab.co.kr  

Page 2: DLAB Big Data Issue Report 001

초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)

Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.  

2

최근 열리는 각종 세미나 및 컨퍼런스에서 빠지지 않는 단어가

빅데이터입니다. IT 관련 업무 관계자라면 익숙하게 접했을 단어이며 이미 대다수 기업과 공공기관에서는 빅데이터의 개념적인 이해와 가능성을 염두에 두고 있으며 해외 사례를 중심으로 빅데이터를 어떻게 도입할 것인가를 고민하고 있는 상황입니다.

기하급수적으로 증가하고 있는 대용량의 데이터를 처리하는 빅데이터 분석을 이해하기에 앞서 최근 몇 년간 빅데이터와 관련된 저널, 뉴스, 논문 등 해외는 물론 국내에서도 빅데이터에 대한 자료가 방대하게 쏟아지고 있는 상황입니다. 물론, IT 전문가들과 오랫동안 데이터를 만지던 통계전문가 및 데이터 분석가들은 빅데이터를 비교적 쉽게 이해할 수 있지만 대부분 빅데이터에 관심이 있는 비전문가들과 일반인을 위해 눈높이를 맞춘 자료를 찾아보기 어려운 실정입니다.

그럼, 이제 빅데이터가 무엇인지 그리고 어디서부터 시작해야 하는지 누구나 쉽게 이해할 수 있도록 <초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들>을 시작하려 합니다. 본 편은 기초적인 데이터의 개념과 종류에 대한 이해를 돕고자 만들어졌습니다.

빅데이터 관련 자료들을 살펴봤다면 3V, 4V 또는 비정형 데이터와 정형 데이터와 같은 자주 언급되는 단어들을 접했을 가능성이 있으며 조금 전문적인 자료를 살펴봤다면 하둡 (Hadoop), 카산드라 (Cassandra), 몽고 DB (Mongo DB), 알 (R), 데이터 마이닝 (Data Mining), 비주얼 마이닝 (Visual Mining), 텍스트 마이닝 (Text Mining), 소셜 고객관계 관리 (Social CRM), 경영정보학 (Business Intelligence), 자연어 처리 (Natural Language Processing)를 비롯해 차마 모두 열거하기 어려울 정도로 많은 용어와 메트칼프의 법칙과 같은 전문적인 이론들을 접하게 됩니다.

이러한 다양한 이론에 대한 이해와 분석역량을 보유하고 있는 전문가를 데이터 과학자 (Data Scientist)라고 통칭해서 부르기도 하지만 비전문가의 입장에서 모든 지식을 섭렵하고 이해하기에는 무척 복잡할 뿐 아니라 무엇부터 이해해야 좋을지 감을 잡기도 상당히 난해한 것이 사실입니다. 그렇기에 빅데이터와 함께 언급되는 수많은 정보를 단번에 이해하려고 하기보다는 일반적으로 흔히 말하는 데이터 (Data)에 대한 속성과 이해가 앞서야 합니다.

데이터란 숫자, 영상, 단어의 형태로 된 의미의 단위를 뜻합니다. 이러한 의미를 가진 Datum (데이터의 단수)이 여러 개의 집합체를 이루어 Data를 형성하게 되면 자료가 되며 이런 다양한 자료를 바탕으로 의미 있는 가치가 형성되면 정보 (Information)라고 부르게 됩니다. 예를 들어 -10이라는 숫자만 봐서는 아무런 의미도 부여할 수 없지만, 날씨가 -10 이라면 추운 온도를 뜻하는 의미를 형성하게 됩니다. 더 나아가서 오늘 날씨가 -10 이라면 오늘은 매우 추우니 야외 외출을 삼가거나 외투를 두껍게 입어야 좋겠다는 식의 정보를 형성하게 됩니다.

데이터의 기본적인 형태를 살펴보자면 기본적으로 질적 자료 (Qualitative Data)와 양적 자료 (Quantitative Data)로 나뉘게 되며 다시 양적 자료는 이산형 자료 (Discrete Data)와 연속형 자료 (Continuous Data)로 나뉘게 됩니다. 조금 복잡할 수 있지만 간단하게 설명을 하자면 질적 자료는 숫자가 아닌 자료이며 양적자료는 숫자로 되어있는 자료라고 풀이할 수 있습니다.

빅데이터는 무엇이며 도대체 어디서 부터 시작해야 하는가?

빅데이터가 아닌 데이터를 먼저 이해하자

데이터의 기본 형태와 종류: 질적자료 vs 양적자료

Page 3: DLAB Big Data Issue Report 001

초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)

Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.  

3

예를들어 “오늘 날씨는 춥다” 라는 정보는 수치화 시킬 수 없는 질적 자료의 영역에 해당하며, “오늘의 날씨는 -10°C”이라는 정보에서 -10은 숫자로 되어있는 양적 자료라고 할 수 있습니다.

그리고 이산형 자료와 연속형 자료를 구분하는 가장 쉬운 방법은 한개

두개, 한명 두명, 한병 두병 등 숫자를 세어서 나오는 자료 (Counted Data)를 이산형 자료라 설명할 수 있으며 연속형 자료는 체중, 온도, 길이, 등 측정된 자료 (Measured) 라고 설명할 수 있습니다. 즉, -10°C이라는 예문은 양적 자료이지만 더욱 자세히 설명하자면 연속형 자료라는 사실을 알 수 있습니다.

빅데이터와 관련된 자료들을 살펴보면 가장 많이 나오는 표현 중에 정형 데이터 (Structured Data)와 비정형 데이터 (Unstructured Data)라는 표현이 매우 많이 나옵니다. 정형 데이터는 잘 정리되어 분석하기 쉽고 단순한 형태로 되어있는 데이터를 정형 데이터라고 구분하고 비정형

데이터의 경우 잘 정리가 안 되어있으며 분석하기 힘들고 복잡한 형태로 되어있는 형태라고 이해를 할 수 있습니다. 흔히, 표현하는 데이터웨어하우스 (Data Warehouse)에 기록하고 저장된 데이터를 정형 데이터라고 할 수 있으며 정형 데이터 이외의 모든 복잡하고 다양한 형태의 데이터를 비정형 데이터라고 통칭합니다. 예를 들어 기업 또는 기관에서 저장하고 있는 고객 정보와 매출 정보 그리고 주문 정보와 직원 정보 등 전통적으로 오랫동안 축적되고 관리하는 데이터를 정형 데이터로 볼 수 있으며 지금 이 순간에도 폭발적으로 증가하고 있으며 소셜 데이터와 디지털 매체와 온라인 서비스의 급증으로 증가된 음성, 영상, 이미지 등의 다양하고 복잡한 형태의 데이터를 대표적인 비정형 데이터로 구분할 수 있습니다.

최근 수년간 스마트폰의 보급률 증가와 함께 일상생활 속에서 사람들이 만들어내는 다양하고 복잡한 형태의 디지털 정보 (다양한 비정형 데이터)가 폭발적으로 증가함과 동시에 이를 저장 및 분석 처리할 수 있는 하드웨어 인프라와 분석 기법들이 소개되면서 빅데이터가 주목받게 되었다고 설명할 수 있습니다.

출처에 따른 구분 방법으로는 내부 데이터 (Internal Data) 그리고 외부 데이터 (External Data)로 분류하기도 합니다. 예를들어 내부 데이터는 기업이 보유하고 있는 영업 데이터와 고객 데이터 그리고 거래 정보 또는 매출 기록에 해당하는 기업이 보유하고 있는 다양한 정보를 통칭하는 개념으로 외부로 데이터가 공개되기를 꺼리며 상당한 수준의 보안이 요구되는 데이터를 뜻합니다.

외부 데이터는 내부 데이터의 반대 개념으로 인터넷에서 접할 수 있는 소셜 데이터와 온라인 뉴스 및 블로그 등과 같은 데이터를 대표적인 내부 데이터라고 할 수 있습니다. 빅데이터 분석을 시작한 업체들 대부분이 인터넷에서 공개된 소셜 데이터를 활용한 사례들을 쉽게 찾아 볼 수 있는 이유는 가장 많은 양의 데이터를 가장 빠르고 쉽게 활용할 수 있는 환경적인 요인이 크게 작용 되었다고 할 수 있습니다. 최근 대한민국 정부 3.0의 정책 방향은 공공 기관에서 보유하고 있는 교통, 의료, 환경 정보 등 엄청난 양의 공공 데이터를 적극적으로 공개하고 빅데이터 분석을 통한 공공의 편익과 이익을 증진 시킬 수 있는 모델을 구축하고 신사업을 창출시키는데 의미를 두고 있습니다.

데이터의 형태에 따른 구분: 정형 데이터 vs 비정형 데이터

데이터의 출처에 따른 구분: 내부 데이터 vs 외부 데이터

Page 4: DLAB Big Data Issue Report 001

초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)

Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.  

4

각종 언론과 뉴스에서는 빅데이터를 마치 홍수처럼 쏟아지는 모든 데이터를 분석할 수 있는 새로운 개념으로 소개하고 있습니다. 빅데이터에 대한 잘못된 오해와 환상으로 무작정 방대한 데이터를 수집하는데 모든 역량을 쏟는 기업과 비즈니스 관계자들이 있는 것도 사실입니다.

하지만 데이터의 크기와 상관없이 무엇인가를 분석하기 위해서는 구체적인

계획과 분석 시나리오를 가지고 접근해야 불필요한 시간과 비용을 단축 시킬 수 있으며 자칫 정보과다 (Information Overload)로 인한 딜레마에 빠질 수 있습니다.

그렇기에 빅데이터를 이해하기에 앞서 아무리 작은 양의 데이터라도 각

데이터가 제공하는 정보와 의미를 파악하고 다양한 관점에서 데이터를 관찰할 수 있는 역량이 매우 중요합니다.

이번에는 빅데이터의 기초가 되는 데이터의 형태와 종류 그리고 분류 기준을 설명해 보았습니다. 다음에도 누구나

빅데이터에 관해 늘 궁금했던 내용들을 쉽게 알려드리도록 하겠습니다.

Spicy Thinker Contact Info: [email protected] Kakao Talk: spicythinker Twitter: spicythinker 캘리포니아 주립대학교에서 비즈니스 마케팅을 전공했습니다. 현재 DLAB 에서 마케팅과 비즈니스 컨설팅을 담당하고 있습니다.

주로 빅데이터 분석 플랫폼 활용방안 및 사업화 제안을 하고 있습니다.

About Author

데이터를 바라보는 시각

The End

Page 5: DLAB Big Data Issue Report 001

초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)

Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.  

5

데이터엔지니어스랩(DLAB)은 데이터를 기반으로 한 모든 애프리케이션 개발과 서비스를 제공하며, 특히 CRM/ BI/ Advanced Analytics 등 다양한 분야의 IT 컨설팅과 솔루션 개발을 주 업무로 하고 있습니다.

최근 주요사업 분야로는 빅데이터 분석 시스템 (Social Media Analytics [SMA] LG CNS와 공동개발)과 각종 대용량 데이터 수집과 분석 그리고 시각화 서비스를 다년간 제공하고 있으며 에너지 모니터링 시스템 (Photovoltaic Monitoring, Smart Grid Monitoring)등의 각종 사업을 수행하고 있습니다.

안 광종 대표이사 수석 컨설턴트 겸 Technology Leader Drexel University 경영학 석사 (1997) Drexel University 정보공학 석사 (2002) Suntek Systems, Inc. R&D 이사 (1998 – 2005)

Contact Info: [email protected] Twitter: kwangahn

디랩은 세계최고의 Intelligence Solutions 조직을 목표로 하며, Intelligence for Everyone을 모토로 모든 사람이 보다 쉽게 정보를 저장하고 활용할 수 있도록 기업솔루션에서 개인의 정보관리/ 의사결정지원 솔루션을 제공하고자 합니다.

E2P2C = Efficiency + Effectiveness + People + Process + Communication 입니다.

효율과 효과를 강조하면서 동시에 프로젝트를 수행하는 사람들을 Process와 Communication으로 지원하는 그립입니다.  

About DLAB