연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

58
연구패러다임 변화와 데이터 집중형 과학 2015. 11. 26 김선태 [email protected] 한국과학기술정보연구원

Transcript of 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

Page 1: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구패러다임 변화와데이터 집중형 과학

2015. 11. 26

김선태[email protected]

한국과학기술정보연구원

Page 2: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

목 차

• 빅데이터와 연구데이터

• 연구데이터와 빅데이터 관계

• 연구패러다임과 데이터 인식변화

• 연구데이터 관리와 RDS, DMP

• 무엇을 준비할 것인가?

연구패러다임 변화와 데이터 집중형 과학 2

Page 3: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구패러다임 변화와 데이터 집중형 과학 3

Page 4: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구패러다임 변화와 데이터 집중형 과학 4

Page 5: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

AS IS

연구패러다임 변화와 데이터 집중형 과학 5

Page 6: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구자에게 다가올(?) 세상

연구패러다임 변화와 데이터 집중형 과학 6

Page 7: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

빅데이터

연구패러다임 변화와 데이터 집중형 과학 7

Page 8: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

빅데이터

연구패러다임 변화와 데이터 집중형 과학 8

Page 9: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

February 2001 Doug Laney, an analyst with the Meta Group, publishes a research note titled “3D Data Management: Controlling Data Volume, Velocity, and Variety.” A decade later, the “3Vs” have become the generally-accepted three defining dimensions of big data, although the term itself does not appear in Laney’s note. (출처: Gil Press. 2013. A Very Short History Of Big Data)

빅데이터

연구패러다임 변화와 데이터 집중형 과학 9

Page 10: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

빅데이터

• 약 70년 전 “정보 폭발• a term first used in 1941, according to the Oxford English Dictionary

• October 1997 Michael Cox and David Ellsworth • We call this the problem of big data.

• November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled

• “Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting”

• February 2010 Kenneth Cukier “Data, data everywhere.”“…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect is being felt everywhere, from business to science, from governments to the arts. Scientists and computer engineers have coined a new term for the phenomenon: ‘big data.’”

연구패러다임 변화와 데이터 집중형 과학 10

Page 11: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

빅데이터

연구패러다임 변화와 데이터 집중형 과학 11

Page 12: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

Big 데이터 & Difficult 데이터

연구패러다임 변화와 데이터 집중형 과학 12

Page 13: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

연구패러다임 변화와 데이터 집중형 과학 13

Page 14: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

14

연구가 시작되어연구가 끝날 때 까지생산되는 모든 데이터

연구패러다임 변화와 데이터 집중형 과학

Page 15: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

• Another way of approaching a definition of research data is to ask the question ‘what needs to be kept to validate the results of research?’ This may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be kept in case research findings are questioned.

연구패러다임 변화와 데이터 집중형 과학 15

Page 16: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

16연구패러다임 변화와 데이터 집중형 과학

Page 17: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

Research data can be generated for different purposes and through different processes, and can be divided into different categories. Each category may require a different type of data management plan.

Research data can be generated for different purposes and through different processes, and can be divided into different categories. Each category may require a different type of data management plan.

Observational: data captured in real-time, usually irreplaceable. For example, sensor data, survey data, sample data, neurological images.

Experimental: data from lab equipment, often reproducible, but can be expensive. For example, gene sequences, chromatograms, toroid magnetic field data.

Simulation: data generated from test models where model and metadata are more important than output data. For example, climate models, economic models.

Derived or compiled: data is reproducible but expensive. For example, text and data mining, compiled database, 3D models.

Reference or canonical: a (static or organic) conglomeration or collection of smaller (peer-reviewed) datasets, most probably published and curated. For example, gene sequence databanks, chemical structures, or spatial data portals.

Source : Jinpei Cheng, THE DEVELOPMENT OF CHINA’S SCIENTIFIC DATA SHARING POLICY, Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop, http://www.nap.edu/catalog/11710.html>

Research Data : http://www.bu.edu/datamanagement/background/whatisdata/

Type- Numerical- Spatial- Graphical- Text etc..

연구패러다임 변화와 데이터 집중형 과학 17

Page 18: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

18

Research data may include all of the following:

• Text or Word documents, spreadsheets• Laboratory notebooks, field notebooks, diaries• Questionnaires, transcripts, codebooks

• Audiotapes, videotapes• Photographs, films• Test responses• Slides, artifacts, specimens, samples• Collection of digital objects acquired and generated during the process of research• Data files• Database contents including video, audio, text, images• Models, algorithms, scripts• Contents of an application such as input, output, log files for analysis software,

simulation software, schemas• Methodologies and workflows• Standard operating procedures and protocols

Source: Research Data http://www.bu.edu/datamanagement/background/whatisdata/

연구패러다임 변화와 데이터 집중형 과학

Page 19: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

연구패러다임 변화와 데이터 집중형 과학 19

거대강입자가속기(LHC) 제임스 웹 망원경

미국 중력파 검출장치 ‘LIGO’

Page 20: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

연구패러다임 변화와 데이터 집중형 과학 20

Page 21: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터

연구패러다임 변화와 데이터 집중형 과학 21

Page 22: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

과거의 연구데이터

연구패러다임 변화와 데이터 집중형 과학 22

Page 23: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터와 빅데이터 관계

연구패러다임 변화와 데이터 집중형 과학 23

The systematic investigation into and study of materials

and sources in order to establish facts and reach new conclusions. (Oxford)

세상의 여러 측면에 대하여 인간이 새롭게 알게 되었거나 이미 존재하던 지식의 발견, 해석, 정정, 재확인 등에 초점을 맞추는체계적인 조사를 일컫는 말 (Wiki)

3V

Page 24: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터와 빅데이터 관계

연구패러다임 변화와 데이터 집중형 과학 24

3V연구데이터 :• 연구과정에서 수집, 생산, 활용되는 데이터

빅데이터 :• 3V의 일부 특징을 가지고 있는 데이터• 데이터 생산, 관리, 활용 시 H/W, S/W, N/W 등의 장애를 초래하는 데이터

빅데이터 연구 :• 3V의 일부 특징이 있는 데이터를 이용한 연구• 이상에서의 빅데이터는 연구데이터와 동일한 개념

Page 25: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

Data-intensive Science

연구패러다임 변화와 데이터 집중형 과학 25

Page 26: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

• 1960년 Peter Naur è ‘computer science’의 대체 용어로 처음 사용. ‘datalogy’ 개념으로 사용

• 2015년 10월 현재 è 구조적 혹은 비구조적인 다양한 형식의방대한 데이터로부터 지식과 통찰력(insights)를 추출하는 분야와 이의 행위를 돕는 시스템과 관련된 다양한 분야

• 데이터 과학은 규모가 큰 빅 데이터에만 특화된 것이 아님. 빅데이터를 처리하기 위한 방법론들은 데이터 과학의 특화된 분야 중 하나일 뿐

• 데이터 과학은 비즈니스 환경에서 폭발적으로 사용되고 있지만 많은 학자와 저널리스트들은 ‘데이터 과학’과 ‘통계학’의 차이점이 명확하지 않기 때문에 데이터 과학이 부각되는것을 비판

Data science (출처: https://en.wikipedia.org/wiki/Data_science)

연구 패러다임과 데이터인식 변화 :

데이터 과학

연구패러다임 변화와 데이터 집중형 과학 26

Page 27: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

수학, 통계학계량분석화학

정보 과학, 컴퓨터 과학신호처리

가능성 모델기계학습, 통계학습데이터 마이닝

데이터베이스데이터 엔지니어링

패턴 인식과 학습가시화미래분석

불확실성 모델링데이터 웨어하우징

데이터 압축컴퓨터 프로그래밍

인공 지능고성능 컴퓨팅 …

농업의료

마케팅 최적화이상행위 감지

위기관리마케팅 분석

공공 정책 …

기후 변화나 황사, 해양 오염 등 범 지구적문제 해결 노력

다양한 분야에서문제점을 조사하고의사결정을 지원하는데 사용

연구 패러다임과 데이터인식 변화 :

데이터 과학의 기반기술과 활용

연구패러다임 변화와 데이터 집중형 과학 27

Page 28: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

데이터 수요∙보존∙공유

• 기후 데이터의 경우, 과거에는 기후 분야를 연구하는 과학자들이 주 사용

• 오늘날에는 물과 공공용지(public land), 건강, 해양 분야등의 자원 관리자들이 그들의 의사결정과 연구를 위해기후 데이터 접근 요청

• 정책 수립 분야에서도 기후 변화 대응 전략을 수립하기위하여 데이터 접근 필요

• 기하급수적으로 발생하는 기후 데이터에 대한 물리적인보존과 공유에 대한 이슈가 활발출처: Overpeck, J. T., Meehl, G. A., Bony, S., and Easterling, D. R., “Climate Data Challenges in the 21st Century”, Science, Vol. 331, 2011.

연구패러다임 변화와 데이터 집중형 과학 28

Page 29: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

오픈 데이터

29

일부 데이터에 한해서 저작권이나 특허와 같은제한 조건 없이 데이터 사용자가 원하는 데로 데이터의 재사용과 재 출판이 가능하도록 하자는운동

이 운동의 사상은 그 역사가 오래 됨해당 용어의 사용은 인터넷과 월드 와이드 웹의도래와 ‘Data.gov’, ‘Data.gov.uk’와 같은 정부의 공공데이터 개방과 발맞추어 시작

두 가지 측면에서 의미- 과학의 활성화 측면- 국가 데이터 개방과 재활용 측면

‘과학 데이터(scientific data)로의 자유로운 접근’ 개념67개국 참여 / 1957년 7월 - 1958년 12월 / IGY(International Geophysical Year) 프로젝트 수행과정에서 세계 데이터 센터(World Data Center) 시스템을 만드는과정에서 공식적으로 탄생

Open Data 키워드를 사용하고 있다. 데이터 공개와 재 사용성을 보장하기 위해서는 데이터의 체계적인 관리 필요

연구패러다임 변화와 데이터 집중형 과학

Page 30: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

오픈 데이터

30

오픈 데이터는오픈 사이언스를 가능케 하는 핵심 원칙 중 하나

데이터 중심 연구를 지원 과학의 활성화를 가능케 하는 운동

오픈 데이터와 오픈 사이언스를 통해다양한 범 지구적 문제를 해결할 수 있는 협동연구 가능

황사나 기후 변화와 같은 범 지구적 문제해양 오염이나 생태계 변화 등의 환경 문제는한 분야의 데이터 뿐 아니라기상, 해양, 천문, 지리정보, 생태 등 다양한 분야의 데이터를융합하여 분석함으로써 해결 가능

주요 선진국은공공자금이 투입된 연구 결과물의 체계적인 관리와 재사용을 보장하기 위해서연구 데이터(research data) 관리

이러한 저변 노력이 오픈 데이터와 오픈 사이언스 운동을 활성화 시킬 것

연구패러다임 변화와 데이터 집중형 과학

Page 31: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

Open Science principles

31

(그림출처: https://en.wikipedia.org/wiki/Open_science)

연구패러다임 변화와 데이터 집중형 과학

Page 32: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

주요 선진국 동향

연구데이터를 위한체계적인 국가적 인프라구축ANDS, ARCS, 중국 NSTI

연구데이터의 글로벌유통체제 선도NASA GCMD, TIB DataCite

연구데이터 보존 및 공유연구자 분석 및 교육JISC, DCC, PARSE.Insight

자국의 연구데이터 수집 및게이트웨이 서비스CISTI, ANDS

대한민국

현행 법률에서는 법적으로 ‘연구데이터’라는 개념이 명확하게 나타나 있지않음

「국가연구개발사업의 관리 등에 관한규정」상의 성과물관리제도로서 연구데이터가 일부 관리되고 있음

연구패러다임 변화와 데이터 집중형 과학 32

Page 33: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

호주 사례

연구패러다임 변화와 데이터 집중형 과학 33

Page 34: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 : DMP

연구패러다임 변화와 데이터 집중형 과학 34

Page 35: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

연구자의 고민

연구패러다임 변화와 데이터 집중형 과학 35

Page 36: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

연구자는 무엇을 원하는가?

연구패러다임 변화와 데이터 집중형 과학 36

Page 37: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

데이터의 중요성과 접근성

연구패러다임 변화와 데이터 집중형 과학 37

Page 38: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

SCIENCE 저널 – Data 설문조사

연구패러다임 변화와 데이터 집중형 과학 38

Page 39: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

SCIENCE 저널 – Data 설문조사

연구패러다임 변화와 데이터 집중형 과학 39

Page 40: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구 패러다임과 데이터인식 변화 :

SCIENCE 저널 – Data 설문조사

연구패러다임 변화와 데이터 집중형 과학 40

Page 41: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터 관리와 RDS:

THE UNIV. of EDINBURGH 사례

연구패러다임 변화와 데이터 집중형 과학 41

Page 42: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터 관리와 RDS:

THE UNIV. of EDINBURGH 사례

연구패러다임 변화와 데이터 집중형 과학 42

Page 43: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터 관리와 RDS:

데이터 리포지터리

Looking back over two years of development and growth of re3data.org, we began in August 2012 with 23 entries. At the time of our official launch, 171 research data repositories had been cataloged.

2015.11.20 현재1,200개 이상리포지터리 등록

연구패러다임 변화와 데이터 집중형 과학 43

Page 44: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

연구데이터 관리와 RDS:

데이터 리포지터리

Biodiversity è 108개 Life Sciences è 720개 연구데이터 리포지터리(As of. 2015. 11. 20)

연구패러다임 변화와 데이터 집중형 과학 44

Page 45: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

Datanest 배경

• 하드웨어 발달, 초고속 네트워크 확산, 첨단 정보기술 발달 등으로 방대한 양의 데이터 생산

• 데이터 중심의 연구 패러다임이 등장하면서 가치 있는데이터를 선별하고 이의 체계적 관리가 매우 중요

• 연구자들의 데이터는 PC나 CD, USB 등 개인 저장장치에보존되다 소멸되거나 관리가 어려워 재사용 되지 못함

• 연구자가 생산한 데이터를 쉽게 관리하고 재사용을 가능케 하는 플랫폼 필요

연구패러다임 변화와 데이터 집중형 과학 45

Page 46: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

Datanest 배경

데이터 중심, 4세대 연구패러다임 속에서 효율적인 융·복합 연구를 지원하고, 국가자산

으로의 과학데이터를 체계적으로 관리하여 재활용 할 수 있는 체제가 필요함

데이터 중심, 4세대 연구패러다임 속에서 효율적인 융·복합 연구를 지원하고, 국가자산

으로의 과학데이터를 체계적으로 관리하여 재활용 할 수 있는 체제가 필요함

2

22.

34

acG

aa

K-=÷÷÷

ø

ö

ççç

è

ærp

2

22.

34

acG

aa

K-=÷÷÷

ø

ö

ççç

è

ærp

1세대경험적 연구

2세대이론적 연구

3세대컴퓨팅 파워 기반 연구

4세대데이터 기반 연구

• 국가 R&D 예산이 투입되어 산출된 데이터도국가자산으로 관리하여 재사용 될 수 있어야 함

• 과학기술 빅데이터를 기반으로 하는 융·복합 연구를 발굴하여국가적 현안을 해결하는 연구 수행

연구패러다임 변화와 데이터 집중형 과학 46

Page 47: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

What is Datanest ?

Research Data Repository

연구패러다임 변화와 데이터 집중형 과학 47

Page 48: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

Datanest Lifecycle Actors’ Role

연구패러다임 변화와 데이터 집중형 과학 48

Page 49: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

MBIK & DATANEST

국립해양생물자원관

• 데이터 출판 및 인용 지원• 의학연구 연계를 위한 S/W인프라 지원

NDSLNTIS

연구패러다임 변화와 데이터 집중형 과학 49

Page 50: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

Managing Data

연구패러다임 변화와 데이터 집중형 과학 50

l 연구데이터 정의

l 데이터 관리를 위해 기관 Infrastructure 개선 가이드

l RDM Framework 핵심요소 4가지 제시

l ANDS Content Providers Guide

l ANDS Guide What is Metadata?

l 데이터와 메타데이터를 위한 저장소(스토리지)

l 연구데이터 관리를 위한 연구자와 기관의 역할과 책임

무엇을 준비할 것인가 :

정책과 가이드라인

Page 51: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

Describing Data for Discovery and Reuse

연구패러다임 변화와 데이터 집중형 과학 51

l Describing Data for Research Data Australia Guides

l Metadata Guides

Publishing Datal Publishing Data with ANDS Guides

l Publishing Data Guides

Ethics, Funders, Policy and Licensingl Policy and Licensing Guides

l Funders

l Ethics and Sensitive Data Guides

Page 52: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

Data Citation

연구패러다임 변화와 데이터 집중형 과학 52

l Data Citation and Identifiers Guides

Building the Australian Research Data Commons

Identifying Data and Researchers

Guides for ANDS Online Services

Page 53: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

Data Scientists

방대한 양의 빅데이터를 이해할 수 있는 전문직종을 설명하기 위해서최근(?)에 출현한 용어하지만 데이터를 이해하는 것은 오래 전부터 과학자, 통계학자, 사서, 컴퓨터 과학자 등 많은 분야에서 논의해 오고 있는 것임

연구패러다임 변화와 데이터 집중형 과학 53

Page 54: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

Data Scientists

Data Scientists (NSF 2005, p27)

The information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection

데이터 과학자

데이터 과학과 관련된 분야를 전공하고 데이터분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기(story)에 담아 다른 사람에게 효과적으로 전달하는 역할을 한다.(O’Reilly Media, 2012)

데이터 과학자

Business analyst VS. Data analystResearch ScientistData Scientist

(Jeff Hammerbacher & DJ Patil / 2008년)

Experiences like my own suggest that the best way to become a data scientist isn’t to be trained as a data scientist, but to do serious, data-intensive work in some other discipline.

연구패러다임 변화와 데이터 집중형 과학 54

Page 55: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

Data Scientists

연구패러다임 변화와 데이터 집중형 과학 55

Page 56: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

무엇을 준비할 것인가 :

WHO

Abrams 2013

연구패러다임 변화와 데이터 집중형 과학 56

Page 57: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

57연구패러다임 변화와 데이터 집중형 과학

무엇을 준비할 것인가 :

WHO

Page 58: 연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관

경청해 주셔서 고맙습니다.

Q & A연구패러다임 변화와 데이터 집중형 과학 58