국가 과학데이터 공유 활용체제 구축 (A Development on the...

164
K-12-L10-C02-S01 국가 과학데이터 공유 활용체제 구축 (A Development on the Scientific Data Sharing and Utilizing System) 한국과학기술정보연구원 2012교육과학기술부

Transcript of 국가 과학데이터 공유 활용체제 구축 (A Development on the...

  • K-12-L10-C02-S01

    국가 과학데이터 공유 • 활용체제 구축

    (A Development on the Scientific Data Sharing

    and Utilizing System)

    한국과학기술정보연구원

    2012년

    교육과학기술부

  • - 2 -

  • - 3 -

    제 출 문

    교육과학기술부 장관 귀하

    본 보고서를 “국가 과학데이터 공유·활용체제 구축”과제의

    보고서로 제출합니다.

    2013. 1.

    주관연구기관명 : 한국과학기술정보연구원(직인)

    주관연구책임자 : 이 상 환

    연 구 원 : 박 경 석

    김 선 태

    이 상 호

    김 태 중

    박 형 선

    신 진 섭

    장 행 진

    박 형 우

    김 법 균

    윤 희 준

    손 은 실

    이 소 현

  • - 4 -

  • - 5 -

    보고서 초록

    과제관리번호 K-12-L10-C02해당단계연구기간

    2012.01.01 -

    2012.12.31단계구분 시작과제

    연구과제명

    대과제명

    세부과제명 국가 과학데이터 공유·활용체제 구축

    과제명(영문)A Development on the Scientific Data Sharing and Utilizing

    System

    연구책임자 이 상 환해당단계

    참여연구원수

    총 : 16 명 내부 : 11 명 외부 : 5 명

    해당단계연구비

    정부: 1,753,000 천원기업: 천원 계: 천원

    연구기관명 및소속부서명

    한국과학기술정보연구원정책연구실

    참여기관명

    국제공동연구 상대국명 : 상대국연구기관명 :

    위 탁 연 구 연구기관명 : 충북대학교 연구책임자 : 윤종민 연구기관명 : 백석대학교 연구책임자 : 강윤희 연구기관명 : 서울시립대학교 연구책임자 : 이용우

    요약보고서면수

    142

    본 연구과제의 목적은 연구과제에서 생산된 과학데이터의 국가적 관리·활용 체제를 구축하여

    과학데이터를 활용한 4세대 R&D를 선도함으로써 과학기술 강국으로의 도약을 위한 기반을 마

    련하는 것임. 이를 위해, 본 연구과제는 당해연도에 다음과 같이 수행되었음.

    과학데이터 수집, 공유 활용체제 구축

    - 분야별 데이터 Repository 구축 및 보급

    - 과학데이터 포털 서비스 구축

    - 과학데이터 협력 네트워크 구축

    - 과학데이터 활용을 위한 법·제도 정비

    - 과학데이터 수집 전략 수립 및 기획

    - 인체 데이터 개발 및 보급

    과학데이터 기반 첨단 연구 환경 구축

    - 극지분야 대용량 데이터 팜 구축

    - 극지분야 컴퓨팅 환경 구축 및 시범 서비스

    색 인 어한 글 과학데이터, 데이터 팜, 첨단 연구 환경

    영 어 scientific data, data farm, advanced research environment

  • - vi -

  • - vii -

    요 약 문

    Ⅰ. 제목

    국가 과학데이터 공유·활용체제 구축

    Ⅱ. 연구개발의 목적 및 필요성

    정부 R&D 예산이 투입된 연구과제로부터 도출된 과학데이터를 국가

    자산으로 관리해야 하며, 이를 위해 국가과학데이터 연계·융합 체제 구

    축 필요

    국가 차원에서 과학데이터를 관리할 수 있는 기반을 구축하고 공유·활

    용을 촉진시킬 수 있는 법제도 마련 필요

    정부, 전문연구기관, 개별 연구자들의 역할 분담을 통해 효율적이고 체

    계적인 과학데이터 공유·활용 체제 구축 필요

    다양한 이해관계자들 간의 합의되고 검증된 과학데이터 공유 모델 개발

    을 위해 국가차원의 추진 기구 및 관리 체계 마련 필요

    분야별 전문 데이터센터를 구축하여 국가 R&D 프로그램과 연계하고

    관련 국제기구와 협력 필요

    과학데이터를 활용한 4세대 R&D를 선도함으로써 과학기술 강국으로

    도약을 위한 기반 마련 필요

    - 하드웨어의 발달, 초고속 네트워크의 확산 등으로 방대한 양의 데이

    터가 생산되고 있으며 유비쿼터스 기술의 발전으로 데이터 수집과 활

    용이 용이

    - 최근 연구자들의 20% 이상이 100GB가 넘는 데이터를 활용하여 연구

    를 수행하고 있으며 8% 정도가 1TB 이상의 데이터를 활용하는 등 데

    이터 중심 R&D 패러다임 등장

  • - viii -

    Ⅲ. 연구개발의 내용 및 범위

    과학데이터 수집, 공유 활용체제 구축

    - 분야별 데이터 Repository 구축 및 보급(2개 분야)

    ⦁ 분야별 메타데이터 설계 ⦁ 분야별 과학데이터 수집 시스템 개발 ⦁ 데이터 수집·관리·운영 지침 개발 - 과학데이터 포털 서비스 구축(신규개발)

    - 과학데이터 협력 네트워크 구축

    ⦁ 분야별 과학데이터 위원회 구성 및 운영(신규 2개 분야) ⦁ CODATA 한국 위원회 구성 및 운영 ⦁ DataCite 등 국제기구 참여 - 과학데이터 활용을 위한 법·제도 정비

    - 과학데이터 수집 전략 수립 및 기획

    ⦁ 분야별 과학데이터 현황 조사 및 수요조사 ⦁ 국가 과학데이터 서비스 모델 및 로드맵 작성 - 인체 데이터 개발 및 보급

    과학데이터 기반 첨단 연구 환경 구축

    - 극지분야 대용량 데이터 팜 구축

    ⦁ 전용 테스트베드 시스템 구축 ⦁ 주요 극지분야 데이터 미러링 시스템 설계 ⦁ 극지분야 컴퓨팅 환경 구축 및 시범 서비스

    Ⅳ. 연구개발결과

    분야별 과학데이터 공유·활용을 위한 협력 기반 마련

    국제과학데이터위원회(CODATA)의 한국위원회를 중심으로 과학데이터

    의 국가적 활용도를 높이기 위한 정책 수립 및 국가차원의 방향 정립

  • - ix -

    각 연구기관의 데이터 생산자 및 관리자와 협력체제 구축함으로써 분

    야별 과학데이터센터와 국가과학데이터센터 구축‧운영 모델 정립

    국가 과학데이터 공유·활용을 위한 플랫폼 개발(P-CUBE)

    분야별 과학데이터의 효율적인 관리를 위한 Repository 시스템 개발

    국가 차원의 과학데이터 공유·활용을 위한 과학데이터 통합

    Repository 시스템 개발

    극지분야 빅 데이터 관리·분석을 통한 기후 예측 연구 지원

    전 세계적인 관심사로 떠오르고 있는 기후변동과 관련하여 북극권 온

    난화 과정이 한반도를 포함한 동아시아 지역의 기후변화에 미치는 영

    향을 예측하기 위한 빅 데이터 중심의 연구지원

    (과학데이터연구팀 + 슈퍼컴퓨팅센터 협력 → 극지연구소 지원)

    Ⅴ. 연구개발결과의 활용계획

    과학기술 빅데이터의 체계적 활용과 국가적 공동 활용을 위한 전략 수립

    포럼 및 토론, 각 부처 빅데이터 추진계획 등을 종합하여 “국가 빅데

    이터 R&D 추진 전략 및 기술 로드맵” 작성에 활용

    기술 동향 분석 및 국가별 추진 동향 분석, 국내 기술 수준 및 추진

    과제 발굴 등을 통해 국가 과학기술 빅데이터 추진 계획 수립 및 방향

    정립을 위한 기초 자료로 활용

    인공위성 원격탐사 데이터 활용을 위한 과학기술 Big Data 플랫폼 구

    축 공동 연구 과제 발굴

    인공위성 원격 탐사 처리 및 분석을 위한 기술 개발 및 적용을 통해

    전 지구적 문제 해결 및 기후변동 연구를 위한 플랫폼으로 활용

    대용량 과학기술 빅데이터 처리 및 분석을 위한 분산병렬 처리 기술

    확보로 다양한 분야의 응용 사례 발굴 및 적용

  • - x -

    Summary

    Ⅰ. Title

    A Development on the Scientific Data Sharing and Utilizing System

    Ⅱ. Objective of the study and its importance

    Growing need to manage scientific data from government-funded

    research project as national assets and construct national utilization

    system of the scientific data

    Construction of efficient and methodical sharing and utilization

    system of scientific data via division of roles between government,

    research institute, and researchers

    Connecting sectoral data centers to national R&D programs and

    collaborating with related international organizations

    Laying the groundwork for leaping to the world powers of science

    and technology by leading 4th R&D utilizing scientific data

    Ⅲ. Content and scope of the study

    Construction of collection, sharing, and utilization system of scientific

    data

    Development and distribution of sectoral data repository

    Development of the portal service of scientific data

    Construction of collaborative networks of scientific data

    Modification of the legal system related utilization of scientific data

    Strategic planning for gathering scientific data

  • - xi -

    Construction and distribution of human body data

    Construction of advanced research environment based on scientific

    data

    Construction of a large data farm of polar data

    Ⅳ. Results of the study

    Laying the collaborative groundwork for sharing & utilization of

    sectoral scientific data

    Policy making and national direction establishment of national

    utilization of scientific data pivoting on Korean National

    Commission of CODATA

    Establishment of construction & operation model of national

    scientific data center and sectoral scientific data centers by

    constructing collaborative system between data producers and

    managers of each research institute.

    Development of platform for national scientific data sharing and

    utilization(P-CUBE)

    Development of repository system for efficient management of

    sectoral scientific data

    Development of integrated repository system for national scientific

    data shareing and utilization

    Supporting researches on climate prediction by management and

    analysis of big data related polar areas

    Supporting big data centric research for predicting influences that

    Arctic Circle warming process have on climate changes of East Asia

    including the Korea Peninsular in regard to climate changes that

  • - xii -

    becomes the main global interest

    Ⅴ. Application schemes

    Strategy establishment of national systematic common utilization of

    S&T big data

    Application to preparing "national big data R&D promotion strategy

    and technology roadmap" synthesizing forums, discussions, big data

    promotion plans of each government department

    Application to baseline data for establishing national promotion plan

    and direction of S&T big data by technology trends analysis,

    promotion trends analysis in other countries, promotion project

    discovery, and so on

    Discovering joint research projects of development of S&T big data

    platform for utilizing satellite remote sensing data

    Application to global problem solving and climate change researches

    by developing and applying technologies for processing and

    analyzing satellite remote sensing

    Applied case study in various fields on distributed parallel

    processing for handling and analyzing large S&T big data

  • - xiii -

    Contents

    I. Introduction ············································································································· 1

    1. The necessities of the research ············································································ 1

    2. The purpose and scope of the research ···························································· 4

    II. Status of domestic and overseas technology development ··················· 6

    1. Overseas status ············································································································ 6

    2. Domestic status ············································································································· 8

    III. Content and results of the study ································································· 9

    1. Development and distribution of sectoral data repository ························· 9

    2. Reform of the human body information website ·········································· 28

    3. Construction of collaborative networks of scientific data ·························· 33

    4. Modification of the legal system related to utilization of scientific data

    ············································································································································· 54

    5. International collaborative activities ································································· 67

    6. Strategic planning for gathering scientific data ··········································· 79

    7. Construction and distribution of human body data ····································· 83

    8. Construction of a large data farm of polar data ········································· 99

    IV. Goal achievement and contribution to related areas ······················ 135

    1. Goal achievement ·································································································· 135

    2. Contribution to related areas ··········································································· 138

    V. Application plan of research outcomes ·················································· 139

  • 목 차

    제1장 연구개발과제의 개요 ······················································································· 1

    제1절 연구개발의 필요성 ······················································································ 1

    제2절 연구개발의 목표 및 범위 ·········································································· 4

    제2장 국내외 기술개발 현황 ····················································································· 6

    제1절 해외 현황 ······································································································ 6

    제2절 국내 현황 ······································································································ 8

    제3장 연구개발수행 내용 및 결과 ··········································································· 9

    제1절 분야별 데이터 Repository 구축 및 보급 ··············································· 9

    1. 분야별 데이터 Repository (P-CUBE) 개발 ·········································· 10

    2. P-CUBE 기능설명 ······················································································ 14

    3. P-CUBE 사용성 평가 및 보급 ································································ 22

    제2절 인체정보 홈페이지 개편 ·········································································· 28

    1. CMS 솔루션 비교 연구 수행 ·································································· 28

    제3절 과학데이터 협력 네트워크 구축 ···························································· 33

    1. 과학 데이터 기반 연구 환경 조사 ························································· 33

    2. CODATA 한국위원회 재구성 ································································· 44

    제4절 과학데이터 활용을 위한 법·제도 정비 ················································· 54

    1. 필요성 및 연구 방법 ················································································· 54

    2. 위탁연구 과정 및 결과의 주요 내용 ····················································· 54

    3. 리포지터리에서 검토되어야 할 권리와 조건 ······································· 58

    제5절 국제협력 ······································································································ 67

    1. 필요성 및 추진 방법 ················································································· 67

    2. 중국 ··············································································································· 67

  • - xv -

    3. DataCite ······································································································· 71

    4. GBIF (Global Biodiversity Information Facility) ······························· 72

    5. CODATA (Committee on Data for Science and Technology) ······ 76

    제6절 과학데이터 수집 전략 수립 및 기획 ···················································· 79

    1. 과학기술 빅데이터의 체계적 활용과 국가적 공동 활용을 위한 전략 수립 ··· 79

    2. 인공위성 원격탐사 데이터 활용을 위한 과학기술 Big Data 플랫폼

    구축 공동 연구 과제 발굴 ······································································· 82

    제7절 인체 데이터 개발 및 보급 ······································································ 83

    1. 측정 및 참조표준 과학데이터 구축과 활용 ········································· 83

    2. 한국인의 인체 절단면 영상 구축 ··························································· 84

    3. 중국인 인체 뼈대 정보 시범 구축 ························································· 96

    제8절 극지분야 대용량 데이터 팜 구축 ·························································· 99

    1. 데이터팜 시스템 요구사항 ······································································· 99

    2. 데이터팜 아키텍쳐 설계 ········································································· 100

    3. 데이터팜 성능 및 서비스 개선 기술 개발 ········································· 107

    제4장 목표달성도 및 관련 분야에의 기여도 ····················································· 135

    제1절 목표달성도 ································································································ 135

    제2절 관련 분야에의 기여도 ············································································ 138

    제5장 연구개발결과의 활용계획 ··········································································· 139

    제1절 기대 성과 ·································································································· 139

    제2절 활용 계획 ·································································································· 139

    제6장 참고문헌 ········································································································· 141

  • - xvi -

    표 차례

    해외 주요 과학데이터 프로젝트 ································································ 7

    국내 과학데이터 구축 현황 ······································································ 8

    ISO 사용성 측정요소 ················································································ 23

    사용성평가 의견 ························································································ 25

    VK 메뉴구조 ······························································································ 31

    DK 메뉴구조 ······························································································ 32

    CODATA 한국위원회 위원 명단 ···························································· 47

    제28차 CODATA 총회 참석자 명단 ······················································ 48

    국가 빅데이터 전략 포럼 개최 ······························································· 79

    국가 빅데이터 전략 포럼 위원 구성 현황 ············································ 80

    구역화영상에 있는 남성 온몸의 팔 구조물(40개) ································ 90

    3차원영상을 둘러보는 PDF 파일에 있는 구조물(642개) ··················· 90

    Male head Structures in the Segmented images(30 structures) ····· 93

    Male head Structures in the surface models(30 structures) ············ 94

    Female structures in the Segmented images(100 structures) ·········· 94

    Female structures in the surface models(100 structures) ················· 95

    The common process for scientific data experiments ···················· 106

    The elapsed time for transferring a file according to the number

    of threads(unit: ms) ············································································· 112

    The elapsed time for Read/Write operations of a file according to

    the number of threads(unit: ms) ······················································· 114

    The elapsed time for transferring in the multi-thread model

    according to the number of threads(unit: ms) ····························· 115

    The elapsed time for transferring by UDP protocol according to

    the number of threads(unit: ms) ······················································ 115

  • - xvii -

    The elapsed time for file transfer according to the number of

    threads by using asynchronous mode(unit: ms) ···························· 117

    The elapsed time for file transfer according to the number of

    threads by using synchronous mode(unit: ms) ····························· 117

    The elapsed time for buffer based file transfer according to the

    number of threads (unit: ms) ·························································· 119

    The elapsed time of the data transfer model for multiple files

    according to the number of threads (unit: ms) ····························· 120

  • - xviii -

    그림 차례

    기상데이터의 증가 추세 / 연구에 활용한 데이터의 크기

    (Science, 2011) ······················································································ 1

    P-CUBE 목표시스템 ·········································································· 11

    P-CUBE 주요 기능 ············································································ 11

    P-CUBE 워크 플로우 ········································································ 13

    P-CUBE 이용자 시스템 인터페이스 ·············································· 14

    상세검색 인터페이스 ········································································· 15

    조직 & 컬렉션 관리 ·········································································· 15

    아이템 상세정보 인터페이스 ··························································· 16

    제출된 아이템 리스트 ······································································· 16

    검증대상 아이템 리스트 ··································································· 17

    P-DRIVE 관리 ··················································································· 17

    P-DRIVE 아이템 리스트 ································································· 17

    P-CUBE 관리자 시스템 ·································································· 18

    스키마 생성을 위한 기본정보 입력 인터페이스 ······················· 18

    스키마 신규 생성을 위한 입력구조 설정 ··································· 19

    조직 & 컬렉션 관리를 위한 인터페이스 ···································· 19

    컬렉션 생성을 위한 기본정보 입력 ············································· 20

    제출된 아이템 관리 ········································································· 20

    철회 아이템 관리 인터페이스 ······················································· 21

    그룹관리 인터페이스 ······································································· 21

    환경설정 인터페이스 ······································································· 22

    사용성 평가 ······················································································· 23

    사용성 평가 질의서 ········································································· 24

    CMS Market Share ·········································································· 28

  • - xix -

    대표적인 해외 CMS들의 장단점 비교 ········································ 28

    Drupal 안내 ······················································································ 29

    데이터의 법률적 권리 ····································································· 59

    CNIC 조직도 ····················································································· 69

    중국과학기술정보연구소 조직도 ··················································· 70

    DataCite의 회원국가 분포 ····························································· 71

    GBIF(세계생물다양성정보기구):Operation of GBIF Data Portal

    Mirror Site in KISTI ······································································· 73

    GBIF established Data Portal mirror sites on three continents ··· 74

    GBIF Asia Regional Node Committee (June,2012, Chinese

    Taipei) ······························································································· 75

    NBIC(National Biodiversity Institutions Consotium / 국가생

    물다양성기관연합)MOU Ceremony / 교육과학기술부 ·········· 76

    CODATA/ICSU 홈페이지(www.codata.org) ····························· 78

    과학기술 빅데이터 추진 플랫폼 ··················································· 81

    Visible Korean Human 갱신구축 홈페이지 ······························ 86

    Visible Korean Human 절단면영상과 구역화영상 ·················· 89

    표면3차원영상: 뼈대, 신경, 혈관계통 ·········································· 96

    Globus Online ················································································ 100

    Service architecture model for scientific data experiment ·· 101

    Hierarchical architecture of data farm for climate simulation ·· 102

    The overall process of climate simulation ······························ 103

    The post-processing process of climate simulation ·············· 103

    Visualization result by using GrADS ······································ 104

    The structure of a prototype system for climate simulation ·· 105

    The configuration of Data Farm Testbed ······························· 107

    The Overall pushpull framework ·············································· 108

  • - xx -

    Configuration information related with Daemon ·················· 109

    Configuration information related with a remote site for

    data source ···················································································· 110

    Configuration information related with directory structure 110

    Downloaded files and those meta data files ························· 111

    The data transfer model for a single file ······························· 111

    Read operation for a single file with multi-thread ············· 112

    The data flow of read/write with multi-thread in a single

    file ····································································································· 113

    The interaction between sending and receiving threads in

    the data block transfer model by multi-thread ················· 114

    The file transfer flow by multi-thread ···································· 116

    The multi-thread based file transfer by using buffers ······ 118

    The data transfer model for multiple files by using

    multi-thread ················································································· 119

    Access time of variable in a netCDF file before content

    based reduction ············································································ 123

    Access time of variable in a netCDF file after content based

    reduction ·························································································· 124

    Sequential write in a netCDF file ············································· 125

    Workflow among filters ····························································· 125

    Property file for subsetting ························································· 126

    The result of Hadoop application in HDFS ·························· 128

    The architecture of the science gateway prototype ············· 129

    The configuration of KistiSGA ·················································· 130

    The configutarion of KistiSGM ·················································· 131

    The configuration of KistiSGP ··················································· 133

  • - xxi -

    The example of monitoring service ·········································· 134

    국가과학데이터 공유·활용체제 ····················································· 136

    P-CUBE 목표시스템 및 리포지터리 프로세스 설계 ·············· 136

    북극권 해빙에 따른 한반도 기후 변화 ······································· 137

    슈퍼컴퓨팅/대용량저장자원 기반 극지데이터 활용 연구 모델 ··· 137

  • - 1 -

    제1장 연구개발과제의 개요

    제1절 연구개발의 필요성

    1. 연구사업의 경제적ㆍ산업적 중요성

    하드웨어 발달, 초고속 네트워크 확산, 첨단 정보기술 발달 등으로 인해 방대

    한 양의 데이터가 생산되고 있고, 유비쿼터스 기술의 확대로 인해 과학적 연구에

    활용할 수 있는 데이터의 수집과 활용이 용이해 지고 있다.

    연구개발 장비와 컴퓨팅 기술의 발전으로 대용량 데이터의 분석이 가능해지면

    서 새로운 과학적 발전이 가능해지고 있으며, 다학제간 협업 연구에 대한 요구도

    증가하고 있다. 최근 연구자들의 20% 이상이 100GB가 넘는 데이터를 활용하여

    연구를 수행하고 있으며, 전체 연구자의 8%정도가 1TB 이상의 데이터를 활용하

    는 등 데이터 중심 R&D가 새로운 패러다임으로 등장

    기상데이터의 증가 추세 / 연구에

    활용한 데이터의 크기 (Science, 2011)

  • - 2 -

    데이터 중심의 연구 패러다임이 등장하면서 가치 있는 데이터를 선별하고 이

    를 체계적으로 관리하는 것이 매우 중요한 이슈로 부각되었으며, 과학연구의 패

    러다임 변화에 대응할 수 있도록 과학데이터의 생성 → 큐레이션 → 분석 → 가시화 → 출판의 각 단계를 지원할 수 있는 도구 및 인프라 구축이 시급하다. 즉, 최근 연구자들은 과학데이터의 공유에 대한 필요성을 크게 인식하고 있으나, 이

    를 위한 관리 및 지원은 매우 미비한 것으로 나타남에 따라 체계적인 지원 방안

    마련이 필요하다.

    자료 : Science, 2011

  • - 3 -

    2. 연구개발 결과물의 공유⋅활용의 필요성정부 R&D 예산이 투입된 연구과제로부터 도출된 과학데이터를 국가 자산으로

    관리해야 하며, 이를 위해 국가과학데이터 연계⋅융합 체제를 구축해야 한다. 국가적 차원에서 과학데이터를 관리할 수 있는 기반을 구축하고, 공유 및 활용을

    촉진시킬 수 있는 법과 제도가 마련되어야 하며, 정부, 전문기관, 연구자들의 체

    계적 역할 분담을 통해 효율적이고 체계적인 과학데이터 공유 활용 체제가 구축

    되어야 한다. 그러기 위해서는 다양한 이해관계자들 간의 합의되고 검증된 과학

    데이터 공유체제 모델 개발을 위해 국가 차원의 기구가 설립되어야 한다. 특정

    분야별로 전문 데이터센터를 구축하여 이를 국가 R&D 프로그램과 연계하고, 나

    아가 관련 국제기구와 협력함으로써 국제적인 연구를 수행할 필요가 있으며, 과

    학데이터를 활용한 4세대 R&D를 선도함으로써 과학기술 강국으로의 도약을 위

    한 기반을 마련할 수 있다.

  • - 4 -

    제2절 연구개발의 목표 및 범위

    1. 연구개발의 목표

    □ 과학데이터 활용 체제 구축을 통한 연구개발 활성화

    ○ 과학데이터 수집, 공유, 활용 체제 구축

    ○ 과학데이터 기반의 첨단 연구 환경 구축

    가. 과학기술 빅데이터의 체계적 활용과 국가적 공동 활용을 위

    한 전략 수립

    □ 산, 학, 연, 정 등 다양한 분야의 전문가로 구성된 위원회를 구성하여 국가

    빅데이터 전략 수립 및 기본 계획 수립

    □ 빅데이터 인력 양성 및 산학연 협력방안, 국가 과학기술 빅데이터 공동 활

    용 및 연계 방안, 빅데이터 기술 개발 계획 수립

    나. 인공위성 원격탐사 데이터 활용을 위한 과학기술 Big Data

    플랫폼 구축 공동 연구 과제 발굴

    □ 해색, 해수온, 해빙 자료 등 다양한 종류의 위성자료 확보 및 대용량 위성

    자료 처리 기술 연구

    □ 한반도 주변의 기후 변화 양상과 전지구 규모의 변화 간 주기적 상관관계

    추적 및 다양한 위성자료에서 추출한 물리적 요인에 따른 생물학적 영향

    분석을 위한 과학기술 빅데이터 처리‧분석 기술 연구□ 인공위성 원격탐사 자료 등 과학기술 빅데이터 분석 및 활용 체제 구축 및

    과학기술 빅데이터 관리, 공유, 기반 기술 개발

  • - 5 -

    2. 연구개발의 범위

    연구사업 목표 연구사업 내용 및 범위

    과학데이터 수집, 공유

    활용 체제 구축

    ◦ 분야별 데이터 Repository 구축 및 보급 (2개 분야) 분야별 메타데이터 설계

    분야별 과학데이터 수집 시스템 개발

    과학데이터 구축 및 보급

    데이터 수집·관리·운영 지침 개발

    ◦ 과학데이터 포털 서비스 구축(신규개발)◦ 과학데이터 협력 네트워크 구축 분야별 과학데이터 위원회 구성 및 운영(신규 2개 분야)

    CODATA 한국 위원회 구성 및 운영

    ◦ 과학데이터 활용을 위한 법·제도 정비(기획) 과학데이터 수집·관리·활용을 위한 입법 추진

    과제 관리 기관 및 학회의 규정 개정

    ◦ 국제협력 DataCite 등 국제기구 참여

    ANDS와의 협력사업 발굴

    ◦ 과학데이터 수집 전략 수립 및 기획 분야별 과학데이터 현황 조사 및 수요조사

    국가 과학데이터 서비스 모델 및 로드맵 작성

    ◦ 인체 데이터 개발 및 보급 인체 데이터 생산 및 가공

    과학데이터 기반 첨단

    연구 환경 구축

    ◦ 극지분야 대용량 데이터 팜 구축 - 전용 테스트베드 시스템 구축 - 주요 극지분야 데이터 미러링 시스템 설계 - 극지분야 컴퓨팅 환경 구축 및 시범 서비스

  • - 6 -

    제2장 국내외 기술개발 현황

    제1절 해외 현황

    1. 정책 및 제도

    주요 선진국에서는 과학데이터에 대한 비전을 공표하고 과학데이터의 체계적

    관리를 위한 공유법 제정 등을 통해 정부 주도의 정책을 수립하고 있으며, 국가

    차원의 장기적이고 체계적인 접근을 시도하고 있으며, 과학데이터 정책 수립 및

    프로젝트 추진을 위한 전담 조직, 위원회, 포럼 등을 구성하고, 관련 프로젝트를

    도출하여 대규모 예산을 지원하고 있다.

    또한 국가 차원에서 과학데이터 관리 체제를 구축하여 과학데이터 공유 플랫

    폼 제공하며, 특히, 미국, 유럽, 일본 등 주요 국가 간의 협력을 통해 과학데이터

    의 글로벌 유통체계를 구축하였다.

    2. 기술 동향

    기존의 데이터 보존을 위한 시스템 기능을 확장하여 과학데이터 생명주기 전

    체를 지원할 수 있는 시스템이 구축되고 있으며, 분산된 시스템을 연동함으로써

    각국의 과학데이터를 공동으로 활용할 수 있는 체제가 추진되고 있다.

    클라우드 기술을 활용하여 개인 연구자의 데이터 보존, 배포, 공유 등을 지원

    함으로써 데이터 소유자의 인지도 향상 및 과학데이터 활용을 활성화 하고 있으

    며, 데이터와 원문의 통합 제공을 위하여 과학데이터 등록, 출판 지원, 인용 현황

    정보 제공, 영구 식별자 부여, 메타데이터 카탈로그 서비스 등 관련 기술들이 개

    발되고 있다. 과학데이터의 영구식별자로 DOI 체계가 강조되고 있으며, 국제

    DOI (Digital Object Identifier) 등록기관들이 DataCite 컨소시엄 로드맵에 따라

    단계적으로 추진하고 있다.

    3. 과학데이터 활용

    전통적인 데이터 개념을 확장하여 디지털 형태의 모든 데이터를 포함하는 광

    의의 과학데이터 개념 정립하였고, 다른 분야의 디지털 과학데이터의 연계 및 통

    합이 가능해지면서 다 학제 간 융합 연구가 활발하게 진행 중 이다. 선진국들은

  • - 7 -

    논문과 동일하게 과학데이터를 연구 성과로 인정하고, 다른 연구자가 쉽게 인용

    할 수 있도록 과학데이터 출판 환경 구축 사업을 국가 주도로 추진하고 있다.

    국가 프로젝트 국제기구

    미국IWGDD, DataNet, Dataverse Network Project, SciDAC, wwPDB, NASA GCMD

    OECD, DataCite, WRMC-BSRN,IODP, SEDIS, ICSU,CODATA, WDC, WDS

    유럽PARADE, PARASEInsight, UKRDS, JISC DCC, Driver, METAFOR, NMDB, GENESI-DR, PLANETS, DPE, eSciDoc

    일본Life Science 통합 DB 프로젝트,농림수산생물게놈정보통합데이터베이스,통합데이터베이스 프로젝트 사업

    호주 ANDS, ARCS, NeAT 캐나다 NCASRD, ISDM, DFO, iCORE, NanoQuebec중국 China-eScience, SDB, SDG, China-SDSP

    해외 주요 과학데이터 프로젝트

  • - 8 -

    제2절 국내 현황

    국내 연구개발비는 연간 약 13조원에 달하나, 연구를 통해 생성되는 많은 과학

    데이터가 대부분 외부에 공개되지 않고 있으며, 과학데이터에 대한 인식 및 관리

    의 부족으로 대부분의 데이터가 시간의 경과와 함께 유실되는 상황이다. 선진국

    에서는 국가 주도로 과학데이터에 대한 체계적인 관리가 이미 추진되고 있으나,

    국내에서는 이러한 노력이 매우 부족하다.

    구분 데이터 생산기관 데이터 구축량

    해양- 한국해양연구원- 국립해양조사원- 국립수산과학원

    극지 - 극지연구소 少(시작단계)생태계 - 국립환경연구원- 수자원공사 多

    대기과학 - 기상청 多천문 - 한국천문연구원 多

    3D영상 - 少(계획단계)생물정보 - 한국생명공학연구원 多

    신 재생 에너지 - 한국에너지기술연구원 少

    플라즈마- 국가핵융합연구소- 한국과학기술정보연구원- 한국표준과학연구원

    인체 - 한국과학기술정보연구원- 기술표준원 中

    뇌과학- KAIST- 가천의대- 한국표준과학연구원

    의료- 의학연구정보센터- 보건연구정보센터- 한국보건의료연구원

    화학 - 한국화학연구원- 한국과학기술정보연구원 多

    국내 과학데이터 구축 현황

  • - 9 -

    제3장 연구개발수행 내용 및 결과

    제1절 분야별 데이터 Repository 구축 및 보급

    정부 R&D 예산이 투입된 연구과제로부터 도출된 과학데이터를 국가 자산으로

    관리해야 하며, 이를 위해 국가과학데이터 연계⋅융합 체제를 구축해야한다. 이를 위해서는 정부, 전문기관, 연구자들의 체계적 역할 분담을 통해 효율적이고

    체계적인 과학데이터 공유 활용 체제가 구축되어야하며, 특정 분야별로 전문 데

    이터센터를 구축하여 이를 국가 R&D 프로그램과 연계하고, 나아가 관련 국제기

    구와 협력함으로써 국제적인 연구를 수행할 필요가 있다.

    연구패러다임의 변화는 이상의 당면 과제에 새로운 도전을 요구하고 있다. 데

    이터 중심의 연구 패러다임이 등장하면서 가치 있는 데이터를 선별하고 이를 체

    계적으로 관리하는 것이 매우 중요한 이슈로 부각되고 있다. 이는 과학연구의 패

    러다임 변화에 대응할 수 있도록 과학데이터의 생성 → 큐레이션 → 분석 → 가시화 → 출판의 각 단계를 지원할 수 있는 도구 및 인프라 구축이 시급함을 의미한다. 최근 연구자들은 과학데이터의 공유에 대한 필요성을 크게 인식하고 있

    으나, 이를 위한 관리 및 지원은 매우 미비한 것으로 나타남에 따라 체계적인 지

    원 방안 마련이 시급하다.

    본 절에서는 과학데이터를 체계적으로 수집·관리하고 글로벌하게 유통시키기

    위한 Repository 개발 및 보급 내용을 중심으로 기술한다.

  • - 10 -

    1. 분야별 데이터 Repository (P-CUBE) 개발

    특정 연구분야의 과학자들에게 의존적인 분야별 리포지터리를 지양하고, 다양

    한 연구주제 분야에서 활용가능한 리포지터리(이하, P-CUBE)를 개발하였다.

    P-CUBE는 연구자가 연구과정에서 생산한 과학데이터의 안전한 보관과 데이터의

    재사용을 위해 손쉬운 접근을 제공하는 플랫폼이다. 이하는 P-CUBE의 개발배경

    이다.

    • 하드웨어 발달, 초고속 네트워크 확산, 첨단 정보기술 발달 등으로 방대한 양의 데이터가 생산되고 있습니다.

    • 또한 유비쿼터스 시대의 도래로 인해 데이터 중심의 연구 패러다임이 등장하면서 가치 있는 데이터를 선별하고 이를 체계적으로 관리하는 것이 매우

    중요해지고 있습니다.

    • 하지만 연구자들의 데이터는 PC나 CD, USB 등 개인 저장장치에 보존되다 소멸되거나 관리가 어려워 재사용 되지 못하는 현실입니다.

    • 따라서 연구자가 생산한 데이터를 쉽게 관리하고 재사용을 가능케 하는 플랫폼이 필요하게 되었습니다.

    • P-CUBE는 효율적인 데이터 관리와 활용을 위해서 클라우드 환경을 지향합니다.

    개발된 P-CUBE를 활용한 도입효과는 연구자 측면과 기관 측면에서 살펴볼수

    있다. 연구자 측면에서는 첫째, 연구자가 소속된 기관의 기 보유 시스템과 연동

    을 통해 손쉬운 데이터 제출이 가능하다. 둘째, 연구자가 생산하는 데이터의 체

    계적인 관리와 재활용이 가능하다. 셋째, 국제적인 데이터 출판과 데이터 인용을

    지원으로 연구자의 명성을 높일 수 있다. 기관 측면에서는 첫째, 연구자 소속 그

    룹 및 기관의 데이터 관리를 위한 유연한 인프라 구축이 가능하다. 둘째, 국가

    R&D 예산이 투입되어 산출된 데이터를 국가자산으로 관리할 수 있다. 셋째, 연

    구자의 공유설정으로 외부 공개가 가능한 데이터를 이용하여 연구 성과를 대내

    외 적으로 홍보할 수 있다.

    개발된 P-CUBE는 2013년도에 지속적인 기능 추가 및 갱신이 이루어질 예정이

    며, 아래 그림은 최종적인 목표시스템을 보여준다.

  • - 11 -

    P-CUBE 목표시스템

    P-CUBE는 전 세계적으로 인정받는 오픈소스를 기반으로 개발되었다. 미국

    NSF와 LC(Library of Congress) 등에서 후원하고 있는 DURASPACE의 Fedora

    를 저장구조에서 사용하며, DSPACE의 서비스 및 관리기능의 비즈니스 로직을

    사용한다. 관계형 데이터베이스로는 MySql을 사용한다. P-CUBE는 ISO

    14721:2003에 명시된 OAIS 참조모형을 준수한다. 따라서 데이터 수집, 관리, 아

    카이브, 접근을 위한 시스템 아키텍처로 구성되어 있다.

    아래 그림은 P-CUBE의 주요기능을 보여준다.

    P-CUBE 주요 기능

  • - 12 -

    이상의 기능을 요약하면 아래와 같다.

    • 과학데이터 수집 기능

    - 연구자의 데이터 업로드를 통한 수집 기능

    - 표준 프로토콜을 통한 데이터 자동 수집 기능

    • 과학데이터 관리 및 보존 기능

    - OAIS 표준에 의한 데이터의 체계적인 관리

    - 데이터 라이프사이클 기반의 보존

    • 과학데이터 출판 기능

    - 연구자의 데이터에 글로벌 식별자(DOI) 부여

    - 글로벌 데이터 핸들 서버에 데이터 등록

    • 과학데이터 서비스 기능

    - 조직별, 컬렉션별, 제목별, 저자별, 주제분류별 검색

    - 데이터와 학술문헌과의 연계서비스

    P-CUBE의 기능 특징은 크게 3가지로 요약될 수 있다. 첫째, 아카이빙을 위한

    다양한 메타데이터 표준을 지원한다. 따라서 기관에서 생산한 여러 분야의 과학

    데이터를 수용하기 위해 다양한 메타데이터 표준을 지원하며, 다양한 과학데이터

    의 관리항목 설정을 지원한다. 둘째, 시스템 확장성 및 신뢰성을 보장한다. 따라

    서, XML 기반의 메타데이터 저장구조를 기반으로 하여 OAI-PMH를 기반으로

    하는 시스템들과의 연계를 지원한다. 또한 Dspace, Fedora, Lucene 등의 검증된

    오픈소스 기반의 아카이빙 솔루션으로 신뢰성을 보장하며, 과학데이터의 글로벌

    출판 및 데이터의 영속적 접근을 지원한다. 셋째, All in One 플랫폼을 지원한

    다. 이는 기관의 과학데이터 구축에서 국가 차원의 센터시스템으로의 수집까지

    모든 기능을 하나의 솔루션에서 일괄 제공하며, 체계적인 과학데이터 관리

    (organization, collection, item 수준) 기능을 제공한다.

  • - 13 -

    다음 그림은 P-CUBE의 워크플로우를 나타낸다.

    P-CUBE 워크 플로우

    각각의 단계별 특징은 아래와 같다.

    • Ingest : 데이터 수집

    - 연구자의 직접적인 데이터 제출

    - 연구시스템에서의 자동 제출

    - 표준 프로토콜에 의한 수집

    • Management : 데이터 관리

    - 확장성을 보장하는 스키마 관리

    - 제출 데이터 관리

    - 이용자 권한 관리

    - 조직&컬렉센, 아이템, 원시데이터 관리

    • Access : 데이터 접근

    - 외부 리포지터리 연계

    - 루씬 기반 한글검색 제공

    - 웹 페이지를 통한 이용자 서비스

  • - 14 -

    2. P-CUBE 기능설명

    P-CUBE 시스템은 크게 이용자 시스템과 관리자 시스템으로 구분된다.

    P-CUBE 이용자 시스템은 생성된 과학데이터를 제출하고, 제출된 아이템을 검증

    한 후 저장된 결과를 서비스하는 기능을 제공하는 시스템이다. 아이템 제출 및

    검증 등의 작업은 인증을 거친 이용자에게 권한이 부여되므로 반드시 로그인을

    거쳐야 한다. 기타 검색 및 브라우즈 등을 통한 아이템 조회는 모든 이용자에게

    허용 된다. 한편, P-CUBE 관리자 시스템은 과학데이터 제출을 위해 필요한 스키

    마, 조직&컬렉션, 이용자 및 그룹 등을 관리하는 기능을 제공하는 시스템이다.

    관리자는 제출된 아이템 관리, 환경설정, 코드관리 등 여러 종류의 일반적인 시

    스템 관리기능도 사용할 수 있으며 관리자 권한이 있는 이용자에게만 접근링크

    가 제공된다. 개발된 P-CUBE의 이용자 시스템모습은 다음과 같다.

    P-CUBE 이용자 시스템 인터페이스

  • - 15 -

    - 공통기능

    P-CUBE 이용자 시스템을 통해 아래와 같은 공통기능을 모든 이용자에게 제공

    한다. 아이템 제출을 위해서는 반드시 이용자 등록이 필요하며, 메일을 통해 유

    효한 메일을 확인한 후 가입이 된다. 검색 주요 기능으로는 이용자 신규등록, 패

    스워드 찾기, 프로필 관리, 로그인 / 로그아웃 기능이다. 아이템 검색의 경우, 기

    본적으로는 P-CUBE 전체 아이템을 대상으로 검색을 수행하며, 특정 조직으로

    검색조건을 제한하여 검색을 할 수 있다.

    상세검색 인터페이스

    브라우즈 주요 기능은 아래와 같은 다양한 브라우즈 기능을 제공한다. 조회하

    고자 하는 아이템을 찾기 위해 아래의 기능 중 다음과 같은 적합한 기능을 이용

    할 수 있다. 조직&컬렉션, 최종승인일, 저자명, 제목, 주제분류를 통한 브라우징

    기능을 사용할 수 있다.

    조직 & 컬렉션 관리

  • - 16 -

    아이템 상세정보 인터페이스

    MyCUBE 기능은 이용자 등록을 마친 이용자가 아이템을 제출하고, 제출된 아

    이템을 검증하는 등의 기능을 수행하는 메뉴이다. MyCUBE는 다음과 같은 기능

    을 제공한다. 아이템 제출목록, 아이템 승인목록, 아이템 신규제출, 검증대상 아

    이템 조회 기능을 사용할 수 있다.

    제출된 아이템 리스트

  • - 17 -

    검증대상 아이템 리스트

    P-DRIVE 기능은 컬렉션에 아이템을 제출하지 않고, 이용자가 개인의 폴더에

    아이템을 제출하고 관리하는 공간이다. 제출된 아이템은 다른 이용자와 공유할

    수 있다.

    P-DRIVE 관리

    P-DRIVE 아이템 리스트

  • - 18 -

    이하에서는 개발된 P-CUBE의 관리자 시스템에 대한 설명이다.

    P-CUBE 관리자 시스템

    관리자 시스템의 핵심기능 중 “스키마 관리” 기능에 대한 설명이다. 스키마 관

    리는 새로운 스키마를 생성하고 관리하는 기능을 제공한다. 스키마는 반드시 입

    력구조 및 입력표시 설정을 추가로 관리해야 하며 이는 데이터 제출에 사용된다.

    스키마 생성 방법은 마법사 기능을 통해 4단계에 걸쳐서 생성 단계를 진행해야

    하며, 생성도중 중단된 스키마는 추후에 이어서 계속 생성할 수 있다.

    스키마 생성을 위한 기본정보 입력 인터페이스

  • - 19 -

    스키마 신규 생성을 위한 입력구조 설정

    “조직&컬렉션 관리” 기능에 대한 설명이다. 조직 관리는 새로운 조직을 생성

    하고 관리하는 기능을 제공한다. 컬렉션은 반드시 상위에 조직이 있어야 생성할

    수 있다. 컬렉션 생성 방법은 마법사 기능을 통해 5단계에 걸쳐서 생성 단계를

    진행해야 하며, 생성도중 중단된 컬렉션은 추후에 이어서 계속 생성할 수 있다.

    조직 & 컬렉션 관리를 위한 인터페이스

  • - 20 -

    컬렉션 생성을 위한 기본정보 입력

    “아이템 관리” 기능은 제출된 아이템에 대한 메타데이터 및 첨부파일 등을 관

    리하는 기능을 제공한다. 제출된 아이템을 이동, 삭제, 철회할 수 있다.

    제출된 아이템 관리

  • - 21 -

    철회 아이템 관리 인터페이스

    “기타 관리기능”으로 P-CUBE의 원활한 운영과 관리를 위해 관리가 필요한 항

    목들에 대한 관리기능을 제공하며, 환경설정을 통해 배포된 기관마다 다른 설정

    이 필요한 부분은 독립적인 설정이 가능하도록 구성되었다. 주요 관리기능으로는

    이용자 관리, 그룹 관리, 수집 관리, 통계 관리, 코드 관리, 공지사항 관리, 환경

    설정이 제공 된다.

    그룹관리 인터페이스

  • - 22 -

    환경설정 인터페이스

    3. P-CUBE 사용성 평가 및 보급

    이상의 P-CUBE 이용자 시스템과 관리자 시스템을 개발하는 과정 중에 또한

    시스템 개발이 완료된 후에, 실제 2012년 보급대상 기관의 이용자 및 관리자를

    중심으로 또한 기관 리포지터를 국내에서 최초로 도입한 KAIST의 관리자를 중

    심으로 시스템 사용성 평가를 진행하였다. 서비스 개발 완료 이후 오류를 검증하

    기 위한 절차로 진행되기 보다는 프로토타입이나 파일럿 테스트 단계에서 사용

    성 평가를 진행하여 개발 중 인 시스템 기능과 화면구성, 워크플로우 등에 대해

    서 이용자의 피드백을 받아 시스템 개발에 반영하기 위함을 목적으로 하였다. 본

    사용성 평가에서는 국제표준 ISO 사용성 측정요소를 활용하였다.

  • - 23 -

    ISO 사용성 측정요소

    평가방법으로는 과정평가와 맥락 질문법(Contextual Inquiry)을 병행하였으며,

    아래의 사진은 국지연구소와 한국표준과학연구원의 관리자 및 이용자를 대상으

    로한 사용성평가 모습이다.

    사용성 평가

    다음은 질의서 구성 및 답변 내용을 보여준다.

  • - 24 -

    사용성 평가 질의서

  • - 25 -

    다음은 사용성평가 의견을 종합한 것이다.

    협의 내용 부연설명 및 조치사항

    P-CUBE 소개

    ․ P-CUBE 구조 및 기능 소개

    - 준비된 문서를 이용해서 P-CUBE의 구조 및 주요기능에 대한 간략한 소개를 수행함

    [문서명 : SciRep-I-D-사용성평가(20121010,1,이병섭).pptx]

    - 컬렉션을 중심으로 조직, 스키마, 이용자, 그룹, 아이템 등의 오브젝트들과의 관계를

    설명

    - DSpace와 비교하여 컬렉션을 중심으로 관리되는 제출 및 권한 등의 개념에 대한 설

    명을 진행

    - 기타 몇 가지 간단한 질의응답 및 설명을 진행

    ․ 사용성 평가를 위한 P-CUBE 시연

    - 사용성 평가의 대상이 되는 스키마관리, 컬렉션관리, 아이템제출, 아이템검증, 아이

    템관리, 아이템검색 등의 핵심기능에 대한 시연을 차례로 진행함

    - 스키마 생성, 입력구조 설정, 입력표시 설정 등의 스키마 관리기능에 대한 시연을 진

    행, 일괄구조생성 및 표시상수에 대한 설명을 진행

    - 조직구조, 컬렉션 생성, 컬렉션과 스키마 매핑, 컬렉션 권한관리 등 컬렉션 관리 기

    능에 대한 시연을 진행

    - 이용자로 계정의 권한을 변경하여 아이템제출, 아이템검증 등의 제출과 관련된 기능

    에 대한 시연을 진행

    - 다시 관리자고 계정 권한을 변경하여 아카이빙된 아이템을 관리하고 컬렉션 및 아이

    템의 권한을 변경하는 시연을 진행

    - 이후 표준연 채균식 박사가 사용성평가를 위한 설문지 작성을 수행함

    ․ P-DRIVE 시연- 사용성 평가와 별개로 P-DRIVE의 개념에 대한 설명을 진행

    - P-DRIVE의 기능을 소개하고 시연을 수행함

    - 이용자들이 시스템을 사용하는데 있어서 편리하면서도 핵심적인 기능으로 향후 확장

    될 수 있도록 기능보강이 필요하다는 데에 공감

    향후 계획

    ․ 데이터 연계 대상

    - 2012년에는 참조표준, 측정표준의 데이터와 P-CUBE에 대한 연계테스트를 진행하기

    를 원함

    - P-CUBE의 데이터 연계 원칙은 OAI-PMH를 이용한 데이터 연계를 기준으로 함, 이는

    여러기관에 배포되어야 하는 P-CUBE의 특성과 향후 지속적인 데이터의 업데이트를

    보장하기 위함이며 사업초기에 표준 및 극지연의 관계자들과도 원칙에 대한 협의를

    진행했었음

    - 참조표준 데이터는 일부데이터를 마이그레이션 해서 저장 및 검색이 가능한지를 테

    스트 하기로 함

    - 측정표준 데이터는 OAI DataProvider를 개발해서 P-CUBE와 데이터 연계를 수행하기

    로 함

    - 정확한 개발기간은 현재 용역수행 회사인 지플러스와 협의를 한 후 결정하기로 함

    ․ 테스트 서버 설치 환경

    - 현재 표준연구원의 장비는 보안상의 이유로 외부에서 작업을 할 수 없고, 모두 원내

    에서만 접속이 가능한 상태임

    - 따라서 테스트를 위한 설치에는 적합하지 않은 측면이 있음

    - KISTI의 개발서버 또한 보안의 문제로 외부에서 접속이 쉽지 않은 측면이 있음

    - 아르고넷이 보유하고 있는 외부의 서버에서 임시로 데이터연계에 대한 테스트를 수

    행한 후에, 시스템이 안정화 된 시점에 표준연 서버에 설치하는 것으로 잠정 결정함

    기타

    ․ 기타 사항

    - 표준연은 P-CUBE를 통해 외부에 공개할 수 있는 데이터를 모두 통합하여 관리하고

    자 함, 더불어 공개하지 않는 비공식적인 데이터들도 이용자들이 많이 저장할 수 있

    도록 시스템을 활용하는 것이 목표임

    - 테스트를 위해 사용을 하면서 위와 같은 목적에 부합하는 기능이 개발되었는지에 대

    한 의견을 줄 수 있도록 하겠음

    - 더불어 기능이 많아서 어쩔 수 없는 측면이 있지만 화면 구성상의 느낌은 시스템이

    많이 복잡하고 어렵다는 느낌이 있음

    - 좀 더 친숙하고 쉽게 다가갈 수 있었으면 좋겠음

    사용성평가 의견

  • - 26 -

    향후 계획

    ․ 데이터 연계 대상 및 방법

    - P-CUBE의 데이터 연계 원칙은 OAI-PMH를 이용한 데이터 연계를 기준으로

    함, 이는 여러기관에 배포되어야 하는 P-CUBE의 특성과 향후 지속적인 데

    이터의 업데이트를 보장하기 위함이며 사업초기에 표준 및 극지연의 관계

    자들과도 원칙에 대한 협의를 진행했었음

    - 현재는 KPDC에 OAI DataProvider가 개발되지 않아서 당장 P-CUBE와 데이

    터를 연계하기는 힘들 것으로 판단됨

    - P-CUBE 뿐만 아니라 NASA 등에도 데이터를 제공하기 위해 OAI DataProvid

    er를 개발할 계획이 있음

    - 되도록 빠른 시일내에 개발을 진행할 예정이며, 혹시 어려운 점이 있다면

    P-CUBE 개발팀의 도움을 요청하도록 하겠음

    ․ 테스트 서버 설치 환경

    - KISTI에서 보급하는 OAK 설치 및 운영을 위해 새로운 서버가 곧 준비될

    예정임 (현재 하드웨어는 설치되었으며, OS 및 기타 어플리케이션 설치 단

    계임), 해당 서버에 P-CUBE를 설치하여 테스트를 진행할 수 있을 것으로

    예상됨

    - 서버에 대한 준비가 완료되면 원격에서 P-CUBE를 설치할 수 있도록 개발

    환경을 오픈할 수 있으며, P-CUBE가 설치되고 나면 직접 사용하면서 테스

    트를 진행할 수 있도록 하겠음

    - 아직 극지연의 KPDC 등 레거시 시스템, 센터 P-CUBE등이 완전한 환경에서

    설치된 것이 아니므로 당분간 독립적인 운영테스트를 수행해야 함

    기타

    ․ 기타 사항

    - 극지연은 내부적으로 제출되는 아이템은 KPDC를 통해 관리하고, P-CUBE를

    통해 외부로 수집/공개되는 데이터를 연계할 계획임

    - 테스트를 수행 하면서 더욱 발전된 모델을 고민해 보겠음

    - 여러 기관에서 사용할 수 있는 구조로 설계된 점, 더불어 이용자 및 관리

    자를 고려하여 필요한 기능이 적절하게 잘 개발된 듯 한 느낌을 받았음,

    전체적으로 만족스러운 시스템으로 평가할 수 있음

    ․ 시스템에 기능개선 의견

    - 운영중 조직/팀이 변경되어 컬렉션이 조정되어야 할 경우에 대한 대비가

    필요하다고 생각됨

    - 소속 조직/팀이 변경된 후 기존 컬렉션에 제출된 아이템을 조회할 수 있는

    기능을 요구할 수도 있음

    - 주제분류는 보통 1개 이상을 입력하고 있음, P-CUBE에서는 1개만 선택이

    가능한 인터페이스라서 불편함

    - 데이터 입력시 도움말 외에 ‘입력예’와 같은 표현으로 입력에 대한 예시가

    TextBox의 툴팁이나 도움말 부분에 표현되면 좋겠음

    - 아이템 제출시 이용자 정보 템플릿, 기존에 제출된 정보 로딩, 제출 정보

    템플릿 등 다양한 입력 보조 도구가 있으면 좋겠음

    - P-DRIVE에 적용된 첨부파일 파싱기능은 NetCDF외에 HDF에도 적용되면 좋

    겠음, 현재 과학기술 분야의 RawData가 위에 언급한 2가지로 집중되고 있

    는 경향이 있어서 높은 효과를 기대할 수 있을 것으로 판단됨

    - P-DRIVE로 제출된 아이템이 공개영역으로 쉽게 제출되면 더욱 좋은 이용효

    과를 기대할 수 있을 것으로 보임

    - 전체적으로 연구기관 및 과학자를 고려한 기능들이 많이 보임, 조금만 더

    발전하면 좋은 시스템이 될 것으로 판단되며 적극적으로 사용하고 싶은 의

    향이 있음

    향후 계획

    ․ 기타 사항- KISTI의 슈퍼컴퓨터를 이용해서 실험을 진행한 내용과 결과 데이터, 또한

    그것들을 활용한 논문발표 등의 작업을 준비하고 있음

    - P-CUBE가 운영되면 해당 시스템에 메타데이터 및 RawData파일, 발표논문

    등을 제출하여 P-CUBE를 통해 DOI부여 및 외부에 유통되도록 활용되기를

    희망함

  • - 27 -

    다음은 평가결과를 종합한 내용이다.

    · ‘Repository 서비스 유용성’ 및 ‘포털서비스 요구 충족도’ 평가를 위해 총 30

    개 문항을 준비하였음 (사용성 평가 17개 문항, 유용성 문항 13개 문항)

    · ‘Repository 서비스 유용성’ 평가결과

    · 사용성 평가 결과 : 95.8점 (평균 16.3점/17점)

    · 유용성 평가 결과 : 76.9점 (평균 10점/13점)

    · Repository 서비스 유용성 : 86.3점

    · ‘포털서비스 요구 충족도’ 평가결과

    · 사용성 평가 결과 : 80.3점 (평균 13.6점/17점)

    · 유용성 평가 결과 : 79.4점 (평균 10.3점/13점)

    · 포털서비스 요구 충족도 : 79.8점

    보급대상 기관(극지연구소, 한국표준과학연구원)을 대상으로 하는 보급은 다음

    과 같이 진행 중에 있다. 극지연구소의 경우 내부 시스템 인프라 확충사업을 진

    행 중에 있으며, 해당 사업이 안정화 됨과 동시에 P-CUBE를 설치 운영할 계획

    이며, 한국표준과학연구원의 경우 내부 시스템 보안 문제 때문에 연구소 외부에

    테스트 환경을 구축해, 현재 테스트 중에 있다.

  • - 28 -

    제2절 인체정보 홈페이지 개편

    1. CMS 솔루션 비교 연구 수행

    CMS Market Share

    대표적인 해외 CMS들의 장단점 비교

    그누보드, XE엔진(제로보드), 테터툴즈 국내 CMS툴을 분석하였으며,

    WordPress, Joomla, Drupal 해외 CMS툴을 분석하였다. 국내 툴은 해외에 비해

    아직 활성화가 부족하였으며, 해외 CMS툴은 다양한 솔루션이 오랜기간 동안 활

    성화 됨, 오픈소스, 웹표준 준수, 개발사례가 많았다. 다음은 해외 솔루션의 특징

    이다.

    • WordPress – 설치/사용이 쉬움• Joomla – 세련된 디자인/사용이 쉬움• Drupal – 커스터마이징 용이/모듈 많음/가장 활발한 버전업

    - Drupal의 장단점

    • 검증된 사례가 많음

    • Module을 이용한 기능 추가 가능 (현재 9,874개의 모듈 지원)

    • Theme를 통한 디자인 변경 가능 (현재 954개의 테마 지원)

    • 설치/커스터마이징의 어려움

    • 개발자의 도움이 필요함

    • 변경가능한 여지가 많음

    이상의 분석으로 Drupal을 선택하여 인체정보 홈페이지를 개편하였다.

  • - 29 -

    Drupal 안내

    이하에서는 ‘인체정보 홈페이지 시스템 구성도’, ‘시스템 아키텍처’, ‘개발환경’,

    ‘개편된 홈페이지 시스템’, ‘개편된 시스템들의 특징’을 보여준다.

    ◦ 인체정보 홈 페이지 시스템 구성도

  • - 30 -

    ◦ 인체정보 홈 페이지 시스템 아키텍처

    ◦ 인체정보 홈 페이지 개발환경- O/S : Linux

    - RDBMS : SQLite 3.7.4

    - WAS : Tomcat 6.0

    - Web Server : Apache 2.0

    - 개발도구 : Editplus, PHP 5.3.6

    - 개발언어 : PHP

    ◦ 인체정보 홈 페이지 시스템

    VK 인터페이스 DK 인터페이스

  • - 31 -

    ◦ 인체정보 홈 페이지 시스템 개편 특징 (VK) - Visible Korean은 Drupal 기반의 새로운 홈페이지로 디자인이 변경되었

    음. 특히 Drupal 기반으로 변경되면서 관리자 기능에서 메뉴 추가 및 콘

    텐트 변경 등을 자유롭게 할 수 있는 것이 가장 큰 특징임.

    - 추가적으로 Product와 Publication을 새롭게 추가하여 기존의 사업에서 생

    산된 결과에 대한 정보를 자세하게 공개하였으며, 대내외 출판&홍보의

    결과에 대해서도 체계적으로 정리를 하였음.

    - 메뉴구조는 아래와 같음

    대메뉴 하위메뉴 비고

    Product

    Browsing Software

    PDF

    Easy Anatomy

    Anatomical Image

    Virtual Dissection

    Virtual Endoscopy

    R&D Viz

    Visible Korean 사업결과물에

    대한 소개

    Data Sharing

    Policy데이터 내역과 공유정책 안내

    PublicationArticles

    In the Press

    Visible Korean 출판&홍보 결

    과에 대한 소개

    OverviewVisible Korean 사업 전반에

    대한 소개

    VK 메뉴구조

    - Visible Korean의 관리자 시스템은 이용자 시스템과 구분되는 URL이 있

    지 않고, 이용자 시스템에 로그인을 하면 화면 상단에 관리자 메뉴가 추

    가로 보이게 됨.

    - 관리자 시스템에서는 메뉴 추가, 콘텐트 추가, 디자인 변경, 관리자 추가

    등의 Visible Korean 전체 구성에 대한 전반적인 관리를 할 수 있음.

  • - 32 -

    - 관리자 계정은 최초에 Drupal 설치시 기본관리자 계정을 생성하게 되며,

    관리자 시스템에서 추가적으로 관리자를 추가할 수 있음.

    ◦ 인체정보 홈 페이지 시스템 개편 특징 (DK) - Digital Korean은 Drupal 기반의 새로운 홈페이지로 디자인이 변경되었음.

    특히 Drupal 기반으로 변경되면서 관리자 기능에서 메뉴 추가 및 콘텐트

    변경 등을 자유롭게 할 수 있는 것이 가장 큰 특징임.

    - 추가적으로 ‘보유데이터 소개’ 메뉴를 추가하여 기존의 사업에서 생산된 결

    과에 대한 정보를 자세하게 공개하였으며, ‘VIEWER’ 메뉴를 통해 생산된

    결과물을 조회할 수 있는 프로그램을 소개하고 있음.

    - 메뉴구조는 아래와 같음

    대메뉴 하위메뉴 비고

    사업개요

    DigitalKorean 소개

    최종목표

    응용분야

    Digital Korean 사업 전반에 대

    한 소개

    VIEWER생산된 데이터 조회를 위한 프

    로그램 안내

    보유데이터소개

    의료영상 데이터

    뼈대치수 데이터

    뼈대물성 데이터

    Digital Korean 사업내용 및 생

    산된 데이터 상세 설명

    데이터이용신청안내데이터에 대한 이용신청 방법

    안내

    데이터활용현황데이터를 활용한 기관 및 사례

    소개

    공지사항최신소식

    데이터 갱신현황

    DK 메뉴구조

  • - 33 -

    제3절 과학데이터 협력 네트워크 구축

    1. 과학 데이터 기반 연구 환경 조사

    가. 조사 배경

    정부는 해마다 막대한 규모의 R&D 예산을 투입하고 있으며 이러한 연구개발

    활동의 결과물로서 생성된 학술 논문, 발명 특허 등은 NTIS 시스템에 의해 어느

    정도 관리되고 있다고 할 수 있다. 그러나 학술논문 작성의 근거가 되는 실험,

    관찰 등에서 생산된 과학 데이터에 대해서는 아직까지 국가적 차원의 관리 체제

    가 없으며, 따라서 막대한 예산을 들여 생산한 과학데이터들이 시간이 경과됨에

    따라 점차로 유실되거나 관리가 미흡하여 재활용이 되지 않고 있는 실정이다. 또

    한, 최근에는 IT 기술과 실험·측정 장치의 발달로 인해 엄청난 양의 디지털 데이

    터가 생성되어 데이터의 중요성은 더욱 커지고 있으며 이러한 과학 데이터를 기

    반으로 새로운 연구영역도 창출됨에 따라 국내외적으로 과학기술 데이터를 국가

    차원에서 관리할 필요성이 대두되고 있다.

    따라서, 국가 차원에서 과학기술정보와 첨단 연구환경 인프라 구축을 위해 정

    부출연연구소를 중심으로 기관을 방문하여 인터뷰를 통해 과학데이터의 구축 •

    관리 실태와 데이터 기반의 첨단 연구환경의 현황 및 연구자의 다양한 수요를

    조사하였다.

    나. 조사방법 및 내용

    1) 조사 대상

    과학데이터 관리 현황 및 데이터 기반 연구 환경을 조사하기 위해 방문한 정

    부출연연구기관은 아래와 같이 9개의 기관이며 데이터 관리자와 데이터 연구자

    를 중심으로 심층 인터뷰를 진행하였다.

    방문 기관

    - 9개 기관(한국에너지기술연구원, 국가핵융합연구소, 한국기초과학지원

    연구원, 한국지질자원연구원, 한국건설기술연구원, 한국생명공학연구

    원, 한국항공우주연구원, 한국원자력연구원, 국립보건연구원)

    인터뷰 대상자

  • - 34 -

    - 한국에너지기술연구원 : 데이터 담당자 1명, 데이터 연구자 2명

    - 국가핵융합연구소 : 데이터 담당자 2명, 데이터 연구자 2명

    - 한국기초과학지원연구원 : 데이터 담당자 1명, 데이터 연구자 1명

    - 한국지질자원연구원 : 데이터 담당자 1명, 데이터 연구자 2명

    - 한국건설기술연구원 : 데이터 담당자 2명, 데이터 연구자 3명

    - 한국생명공학연구원 : 데이터 연구자 2명

    - 한국항공우주연구원 : 데이터 연구자 1명

    - 한국원자력연구원 : 데이터 담당자 3명, 데이터 연구자 1명

    - 국립보건연구원 : 데이터 담당자 3명

    2) 조사 방법

    우선 KISTI가 추진하고 있는 「과학데이터센터 육성 및 데이터 기반 연구 환

    경 인프라 구축 사업」을 소개하고 방문 목적과 조사 배경을 설명한 뒤에 방문

    기관의 과학 데이터 생산 • 관리 부서의 연구원, 또는 과학 데이터 기반 연구를

    수행하는 연구원을 대상으로 직접 대면하여 미리 준비한 설문지 항목을 중심으

    로 심층 인터뷰를 진행하였다.

    3) 조사 내용

    조사 내용은 크게 과학 데이터의 관리 현황과 과학 데이터 기반 연구환경 조

    사로 나뉘어져 있으며 상세한 조사 항목은 아래와 같다.

    해당 기관의 과학 데이터의 수집, 관리 현황

    - 연구과정에서 획득한 과학 데이터의 유형 및 공개 여부

    - 과학 데이터의 수집 현황, 발생 규모, 데이터 속성

    - 과학데이터 관리 유형(기관 또는 연구자 개인)

    과학데이터 서비스 현황

    - 과학데이터 공개 여부(내부 서비스용 또는 외부 공개 서비스)

    - 내부 과학데이터 서비스 인력 및 조직 여부

    과학데이터 표준 메타데이터 현황

  • - 35 -

    - 국내외 관련 메타데이터 현황

    과학데이터 리파지토리 구축 및 운영 현황

    - 분야별 과학데이터센터 육성 계획을 소개

    - 과학데이터 리파지터리 구축 및 운영 여부

    해당 분야 커뮤니티(동일 분야 연구소, 공공기관, 연구그룹 및 학회) 현황

    - 국내외 연구분야 활동 커뮤니티 현황

    해당 분야의 연구 수행에 있어 IT 인프라 활용 현황

    - 슈퍼컴 또는 컴퓨터 클러스터링 활용 여부 : 리소스 수준, 병렬처리

    - 과학데이터 분석 및 연구에 활용되는 S/W 목록

    해당 분야의 연구 수행에 있어 문제점과 KISTI 지원 가능성 파악

    - 연구자의 관점에서 KISTI 인프라 요청 등 다양한 니즈 파악

    - IT뿐만 아니라 S/W 인프라에 대한 소요 또는 니즈 파악

    분야별 데이터 리파지터리 구축 또는 활성화를 위한 제안 또는 아이디어

    - 연구자 입장에서의 과학데이터 공동 활용체제 활성화를 위한 제안

    - 연구기관 입장에서의 과학데이터 공동 활용체제 활성화를 위한 제안

    다. 조사 결과 분석

    1) 조사 결과 요약

    약 6개월에 걸쳐 기관 방문 및 심층 인터뷰를 진행하여 얻은 조사 내용을 조

    사 항목에 맞추어 요약하면 아래와 같다.

    기관 차원의 과학 데이터의 수집, 관리 현황

    - 연구과정에서 실험, 측정장비를 통해 획득된 원시 데이터는 영상, 텍

    스트, 수치 등 다양한 형태를 가지고 있으며 많은 원시 데이터들이

    다시 가공된 형태로 생산되어 연구자들 사이에 활용되고 있음

    - 획득한 데이터는 연구자 개인, 연구과제 또는 연구실 단위로 관리되

    고 있으며 연구자 사이에서도 데이터는 쉽게 공유하고 있지는 않음

    - 연구 과정에서 획득한 과학 데이터는 어떤 형태로든 개인적으로 관리

    는 하고 있는 것으로 판단되며 원시 데이터의 양은 메가바이트 단위

  • - 36 -

    에서 페타바이트까지 다양한 규모이며 원시 데이터를 다시 가공하여

    2차 데이터를 생산하는 경우도 많음

    - 데이터센터(한국에너지기술연구원)를 운영하고 있는 경우는 특정 분야

    의 데이터가 어느 정도 수집, 관리되고 있었으며 공개 가능한 데이터

    는 연구원 홈페이지를 통해 공개되고 있음

    - 대부분의 연구원에서는 데이터 관련 전담조직이나 인력을 갖고 있지

    않았으며 일부 연구원(한국에너지기술연구원)에서는 데이터센터를 운

    영하고 있었음

    과학데이터 공개 여부

    - 연구원 차원에서 공개가 가능한 기초적인 데이터는 주로 홈페이지를

    통해 일반인에게 제공하고 있었으나 연구자 개인이 연구과정에서 취

    득한 과학 데이터는 공개하거나 동료 연구자들과도 공유하지 않는 경

    향이었음

    - 한국에너지기술연구원의 경우는 취득한 데이터를 부서간에도 서로 구

    입하고 있었음

    - 연구원 내에서도 연구자들의 데이터 공개 사례는 거의 없었음

    - 연구원 차원에서 데이터 전담 인력이나 부서를 가지고 있는 연구원은

    일부(에너지기술연구원)를 제외하고는 거의 없었으며 따라서 연구원

    차원의 데이터 관리 활동은 거의 없음

    과학데이터 표준 메타데이터 현황

    - 국제적으로 유통되는 데이터는 대부분이 국제 표준의 메타데이터 형

    식이 있었으며 관측 장비 등은 장비 자체의 고유한 메타데이터 형식

    을 가지고 있음

    - 그러나 대부분의 연구자들은 자신들이 획득한 데이터에 대해 표준 또

    는 정해진 형식의 메타데이터를 작성하지 않고 있으며 특별한 작성

    동기(혜택)가 없기 때문에 작성할 의사도 없는 것으로 나타났음

  • - 37 -

    과학데이터 리파지토리 구축 및 운영 현황

    - 대부분의 기관들은 KISTI에서 데이터 리파지토리를 보급할 경우 적극

    적으로 검토할 의사가 있는 것으로 나타났음

    - 다만 연구기관이 보유하고 있는 데이터의 일반 공개에는 시간이 소요

    될 것 같으며 자신들의 데이터 관리 차원에서 데이터 리