Sgepss2013 koyama

35
1 超超超超超超超超超超 超超超超超超超超超 超超超超超超超超超 小小 小小 *1 , 小小 小 , 小小 小小 , 小小 小小 , 小小 小小 , 小小 小小 , 小 小小 , 小小 小小 , 小小 小 , 小小 小 , 小小 小小 , 小小小 小小小 , 小小 小小 , 小小 小小 *1 小小小小小小小小小小小小 小小小小小小小小小小小小小小小

Transcript of Sgepss2013 koyama

Page 1: Sgepss2013 koyama

1

超高層物理学におけるデータ集約型科学の

第4の科学に関する調査

小山 幸伸 *1, 蔵川 圭 , 佐藤 由佳 , 田中 良昌 , 池田 大輔 , 阿部 修司 , 堀 智昭 , 新堀 淳樹 ,

八木 学 , 上野 悟 , 橋口 典子 , 谷田貝 亜紀代 ,

能勢 正仁 , 家森 俊彦

*1 京都大学大学院理学研究科附属地磁気世界資料解析センター

Page 2: Sgepss2013 koyama

2

The FOURTH PARADIGMDATA-INTENSIVE SCIENCE DISCOVERY

• Writer: Gordon Bell, Jim Gray, Peter Fox, etc.

• Oct., 2009 … 4th Paradigm

• Dec., 2009 … DataCite

any other in 2009?

• Jul., 2009 … IUGONET

http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf

Page 3: Sgepss2013 koyama

3

The FOURTH PARADIGMDATA-INTENSIVE SCIENCE DISCOVERY

http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf

電離圏電気伝導度モデル詳細は、 CAWSES-IIにて!

文献事業と、データの融合の、無骨な現れが IUGONET のDSpace

Page 4: Sgepss2013 koyama

4

The Loyal Society of LondonPhilosophical Transactions

doi:10.1098/rstl.1665.0007

R. Boyledoi:10.1098/rstl.1668.0016G. D. Cassini

約350年前に論文スタイルが確立!

タイトルに加え、著者もセンタリングされた!

4 代 家綱時代

Page 5: Sgepss2013 koyama

5

論文の変革の兆し

• PEPS 誌、 EPS 誌 → オープンアクセス

• PLOS ONE, altmetrics– 雑誌単位の IF 評価 → 論文単位の評価

• PANGAEA & ELSEVIER– 地球科学のデータ出版とジャーナル出版の融

合(DataCite – PANGAEA – ELSEVIER から、 JaLC – IUGONET - JpGU にならない??)

Page 6: Sgepss2013 koyama

6

持続可能なデータ公開活動の環境構築が、地球物理の課題

• 共通認識– 観測・データ整備等のデータ公開活動の重要性。

• 現状– 研究者が教育・研究の合間にボランティアで活動。– データ公開活動そのものは評価の対象でない。

徳川家

Page 7: Sgepss2013 koyama

7

データ公開活動の収益構造の確立

1. DOI をデータセットに付与する。

2. ジャーナルから引用する。

• DOI と ORCID がポイント … 論文の世界で使われているものと同じ識別子を、データ用に意図的に使う!

データ提供者側の

データ提供者側

データ利用者側

資金提供者側

Page 8: Sgepss2013 koyama

DOI,ORCID

DOI,ORCID

Literature

Derived & Recombined Data

Raw Data

文献とデータセットの結合

Page 9: Sgepss2013 koyama

文献とデータセットの不完全

• 現状の Data Publication & Citationは、 Journal Publishing 目線。 → 科学的な REUSE×

• (海外の)図書館業界(教育+研究支援)• ビッグディール問題の次は、科学データ取り

扱いへ。 → 行き詰まり中

9

データ提供者側

データ利用者側

資金提供者側

Page 10: Sgepss2013 koyama

10

前述の動きに呼応したIUGONET XML Schema の再定義

10学術出版を頂点とした科学データの REUSE の準備をした。

Page 11: Sgepss2013 koyama

観測理論

数値計算

次なる問題点:Derived & Recombined Data

Page 12: Sgepss2013 koyama

Derived & Recombined Data は、インターネット上での共有が進んでいない。

Derived & Recombined Data が共有されたとき、学術出版のパラダイムシフトが起こる。

Page 13: Sgepss2013 koyama

13

追記:第2層のイメージ

13

ForkFork

WikiWiki

Commit IDCommit ID

Public/PrivatePublic/Private

Github + Dropbox が近い

第1、2層の仲介はJava Web Start !?第1、2層の仲介はJava Web Start !?

Branch

Page 14: Sgepss2013 koyama

14

まとめ• 第 4 の科学に向けた下準備とし

て、 IUGONET XML Schema を、• データセットの DOI 、• 文献の DOI 、• 著者 ID 、• ライセンス条項

• と紐づけた。

• Derived & Recombined Data 層にチャレンジ!14

Page 15: Sgepss2013 koyama

15

研究者の評価指針

• 研究成果 = 論文 (Impact Factor) I/F※ は本来は雑誌の評価用で、研究者個人の評

価用では無いけど、いちおう数字を足し上げることは可能。

• データを論文に紐付けておけば、データ活動の貢献も定量化できる。

データ活動の収益構造確立

Page 16: Sgepss2013 koyama

16

追記:第2層のイメージ

16

ForkFork

WikiWiki

Commit IDCommit ID

Public/PrivatePublic/Private

Github そのもの!?

第1、2層の仲介はJava Web Start !?第1、2層の仲介はJava Web Start !?

Branch

Page 17: Sgepss2013 koyama

17

IUGONET のメタデータ• Raw Dataファイルと1対1で紐づく粒度で、メタデータを記述 (Granule リソースタイプ ) 。

• 知見情報の記述は、現在していない。(Annotation リソースタイプで記述可能 )

• Derived Data に紐づくメタデータは、現在記述していない。(例外: Dst インデックス等、専門家のコンセンサスが得られており、もはや一次データと同様に取り扱われるもの)

↓Raw Data -> Derived Data の変換過程 (メタデー

タ ) を、データ解析ソフトウェアが自動生成する必要あ

り!? 17

Page 18: Sgepss2013 koyama

18

科学的データの階層• 3つの階層

– Literature

– Derived and Recombined Data

– Raw Data

• 階層の要素– 同一の階層の要素は互いに関係を持つ

– 隣り合う階層を構成する要素が互いに関係を持つ

• ネットが分野をまたいだ要素の統合と関連を可能にする

18

Tony Hey, Stewart Tansley, & Kristin Tolle (Eds.). (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. Retrieved from http://research.microsoft.com/en-us/collaboration/fourthparadigm/default.aspx

Page 19: Sgepss2013 koyama

19

データレイヤーとの相互展開

19

作成する

生データ

中間データ

利用する 研究者

出版レイヤー

データレイヤー

Page 20: Sgepss2013 koyama

20

The origin of Journal Publication

• Title: Philosophical Transactions

• Publisher: Royal Society of London

• Mar. 6, 1665 –

Page 21: Sgepss2013 koyama

21

データ /メタデータ作成者の収益構造

21

DOIDOI

DOI未

DOI未

ORCID ID を検索キーとした“論文”と“データ /メタデータ”の横断検索→ 論文出版 と データ出版 に関する貢献の定量化!

ORCIDORCID

Page 22: Sgepss2013 koyama

22

TimeLine

2014.42013.6

財源の議論

データセット受付スタート

WDS ?NiCT

地磁気セ

IUGONET

JaLC

IUGONET, ORCID, DataCite, JaLC 連携スキーマ定義

対象拡大 WG

メタデータ試作 (DataCite Schema -> JaLC Schema) 文献の決定

Page 23: Sgepss2013 koyama

23

Tim Burners-Lee

• ティム・バーナーズ・リーの手のひらの上に乗っていることを忘れない!

• Internet• Semantic Web• Linked Open Data

• 相互運用性(Interoperabiligy) を目指し、 Web of Dataへ。

Page 24: Sgepss2013 koyama

24

まとめ

• IUGONET プロジェクトの XML Schema を実験的に拡張した。→ データ活動に関する貢献を、論文で使われているのと同種の識別子 (ORCID, DOI) を用いて、個人単位で、役割を付与して、メタデータ化出来るようになった。

Page 25: Sgepss2013 koyama

25

Web 上の学術情報の識別子• オブジェクトの識別子

– DOI (Digital Object Identifier)• CrossRef (1999 - , PILA)• DataCite (2009 - , BL and library related)• JaLC (Japan Link Center)

• 人の識別子– ORCID (Open Researcher and Contributor

Identifier) (2010 - , ORCID. Inc.)– 研究者リゾルバー ID (科研費研究者番号)

• NII によるプロトタイプシステム (2008 - , NII) 25

Page 26: Sgepss2013 koyama

26

地磁気センターの仕事

26

1. 地磁気センターニュース(含:峰山の記事とデータセットの DOI )をペーパーと見立てる。

2. KURENAI に登録しオンライン化。3. JAIRO にメタデータがハーベストされ伝搬。

峰山磁場データセット

リンク

データセットに ID振っても何も起こらない!書誌とのリンクが重要!

データジャーナルの立ち上がり、ジャーナル掲載を待つのは得策でない。

Page 27: Sgepss2013 koyama

27

サイテーションメカニズムを利用したサービス例

• 論文の引用– Citation Index– Impact Factor– H-index

• 論文引用サービス例– Web of Science (TR)– Scopus (Elsevier)– CrossRef (PILA)– Google Scholar (Google)

• データの引用• Data Citation Index (TR)

• データ引用サービス例– PANGAEA (Alfred Wegener

Institute for Polar and Marine Research, Center for Marine Environmental Sciences, and etc.)

– DataCite (BL, and etc.)– Dryad (National

Evolutionary Synthesis Center and the University of North Carolina Metadata Research Center)

27

Page 28: Sgepss2013 koyama

28

OAI-ORE (Open Archives Initiative – Object Reuse and Exchange)

• Open Archives Initiative が 2008 年に公開

• あらゆる学術情報リソースを URI で表現する

• 雑誌や論文、論文本体の包含関係を記述する

• 雑誌における論文の引用関係を記述する

• URI で表現された学術コミュニケーション上の概念に対して、最低限の関連性を規定する。リソースには、以下の 4つの概念クラスが用意されている。 – Aggregation ( 集合体 )– AggragatedResources (被集合リソース )

– ResourceMap ( リソースマップ )– Proxy ( プロキシ )

• 4つの概念クラスに分類されたリソースに付随して用意された語彙は以下のとおりである。 – ore:aggregates (~を集める)– ore:isAggregatedBy (~に集められ

る )– ore:describes (~を記述する )– ore:isDescribedBy (~に記述され

る )– ore:similarTo (~に類似である )– ore:proxyFor (~のためのプロキシ

である )– ore:proxyIn (~にあるプロキシである )

– ore:lineage (~をひとつ前とする )

28http://www.openarchives.org/ore/

Page 29: Sgepss2013 koyama

29

ORCID (Open Researcher and Contributor ID)

• 論文著者の名寄せを解決したい• 学術論文のデータベースでは、 2つの方法がと

られてきた– 計算機による名寄せ

• 例– Scopus Author Identifier

(Elsevier社の Scopus に実装 )– Distinct Author Identification System

(Thomson Reuters社の Web of Science に実装 )

– 手動で登録• 例

– ResearcherID (Thomson Reuters社 )

• ORCID は、学術コミュニケーションに関与するすべてのステークホルダーを包含した、研究者に識別子を付与するコミュニティを形成する29

Page 30: Sgepss2013 koyama

30

出版レイヤー

30

データ

論文

研究者

引用する

書く

作成する

サイテーションメカニズムを構成する世界

Page 31: Sgepss2013 koyama

31

DOI, ORCID と URI• 学術情報の識別子

– DOI• prefix / suffix

– ORCID• 16 digit numbers

• インターネット上の識別子をURI(Uniform Resource Identifier)という

• HTTP でアクセスできるよう、学術情報の識別子を URI で表現する

31

10.1007/s00163-004-0050-z

0000-0002-7031-1846

doi:10.1007/s00163-004-0050-zまたは、http://dx.doi.org/10.1007/s00163-004-0050-z

http://orcid.org/0000-0002-7031-1846

Page 32: Sgepss2013 koyama

32

DOI (Digital Object Identifier)• インターネット上のオブジェクトへのアク

セス可用性を高品質に担保する仕組みと管理体制

• 論文ごとに DOI を付与するのが基本• CrossRef は、ジャーナル論文、本、プロシーディングス論文に DOI を付与している

• 対象の詳細化– 論文内の図、表に DOI を付与する– 論文内の章、節に DOI を付与する– 本の章に DOI を付与する

• 対象の拡大– 論文に引用される形式のデータセットに DOI を付

与する 32

Page 33: Sgepss2013 koyama

33

データ活動の評価向上

• 月刊 学術の動向、2012年6月号

• 「科学データの長期保全とグローバルな共有」

• 声を上げることは重要。

• しかしながら、データ活動の科学への貢献度を定量的に示すことが必須。

Page 34: Sgepss2013 koyama

34

インターネット上の学術情報流通の飽くなき展開

34

NII のような文献事業からの展開

IUGONET のようなデータサイエンスからの展開

研究サイクルの加速

Page 35: Sgepss2013 koyama

35

• 2009年 スタートの基盤整備事業

• 分野横断型データベース

• データ解析ソフトウェア

• 図書系の DSpace をカスタマイズ

• 2009 年 2 月の時点では、下図のようにぼんやりしていた。

• データを取り扱う基盤整備が主業務なら、それで評価されるべき。

IUGONET

35

http://search.iugonet.org/iugonet/