Sgepss2013 koyama
-
Upload
yukinobu-koyama -
Category
Technology
-
view
109 -
download
1
Transcript of Sgepss2013 koyama
1
超高層物理学におけるデータ集約型科学の
第4の科学に関する調査
小山 幸伸 *1, 蔵川 圭 , 佐藤 由佳 , 田中 良昌 , 池田 大輔 , 阿部 修司 , 堀 智昭 , 新堀 淳樹 ,
八木 学 , 上野 悟 , 橋口 典子 , 谷田貝 亜紀代 ,
能勢 正仁 , 家森 俊彦
*1 京都大学大学院理学研究科附属地磁気世界資料解析センター
2
The FOURTH PARADIGMDATA-INTENSIVE SCIENCE DISCOVERY
• Writer: Gordon Bell, Jim Gray, Peter Fox, etc.
• Oct., 2009 … 4th Paradigm
• Dec., 2009 … DataCite
any other in 2009?
• Jul., 2009 … IUGONET
http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf
3
The FOURTH PARADIGMDATA-INTENSIVE SCIENCE DISCOVERY
http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf
電離圏電気伝導度モデル詳細は、 CAWSES-IIにて!
文献事業と、データの融合の、無骨な現れが IUGONET のDSpace
4
The Loyal Society of LondonPhilosophical Transactions
doi:10.1098/rstl.1665.0007
R. Boyledoi:10.1098/rstl.1668.0016G. D. Cassini
約350年前に論文スタイルが確立!
タイトルに加え、著者もセンタリングされた!
4 代 家綱時代
5
論文の変革の兆し
• PEPS 誌、 EPS 誌 → オープンアクセス
• PLOS ONE, altmetrics– 雑誌単位の IF 評価 → 論文単位の評価
• PANGAEA & ELSEVIER– 地球科学のデータ出版とジャーナル出版の融
合(DataCite – PANGAEA – ELSEVIER から、 JaLC – IUGONET - JpGU にならない??)
6
持続可能なデータ公開活動の環境構築が、地球物理の課題
• 共通認識– 観測・データ整備等のデータ公開活動の重要性。
• 現状– 研究者が教育・研究の合間にボランティアで活動。– データ公開活動そのものは評価の対象でない。
徳川家
7
データ公開活動の収益構造の確立
1. DOI をデータセットに付与する。
2. ジャーナルから引用する。
• DOI と ORCID がポイント … 論文の世界で使われているものと同じ識別子を、データ用に意図的に使う!
データ提供者側の
データ提供者側
データ利用者側
資金提供者側
DOI,ORCID
DOI,ORCID
Literature
Derived & Recombined Data
Raw Data
文献とデータセットの結合
文献とデータセットの不完全
• 現状の Data Publication & Citationは、 Journal Publishing 目線。 → 科学的な REUSE×
• (海外の)図書館業界(教育+研究支援)• ビッグディール問題の次は、科学データ取り
扱いへ。 → 行き詰まり中
9
データ提供者側
データ利用者側
資金提供者側
10
前述の動きに呼応したIUGONET XML Schema の再定義
10学術出版を頂点とした科学データの REUSE の準備をした。
観測理論
数値計算
次なる問題点:Derived & Recombined Data
Derived & Recombined Data は、インターネット上での共有が進んでいない。
Derived & Recombined Data が共有されたとき、学術出版のパラダイムシフトが起こる。
13
追記:第2層のイメージ
13
ForkFork
WikiWiki
Commit IDCommit ID
Public/PrivatePublic/Private
Github + Dropbox が近い
第1、2層の仲介はJava Web Start !?第1、2層の仲介はJava Web Start !?
Branch
14
まとめ• 第 4 の科学に向けた下準備とし
て、 IUGONET XML Schema を、• データセットの DOI 、• 文献の DOI 、• 著者 ID 、• ライセンス条項
• と紐づけた。
• Derived & Recombined Data 層にチャレンジ!14
15
研究者の評価指針
• 研究成果 = 論文 (Impact Factor) I/F※ は本来は雑誌の評価用で、研究者個人の評
価用では無いけど、いちおう数字を足し上げることは可能。
• データを論文に紐付けておけば、データ活動の貢献も定量化できる。
↓
データ活動の収益構造確立
16
追記:第2層のイメージ
16
ForkFork
WikiWiki
Commit IDCommit ID
Public/PrivatePublic/Private
Github そのもの!?
第1、2層の仲介はJava Web Start !?第1、2層の仲介はJava Web Start !?
Branch
17
IUGONET のメタデータ• Raw Dataファイルと1対1で紐づく粒度で、メタデータを記述 (Granule リソースタイプ ) 。
• 知見情報の記述は、現在していない。(Annotation リソースタイプで記述可能 )
• Derived Data に紐づくメタデータは、現在記述していない。(例外: Dst インデックス等、専門家のコンセンサスが得られており、もはや一次データと同様に取り扱われるもの)
↓Raw Data -> Derived Data の変換過程 (メタデー
タ ) を、データ解析ソフトウェアが自動生成する必要あ
り!? 17
18
科学的データの階層• 3つの階層
– Literature
– Derived and Recombined Data
– Raw Data
• 階層の要素– 同一の階層の要素は互いに関係を持つ
– 隣り合う階層を構成する要素が互いに関係を持つ
• ネットが分野をまたいだ要素の統合と関連を可能にする
18
Tony Hey, Stewart Tansley, & Kristin Tolle (Eds.). (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. Retrieved from http://research.microsoft.com/en-us/collaboration/fourthparadigm/default.aspx
19
データレイヤーとの相互展開
19
作成する
生データ
中間データ
利用する 研究者
出版レイヤー
データレイヤー
20
The origin of Journal Publication
• Title: Philosophical Transactions
• Publisher: Royal Society of London
• Mar. 6, 1665 –
21
データ /メタデータ作成者の収益構造
21
DOIDOI
DOI未
DOI未
ORCID ID を検索キーとした“論文”と“データ /メタデータ”の横断検索→ 論文出版 と データ出版 に関する貢献の定量化!
ORCIDORCID
22
TimeLine
2014.42013.6
財源の議論
データセット受付スタート
WDS ?NiCT
地磁気セ
IUGONET
JaLC
IUGONET, ORCID, DataCite, JaLC 連携スキーマ定義
対象拡大 WG
メタデータ試作 (DataCite Schema -> JaLC Schema) 文献の決定
23
Tim Burners-Lee
• ティム・バーナーズ・リーの手のひらの上に乗っていることを忘れない!
• Internet• Semantic Web• Linked Open Data
• 相互運用性(Interoperabiligy) を目指し、 Web of Dataへ。
24
まとめ
• IUGONET プロジェクトの XML Schema を実験的に拡張した。→ データ活動に関する貢献を、論文で使われているのと同種の識別子 (ORCID, DOI) を用いて、個人単位で、役割を付与して、メタデータ化出来るようになった。
25
Web 上の学術情報の識別子• オブジェクトの識別子
– DOI (Digital Object Identifier)• CrossRef (1999 - , PILA)• DataCite (2009 - , BL and library related)• JaLC (Japan Link Center)
• 人の識別子– ORCID (Open Researcher and Contributor
Identifier) (2010 - , ORCID. Inc.)– 研究者リゾルバー ID (科研費研究者番号)
• NII によるプロトタイプシステム (2008 - , NII) 25
26
地磁気センターの仕事
26
1. 地磁気センターニュース(含:峰山の記事とデータセットの DOI )をペーパーと見立てる。
2. KURENAI に登録しオンライン化。3. JAIRO にメタデータがハーベストされ伝搬。
峰山磁場データセット
リンク
データセットに ID振っても何も起こらない!書誌とのリンクが重要!
データジャーナルの立ち上がり、ジャーナル掲載を待つのは得策でない。
27
サイテーションメカニズムを利用したサービス例
• 論文の引用– Citation Index– Impact Factor– H-index
• 論文引用サービス例– Web of Science (TR)– Scopus (Elsevier)– CrossRef (PILA)– Google Scholar (Google)
• データの引用• Data Citation Index (TR)
• データ引用サービス例– PANGAEA (Alfred Wegener
Institute for Polar and Marine Research, Center for Marine Environmental Sciences, and etc.)
– DataCite (BL, and etc.)– Dryad (National
Evolutionary Synthesis Center and the University of North Carolina Metadata Research Center)
27
28
OAI-ORE (Open Archives Initiative – Object Reuse and Exchange)
• Open Archives Initiative が 2008 年に公開
• あらゆる学術情報リソースを URI で表現する
• 雑誌や論文、論文本体の包含関係を記述する
• 雑誌における論文の引用関係を記述する
• URI で表現された学術コミュニケーション上の概念に対して、最低限の関連性を規定する。リソースには、以下の 4つの概念クラスが用意されている。 – Aggregation ( 集合体 )– AggragatedResources (被集合リソース )
– ResourceMap ( リソースマップ )– Proxy ( プロキシ )
• 4つの概念クラスに分類されたリソースに付随して用意された語彙は以下のとおりである。 – ore:aggregates (~を集める)– ore:isAggregatedBy (~に集められ
る )– ore:describes (~を記述する )– ore:isDescribedBy (~に記述され
る )– ore:similarTo (~に類似である )– ore:proxyFor (~のためのプロキシ
である )– ore:proxyIn (~にあるプロキシである )
– ore:lineage (~をひとつ前とする )
28http://www.openarchives.org/ore/
29
ORCID (Open Researcher and Contributor ID)
• 論文著者の名寄せを解決したい• 学術論文のデータベースでは、 2つの方法がと
られてきた– 計算機による名寄せ
• 例– Scopus Author Identifier
(Elsevier社の Scopus に実装 )– Distinct Author Identification System
(Thomson Reuters社の Web of Science に実装 )
– 手動で登録• 例
– ResearcherID (Thomson Reuters社 )
• ORCID は、学術コミュニケーションに関与するすべてのステークホルダーを包含した、研究者に識別子を付与するコミュニティを形成する29
30
出版レイヤー
30
データ
論文
研究者
引用する
書く
作成する
サイテーションメカニズムを構成する世界
31
DOI, ORCID と URI• 学術情報の識別子
– DOI• prefix / suffix
– ORCID• 16 digit numbers
• インターネット上の識別子をURI(Uniform Resource Identifier)という
• HTTP でアクセスできるよう、学術情報の識別子を URI で表現する
31
10.1007/s00163-004-0050-z
0000-0002-7031-1846
doi:10.1007/s00163-004-0050-zまたは、http://dx.doi.org/10.1007/s00163-004-0050-z
http://orcid.org/0000-0002-7031-1846
32
DOI (Digital Object Identifier)• インターネット上のオブジェクトへのアク
セス可用性を高品質に担保する仕組みと管理体制
• 論文ごとに DOI を付与するのが基本• CrossRef は、ジャーナル論文、本、プロシーディングス論文に DOI を付与している
• 対象の詳細化– 論文内の図、表に DOI を付与する– 論文内の章、節に DOI を付与する– 本の章に DOI を付与する
• 対象の拡大– 論文に引用される形式のデータセットに DOI を付
与する 32
33
データ活動の評価向上
• 月刊 学術の動向、2012年6月号
• 「科学データの長期保全とグローバルな共有」
• 声を上げることは重要。
• しかしながら、データ活動の科学への貢献度を定量的に示すことが必須。
34
インターネット上の学術情報流通の飽くなき展開
34
NII のような文献事業からの展開
IUGONET のようなデータサイエンスからの展開
研究サイクルの加速
35
• 2009年 スタートの基盤整備事業
• 分野横断型データベース
• データ解析ソフトウェア
• 図書系の DSpace をカスタマイズ
• 2009 年 2 月の時点では、下図のようにぼんやりしていた。
• データを取り扱う基盤整備が主業務なら、それで評価されるべき。
IUGONET
35
http://search.iugonet.org/iugonet/