Zarządzanie danymi...

25
Tomasz Psonka, Elsevier Zarządzanie danymi badawczymi 05 czerwca 2017, IV Ogólnopolskie Seminarium użytkowników Uczelnianych Baz Wiedzy Politechnika Warszawska

Transcript of Zarządzanie danymi...

Page 1: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Tomasz Psonka, Elsevier

Zarządzanie danymi badawczymi

• 05 czerwca 2017,

• IV Ogólnopolskie Seminarium użytkowników

Uczelnianych Baz Wiedzy – Politechnika Warszawska

Page 2: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

• Dlaczego dane badawcze?

• Wpływ wymiany danych badawczych

• Kiedy mamy do czynienia z danymi badawczymi?

• Jak wygląda praktyka z danymi badawczymi?

• Elementy efektywnego korzystania z danych badawczych

• Narzędzia i programy wspierające korzystanie z danych

badawczych

Program łączący dane

Standardy przemysłowe

Wyszukiwanie informacji

Notatniki badawcze (HiveBench)

Repozytorium Danych (Mendeley Data)

Data journals – czasopisma publikujące zestawy danych

• Polityka danych badawczych

Zarządzanie danymi badawczymi

Page 3: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Dlaczego dane badawcze?

3

Page 4: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Wyciąg z “Dziesięciu najważniejszych korzyści z udostępniania danych w

astronomii ”, ze Sloan Digital Sky Survey:

• Wczesne udostępnianie danych znacznie poprawia „finalny produkt”, np.

więcej osób „patrząc” na dane zwiększa szansę znalezienia subtelnych

problemów, co jest szczególnie istotne dla misji kosmicznych z określonym czasem

„życia”, np. Misja Gaja - Europejskiej Agencji Kosmicznej

• Więcej nauki jest ekstrahowane z tego samego zestawu danych, np

Różnorodność pomysłów: wiele z najbardziej widocznych rezultatów SDSS było

niespodziewane w pierwotnej propozycji projektu

Wpływ wymiany danych: astronomia

4

http://www.astro.washington.edu/users/ivezic/Outreach/Talks/NAS2011_Ivezic.pdf

Željko Ivezić, Department of Astronomy, University of Washington - The Sloan Digital Sky Survey Telescope - Apache Point Observatory, NM

With contributions from: Andy Connolly, Bob Hanisch, David Hogg, Mario Jurić, Andy Lawrence,

Robert Lupton, Mathias Steinmetz, Michael Strauss, Alex Szalay, Tony Tyson, Roy Williams

• Czasami jedynym sposobem zabezpieczenia

ograniczonych zasobów są „najprostsze

rozwiązania” tzw. „droga naprzód” wymaga

bardziej istotnego łączenia zasobów

badawczych: HST Deep Field, UKIDSS, LSST

• Rezultatem była większa ilości cytowań czyli

wpływ i prestiż dla Zespołu, który opracował

dane, praktycznie wszyscy doktoranci z

pierwszego etapu SDSS utrzymali swoje

stanowiska wykładowców do dziś

Page 5: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

„Kapitał w XXI wieku” jest książką opublikowaną w 2013 przez

francuskiego ekonomistę Thomasa Piketty.

• Koncentruje się ona na bogactwie i nierówności dochodów w Europie

i Stanach Zjednoczonych od XVIII wieku

• Centralna teza jest taka, że kiedy stopa zwrotu z kapitału (r) jest

większa niż tempo wzrostu gospodarczego (g) i to przez długi czas, to

wynikiem jest koncentracja bogactwa, a nierówny podział bogactwa

powoduje niestabilność społeczną i ekonomiczną

• Wszystkie surowe dane, znormalizowane dane, wszystkie analizy i

metody zostały udostępnione publicznie na dedykowanej stronie

internetowej

Wpływ wymiany danych: nauki społeczne

5

“Oto ogromne ilości informacji wyciągnięte z ewidencji podatkowych od spadków, zapisów, a także

różnych innych dostępnych źródłach danych, określone w wykresach, które powinny być łatwo

dostępne dla wszystkich czytelników. Nie wszystkie informacje zawarte w tych sekcjach są nowe lub

zaskakujące. Mimo tego pozycja ta jest uznana jako cenna, ponieważ jest to wszystko w jednym

miejscu, nawet większość zaciekłych krytyków tej książki szanuje to osiągnięcie.”

Pokazuje również że udostępnianie danych może prowadzić do problemów:

• Chris Giles, redaktor Financial Times (FT), twierdzi że zidentyfikowano "niewyjaśnione" błędy w

danych Piketty, w szczególności w odniesieniu do wzrostu nierówności bogactwa od 1970 roku.

"Zawierają szereg błędów, które wypaczają jego odkrycia”

• Jako następstwo, Piketty napisał odpowiedź w obronie swoich odkryć, samo oskarżenie i odpowiedzi

odbiły się szerokim echem w prasie

• Np. Scott Winship, socjolog z MIPR, twierdzi, że zarzuty nie są "istotne dla zasadniczej kwestii, czy

teza Piketty jest słuszna czy nie"

Page 6: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Kiedy mówimy o danych badawczych?

Procedury i/lub ustawienia urządzeń

Surowe dane Przetworzone dane

Skrypty i analizy

Protokoły, metody, algorytmy

Note: images for illustrative purpose only 6

Page 7: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Najczęściej postępowanie wygląda tak:

Praca z przeciwciałami,

i małymi fragmentami

informacji,

studenci prowadzą badania

i tworzą notatki,

Kierownik zespołu stara

się to zrozumieć,

i złożyć w całość.

Koniec historii.

7

Page 8: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Najczęstsza praktyka: przechowywanie danych jest nadal bardzo rozdrobnione

Researcher survey, 1202 respondents

(PARSE.insight 2010)

3 8

Page 9: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

„Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (eBook)“

E-infrastructures Austria

Bauer, B. (Bruno) et all

Oct 2015

https://phaidra.univie.ac.at/detail_object/o:407736

Zostają w instytucji

Zabieram je ze sobą

Nie wiem

Dane są stracone

Inne

Kiedy opuszczasz instytucję, co się dzieje z Twoimi danymi?

Page 10: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Czy Twoje dane badawcze są użyteczne dla innych?

Często

Tak

Nie

„Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (eBook)“

E-infrastructures Austria

Bauer, B. (Bruno) et all

Oct 2015

https://phaidra.univie.ac.at/detail_object/o:407736

Page 11: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

10 elementów dla efektywnych danych badawczych 10.

Inte

gra

cja

w o

bie

str

on

y –

stw

orz

yć t

ak

meta

dane a

by s

łużyły

do r

e-w

ykorz

ysta

nia

.

Zapisy-

wanie

Udostęp-

nianie

Używanie

9. Do ponownego użycia

8. Odtwarzalne

7. Zaufane(np. recenzja)

6. Zrozumiałe (opis/metoda jest dostępna)

5. Cytowalne

4. „Znajdywalne”(dane są indeks. lub powiązane z artykułem)

3. Dostępne

2. Zachowane (długoterminowo i niezależnie od formatu)

1. Przechowywane(istniejące w jakiejś formie)

11

Page 12: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Narzędzia i programy

wspierające zarządzanie danymi

badawczymi

Page 13: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Łączenie przez „nadane”

numery identyfikacyjne

zestawów danych w artykule

Banery z bazy danych pokazane

obok artykułu na ScienceDirect

Więcej: http://www.elsevier.com/databaselinking

• Elsevier ma bogaty program z ponad 60 czołowymi repozytoriami danych,

który ma na celu połączenia artykułów i danych

• Ułatwia to znalezienie odpowiednich danych i umieszczenia ich w

odpowiednim kontekście

• Łączenie poprzez dostępne w artykule: liczby, dane DOI albo banery

danych

Program łączenia danych

Page 14: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

• Supplementary data at PANGAEA

• Bidirectional links between PANGAEA &

ScienceDirect

• Data visualized next to the article

Program łączenia danych – przykład Pangea

Page 15: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Dane badawcze z grup roboczych zajmujących się badaniami i rozwojem

standardów branżowych - przykład: www.Scholix.org

• ICSU/WDS/RDA Grupa robocza

dla usług publikowania danych

• Tworzenie modelu łączenia

danych dla ekspozycji DOI do

linków DOI, które łączy się poza

firewallem wydawcy

• Połączone z programem

pilotażowym Narodowe Usługi

Danych o tym samym celu

• Współpraca pomiędzy: CrossRef,

DataCite, Europe PubMed

Central, ANDS, Thomson

Reuters, Elsevier, OpenAire

CEL: odejście od

mnóstwo (w

większości)

porozumień

dwustronnych między

poszczególnymi

graczami…

.. jednej usługi

łączenia/odsyłania

dla wszystkich

artykułów i danych

.. do ..

Page 16: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Model wyszukiwania danych

• Wiele przykładów wyszukiwarek danych już dostępnych

• Niektóre wspólne tematy:

wyszukiwanie metadanych (np. ranking na podstawie metadanych)

i/lub multi wyszukiwarka

i/lub skoncentrowane na przypisywaniu wpływu (cytowań) niż na prostym wyszukiwani informacji

• Nietypowe (z powodu różnego poziomu trudności):

Głębokie indeksowanie zbiorów danych(wyodrębnianie spostrzerzeń na podstawie danych)

Wyszukiwarka naprawdę koncentruje się na odkrywaniu danych

BASE BioCaddie/ DataMED

Datacite Datahub.io DataONE EbiSearch OneRepo

Quandl RE3Data.org Semantic Scholar

OSF|SHARE TR Data

Citation Index Zanran

Page 17: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Elsevier Data Search

np. wyszukaj “Temperatura pomiaru lepkości cieczy jonowych”

DataSearch.Elsevier.com

1. Poprzez repozytoria

2. (Głębokie) indeksowanie danych, więc nie

tylko metadane

3. Podgląd danych

1

3

2

Page 18: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Notatki badawcze - przechwytywanie i udostępnianie

www.hivebench.com

Page 19: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

http://data.mendeley.com/ Zarządzaj, przechowuj: Mendeley Dane Otwarte repozytorium do umieszczania i ponownego wykorzystania

danych badawczych

Page 20: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

https://data.mendeley.com/datasets/xz6gv65m6d/6

Połączony z

opublikowanymi

pracami – lub nie

połączony z Github –

lub nie

„wersjonowanie” i

pochodzenie

Zarządzaj, przechowuj: Mendeley Dane

https://data.mendeley.com/

Page 21: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

http://www.journals.elsevier.com/softwarex/

Data journals: SoftwareX

Page 22: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

10

. In

tegra

cja

w o

bie

str

ony –

stw

orz

yć t

ak

meta

da

ne a

by s

łużyły

do r

e-w

ykorz

ysta

nia

.

9. Do ponownego użycia

8. Odtwarzalne

7. Zaufane

6. Zrozumiałe

5. Cytowalne

4. „Znajdywalne”

3. Dostępne

2. Zachowane

1. Przechowywane

22

10 elementów dla efektywnych danych badawczych

Protokoły

badawcze

(Hivebench)

Mendeley

dane

repozytorium

Data

journals Łączenie

danych Wyszukiwanie

danych

Inicjatywy Elsevier

Page 23: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Polityka danych badawczych

Elsevier będzie:

• Zachęcał i wspierał naukowców oraz instytucje naukowe do udostępniania

danych w stosownych przypadkach i w możliwie najkrótszym czasie.

• Dostarczał wytyczne dla autorów dotyczące przechowywania i udostępniania

danych.

• Zachęcał i umożliwiał dwukierunkowe powiązanie odpowiednich zbiorów

danych i publikacji z wykorzystaniem standardowych stałych identyfikatorów.

• Promowanie i wspieranie właściwych praktyk cytowań danych, dzięki czemu

naukowcy mogą być cytowani i uznawani za swoją pracę.

• Ściśle współpracował ze środowiskiem naukowym w celu ustalenia praktyk

oceny danych w celu zapewnienia, że publikowane dane badawcze są ważne,

odpowiednio udokumentowane i mogą być ponownie wykorzystane.

• Opracowywał narzędzia i usługi wspierające naukowców do znajdowania oraz

wielokrotnego użycia danych do ich dalszych badań.

“Surowe dane badawcze powinny być ogólnie dostępne dla wszystkich naukowców

w miarę możliwości” – STM Brussels Declaration 2007

Page 24: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Korzyści z usług Scopus i / lub ScienceDirect API dla repozytoriów instytucjonalnych

24 www.elsevier.com/solutions/sciencedirect/support/institutional-repository

Page 25: Zarządzanie danymi badawczymirepo.bg.pw.edu.pl/images/Zarządzanie_danymi_badawczymi.pdfZarządzanie danymi badawczymi Dlaczego dane badawcze? 3 Wyciąg z “Dziesięciu najważniejszych

Dziękuję bardzo! Pytania?

+48 501 980 333

[email protected]