Zarządzanie danymi...
Transcript of Zarządzanie danymi...
Tomasz Psonka, Elsevier
Zarządzanie danymi badawczymi
• 05 czerwca 2017,
• IV Ogólnopolskie Seminarium użytkowników
Uczelnianych Baz Wiedzy – Politechnika Warszawska
• Dlaczego dane badawcze?
• Wpływ wymiany danych badawczych
• Kiedy mamy do czynienia z danymi badawczymi?
• Jak wygląda praktyka z danymi badawczymi?
• Elementy efektywnego korzystania z danych badawczych
• Narzędzia i programy wspierające korzystanie z danych
badawczych
Program łączący dane
Standardy przemysłowe
Wyszukiwanie informacji
Notatniki badawcze (HiveBench)
Repozytorium Danych (Mendeley Data)
Data journals – czasopisma publikujące zestawy danych
• Polityka danych badawczych
Zarządzanie danymi badawczymi
Dlaczego dane badawcze?
3
Wyciąg z “Dziesięciu najważniejszych korzyści z udostępniania danych w
astronomii ”, ze Sloan Digital Sky Survey:
• Wczesne udostępnianie danych znacznie poprawia „finalny produkt”, np.
więcej osób „patrząc” na dane zwiększa szansę znalezienia subtelnych
problemów, co jest szczególnie istotne dla misji kosmicznych z określonym czasem
„życia”, np. Misja Gaja - Europejskiej Agencji Kosmicznej
• Więcej nauki jest ekstrahowane z tego samego zestawu danych, np
Różnorodność pomysłów: wiele z najbardziej widocznych rezultatów SDSS było
niespodziewane w pierwotnej propozycji projektu
Wpływ wymiany danych: astronomia
4
http://www.astro.washington.edu/users/ivezic/Outreach/Talks/NAS2011_Ivezic.pdf
Željko Ivezić, Department of Astronomy, University of Washington - The Sloan Digital Sky Survey Telescope - Apache Point Observatory, NM
With contributions from: Andy Connolly, Bob Hanisch, David Hogg, Mario Jurić, Andy Lawrence,
Robert Lupton, Mathias Steinmetz, Michael Strauss, Alex Szalay, Tony Tyson, Roy Williams
• Czasami jedynym sposobem zabezpieczenia
ograniczonych zasobów są „najprostsze
rozwiązania” tzw. „droga naprzód” wymaga
bardziej istotnego łączenia zasobów
badawczych: HST Deep Field, UKIDSS, LSST
• Rezultatem była większa ilości cytowań czyli
wpływ i prestiż dla Zespołu, który opracował
dane, praktycznie wszyscy doktoranci z
pierwszego etapu SDSS utrzymali swoje
stanowiska wykładowców do dziś
„Kapitał w XXI wieku” jest książką opublikowaną w 2013 przez
francuskiego ekonomistę Thomasa Piketty.
• Koncentruje się ona na bogactwie i nierówności dochodów w Europie
i Stanach Zjednoczonych od XVIII wieku
• Centralna teza jest taka, że kiedy stopa zwrotu z kapitału (r) jest
większa niż tempo wzrostu gospodarczego (g) i to przez długi czas, to
wynikiem jest koncentracja bogactwa, a nierówny podział bogactwa
powoduje niestabilność społeczną i ekonomiczną
• Wszystkie surowe dane, znormalizowane dane, wszystkie analizy i
metody zostały udostępnione publicznie na dedykowanej stronie
internetowej
Wpływ wymiany danych: nauki społeczne
5
“Oto ogromne ilości informacji wyciągnięte z ewidencji podatkowych od spadków, zapisów, a także
różnych innych dostępnych źródłach danych, określone w wykresach, które powinny być łatwo
dostępne dla wszystkich czytelników. Nie wszystkie informacje zawarte w tych sekcjach są nowe lub
zaskakujące. Mimo tego pozycja ta jest uznana jako cenna, ponieważ jest to wszystko w jednym
miejscu, nawet większość zaciekłych krytyków tej książki szanuje to osiągnięcie.”
Pokazuje również że udostępnianie danych może prowadzić do problemów:
• Chris Giles, redaktor Financial Times (FT), twierdzi że zidentyfikowano "niewyjaśnione" błędy w
danych Piketty, w szczególności w odniesieniu do wzrostu nierówności bogactwa od 1970 roku.
"Zawierają szereg błędów, które wypaczają jego odkrycia”
• Jako następstwo, Piketty napisał odpowiedź w obronie swoich odkryć, samo oskarżenie i odpowiedzi
odbiły się szerokim echem w prasie
• Np. Scott Winship, socjolog z MIPR, twierdzi, że zarzuty nie są "istotne dla zasadniczej kwestii, czy
teza Piketty jest słuszna czy nie"
Kiedy mówimy o danych badawczych?
Procedury i/lub ustawienia urządzeń
Surowe dane Przetworzone dane
Skrypty i analizy
Protokoły, metody, algorytmy
Note: images for illustrative purpose only 6
Najczęściej postępowanie wygląda tak:
Praca z przeciwciałami,
i małymi fragmentami
informacji,
studenci prowadzą badania
i tworzą notatki,
Kierownik zespołu stara
się to zrozumieć,
i złożyć w całość.
Koniec historii.
7
Najczęstsza praktyka: przechowywanie danych jest nadal bardzo rozdrobnione
Researcher survey, 1202 respondents
(PARSE.insight 2010)
3 8
„Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (eBook)“
E-infrastructures Austria
Bauer, B. (Bruno) et all
Oct 2015
https://phaidra.univie.ac.at/detail_object/o:407736
Zostają w instytucji
Zabieram je ze sobą
Nie wiem
Dane są stracone
Inne
Kiedy opuszczasz instytucję, co się dzieje z Twoimi danymi?
Czy Twoje dane badawcze są użyteczne dla innych?
Często
Tak
Nie
„Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (eBook)“
E-infrastructures Austria
Bauer, B. (Bruno) et all
Oct 2015
https://phaidra.univie.ac.at/detail_object/o:407736
10 elementów dla efektywnych danych badawczych 10.
Inte
gra
cja
w o
bie
str
on
y –
stw
orz
yć t
ak
meta
dane a
by s
łużyły
do r
e-w
ykorz
ysta
nia
.
Zapisy-
wanie
Udostęp-
nianie
Używanie
9. Do ponownego użycia
8. Odtwarzalne
7. Zaufane(np. recenzja)
6. Zrozumiałe (opis/metoda jest dostępna)
5. Cytowalne
4. „Znajdywalne”(dane są indeks. lub powiązane z artykułem)
3. Dostępne
2. Zachowane (długoterminowo i niezależnie od formatu)
1. Przechowywane(istniejące w jakiejś formie)
11
Narzędzia i programy
wspierające zarządzanie danymi
badawczymi
Łączenie przez „nadane”
numery identyfikacyjne
zestawów danych w artykule
Banery z bazy danych pokazane
obok artykułu na ScienceDirect
Więcej: http://www.elsevier.com/databaselinking
• Elsevier ma bogaty program z ponad 60 czołowymi repozytoriami danych,
który ma na celu połączenia artykułów i danych
• Ułatwia to znalezienie odpowiednich danych i umieszczenia ich w
odpowiednim kontekście
• Łączenie poprzez dostępne w artykule: liczby, dane DOI albo banery
danych
Program łączenia danych
• Supplementary data at PANGAEA
• Bidirectional links between PANGAEA &
ScienceDirect
• Data visualized next to the article
Program łączenia danych – przykład Pangea
Dane badawcze z grup roboczych zajmujących się badaniami i rozwojem
standardów branżowych - przykład: www.Scholix.org
• ICSU/WDS/RDA Grupa robocza
dla usług publikowania danych
• Tworzenie modelu łączenia
danych dla ekspozycji DOI do
linków DOI, które łączy się poza
firewallem wydawcy
• Połączone z programem
pilotażowym Narodowe Usługi
Danych o tym samym celu
• Współpraca pomiędzy: CrossRef,
DataCite, Europe PubMed
Central, ANDS, Thomson
Reuters, Elsevier, OpenAire
CEL: odejście od
mnóstwo (w
większości)
porozumień
dwustronnych między
poszczególnymi
graczami…
.. jednej usługi
łączenia/odsyłania
dla wszystkich
artykułów i danych
.. do ..
Model wyszukiwania danych
• Wiele przykładów wyszukiwarek danych już dostępnych
• Niektóre wspólne tematy:
wyszukiwanie metadanych (np. ranking na podstawie metadanych)
i/lub multi wyszukiwarka
i/lub skoncentrowane na przypisywaniu wpływu (cytowań) niż na prostym wyszukiwani informacji
• Nietypowe (z powodu różnego poziomu trudności):
Głębokie indeksowanie zbiorów danych(wyodrębnianie spostrzerzeń na podstawie danych)
Wyszukiwarka naprawdę koncentruje się na odkrywaniu danych
BASE BioCaddie/ DataMED
Datacite Datahub.io DataONE EbiSearch OneRepo
Quandl RE3Data.org Semantic Scholar
OSF|SHARE TR Data
Citation Index Zanran
Elsevier Data Search
np. wyszukaj “Temperatura pomiaru lepkości cieczy jonowych”
DataSearch.Elsevier.com
1. Poprzez repozytoria
2. (Głębokie) indeksowanie danych, więc nie
tylko metadane
3. Podgląd danych
1
3
2
http://data.mendeley.com/ Zarządzaj, przechowuj: Mendeley Dane Otwarte repozytorium do umieszczania i ponownego wykorzystania
danych badawczych
https://data.mendeley.com/datasets/xz6gv65m6d/6
Połączony z
opublikowanymi
pracami – lub nie
połączony z Github –
lub nie
„wersjonowanie” i
pochodzenie
Zarządzaj, przechowuj: Mendeley Dane
https://data.mendeley.com/
http://www.journals.elsevier.com/softwarex/
Data journals: SoftwareX
10
. In
tegra
cja
w o
bie
str
ony –
stw
orz
yć t
ak
meta
da
ne a
by s
łużyły
do r
e-w
ykorz
ysta
nia
.
9. Do ponownego użycia
8. Odtwarzalne
7. Zaufane
6. Zrozumiałe
5. Cytowalne
4. „Znajdywalne”
3. Dostępne
2. Zachowane
1. Przechowywane
22
10 elementów dla efektywnych danych badawczych
Protokoły
badawcze
(Hivebench)
Mendeley
dane
repozytorium
Data
journals Łączenie
danych Wyszukiwanie
danych
Inicjatywy Elsevier
Polityka danych badawczych
Elsevier będzie:
• Zachęcał i wspierał naukowców oraz instytucje naukowe do udostępniania
danych w stosownych przypadkach i w możliwie najkrótszym czasie.
• Dostarczał wytyczne dla autorów dotyczące przechowywania i udostępniania
danych.
• Zachęcał i umożliwiał dwukierunkowe powiązanie odpowiednich zbiorów
danych i publikacji z wykorzystaniem standardowych stałych identyfikatorów.
• Promowanie i wspieranie właściwych praktyk cytowań danych, dzięki czemu
naukowcy mogą być cytowani i uznawani za swoją pracę.
• Ściśle współpracował ze środowiskiem naukowym w celu ustalenia praktyk
oceny danych w celu zapewnienia, że publikowane dane badawcze są ważne,
odpowiednio udokumentowane i mogą być ponownie wykorzystane.
• Opracowywał narzędzia i usługi wspierające naukowców do znajdowania oraz
wielokrotnego użycia danych do ich dalszych badań.
“Surowe dane badawcze powinny być ogólnie dostępne dla wszystkich naukowców
w miarę możliwości” – STM Brussels Declaration 2007
Korzyści z usług Scopus i / lub ScienceDirect API dla repozytoriów instytucjonalnych
24 www.elsevier.com/solutions/sciencedirect/support/institutional-repository