Datamanagement for Research: A Case Study
-
Upload
dirk-roorda -
Category
Education
-
view
139 -
download
0
description
Transcript of Datamanagement for Research: A Case Study
Helpt datamanagement de onderzoeker?
ja ... maar de praktijk is weerbarstig
2014-10-31 Den Haag 2015-03-12 Delft
Geleerdenbrieven
Data en traditie
text + linguistics => data + rese
arch =>
Wido van Peursen
Wat zien we ervan?
Toegankelijkheid van Data
Deze onderzoekers zijn begonnen vóór internet
ze hebben een fantastische datacreatie workflow ontwikkeld op hun instituut
de ETCBC heeft een behoorlijk dikke celwand gekregen
Eigen coderingen
research data cycle ?religious
communities
theol. scholars
theol. scholars
enlightened lay people
research data cycle ?religious
communities
theol. scholars
theol. scholars
enlightened lay people
linguists
comp. hum
Research Data Archiving
DANS
CLARIN SHEBANQ LAF-Fabric
stap 3: deponeren (2012)
wat is er gedeponeerd?
stap 4: project (2013)
SHEBANQ
System for Hebrew Text: ANnotations for Queries
project: CLARIN-NL
data curation: LAF
demonstrator: query saver
infrastructuur
data formaat
instrument
LAF? Yes, ISOLinguistic Annotation Framework
ISO 24612:2012
Nancy Ide, Laurent Romary
This is LAF
<node xml:id="n_88917"><link targets="r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11"/>
</node><edge xml:id="e1" from="n88917" to="n84383"/>
<a xml:id="ae1" label="parents" ref="e1" as="link"/>
<region xml:id="r_2" anchors="6 23"/><node xml:id="n_3"><link targets="r_2"/></node>
<a xml:id="a_3" label="word" ref="n_3" as="monads"/>labeled edges
nodes
annotations(features)
annotations(empty)
primary data
regions
lexeme_utf8= תישארsurface_consonants_utf8= תישאר
׃ץראה תאו םימשה תא םיה.א ארב תישארב
0-56-2392 72-91r9r10r11
n2n3
word
sentence
phrase
determination=determinedphrase_function=Objc
phrase_type=PP
parents
mothersubphrase
clause
r11 r10 r9
clause_atom_number=1clause_atom_relation=0clause_atom_type=xQtl
indentation=0
<a xml:id="af22" label="ft" ref="n3" as="utf8"><fs><f name="lexeme_utf8" value=" תישאר "/>
<f name="surface_consonants_utf8" value=" תישאר "/></fs></a>
link to regions
Linguistic Annotation Framework
IPython notebook
data en tools
data is niet los verkrijgbaar
er is altijd een instrument nodig: software
kijken/checken
transporteren
transformeren
kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls etcbc4.hdr etcbc4_lingo.c.xml etcbc4_lingo.sp.xml etcbc4_regions.xml etcbc4.lst etcbc4_lingo.p.xml etcbc4_lingo.xml etcbc4_sections.xml etcbc4.txt etcbc4_lingo.pa.xml etcbc4_monads.lex.xml etcbc4.txt.hdr etcbc4_lingo.s.xml etcbc4_monads.xml
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > du -h . 1.5G .
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -l 'BR>' *.xml etcbc4_monads.lex.xml
BR> = ברא = maken
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -c 'BR>' etcbc4_monads.lex.xml 113
kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.txt -rw-r--r-- 1 dirk staff 5.1M Jul 23 10:58 etcbc4.txt
kijken-checken
kijken-checken (xml)dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.xml -rw-r--r-- 1 dirk staff 104M Jul 23 11:00 etcbc4_lingo.c.xml -rw-r--r-- 1 dirk staff 107M Jul 23 11:00 etcbc4_lingo.p.xml -rw-r--r-- 1 dirk staff 148M Jul 23 11:00 etcbc4_lingo.pa.xml -rw-r--r-- 1 dirk staff 22M Jul 23 11:00 etcbc4_lingo.s.xml -rw-r--r-- 1 dirk staff 23M Jul 23 11:00 etcbc4_lingo.sp.xml -rw-r--r-- 1 dirk staff 299M Jul 23 11:00 etcbc4_lingo.xml -rw-r--r-- 1 dirk staff 642M Jul 23 10:58 etcbc4_monads.lex.xml -rw-r--r-- 1 dirk staff 125M Jul 23 10:58 etcbc4_monads.xml -rw-r--r-- 1 dirk staff 37M Jul 23 10:58 etcbc4_regions.xml -rw-r--r-- 1 dirk staff 36M Jul 23 10:58 etcbc4_sections.xml
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > time xmllint --nonet --noout --stream --schema /Users/dirk/Dropbox/laf-fabric-data/etcbc4/decl/graf-standoff.xsd etcbc4_monads.lex.xml etcbc4_monads.lex.xml validates real 2m26.029s user 2m20.308s sys 0m2.376s
kijken-checken (xml).hdr => .xml
transporteren
transformerenHoe kan ik de computer zo snel mogelijk voor mij aan het werk zetten?
scripten
shell, python
scientific programming
software als instrument
uur cyclus
door onderzoeker voor onderzoeker
programmeren
C, C++, Java
software engineering
applicaties als product
wekelijkse cyclus
door ICTer voor onderzoeker
waar vallen wetenschappers voor?
het zijn geen software ontwikkelaars
maar ze programmeren wel
ze exploreren data, kneden, masseren
hun product is geen programma
maar analyse, visualisatie, publicatie
cultuur
fragmenten uit een video van Fernando Perez
4:19 onderzoekers en computing - 7:37
17:00 tools en de data life cycle - 20:26
42:09 data en publiceren - 44:20 / 49:22
data science at the command linehttp://datascienceatthecommandline.com
http://datasciencetoolbox.org
The Data Science Toolbox is a virtual environment based on Ubuntu Linux that is specifically suited for doing data science. Its purpose is to get you started in a matter of minutes. You can run the Data Science Toolbox either locally (using VirtualBox and Vagrant) or in the cloud (using Amazon Web Services).
stap 6: oogsten (2014)Rens Bod:
ling/dighum
Data Oriented Parsing
stap 6: oogsten (2014)
stap 7: meer (toekomst)
meer projecten
meer disciplines
meer databronnen
meer wetenschappelijke output
betere positie in de competitie
research environmentfunction medium infra
data LAF in dataset DANS EASY
web site web2py DANS=>KNAW, Leaseweb, Cloud
tools LAF-Fabric, Shebanq, Emdros
Github, Sourceforge
publishingIPython notebooks, Restructured Text
Github, Readthedocs
products apps, notebooks, articles
Github, Science Clouds, Journals
is dit een succes verhaal?dat staat nog te bezien ...
pas na 6 jaar tekenen van versnelling
vaak de gelegenheid grijpen
overmatig overtuigen
technische diepgang
affiniteit met de bronnen en het onderzoek
investeringen vooraf
waarom gaat het niet sneller?
de groep heeft zich efficiënt georganiseerd
veel is onder controle
nieuwe methoden zijn nog niet bewezen
technische support is schaars en moeilijk te betalen voor alfa-groepen
welke factoren dragen bij?
personele veranderingen in de vakgroep
nieuwe projecten
nieuwe eisen van NWO (open access)
competitie en samenwerking over disciplines
door de al maar doorgaande dynamiek van meer-beter-sneller-werkbaarder:
komt de digitale wereld steeds dichter bij steeds meer mensen
Helpt data management de onderzoeker?
ja, als zij inziet waar archivering en hergebruik goed voor zijn
ja, als hij de weg naar het archief weet te vinden
ja, als het archief relevant voor haar weet te zijn
ja, als het archief alert omgaat met de ontwikkelingen in ICT
Helpt data management de onderzoeker?
ja, als zij inziet waar archivering en hergebruik goed voor zijn
ja, als hij de weg naar het archief weet te vinden
ja, als het archief relevant voor haar weet te zijn
ja, als het archief alert omgaat met de ontwikkelingen in ICT
Niets hiervan is
vanzelfsprekend