Herausforderungen von Big Data für die
Bibliotheks- und Informationswissenschaft
Prof. Dr. Robert JäschkeLeibniz Universität Hannover
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 2
Stand der Vorlesung
Kapitel 10: Big-Data-Technologien● Einführung● LIS und Big Data● Methoden und Technologien
Volume Velocity Variety Veracity
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 3
Thema und Lernziele
● LIS und Big Data– Fokus auf wissenschaftliche Bibliotheken
● Lernziele– verstehen, warum/wie Big Data Bibliotheken betrifft
– den Unterschied zu traditionellen Medien verstehen
– Herausforderungen für Bibliotheken (er)kennen und aus Fallbeispielen ableiten können
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 4
LIS und Big Data
What is the Library's role with “big data”? What is the Library's role
with any information?
(R. Munroe/M. Furlough)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 5
LIS und Big Data
1.Beispiele
2.Ursachen
3.Herausforderungen
4.Fallbeispiel: Web-Archivierung
Sammeln
Erschließen
Vermitteln
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 6
Velocity
In every 24-hour period approximately 20,000,000 words of technical information are being recorded. A reader capable of reading 1,000 words per minute would require 1.5 months, reading 8 hours every day, to get through 1 day’s technical output, and at the end of that period, he would have fallen 5.5 years behind in his reading!
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 7
Velocity
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 8
Velocity
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 9
Volume
(R. Munroe)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 10
Volume
(M.
Laak
so, B
.-C
. B
jörk
)
(R. Munroe)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 11
Volume
(M.
Laak
so, B
.-C
. B
jörk
)
(R. Munroe)
Some scientists claim it takes less time to do an experiment than to find out whether or not it has been done before.
(J. Naisbitt, 1982)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 12
Variety
J. Jansson/norden.org
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 13
Variety
J. Jansson/norden.org
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 14
Variety
J. Jansson/norden.org
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 15
Variety
J. Jansson/norden.org
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 16
Variety
J. Jansson/norden.org
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 17
Variety
J. Jansson/norden.org
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 18
Variety
J. Jansson/norden.org
DLR
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 19
Variety
J. Jansson/norden.org
DLR
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 20
Variety
J. Jansson/norden.org
DLR
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 21
Variety
J. Jansson/norden.org
DLR
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 22
Veracity
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 23
Ursachen
● Wissensgesellschaft● Wachstum und Wohlstand● globaler Wettbewerb● Digitalisierung● Open Science● Anforderungen aus Politik und Gesellschaft● Data-intensive Science● Wandel der Rolle von Bibliotheken
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 24
Herausforderungen
Sammeln
Erschließen
Vermitteln
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 25
Herausforderungen
Volume Velocity Variety Veracity
Sammeln
Erschließen
Vermitteln
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 26
Herausforderungen
Volume Velocity Variety Veracity
Sammeln
Erschließen
Vermitteln
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 27
Herausforderungen
poorly organized collections; poor search tools and lack of accessibility and findability of internal data sets; lack of awareness of available third-party data sets; and copyright and intellectual property issues
(G.-L. Murnane, 2012)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 28
Fallbeispiel: Web-Archivierung
Johannes Jansson/norden.org
DLR
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 29
Fallbeispiel: Web-Archivierung
Johannes Jansson/norden.org
DLR
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 30
Fallbeispiel: Web-Archivierung
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 31
Fallbeispiel: Web-Archivierung
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 32
Fallbeispiel: Web-Archivierung
To do a large-scale social, political, or economic history of periods after the mid 1990s will at the very least be considerably enhanced by an understanding of Web data.
(William J. Turkel, Professor of History, 2015)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 33
Fallbeispiel: Web-Archivierung
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 34
Fallbeispiel: Web-Archivierung
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 35
Fallbeispiel: Web-Archivierung
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 36
Volume
● Google¹: 60 Bill. Seiten
100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets
¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 37
Volume
● Google¹: 60 Bill. Seiten
100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets
¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/
Welche physikalischen Ressourcen stehen
zur Verfügung?
Was ist relevant?
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 38
Volume
● Google¹: 60 Bill. Seiten
100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets
¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/
Welche physikalischen Ressourcen stehen
zur Verfügung?
Was ist relevant? Wie können
automatisch Metadaten extrahiert werden?
Wie kann der Crawlprozess dokumentiert werden?
Was sind geeignete
Sammlungen?
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 39
Volume
● Google¹: 60 Bill. Seiten
100 PB Index● Internet Archive²: 19 PB (2014)● LOC 2013³: 170 Mrd. Tweets
¹ http://www.google.com/insidesearch/howsearchworks/thestory/ ² https://archive.org/web/petabox.php ³ https://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/
Welche physikalischen Ressourcen stehen
zur Verfügung?
Was ist relevant? Wie können
automatisch Metadaten extrahiert werden?
Was sind skalierbare Methoden für
Indexierung, Suche und Retrieval?
Wie kann die Infrastruktur vorgehalten
werden?
Wie kann der Crawlprozess dokumentiert werden?
Was sind geeignete
Sammlungen?
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 40
Velocity
● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)
¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 41
Velocity
● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)
Wie schnell kann selektiert
werden?
Wann ist ein Crawl komplett?
Was sind geeignete (Re)Crawl-Strategien?
¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 42
Velocity
● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)
Wie schnell kann selektiert
werden?
Wann ist ein Crawl komplett? Was ist mit
verschiedenen Versionen
einer Seite?
Wie aktuell sind die
Metadaten?
Was sind geeignete (Re)Crawl-Strategien?
¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 43
Velocity
● mittlere Lebensdauer einer Webseite¹: 100 Tage● max. Tweets pro Minute²: 618725 (13.7.2014)
Wie schnell kann selektiert
werden?
Wann ist ein Crawl komplett? Was ist mit
verschiedenen Versionen
einer Seite?
Welche Änderungen sollen bewahrt werden?
Wie kann die Infrastruktur mitwachsen?
Wie aktuell sind die
Metadaten?
Wie kann die Evolution von
Entitäten beachtet werden?
Wie schnell soll Zugriff möglich sein?
Was sind geeignete (Re)Crawl-Strategien?
Welche Version
einer Seite ist relevant?
¹ https://www.washingtonpost.com/archive/politics/2003/11/24/on-the-web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/² https://blog.twitter.com/2014/insights-into-the-worldcup-conversation-on-twitter
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 44
Variety
● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …
¹ https://en.wikipedia.org/wiki/List_of_file_formats
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 45
Variety
● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …
Was ist handhabbar?
Wie hoch ist der
Aufwand?
¹ https://en.wikipedia.org/wiki/List_of_file_formats
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 46
Variety
● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …
Was ist handhabbar?
Wie hoch ist der
Aufwand?
Wie kann man inhaltlich
zusammenfassen?
Was sind geeignete
Beschreibungen?
¹ https://en.wikipedia.org/wiki/List_of_file_formats
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 47
Variety
● 1327 Dateiformate¹● Social Media, Datenbanken, APIs, etc.● Standards: 11x HTML, 5x CSS, …
Was ist handhabbar?
Wie hoch ist der
Aufwand?
Wie kann man inhaltlich
zusammenfassen?
Wie sah eine Webseite zu ihrer
Erstellungszeit aus?
Wie können wir Zugang bewahren?
Was sind geeignete
Beschreibungen?
¹ https://en.wikipedia.org/wiki/List_of_file_formats
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 48
Veracity
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 49
Fazit
big data affects libraries directly and tangentially: directly because your library can use big data tools to analyze your big data sets; and tangentially, as the faculty at your school will increasingly incorporate big data into their research
(Mark Bieraugel: Keeping up with... Big Data, 2013)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 50
Fazit
There has probably never been a better time to be a librarian or an information professional. We live in an information society with access to more information than ever before, and librarians have an important role to play if people are going to successfully avoid the much discussed information overload.
(D. Stuart, Centre for e-Research, King’s College London)
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 51
Kontrolle des Lernerfolgs
● Wie sind die LIS-Aufgabenbereiche durch Big Data betroffen?
● Welche Herausforderungen ergeben sich bei der Web-Archivierung?
● Erarbeiten Sie für ein anderes Fallbeispiel die Herausforderungen, die sich für LIS durch die Eigenschaften von Big Data ergeben.
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 52
Literatur
● G.-L. Murnane, 2012: Big Data: A Big Opportunity for Librarians
● M. Bieraugel, 2013: Keeping up with... Big Data
● F. Lohmeier, J. Mittelbach, 2014: Offenheit statt Bündniszwang
● D. Salo, 2010: Who owns our work?
● R. Brugbauer, V. Butz, 2015: Die Bibliothek: Raum im digitalen Wandel
2016-04-12 Robert Jäschke, Leibniz Universität Hannover 53
Stand der Vorlesung
Kapitel 10: Big-Data-Technologien● Einführung● LIS und Big Data● Methoden und Technologien
Volume Velocity Variety Veracity
Top Related