Analyse wissenschaftlicher Publikationen

32
Knowledge Awareness in Artefact-Actor-Networks Analyse wissenschaftlicher Publikationen Adrian Wilke info@[REMOVE]adrianwilke.de Didaktik der Informatik Universität Paderborn 26. November 2010

description

 

Transcript of Analyse wissenschaftlicher Publikationen

Page 1: Analyse wissenschaftlicher Publikationen

Knowledge Awareness in Artefact-Actor-Networks

Analyse wissenschaftlicher Publikationen

Adrian Wilkeinfo@[REMOVE]adrianwilke.de

Didaktik der InformatikUniversität Paderborn

26. November 2010

Page 2: Analyse wissenschaftlicher Publikationen

Inhalt

Übersicht

Open access journalsWelche Publikations-Daten bieten sich für AAN an?

Austausch von MetadatenDatenformate für Publikationen

AAN: Fallbeispiel PublikationenAktuelle Entwicklung in unserem System

Daten-Extraktion aus PDF-DateienSpezielle Parser und Maschinelles Lernen

Scientometrics, Bibliometrics, Citation AnalysisMöglichkeiten der Analyse

PG knowAAN: Analyse wissenschaftlicher Publikationen 2

Page 3: Analyse wissenschaftlicher Publikationen

Open access journals

Open access journalsWas für Daten können wir für AAN nutzen?

PG knowAAN: Analyse wissenschaftlicher Publikationen 3

Page 4: Analyse wissenschaftlicher Publikationen

Quellen: [Wikc, BWL+10] Open access journals

Open access journals

Was ist das?I Wissenschaftliche Fachzeitschriften (Peer-Review-Verfahren)I Freier Zugang (reiner Internetzugang)I Primäre Veröffentlichung: 8,5% (2008)I Parallelveröffentlichung oder Selbstarchivierung: 11,9% (2008)

Pro-ArgumenteI Autoren: Mehr Leser und mehr ZitierungenI Leser aus wissenschaftlichem Bereich: Finanzielle MittelI Allgemein: Freier Zugang für alle Interessierten

PG knowAAN: Analyse wissenschaftlicher Publikationen 4

Page 5: Analyse wissenschaftlicher Publikationen

Quellen: [BWL+10] Open access journals

Studie 2010: Zugreifbare Artikel aus 2008

PG knowAAN: Analyse wissenschaftlicher Publikationen 5

Page 6: Analyse wissenschaftlicher Publikationen

Quellen: [Lun, Reg] Open access journals

Interessante Sammlungen

I Directory of Open Access Journals (DOAJ)I 5.700 Zeitschriften, 2.400 davon mit Artikel-MetadatenI Insgesamt 480.000 ArtikelI Informatik: 236 Zeitschriften

I Elektronische Zeitschriftenbibliothek der Uni RegensburgI 51.000 Titel, davon 6.900 reine Online-ZeitschriftenI 26.000 Fachzeitschriften sind im Volltext frei zugänglichI Informatik: 451 Zeitschriften im Volltext frei zugänglich

PG knowAAN: Analyse wissenschaftlicher Publikationen 6

Page 7: Analyse wissenschaftlicher Publikationen

Austausch von Metadaten

Okay, Daten vorhanden. Und jetzt?

Austausch von MetadatenDatenformate für Publikationen

PG knowAAN: Analyse wissenschaftlicher Publikationen 7

Page 8: Analyse wissenschaftlicher Publikationen

Quellen: [Mik, Dub, BM, Kar, RSS] Austausch von Metadaten

Bibliography Management using RSS Technology (BuRST)

I Entwicklung: STELLAR - ein EU Projekt:Sustaining Technology Enhanced Learning at a LARge scale

I Genutzte Standards und Vokabularien:I Dublin Core Metadata Element Set, Version 1.1I Friend of a Friend (FOAF)I Semantic Web for Research Communities (SWRC) 0.3I RDF Site Summary (RSS) 1.0

I Soll im AAN System für Import und Export genutzt werden

PG knowAAN: Analyse wissenschaftlicher Publikationen 8

Page 9: Analyse wissenschaftlicher Publikationen

Quellen: [Mik, Dub, BM, Kar, RSS] Austausch von Metadaten

Dublin Core Beispiel-Elemente SWRC Beispiel-Elemente

I typeI language

I titleI subject

I creatorI publisher

I sourceI relation

I date

I ArticleI ThesisI MiscI BookI InBook

I authorI monthI abstractI keywordsI isbn

PG knowAAN: Analyse wissenschaftlicher Publikationen 9

Page 10: Analyse wissenschaftlicher Publikationen

BuRST Beispiel Austausch von Metadaten

<item rdf:about="http://know-center.tugraz.at/papers/16" xml:lang="en"><title>A Storyboard of the APOSDLE Vision</title><link>http://www.aposdle.tugraz.at/content/download/288/1411/file/lindstaedt_mayer_APOSDLE_poster_p.pdf</link><description>Lindstaedt, S. N., Mayer, H. (2006): A Storyboard ofthe APOSDLE Vision.</description><dc:date>2009-10-27T14:40:18+01:00</dc:date><burst:publication>

<swrc:InProceedings><swrc:title>A Storyboard of the APOSDLE Vision</swrc:title><swrc:author>

<swrc:Person><swrc:name>Lindstaedt, Stefanie N.</swrc:name></swrc:Person>

</swrc:author><swrc:booktitle>Proceedings of the First European Conferenceon Technology Enhanced Learning</swrc:booktitle><swrc:year>2006</swrc:year><swrc:month>10</swrc:month>

</swrc:InProceedings></burst:publication>

</item>

PG knowAAN: Analyse wissenschaftlicher Publikationen 10

Page 11: Analyse wissenschaftlicher Publikationen

Quellen: [OAI] Austausch von Metadaten

The Open Archives InitiativeProtocol for Metadata Harvesting

I OAI-PMH oder einfach OAI-ProtocolI Nutzt XML und HTTPI Aktuelle Version: 2.0 (2002)I Metadaten dargestellt in Dublin CoreI Genutzt vom Directory of Open Access Journals (DOAJ)I Übergabe eines Verbs, z.B. ListSets, ListRecords, GetRecord

http://www.doaj.org/oai?verb=ListRecords&metadataPrefix=oai_dc&set=Technology_and_Engineering

PG knowAAN: Analyse wissenschaftlicher Publikationen 11

Page 12: Analyse wissenschaftlicher Publikationen

OAI-Protocol Beispiel Austausch von Metadaten

<record><header><identifier>oai:doaj.org:2067-3957</identifier><datestamp>2010-05-12T20:19:24Z</datestamp>

</header><metadata><oai_dc:dc xsi: [...] oai_dc.xsd"><dc:title>Brain. Broad Research in Artificial Intelligence and Neuroscience

</dc:title><dc:identifier>http://brain.edusoft.ro/index.php/brain</dc:identifier><dc:identifier>issn: 2067-3957</dc:identifier><dc:publisher>EduSoft publishing</dc:publisher><dc:date>2009</dc:date><dc:language>English</dc:language><dc:subject>artificial intelligence</dc:subject><dc:subject>LCC: RC321-571</dc:subject><dc:subject>LCC: RC346-429</dc:subject><dc:subject>DoajSubjectTerm: Computer Science</dc:subject></oai_dc:dc>

</metadata></record>

PG knowAAN: Analyse wissenschaftlicher Publikationen 12

Page 13: Analyse wissenschaftlicher Publikationen

AAN: Fallbeispiel Publikationen

Daten gibts. Die Übergabe kriegen wir hin. Und nun?

AAN: Fallbeispiel PublikationenAktuelle Entwicklung in unserem System

PG knowAAN: Analyse wissenschaftlicher Publikationen 13

Page 14: Analyse wissenschaftlicher Publikationen

Quellen: [WS] AAN: Fallbeispiel Publikationen

PG knowAAN: Analyse wissenschaftlicher Publikationen 14

Page 15: Analyse wissenschaftlicher Publikationen

Daten-Extraktion aus PDF-Dateien

Was, wenn eine Veröffentlichung nicht in XML zur Verfügungsteht?

Daten-Extraktion aus PDF-DateienSpezielle Parser und Maschinelles Lernen

PG knowAAN: Analyse wissenschaftlicher Publikationen 15

Page 16: Analyse wissenschaftlicher Publikationen

Quellen: [Kan, Kud] Daten-Extraktion aus PDF-Dateien

ParsCit

I Nutzt CRF++: Yet Another CRF toolkitI Conditional Random Field, Taggen von sequentiellen DatenI Zur Informationsextraktion von natürlichsprachigen TextenI Training/Lernverfahren: Eingabe und Ausgabe vorgeben

I Schritte:1. PDF → Text (pdftotext)2. Text → XML (ParsCit Extraktion)

I Jetzt oder im Anschluß: Präsentation generierter Dateien

PG knowAAN: Analyse wissenschaftlicher Publikationen 16

Page 17: Analyse wissenschaftlicher Publikationen

Scientometrics, Bibliometrics, Citation Analysis

Publikationen sind im System. Was machen wir damit?

Scientometrics, Bibliometrics, Citation Analysis

Möglichkeiten der Analyse

PG knowAAN: Analyse wissenschaftlicher Publikationen 17

Page 18: Analyse wissenschaftlicher Publikationen

Scientometrics, Bibliometrics, Citation Analysis

Scientometrics, Bibliometrics, Citation Analysis

I Szientometrie untersucht das wissenschaftliche Forschen. Es soll unterAnderem die Frage beantwortet werden, wie und warum sich einbestimmter Wissenschaftsbereich entwickelt. Ein oft verwendetesWerkzeug ist die

I Bibliometrie quantitative Untersuchung von Publikationen, Autoren undInstitutionen wie Bibliotheken mittels statistischer Verfahren. Ein Gebietist die

I Zitationsanalyse beschäftigt sich im Wesentlichen mit Beziehungenzwischen zitierten und zitierenden Arbeiten.http://de.wikipedia.org/wiki/{Szientometrie, Bibliometrie, Zitationsanalyse}

PG knowAAN: Analyse wissenschaftlicher Publikationen 18

Page 19: Analyse wissenschaftlicher Publikationen

Scientometrics, Bibliometrics, Citation Analysis

Metriken, Maße, Verfahren

I ZitationsanalyseI Co-Authorship (Mehrautorenschaft)I Co-Citation Coupling (Kopplung von Kozitationen)I Bibliographic Coupling (Bibliografische Kopplung)

I Semantische ÄhnlichkeitI SemSim Algorithmus

I Bibliometrisches MaßeI h-Index (Hirsch-Index)I g-Index

PG knowAAN: Analyse wissenschaftlicher Publikationen 19

Page 20: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

Co-Authorship (Mehrautorenschaft)

Gemeinsame Autoren einer Arbeit.→ Grad der Zusammenarbeit.

C BDAA B DA

Publikation Autor

Co-A(A,B) Co-A(A,C) Co-A(A,D) Co-A(B,D) Co-A( , )2 1 1 1

PG knowAAN: Analyse wissenschaftlicher Publikationen 20

Page 21: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

PG knowAAN: Analyse wissenschaftlicher Publikationen 21

Page 22: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

Co-Citation Coupling (Kopplung von Kozitationen)

Gemeinsame Zitation zweier Dokumente in einem Artikel.→ Thematisch verwandte Inhalte (älterer Arbeiten).

C(A,B) C(A,C) C(A,D) C(A,E) C(B,C) C(B,D) C( , )2 1 1 1 1 1

PG knowAAN: Analyse wissenschaftlicher Publikationen 22

Page 23: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

PG knowAAN: Analyse wissenschaftlicher Publikationen 23

Page 24: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

Bibliographic Coupling (Bibliografische Kopplung)

Zwei Dokumente zitieren eine gemeinsame Arbeit→ Thematisch verwandte Inhalte (neuerer Arbeiten).

BC(1,2) BC(1,3) BC(2,3)2 1

PG knowAAN: Analyse wissenschaftlicher Publikationen 24

Page 25: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

PG knowAAN: Analyse wissenschaftlicher Publikationen 25

Page 26: Analyse wissenschaftlicher Publikationen

Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis

SemSim Algorithmus (semantische Ähnlichkeit)

PG knowAAN: Analyse wissenschaftlicher Publikationen 26

Page 27: Analyse wissenschaftlicher Publikationen

Quellen: [Wikb] Scientometrics, Bibliometrics, Citation Analysis

h-Index (Hirsch-Index), bibliometrisches Maß

I Anzahl Paper, die jeweils mindestens h Zitierungen haben

1. Nach Zitierungs-Häufigkeit absteigend sortieren2. Durchzählen, bis h-tes Paper weniger als h Zitierungen

PG knowAAN: Analyse wissenschaftlicher Publikationen 27

Page 28: Analyse wissenschaftlicher Publikationen

Quellen: [Wika] Scientometrics, Bibliometrics, Citation Analysis

g-Index, bibliometrisches Maß

1. Menge von Artikeln, absteigend sortiert nach Zitierungen

2. Höchste Zahl, so dassdie Summe der ersten g Artikel mindestens g2 Zitierungen hat

Artikel (g) Zitierungen Summe g*g1 20 20 12 10 30 43 7 37 94 5 42 165 3 45 256 2 47 367 1 48 49

PG knowAAN: Analyse wissenschaftlicher Publikationen 28

Page 29: Analyse wissenschaftlicher Publikationen

Vielen Dank

Vielen Dank!

Quellen Open access journals

Formate BuRST, OAI-Protocol

AAN DOAJ Ontologie

PDF Extraktion ParsCit

Bibliometrische Maße Co-Authorship, H-Index, ...

PG knowAAN: Analyse wissenschaftlicher Publikationen 29

Page 30: Analyse wissenschaftlicher Publikationen

Literatur

Literatur I

[BM] Dan Brickley and Libby Miller.The Friend of a Friend (FOAF) project.http://www.foaf-project.org/.23. November 2010.

[BWL+10] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender, Turid Hedlund, and Guðni Guðnason.Open access to the scientific journal literature: Situation 2009.PLoS ONE, 5(6), 2010.http://dx.doi.org/10.1371%2Fjournal.pone.0011273.

[Dub] Dublin Core Metadata Initiative.Dublin Core Metadata Element Set, Version 1.1.http://dublincore.org/documents/2010/10/11/dces/.11. Oktober 2010.

[Kan] Min-Yen Kan.ParsCit: An open-source CRF Reference String Parsing Package.http://web.archive.org/web/20080521213729/wing.comp.nus.edu.sg/parsCit/.21. Mai 2008.

[Kar] Karlsruher Institut für Technologie.SWRC Ontology.http://ontoware.org/swrc/.11. Oktober 2010.

[Kud] Taku Kudo.CRF++: Yet Another CRF toolkit.http://crfpp.sourceforge.net/.26. November 2010.

[Lun] Lund University Libraries.Directory of Open Access Journals.http://www.doaj.org/.23. November 2010.

PG knowAAN: Analyse wissenschaftlicher Publikationen 30

Page 31: Analyse wissenschaftlicher Publikationen

Literatur

Literatur II

[Mik] Peter Mika.Bibliography Management using RSS Technology (BuRST).http://www.cs.vu.nl/~pmika/research/burst/BuRST.html.14. Mai 2005.

[OAI] OAI: Open Archives Initiative.OAI: Protocol for Metadata Harvesting.http://www.openarchives.org/pmh/.23. November 2010.

[Reg] Universitätsbibliothek Regensburg.Elektronische Zeitschriftenbibliothek: Informatik.http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1&notation=SQ-SU.23. November 2010.

[Rei] Wolfgang Reinhardt.ABIS2010 Small-scale study – Bibliometrics.http://thales.cs.upb.de/smallscalestudies/abis2010/bibliometrics.html.24. November 2010.

[RSS] RSS-DEV Working Group.RDF Site Summary (RSS) 1.0.http://web.resource.org/rss/1.0/spec.09. Juni 2008.

[Wika] Wikipedia.g-index.http://en.wikipedia.org/wiki/G-index.25. November 2010.

[Wikb] Wikipedia.H-Index.http://de.wikipedia.org/wiki/H-Index.25. November 2010.

PG knowAAN: Analyse wissenschaftlicher Publikationen 31

Page 32: Analyse wissenschaftlicher Publikationen

Literatur

Literatur III

[Wikc] Wikipedia.Open access journal.http://en.wikipedia.org/wiki/Open_access_journal.23. November 2010.

[WS] Adrian Wilke and Naiara Escudero Sanchez.Tools for Awareness in Distributed Research Networks.http://fsln10two.pbworks.com/w/page/31918658/Tools-for-Awareness-in-Distributed-Research-Networks.25. November 2010.

PG knowAAN: Analyse wissenschaftlicher Publikationen 32