â€‍œber sieben Br¼cken musst Du gehnâ€,“...

download â€‍œber sieben Br¼cken musst Du gehnâ€,“ .Die ZBW ist Mitglied der Leibniz-Gemeinschaft â€‍œber

of 44

  • date post

    17-Aug-2019
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of â€‍œber sieben Br¼cken musst Du gehnâ€,“...

  • Die ZBW ist Mitglied der Leibniz-Gemeinschaft

    „Über sieben Brücken musst Du gehn‘,…“ Erfahrungsbericht zu Aufbau und Pflege von Crosskonkordanzen des Standard- Thesaurus Wirtschaft zu anderen Vokabularen Andreas Oskar Kempf, Joachim Neubert, Manfred Faden ZBW – Leibniz-Informationszentrum Wirtschaft

    Göttingen, 11. Mai 2017 SI&IT Workshop

  • Gliederung 1. Standard-Thesaurus Wirtschaft (STW)

    2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

    ZBW

    3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

    unterschiedlichen Mapping-Ansätzen:

    3.1 Mapping-Ansatz vornehmlich intellektuell

    3.2 Mapping-Ansatz ausschließlich automatisiert

    3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

     JEL-Mapping unter Verwendung von AMALGAME

     Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    4. Fazit: „Lessons learned“

    Seite 2

  • Gliederung 1. Standard-Thesaurus Wirtschaft (STW)

    2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

    ZBW

    3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

    unterschiedlichen Mapping-Ansätzen:

    3.1 Mapping-Ansatz vornehmlich intellektuell

    3.2 Mapping-Ansatz ausschließlich automatisiert

    3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

     JEL-Mapping unter Verwendung von AMALGAME

     Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    4. Fazit: „Lessons learned“

    Seite 3

  • Standard-Thesaurus Wirtschaft (STW)

    Seite 4

     Weltweit umfassendstes bilinguales Fachvokabular zur Repräsentation und Recherche nach wirtschaftswissen- schaftlichen Inhalten

     Permanente Weiterentwicklung entsprechend den Veränderungen in der Fachterminologie

     Web-Veröffentlichung & freier Download in unterschiedlichen Formaten

     Verknüpfung mit anderen Vokabularen über Crosskonkordanzen http://zbw.eu/stw/versions/latest/about

  • Gliederung 1. Standard-Thesaurus Wirtschaft (STW)

    2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

    ZBW

    3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

    unterschiedlichen Mapping-Ansätzen:

    3.1 Mapping-Ansatz vornehmlich intellektuell

    3.2 Mapping-Ansatz ausschließlich automatisiert

    3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

     JEL-Mapping unter Verwendung von AMALGAME

     Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    4. Fazit: „Lessons learned“

    Seite 5

  • STW-CK: Gesamtüberblick und Ausblick

    Legende:

    Seite 6

    Jahr Vokabular Aufbau / Pflege Verfahren Projektkontext 2002-04 GND DNB, ZBW / DNB, ZBW „CK-Wirtschaft“ 2004-07 TheSoz GESIS, ZBW / KoMoHe 2009 DBpedia ZBW 2010-11 AGROVOC FAO 2012 WKD WKD LOD2-Projekt 2016 Subject-Matter

    Domains Class. ZBW

    Automatische (Vor-)Verarbeitung Intellektuelle Bearbeitung

    Jahr Vokabular Aufbau / Pflege Verfahren Projektkontext 2017 JEL ZBW intern t.b.c EuroVoc Publication Office (EU), ZBW t.b.c Wikidata ZBW intern

    Ausblick:

    Bisherige STW-CK:

  • Seite 7

    CK-Einsatz in der ZBW Indexerweiterung in EconBiz

  • Seite 8

    CK-Einsatz in der ZBW Indexerweiterung in EconBiz

  • Seite 9

    CK-Einsatz in der ZBW Indexerweiterung in EconBiz

    GND

    STW

  • CK-Einsatz in der ZBW

    Seite 10

    Erweiterte Suchvorschläge in EconStor

  • CK-Einsatz in der ZBW

    Seite 11

    Erweiterte Suchvorschläge in EconStor

    inkl. Äquivalenzrelationen aus den CK

  • Gliederung 1. Standard-Thesaurus Wirtschaft (STW)

    2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

    ZBW

    3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

    unterschiedlichen Mapping-Ansätzen:

    3.1 Mapping-Ansatz vornehmlich intellektuell

    3.2 Mapping-Ansatz ausschließlich automatisiert

    3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

     JEL-Mapping unter Verwendung von AMALGAME

     Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    4. Fazit: „Lessons learned“

    Seite 12

  • Mapping-Ansatz vorwiegend intellektuell Projekt zur Erstellung der CK-Wirtschaft zu SWD/GND • Projektpartner: DNB, USB Köln, ZBW (HWWA) & unterstützend

    VZG • Beantragte/angenommene Projektlaufzeit 18 Monate, nach

    Verlängerung 31 Monate (03.2002 – 09.2004) • 8 Personen mit verschiedenen Zeitanteilen, Unterstützung durch

    jeweilige IT

    Seite 13

  • Mapping-Ansatz vorwiegend intellektuell Ziel: Entwicklung und Implementierung eines Crosswalks zwischen dem

    Standard Thesaurus Wirtschaft (STW) und dem Bereich Wirtschaft der Schlagwortnormdatei (SWD) zur Steigerung der Effektivität des Retrievals in den Wirtschaftswissenschaften.

    Ausgangslage:

    Seite 14

    SWD ca. 12500 Deskriptoren

    (Sachschlagwörter) und ca. 16000 Nicht-Deskriptoren im Bereich WiWi (DNB/USB- Köln)

    STW ca. 5000 Deskriptoren und

    18000 Nichtdeskriptoren (ZBW/HWWA)

  • Mapping-Ansatz vorwiegend intellektuell Bearbeitung in der WinIBW – Aufbau der CK

    Seite 15

    Doublettencheck - einfaches string

    matching-Verfahren, Auswahl der

    SWD-Schlagworte durch

    Zuordnung zu SWD-

    Sachgruppen (SWD-Systematik)

    Ergebnis: Ca. 52500 Relationen

    Davon nach intellektueller

    Bearbeitung ca. 15.000 erhalten.

    Löschung der restlichen Relationen

    größtenteils von Hand

  • Mapping-Ansatz vorwiegend intellektuell Bearbeitung in der WinIBW – Aufbau der CK

    Seite 16

    Bearbeitung zuerst in verteilten

    Excel-Listen. Wurde als zu

    fehleranfällig und aufwändig

    verworfen.

    Weitere Bearbeitung über

    eingespielte Daten im

    Pica/WinIBW-System Iltis der

    DNB

  • Mapping-Ansatz vorwiegend intellektuell

    Bearbeitung in der WinIBW – Aufbau der CK

    Seite 17

  • Mapping-Ansatz vorwiegend intellektuell

    Seite 18

    Ansicht in der WinIBW – Pflege der CK

  • Gliederung 1. Standard-Thesaurus Wirtschaft (STW)

    2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

    ZBW

    3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

    unterschiedlichen Mapping-Ansätzen:

    3.1 Mapping-Ansatz vornehmlich intellektuell

    3.2 Mapping-Ansatz ausschließlich automatisiert

    3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

     JEL-Mapping unter Verwendung von AMALGAME

     Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    4. Fazit: „Lessons learned“

    Seite 19

  • DBpedia als Mappingziel

    - ermöglicht Links zu Wikipedia-Seiten im Online-STW - 2009 Zentrum der „Linked Data Cloud“ - aus englischer Wikipedia extrahierter strukturierter Datenbestand (in

    RDF) - zusätzlich deutsche (u.a.) Labels auf Grundlage von „interlanguage

    links“ in Wikipedia - Redirects von früheren oder gemergten auf aktuelle Seitentitel - große Datenmenge

    Seite 20

  • DBpedia Matchingstrategie

    - eigenentwickelte Perlprozeduren - normalisierte Strings aus

    - prefLabel + altLabel des STW

    - Seitentitel + Redirects von DBpedia

    jeweils für Deutsch und Englisch gematcht

    - nachgeschaltete Evaluierung der Matches

    - skos:closeMatch, falls mindestens einer der prefLabel matcht

    - skos:exactMatch, falls beide (de und en) matchen

    Seite 21

  • DBpedia Ergebnisse (2009)

    Seite 22

  • Mängel des DBpedia Mappings und Konsequenzen

    - inhaltlich falsche Matches aufgrund von Quasi-Synonymen im STW - z.B. „Tropische Frucht“ (STW) matcht „Ananas“ (DBpedia)

    - unzutreffende „interlanguage links“ in Wikipedia / DBpedia - beschränkte Datengrundlage (spezifisch „deutsche“ Begriffe nicht in

    englischer Wikipedia enthalten) - Keine Fortschreibung => - neuer Ansatz auf Grundlage von Wikidata - intellektuelle Verifizierung

    Seite 23

  • Gliederung 1. Standard-Thesaurus Wirtschaft (STW)

    2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

    ZBW

    3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

    unterschiedlichen Mapping-Ansätzen:

    3.1 Mapping-Ansatz vornehmlich intellektuell

    3.2 Mapping-Ansatz ausschließlich automatisiert

    3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

     JEL-Mapping unter Verwendung von AMALGAME

     Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    4. Fazit: „Lessons learned“

    Seite 24

  • Mapping-Ansatz automatisiert/intellektuell kombiniert  Erfahrungen mit dem

    Amsterdam Alignment Generation Metatool (AMALGAME) auf Basis der STW-Systematik

     Ausblick: Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

    Seite 25