Workshop „Text Mining“: Inhaltsanalyse von Textdaten im...

Post on 17-Jul-2020

0 views 0 download

Transcript of Workshop „Text Mining“: Inhaltsanalyse von Textdaten im...

Copyright © 2010 TEMIS - All Rights Reserved Slide 1

Workshop „Text Mining“: Inhaltsanalyse von Textdaten im Publishing-Sektor

Stefan Geißler

TEMIS Deutschland GmbH

stefan.geissler@temis.com, www.temis.com,

Publishers‘ Forum, Berlin, 26./27.4.2010

Überblick

� Vortrag

• Wer ist TEMIS?

• Einige Thesen: Veränderungen im Bereich Inhalte-Anbieter/Verlage

• Analyse von Dokumenten-Inhalten: Text Mining

• Fallstudien: Anwendungen von Text Mining in der Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 2

Praxis

� Demo

• Luxid®

• Luxid® Toolbar

� Praxis

• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)

TEMIS – Text Mining Solutions

New YorkPhiladelphia

Heidelberg

ParisGrenobleGegr. 2000

66

Copyright © 2010 TEMIS - All Rights Reserved Slide 3

Copyright © 2010 TEMIS - All Rights Reserved Slide 4

Entwicklungen im Publishing-Bereich

� Beschleunigung und Ausweitung

• Menge und Geschwindigkeit von Publikationen stark ansteigend (vgl. intensive Diskussion über Neuigkeiten auf Twitter vs. herkömmlichen Medien)

• Dagegen: Kapazität des Lesers zur Aufnahme und Berücksichtigung von Inhalten dagegen eher statisch• Zersplitterung von Wissensdomänen

Copyright © 2010 TEMIS - All Rights Reserved Slide 5

• Zersplitterung von Wissensdomänen

• Schlüsse ziehen aus Inhalten, die über mehrere Publikationen verteilt sind, wird schwieriger/wichtiger

• � vermehrter Druck, leicht zugängliche, rasch verfügbare Inhalte anzubieten

• � erhöhte Anforderungen an Durchsuchbarkeit von Inhalten (Suche immer mehr Sache des Endanwenders)

Entwicklungen im Publishing-Bereich

� Marktstruktur

• Elektronisches Publizieren senkt die Markteintritts-Barrieren ab

• � Neue Möglichkeiten für schnelle, agile Inhalte-Anbieter

• Aber: Die neuen Märkte sind tendenziell „Winner-takes-it-all“-Märkte: Wenige erfolgreiche Spieler können rasch

Copyright © 2010 TEMIS - All Rights Reserved Slide 6

it-all“-Märkte: Wenige erfolgreiche Spieler können rasch große Marktanteile erringen

• � Marktgefüge wird veränderlicher (volatiler)

Entwicklungen im Publishing-Bereich

� Neue (erhöhte) Anforderungen an Inhalte

• Rohe Inhalte immer häufiger frei verfügbar �Mehrwert-Inhalte sind gefordert

• Nutzungsverhalten geht vom linearen Lesen zum Navigieren in Netzen � Inhalte verlinken!

Copyright © 2010 TEMIS - All Rights Reserved Slide 7

„Kleinste publizierbare Einheit“?

� Für wissenschaftliche Autoren

• (augenzwinkernd), Tendenz, der Ökonomie des Wissenschaftsbetriebs folgend, Veröffentlichungen auch für kleinste Erkenntnisfortschritte zu verfassen

• „publish or perish!“

Copyright © 2010 TEMIS - All Rights Reserved Slide 8

� Für Verlage?

• In welcher Form können Inhalte gepackt und verkauft werden?

• Welchen Einfluss haben elektronisch verfügbare Texte und neue Technologien auf diese Frage?

Publizierbare Einheiten

Um 1500: Buch

19. Jh.: Journal

Spätes 20 Jh.: einzelner Artikel

Copyright © 2010 TEMIS - All Rights Reserved Slide 9

Spätes 20 Jh.: einzelner Artikel „paper“

Heute: spezifische automatisch extrahierte Fakten, „Antworten“

Hypothesen

� Der Übergang vom traditionellen Papier-basierten Publizieren in die elektronische Welt hat kaum zu überschätzende Folgen für die Produktion und Nutzung von Inhalten

� Diese Entwicklung wird neben dem Publizieren von herkömmlichen Dokumenten vermehrt die Erzeugung

Copyright © 2010 TEMIS - All Rights Reserved Slide 10

herkömmlichen Dokumenten vermehrt die Erzeugung und Vermarktung von strukturiertem Wissen (neben Artikeln und Büchern) hervorbringen

� Die hierfür nötigen Produktionsprozesse haben ihre eigenen Anforderungen an die eingesetzten Verfahren und Werkzeuge

Text Mining

Von der Zeichenkettensuche …

Copyright © 2010 TEMIS - All Rights Reserved Slide 11

(einfache Erkennung von Zeichenketten)…

Erweiterte Suche

… zu semantischer Konzeptsuche

Copyright © 2010 TEMIS - All Rights Reserved Slide 12

• Umfassendere, offene Suche• Relevantere Treffer• Suche ohne Notwendigkeit, den Suchgegenstand exakt formulieren zu können

Vorteile

für den

Nutzer

Erweiterte Suche

Copyright © 2010 TEMIS - All Rights Reserved Slide 13

• Visualisierung von Teilinformationen• Aufdecken von Zusammenhängen• Navigation auf automatisch erzeugten Strukturen

Vorteile

für Nutzer

Title: Google gives drivers a hand at the gas pumps

Source: InformationWeekAuthor: Antone GonsalvesDate: November 7, 2007

Metadata

Text Mining

Copyright © 2010 TEMIS - All Rights Reserved Slide 14

Entities

Facts

Text Mining

Google

T-Mobile HTC

Qualcomm Motorola

Lucy Sackett

Persons

Gilbarco Veeder-Root

Companies

InformationWeek

Sackett

Gilbarco

Entities

Metadata

Copyright © 2010 TEMIS - All Rights Reserved Slide 15

Linux

United States

Open-source …

Atlanta

Locations

National Association of Conveni…

Organizations

Lucy Sackett

Internet

Technologies

Sackett

Facts

Product

New Service Google Service

Text Mining

Launch

Gilbarco New service

Announcement

Sackett InformationWeek

Entities

Facts

Metadata

Announcement

Who: GilbarcoWhom: unknownWhat: New ServiceWhen: unknown

Who: GilbarcoWhat: Google ServiceWhen: early next week

Launch

Who: SackettWhom: InformationWeekWhen: unknownWhat: unknown

Copyright © 2010 TEMIS - All Rights Reserved Slide 16

Gilbarco Google Service

Partnership

Gilbarco Google

Function

Sackett Gilbarco

Alliance

Google HTC

Qualcomm

Motorola

T-Mobile

Who: SackettCompany: GilbarcoFunction: spoke woman

Function

Who: GilbarcoWith whom: GoogleWhen; unknownState: Negative

Partnership

Who: GoogleWith whom: T-Mobile, HTC, Qualcom, MotorolaWhen: unknown

Alliance

Announcement

Fallstudien

� Angereicherte Inhalte („semantically enriched“):

• Springer: Ähnliche Dokumente & Verlinkung mit weiterführender Literatur

• Nature: Domänen-spezifische Annotation

• AFP: Kategorisierung von Nachrichten-Texte

Copyright © 2010 TEMIS - All Rights Reserved Slide 17

� Neue, abgeleitete Arten von Inhalten

• Lexis Nexis: Juristische Fakten strukturiert mit Domänen-Ontologie und automatischer Extraktion

• Current BioData: Abgeleitete Datenbanken mit strukturierten Fakten

Springer Science + Business Media

� Ziel• Automatisches Verlinken von zentralen Begriffen eines Dokuments mit weiterführender, erläuternder Literatur

• Automatische Identifikation von “ähnlichen Inhalten” über Journal- und Fachgrenzen hinweg

� Lösung• Indexierung neuer Inhalte mit strukturiertem

Copyright © 2010 TEMIS - All Rights Reserved Slide 18

• Indexierung neuer Inhalte mit strukturiertem Vokabular, automatische Normalisierung von Varianten (Flexion, syntaktische Varianten) und Verlinkung mit Definitionen o.ä.

• Erzeugung eines “semantischen Fingerabdrucks” des Dokuments (ohne redaktionellen Aufwand zur Pflege von Terminologien etc.)

• Integration in SpringerLink Portal-Umgebung

� Nutzen• Reichere Leseerfahrung für die Nutzer• Maßgeschneiderte Verweise / erhöhte Mediennutzung

Springer Science + Business Media

Automatische Erkennung der Verwandtschaft zwischen Texten über klimatische Effekte großer Vulkaneruptionen …

Copyright © 2010 TEMIS - All Rights Reserved Slide 19

… und in Brand geschossenen Ölquellen bei kriegerischen Auseinandersetzungen. Zusammenhänge über Journal- und Fach-grenzen hinweg und ohne manuelles Zutun.

Nature

� Ziel• Raschere Entwicklung neuer Onlineprodukte

• Erzeugung von Mehrwert durch automatische Auszeichnung von wissenschaftlichen Inhalten (Chemie, Biologie & Medizin)

� Lösung• Luxid® mit entsprechenden Domänen-spezifischen Skill Cartridges™

Copyright © 2010 TEMIS - All Rights Reserved Slide 20

• Luxid® mit entsprechenden Domänen-spezifischen Skill Cartridges™

� Nutzen• Reichhaltigere Leseerfahrung

• Rasche Erstellung von

themenspezifischen “Microsites”

Nature

Copyright © 2010 TEMIS - All Rights Reserved Slide 21

Agence France Press

� Ziel:

• Aufbau einer neuen B2B Plattform mit semantisch angereichertem Retrieval

� Lösung:

• TEMIS Luxid® Content Enrichment annotiert Personennamen, Orte, Firmen, IPTC codes, …

Integration mit Semantic Web Technologien: Ontologie

Copyright © 2010 TEMIS - All Rights Reserved Slide 22

• Integration mit Semantic Web Technologien: Ontologie Management und entsprechendem Suchzugriff

� Nutzen:

• Einheitlicher Zugang zu AFP Inhalten verschiedener Formate (Text, Audio, Video, …)

• Infrastruktur für mehr als 10 Mio. Artikel/Jahr in sechs Sprachen

Agence France Press

Copyright © 2010 TEMIS - All Rights Reserved Slide 23

Lexis Nexis

� Erhöhung von Qualität/Konsistenz und Effizienz bei existierenden Produkten

� Neue Angebote

• Verbesserte Suche beim Zugriff auf juristische Informationen

• “Faceted navigation”

Copyright © 2010 TEMIS - All Rights Reserved Slide 24

• “Faceted navigation”

• Anwendungsspezifische Taxonomien und Ontologien

• Inhalte werden in ihrem ontologischen Kontext präsentiert und suchbar gemacht

• Integration in Zugangsplattform

� Allgemein: Elektronisches Publizieren “On Demand”, weitreichende Unterstützung von zuvor zeitaufwändigen Arbeitsabläufen

Lexis Nexis

Copyright © 2010 TEMIS - All Rights Reserved Slide 25

Current BioData: Anbieter von strukturiertem Faktenwissen

� Ziel

• Automatisierung der Erzeugung von semantisch angereicherter Information aus Primärliteratur

• Indexing mit Domänen-spezifischen Entitäten und Beziehungen (Proteine, Gene, Krankheiten, Gewebetypen, etc.)

� Lösung

Copyright © 2010 TEMIS - All Rights Reserved Slide 26

� Lösung

• Informationsextraktion, Kategorisierung und Weiterleitung mit TEMIS Luxid® und spezifischen “Skill Cartridges™” in Biologie (BER), Medizin (MER), Chemie (CER)

� Nutzen

• Erhebliche Kostensenkungen bei Datensammlung und –analyse

• Skalierbarkeit der eigenen Angebote

Fazit

� Automatische Verfahren der Textanalyse sind von zentraler Bedeutung bei der Verwaltung großer Textmengen

� … sind heute vielfach im produktiven Einsatz

� … erlauben die rasche Erstellung neuer, spezifischer Produkte auch für Nischenmärkte

� … erlauben die Mehrfachverwertung von Inhalten in neuen Formen

Copyright © 2010 TEMIS - All Rights Reserved Slide 27

… erlauben die Mehrfachverwertung von Inhalten in neuen Formen

Überblick

� Vortrag

� Demo

• Luxid®

• Luxid® Toolbar

� Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 28

• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)

Luxid® Content Enrichment Platform

� Luxid = Webbasierte Plattform, TEMIS Software Produkt

• Extraktion relevanter Informationen (Terme, Entitäten, Relationen…)

• Einsatz von (allgemeinen oder spezifischen) “Skill Cartridges™”

� Entsprechend angepasstes GUI zur Navigation

• Suche, Navigation, Analyse, Reportgenerierung, …

• Einsatz von geeigneten Visualisierungswerkzeugen

� Reiche Infrastruktur:

• Skalierbarkeit, Standards (XML, UIMA, …), Monitoring/Auditing,

Copyright © 2010 TEMIS - All Rights Reserved Slide 29

• Skalierbarkeit, Standards (XML, UIMA, …), Monitoring/Auditing, Dokumentation, Konnektoren, …

Luxid® Annotation Factory

Luxid®Repository

Luxid® Information Analytics

EndbenutzerRedaktion/Suchexperten

Luxid® Content Enrichment Platform

Demo

Copyright © 2010 TEMIS - All Rights Reserved Slide 30

Demo

Luxid vs. Luxid Toolbar

� Luxid

• Vielseitige Such- und Analyseplattform

• Für den nur gelegentlichen Nutzer ist oft ein einfacherer Zugang erwünscht

� Luxid Toolbar

Copyright © 2010 TEMIS - All Rights Reserved Slide 31

Luxid Toolbar

• Zugriff auf Luxid Analysen aus dem Webbrowser

• Annotierung von Web-Inhalten oder eigenen Dokumenten

• Verlinkung zu weiterführenden Inhalten

• Zusammenfassungen

Luxid® Toolbar

Copyright © 2010 TEMIS - All Rights Reserved Slide 32

Luxid® Toolbar

Demo

Copyright © 2010 TEMIS - All Rights Reserved Slide 33

Demo

Überblick

� Vortrag

� Demo

• Luxid®

• Luxid® Toolbar

� Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 34

• Aufbau und Einsatz eigener Analysekomponenten (TEMIS „Skill Cartridges™“)

“Skill Cartridges™”

� Analysekomponenten: Was wird indexiert?

• Personen? Orte? Firmen? Krankheiten? Firmenübernahmen? Kritik? Lob? Firmen- oder Branchen-spezifische Terminologien, …

� Skill Cartridges™ sind

• Kombinationen aus lexikalischem Wissen (Terminologien/Thesauri) und Regeln

� Skill Cartridges™ sind

• TEMIS Produkte: direkt verfügbar, generisch

Copyright © 2010 TEMIS - All Rights Reserved Slide 35

• TEMIS Produkte: direkt verfügbar, generisch

• … oder Projekt-spezifisch: Erstellung nach Bedarf

� Erstellung?

• Durch TEMIS

• … oder durch Partner/Kunden nach Schulung und mit Nutzung geeignetere Entwicklungswerkzeuge

Skill Cartridge™ Entwicklungswerkzeuge

� Skill Cartridge Manager

• Eclipse-basierte integrierte Entwicklungsumgebung

• Syntax-Unterstützung, Compiler-Anbindung, Fehlermeldungen, klick/drag-and-drop-basierte Entwicklung

Copyright © 2010 TEMIS - All Rights Reserved Slide 36

� Knowledge Manager

• Vereinfachter Import von lexikalischem / terminologischem Wissen in Skill Cartridges

Praxis: Skill Cartridge Interna

� Statt eines Tutorials: Drei kleine Beispiels-Skill Cartridges

• Verwendung von linguistischer Information • SC „Elements“: Part of speech tags helfen bei Disambiguierung

• Modularer Aufbau komplexerer Skill Cartridges • SC „Mergers and Acquisitions“: Skill Cartridges im Baukastenprinzip

• Spezifische Herausforderungen

Copyright © 2010 TEMIS - All Rights Reserved Slide 37

• Spezifische Herausforderungen• SC „Coordination“: Das schwierige Wörtchen „und“

� Bottom-line

• Skill Cartridges sind ein mächtiger und vielfach eingesetzter Rahmen für komplexe Indexierungs- und Extraktionsaufgaben

• Keine Black-box: Nach entsprechender Einweisung sind eigene SCs auch durch Anwender/Kunden zu erstellen

Skill Cartridges™ Praxisteil

Praxis

Copyright © 2010 TEMIS - All Rights Reserved Slide 38

Praxis

Vielen Dank für Ihre Aufmerksamkeit!

Fragen?

Copyright © 2010 TEMIS - All Rights Reserved Slide 39

Vielen Dank für Ihre Aufmerksamkeit!

Fragen?