Identifikation der geographischen Lage von Zeitungsartikeln (GIR)
description
Transcript of Identifikation der geographischen Lage von Zeitungsartikeln (GIR)
Identifikation der geographischen Lage von
Zeitungsartikeln (GIR)
Masterarbeit von Tobias Brunner
Betreuung: Dr. R. S. Purves
Motivation
• Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...
Motivation
• Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen
» Scan von NZZ-Vorderseite
Forschungsstand und -kontext
• geoCLEF• GIR:
– „Geographic information retrieval (GIR) is concerned with providing access to geo-referenced information sources“ (Larson 2000).
– Toponym Detection– Toponym Resolution / Disambiguation– Indexing
Toponym Detection
• Erkennung von Ortsnamen• Methoden:
– Gazetteer Lookup• GETTY, Geonames, WorldGazetteer, GNIS,
NIMA, Bevölkerungsstatistik.de
– NER-Systems• Regel-basiert, statistisch• Z.B. GATE
Toponym Resoultion / Disambiguation
• Zuweisung von Footprint an Toponym
• Problem der Mehrdeutigkeit von Toponymen:– Coocurrence (z.B. in Wikipedia)– Hierarchisch– Map-Distance
Indexing
• Spatial Index
• Textual Index
Problemstellung und Zielsetzung
• (1) Statistische Auswertung der Gazetteers
• (2) Zuweisen von Footprint an Zeitungsartikel
• (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ-Artikeln
1. Statistische Auswertung
• Methodik:– Statistische Methoden in Java
programmieren– Daten: Swissnames und Geonames
• These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.
• SwissNames (nur Schweiz):– Swisstopo– Kommerziell– 155‘500 Einträge– Hierarchische Angaben (Gemeinde, Kanton)– Typinformationen– Koordinatensystem: H1903
• Geonames (weltweit):– Wiki-style User-Editing– Mehr als 8 Mio. Einträge– Hierarchische Angaben: Land– Typinformationen– Koordinatensystem: WGS84
Erste Ergebnisse (1)
Verteilung der Distanzen in SwissNames
0
2
4
6
8
10
12
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
Distanz in 10 km
%
Amb. Gem. undOrtsch
Alle Amb.Siedlungstypen
Stichproben vonGem. und Ortsch.
Stichproben vonallenSiedlungstypen
Erste Ergebnisse (2)
Verteilung der Distanzen in SwissNames
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Distanz (10 km)
%
Amb. Gem. & Ort.
Amb. Siedlungen
Ambig. SwissNames
Total Gem. & Ort.
Total Siedlungen
Total SwissNames
Mögliche Erklärung...
2. Zuweisen von Footprint an Zeitungsartikel
• Methodik:– Toponym Detection:
• Gazetteer Lookup (GATE, SwissNames, Geonames)
– Toponym Resolution / Disambiguation:• Hierarchische Beziehungen• Metonyme: Regeln
3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln
• These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen
• Aufbauend auf 2. Teil der Arbeit
• Statistischer Vergleich der Verteilung der Footprints
Problempunkte
• SwissNames: mehrmalige punkte• Kombination SwissNames und Geonames• Deutsche Sprache:
– Gross-/Kleinschreibung– Satzstellung
• Zeitungstexte politischer Natur– Metonyme (z.B. Zug, Bern)– Location?
Zeittafel/Meilensteine
KW Ferien Arbeitsphasen Milestones33/34 Literaturrecherche Beginn35 Datensichtung/Suche36/37 Statistische Datenauswertung38 Ferien39 Ferien Konzeptabgabe40 Statistische Datenauswertung Kleines Kolloquium41 GATE einlesen42 Prozessierungslayout43-51 Programmierung52 Ferien1 Ferien2 Programmierung Abschluss Programmierung3 Manuelle Ground-truth4-8 Evaluation / Durchführung9-15 Arbeit verfassen15 Abgabe der Arbeit22 Masterkollouium
Zusammenfassung
• GIR• Statistische Auswertung von SwissNames
und Geonames• Zuweisen von Footprints an Zeitungsartikel• Vergleich von Südostschweizartikeln und
NZZ-Artikeln• In Java programmiert
Quellen
Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. http://www.gate.ac.uk, Zugriff: 16.09.2007.
Geonames (2007): http://www.geonames.org, Zugriff 16.09.2007.
Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. https://sherlock.sims.berkeley.edu/geo_ir/PART1.html, Zugriff: 16.09.2007.
SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. http://www.swisstopo.ch/de/products/digital/names/swissnames, Zugriff: 16.09.2007.