1 / 23

Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Identifikation der geographischen Lage von Zeitungsartikeln (GIR). Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves. Motivation. Suchmaschinen können mit geographischen Anfragen oft wenig anfangen. Motivation. Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen

dafydd
Download Presentation

Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves

  2. Motivation • Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...

  3. Motivation • Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen • Scan von NZZ-Vorderseite

  4. Forschungsstand und -kontext • geoCLEF • GIR: • „Geographic information retrieval (GIR) is concerned with providing access to geo-referenced information sources“ (Larson 2000). • Toponym Detection • Toponym Resolution / Disambiguation • Indexing

  5. Toponym Detection • Erkennung von Ortsnamen • Methoden: • Gazetteer Lookup • GETTY, Geonames, WorldGazetteer, GNIS, NIMA, Bevölkerungsstatistik.de • NER-Systems • Regel-basiert, statistisch • Z.B. GATE

  6. Toponym Resoultion / Disambiguation • Zuweisung von Footprint an Toponym • Problem der Mehrdeutigkeit von Toponymen: • Coocurrence (z.B. in Wikipedia) • Hierarchisch • Map-Distance

  7. Indexing • Spatial Index • Textual Index

  8. Problemstellung und Zielsetzung • (1) Statistische Auswertung der Gazetteers • (2) Zuweisen von Footprint an Zeitungsartikel • (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ-Artikeln

  9. 1. Statistische Auswertung • Methodik: • Statistische Methoden in Java programmieren • Daten: Swissnames und Geonames • These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.

  10. SwissNames (nur Schweiz): • Swisstopo • Kommerziell • 155‘500 Einträge • Hierarchische Angaben (Gemeinde, Kanton) • Typinformationen • Koordinatensystem: H1903 • Geonames (weltweit): • Wiki-style User-Editing • Mehr als 8 Mio. Einträge • Hierarchische Angaben: Land • Typinformationen • Koordinatensystem: WGS84

  11. Erste Ergebnisse (1)

  12. Erste Ergebnisse (2)

  13. Mögliche Erklärung...

  14. 2. Zuweisen von Footprint an Zeitungsartikel • Methodik: • Toponym Detection: • Gazetteer Lookup (GATE, SwissNames, Geonames) • Toponym Resolution / Disambiguation: • Hierarchische Beziehungen • Metonyme: Regeln

  15. 3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln • These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen • Aufbauend auf 2. Teil der Arbeit • Statistischer Vergleich der Verteilung der Footprints

  16. Problempunkte • SwissNames: mehrmalige punkte • Kombination SwissNames und Geonames • Deutsche Sprache: • Gross-/Kleinschreibung • Satzstellung • Zeitungstexte politischer Natur • Metonyme (z.B. Zug, Bern) • Location?

  17. Zeittafel/Meilensteine

  18. Zusammenfassung • GIR • Statistische Auswertung von SwissNames und Geonames • Zuweisen von Footprints an Zeitungsartikel • Vergleich von Südostschweizartikeln und NZZ-Artikeln • In Java programmiert

  19. Quellen Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. http://www.gate.ac.uk, Zugriff: 16.09.2007. Geonames (2007): http://www.geonames.org, Zugriff 16.09.2007. Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. https://sherlock.sims.berkeley.edu/geo_ir/PART1.html, Zugriff: 16.09.2007. SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. http://www.swisstopo.ch/de/products/digital/names/swissnames, Zugriff: 16.09.2007.

More Related