1 / 14

Optimierung von Volltextindices

Optimierung von Volltextindices. Volltextinvertierung – Ist das denn wirklich automatische Indexierung?. Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen?. Spree SoSe 2010. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004.

adie
Download Presentation

Optimierung von Volltextindices

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Optimierung von Volltextindices Volltextinvertierung – Ist das denn wirklich automatische Indexierung? Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen? Spree SoSe 2010

  2. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Gliederung: gliederung • Informationslinguistik in 5 Minuten • Verbesserung der Volltextindices durch regelbasierte Methoden - Stemming • Verbesserung der Volltextindices durch Integration „kontrollierter Vokabulare“ / wörterbuchbasierte Verfahren • Fazit: Was leisten linguistische Verfahren der Indexoptimierung?

  3. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  1. Informationslinguistik in 5 Minuten informationslinguistik Welche Wissenschaften beschäftigen sich mit der Sprache? • Theoretische Linguistik = Untersuchung der Sprache als System • Semiotik, die Lehre der (sprachlichen) Zeichen • Lexikologie, die Lehre des Wortschatzes einer Sprache • Grammatik, die Lehre der regelhaften Baumuster und Eigenschaften von Sprache • Phonologie, die Lehre vom Lautsystem einer Sprache • Morphologie, der Lehre von den kleinsten bedeutungstragenden Elementen einer Sprache • Syntax, die Lehre von Form und Struktur von Sprache • Semantik, die Lehre von Sinn und Bedeutung von Sprache • Pragmatik, die Lehre von Verwendung und Zweck von Sprache • Relevanz für Wissensorganisation? • Verstehen Menschen Zeichen? • Hat grün in Brasilien denselben Bedeutungsumfang wie in Deutschland? • Automatische Übersetzung • Automatische Indexierung • Suchmaschine erkennt, wann Ente im Sinne von Auto und wann im Sinne von Vogel gesucht wird • „Eine Luft ist das hier“ bedeutet „mach mal Fenster auf“

  4. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  1. Informationslinguistik in 5 Minuten autoübersetzung Automatische Übersetzung Das ist nicht immer so einfach mit der Grammatik: Ein Beispiel aus Babelfish (http://de.babelfish.yahoo.com/translate_txt) Wortbestandteile, die zur Flexion, zur Derivation oder zur Komposition herangezogen werden, nennt die Linguistik Morpheme. Sie sind die kleinsten bedeutungstragenden Einheiten der Sprache. Wird zu: The linguistics of morphemes calls word components, which are consulted for the inflection, for the Derivation or for the composition. They are the smallest meaning-meaning units of the language.

  5. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  1. Informationslinguistik in 5 Minuten Computerlinguistik computerlinguistik Computerlinguistik = Verwendung von natürlicher Sprache am Computer • um Sprache im Computer anwenden zu können, müssen wir verstehen, wie Sprache funktioniert • Computer lösen die sprachlichen Probleme aber häufig anders als Menschen

  6. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  1. Informationslinguistik in 5 Minuten Morpheme – kleinste bedeutungstragende Einheiten morphologie Problem: Wie bringe ich einem Programm bei, dass wenn Informationen zu Mensch gesucht werden, Dokumente, in denen das Wort Menschen vorkommt, auch relevant sind? Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: Unfreundlichkeit Pferdes der Schwerstarbeit Rosen Un-freund-lich-keit Pferd-es der Schwer-st-arbeit Ros-en

  7. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Informationslinguistik in 5 Minuten Morpheme – kleinste bedeutungstragende Einheiten morpheme Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: Unfreundlichkeit Pferdes der Schwerstarbeit Rosen Un-freund-lich-keit Pferd-es der Schwer-st-arbeit Ros-en Welche Funktion haben die Bestandteile: freund pferd ros schwer arbeit -es -en -der -st -un -lich -keit Grammati-kalische Bedeutung Wort-bildung Lexikalische Bedeutung

  8. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Morpheme – kleinste bedeutungstragende Einheiten morpheme Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: unfriendliness horses the heavier roses Un-friend-li-ness Hors-es the heav-ier ros-es Welche Funktion haben die Bestandteile: friend hors ros heav -es -ier -li -un -ness Grammati-kalische Bedeutung Wort-bildung Lexikalische Bedeutung

  9. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Morpheme – Übersicht flexionsmorphologie Eine Teildisziplin der Linguistik, die Morphologie, untersucht Fragen der Wortbildung wissenschaftlich. Lesen Sie bitte nach: Lernmodul a-step: Morphologische Grundlagen Tipp: in eine guten Sprachwörterbuch lassen sich die morphologischen Informationen zu einem Wort nachschauen: Wortschatz-Lexikon: URL: http://wortschatz.uni-leipzig.de/

  10. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Morpheme – Übersicht morphemarten

  11. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  2. Verbesserung der Volltextinvertierung durch Terminologiekontrolle - Stemming stemming Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung globes globe Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid In einem Thesaurus werden die Worte normalerweise in der Grundform aufgenommen !! Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden.

  12. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Probleme des Stemming Probleme stemming Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Buchen (Bäume)  Buch Buches  Buch Themen  them Themas  thema schlechtester  schlechtest schlechter  schlecht Absorbieren  absorb Apsorption  absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert

  13. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer porter Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache

  14. Wer setzt solche Verfahren ein? Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. • Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. • Beispiel: city findet city, cities, city's, and cities' • Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. • Beispiel: Mit bonus finden Sie nicht bonuses • Beispiel: Mit child finden Sie nicht children • Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)

More Related