1 / 14

Optimierung von Volltextinvertierung durch Stemming

Optimierung von Volltextinvertierung durch Stemming. Spree SoSe 2010. . Wer setzt solche Verfahren ein?. Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen:. Plural

hyman
Download Presentation

Optimierung von Volltextinvertierung durch Stemming

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Optimierung von Volltextinvertierung durch Stemming Spree SoSe 2010

  2. Wer setzt solche Verfahren ein? Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. • Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. • Beispiel: city findet city, cities, city's, and cities' • Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. • Beispiel: Mit bonus finden Sie nicht bonuses • Beispiel: Mit child finden Sie nicht children • Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)

  3. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Stemming - Wiederholung genau Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden.

  4. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Probleme des Stemming genau BriefpapiereBriefpapi Buchen (Bäume)  Buch Buches  Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen  them Themas  thema schlechtester  schlechtest schlechter  schlecht Absorbieren  absorb Apsorption  absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert

  5. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Übung: Porter Stemmer genau Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache • Aufgabe: • Sie erhalten einen Text und ein Indexierungsergebnis. Schauen Sie sich das Ergebnis an und beantworten Sie folgende Fragen: • Was hat das Programm gemacht? • Was vermuten Sie, wie funktioniert das? • Hätte ein Nutzer das Dokument bekommen, wenn er recherchiert hätte: • Informationswirtin • Kundschaft AND Industrie

  6. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer - Funktionsweise genau • Abtrennung von Endungen (keine Präfixe, Zirkumfixe, Infixe) • basiert auf statistischen Erkenntnissen über Wortendungen und ihre Funktion / kein wirkliches morphologisches Wissen hinterlegt • trunkiere alles, was länger als x Buchstaben ist, wenn .. • iteratives (schrittweises) Vorgehen in Form der Abarbeitung aufeinanderfolgender Regeln • basiert auf Erfahrungswissen

  7. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer – Elemente des Codes genau • C, V, (C=Konsonant; V=Vokal) • Zeichenfolgenlänge • - Abfolgen von VC werden gezählt, um die Zeichenfolgenlänge festzulegen • - Gezählt wird immer nur die VC Abfolge, C zu Beginn und V zum Ende zählt nicht: Oats =VC, also m=1 Tree = CV also m=0 • Zusatzbedingungen: - *S (Stamm endet mit S) - *V* (Stamm enthält Vokal) • Eine einfache Erklärung des Porter-Algorithmus liefert der Artikel Porter-Stemmer-Algorithmus der Wikipedia http://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus • Den Originaltext finden Sie im Lernmodul http://www.bui.haw-hamburg.de/pers/ulrike.spree/astep/porter.doc

  8. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer – Regeln genau • Einfache Regelstruktur für die Suffixbearbeitung • Identifikation von Endungen (ate, s, ies …) • Endungen werden abgehängt, wenn der übrigbleibender Stamm, bestimmte Bedingungen erfüllt • Abhängen des Suffix erfolgt nur ab festgelegter Wortlänge (VC-Folge) • Insgesamt 5 Bearbeitungsschritte • Prinzip des „longest match“

  9. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer – Beispielregeln genau • Step 1a • SSES -> SS caresses -> caress • IES -> I ponies -> poni • ties -> ti • SS -> SS caress -> caress • S -> cats -> cat • Step 1b • (m>0) EED -> E feed -> feed • agreed -> agree • (*v*) ED -> plastered -> plaster • bled -> bled • (*v*) ING -> motoring -> motor • sing -> sing • Wenn die erste oder zweite Regel zutrifft, wird folgendes getan: • AT -> ATE conflat(ed) -> conflate • BL -> BLE troubl(ed) -> trouble • IZ -> IZE siz(ed) -> size • (*d and not (*L or *S or *Z))

  10. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer – Beispielregeln genau • Step 2 • (m>0) ATIONAL -> ATE relational -> relate • (m>0) TIONAL -> TION conditional -> condition • rational -> rational • (m>0) ENCI -> ENCE valenci -> valence • ... Insgesamt 20 Fälle • Step 3 • (m>0) ICATE -> IC triplicate -> triplic • (m>0) ATIVE -> formative -> form • (m>0) ALIZE -> AL formalize -> formal • (m>0) ICAL -> IC electrical -> electric • Step 4 • (m>1) AL -> revival -> reviv • (m>1) ANCE -> allowance -> allow • (m>1) ENCE -> inference -> infer • The suffixes are now removed. All that remains is a little tidying up. • Step 5a • (m>1) E -> probate -> probat • Step 5b • (m > 1 and *d and *L) -> single letter • controll -> control • roll -> roll

  11. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010  Porter Stemmer – Maßnahmen gegen overstemming genau Regel: (m>1) ATE  Suffixe werden nicht entfernt, wenn der Stamm zu kurz ist. Maß ist m, also Abfolge VokalConsonant. Es gibt keine linguistische Grundlage für diese Beobachtung, sie beruht nur auf Beobachtung. RELATE RELATE DERIVATE DERIV m=1 m=2/m>1

  12. Porter Algorithmus als Flussdiagramm

  13. Porter Algorithmus : Beispiel für iteratives Vorgehen SSES -> SS IES -> SS -> SS S -> • International  intern • Anwendung von Step 1 ? • Step 1 wird nicht angewandt, weil keine der Regeln zutrifft • Anwendung von Step 2 • Bedingung (m>0) ? • Ja, denn VCVC • Regel: (m>0) ational ate • international  internate • Anwendung von Step 3? • Step 3 wird nicht angewandt, da keine der Regeln zutrifft • Anwendung von Step 4? • Regel: (m>1) ate  • internate  intern (m>0) ATIONAL -> ATE (m>0) TIONAL -> TION (m>1) ATE ->

  14. Einschränkungen regebasierter Verfahren • Fehler werden in Kauf genommen • Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text • Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt • Anzahl der Regeln überschaubar ist • Ausnahmen begrenzt sind • Das System hat kein wirkliches morphologisches Verständnis • Prefixe werden nicht berücksichtigt

More Related