20 likes | 114 Views
Learn about term weighting specificity in a text collection, calculate TF-IDF values for words in a newspaper article collection, and identify highly specific and unspecific words. Submit by email by 27.4.
E N D
Term-Gewichtung • Ziel: welche Spezifizität hat ein Term • Allgemein / in Bezug auf die gesamte Kollektion • In Bezug auf ein Dokument • Frequenz allein reicht nicht aus • Sehr spezifisch: Terme, die bezogen auf die Gesamtkollektion relativ selten, in einzelnen Dokumenten aber relativ häufig vorkommen • TF * IDF Gewichtung: • tfik: Frequenz von Term k in Dokument i • Idfk: log(N/nk) (nk = Anzahl der Dokumente mit k, N = Gesamtzahl der Dokumente)
Hausaufgabe 1 • Berechnung der TF-IDF Werte für das Vokabular einer kleinen Kollektion • Erstellen Sie eine kleine Textkollektion von Zeitungsartikeln, indem Sie einige Artikel von www.sueddeutsche.de herunterladen • Berechnen Sie für die Wörter, die in dieser Kollektion vorkommen, die TF_IDF Werte, indem Sie entweder • Ein Programm schreiben, dass eine Textkollektion als Input nimmt und die TF_IDF Werte für alle Wörter ausgibt • Alles manuell auszählen – nicht zu empfehlen! • Welches sind in Ihrer Kollektion die sehr spezifischen Wörter? Was sind die unspezifischsten Wörter? • Abgabe: per e-mail bis spätestens 27.4., 9 Uhr an pmaier@cis.uni-muenchen.de. Bitte als Betreff/Subject folgendes verwenden: Aufgaben ML_05 NUMMER IHR_NAME