1 / 18

Experimente

Experimente. Seminar "Experimentielle Evaluierung im IR". Aufgabe 1. DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=1 P0=0.5 vs. P0=1. ExpUtils.java. Hier wird der Zugang zur Datenbank vorkonfiguriert ( thibaul t)

turi
Download Presentation

Experimente

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Experimente Seminar "Experimentielle Evaluierung im IR" 28.02.2006 Ebru Iscan, Andrea Kováčová

  2. Aufgabe 1 • DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs • BM 25 vs. TF.IDF • c=1 • P0=0.5 vs. P0=1 28.02.2006 Ebru Iscan, Andrea Kováčová

  3. ExpUtils.java Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault) Parameter der Aufgabe werden durch die Kommandozeile übergeben Parameter dtf: Syntax: -dtf <Anzahl> Default: 0 (DTFRS) In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder MaxNumDTFRS(10) Indexierungsfunktionen: Syntax: -type plain|stemen_bm25|stemen_tfidf Default: plain In der Aufgabe wahlweise stemen_bm25 oder stemen_tfidf Also muss angegeben werden Parameter c: Syntax: -c <Wert> Default: 1.0 In der Aufgabe 1 immer 1.0 – muss nicht angegeben werden Parameter P0: Syntax: -p0 <Wert> Default: 1.0 In der Aufgabe 1 wahlweise 0.5 oder 1.0 Wesentliche Funktionen: parseArgs() – Ermittelt die Afgabeparameter aus der Kommandozeile getDB() – Baut die Verbindung automatisch auf createPIRE(<KollektionsName>) – registriet jeweilige Operatoren und bildet ihre Attribute im PIRE createRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS oder MaxNumDTFRS(n) 28.02.2006 Ebru Iscan, Andrea Kováčová

  4. Indexierung • Die allgemeine Indexierung der Dokumenteninhalte wird ausgeführt • Operatoren über den Textinhalt und ihre interne Konfiguration werden mit den Parameter aus der Kommandozeile gesetzt • Die Indexierung wurde auf alle Kollektionen ausgeweitet • Für jede Kollektion wird ein PIRE-Objekt gebildet • Aus allen *.gz-Dateien in der jeweiligen Kollektion werden anhand der vordefinierten Trennzeichen Dok-Ids extrahiert, danach wird der Dokumenteninhalt als TextAttribut für die Indexierung registriet • Danach werden alle Indexe der Kollektion/PIRE-Objekt berechnet 28.02.2006 Ebru Iscan, Andrea Kováčová

  5. Indexierung 28.02.2006 Ebru Iscan, Andrea Kováčová

  6. Aufbau der digitalen Bibliothek • Die Resource Description nach dem allgemeinen Format für Digitale Bibliotheken wird erstellt • Die digitale Bibliothek wird 24 mal (pro Kollektion) durch Verwendung des zustänidgen PIRE-Objekts gebaut • Standardkonfiguration für DTF wird verwendet • Interne Konfigurationswerte (c und P0) werden anschliessend gespeichert 28.02.2006 Ebru Iscan, Andrea Kováčová

  7. Resource Description 28.02.2006 Ebru Iscan, Andrea Kováčová

  8. Abfragekosten bestimmen • Die Kosten der Abfragen werden im bestimmt • Immer pro Kollektion mit dem zuständigen PIRE-Objekt • Konfiguration der digitalen Bibliothek wird dazu geladen • Die Kosten werden immer einzeln für die jeweilige digitale Bibliothek berechnet • In dem aktuellen Verzeichnis wird die Datei 51.costs mit den Ergebnissen gebildet 28.02.2006 Ebru Iscan, Andrea Kováčová

  9. Kosten berechnen 28.02.2006 Ebru Iscan, Andrea Kováčová

  10. Vorbereitung der Abfrage • Die berechneten Abfragekosten werden ausgewert • Die Resource Selection untersucht alle digitalen Bibliotheken • Die entsprechenden Abfragekosten werden aus der vorher angelegten Datei geladen • Resource Selection wird auf 300 relevante Dokumente begrenzt • Ergebnise sind auch auf dem Bilschirm sichtbar 28.02.2006 Ebru Iscan, Andrea Kováčová

  11. Resource Selection 28.02.2006 Ebru Iscan, Andrea Kováčová

  12. Retrieval durchführen • Retrieval der Dokumente wird ausgeführt • Alle Kollektionen mit vorberechneten Abfragekosten werden dazu genommen • Ergebnis wird in die Datei result im aktuellen Verzeichnis gespeichert • Ergebnisse im standarden TREC-Format 28.02.2006 Ebru Iscan, Andrea Kováčová

  13. Retrieval 28.02.2006 Ebru Iscan, Andrea Kováčová

  14. Probleme • ERROR unidu.db - select count(distinct concat(concat(prob,concat('@@@',arg0)),concat('@@@',arg1))) from ap88_1a_text_plain_df java.sql.SQLException: General error message from server: "Table 'exp_f.ap88_1a_text_plain_df' doesn't exist“ Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle Konfigurierung notwendig, damit nich „plain“ als Default, sondern je nach Experiment stemen_bm25 oder stemen_tfidf gewählt wird • java.io.FileNotFoundException: conf/trec123.topics (No such file or directory) Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern im aktuellen Verzeichnis erwartet Umgehungslösung: Konfiguration ins aktuelle Verzeichnis kopieren oder ein Link setzen • Unter Eclipse ist kein Debuggen möglich, weil die Zeitmessung beim Start FileNotFoundException wirft 28.02.2006 Ebru Iscan, Andrea Kováčová

  15. Tabelle in DB Beispiel: Werte in der Datenbank –Document Frequency einzelner nach stemen() extrahierten Wörter mit Gewichtung 28.02.2006 Ebru Iscan, Andrea Kováčová

  16. Aufgabe 2 • DTF max. 10 DLs vs. DTF max. 20 DLs • c=1 • P0=0.25 vs. P0=0.75 28.02.2006 Ebru Iscan, Andrea Kováčová

  17. ComputeForTopic 28.02.2006 Ebru Iscan, Andrea Kováčová

  18. ComputeForTopic 28.02.2006 Ebru Iscan, Andrea Kováčová

More Related