Μετρικές Εκτίμησης Απόδοσης

Μετρικές Εκτίμησης Απόδοσης

Κλασσικές Μετρικές (Εκτίμηση Απόδοσης) • Χωρικές/χρονικές πολυπλοκότητες δομών δεικτοδότησης • Επικοινωνία με το Λειτουργικό Σύστημα • Καθυστερήσεις στους διαύλους επικοινωνίας • Επιβαρύνσεις από ύπαρξη πολλών επιπέδων λογισμικού

Ειδικές Μετρικές(Εκτίμηση Απόδοσης Ανάκτησης) • Συλλογή Κειμένων Αναφοράς • συλλογή κειμένων • συλλογή προτύπων πληροφοριακών αναγκών Q • συλλογή σχετικών κειμένων για κάθε q Q • Κατάλληλη μετρική απόδοσης ανάκτησης

Κείμενα Αναφοράς • TREC (TREC evaluation collections: WSJ (Wall Street Journal, AP (Associated Press), ZIFF, FR, DOE, PATents) • GOV2 (25 million page GOV2 web page collections – terabyte track) • NTCIR (NII Test Collections for IR systems, focusing on East Asian, cross language information retrieval) • CLEF (Cross Language Evaluation Forum: http://www.clef-campaign.org) • Reuters (Reuters-21578 and Reuters Corpus Volume 1 collection) • Cranfield (1398 abstract of aerodynamics journal articles, 225 queries) • CACM collection • ISI (Institute of Scientific Information) collection • Newsgroups

Ανάκληση (Recall) και Ακρίβεια (Precision) Έστω Ι μία πρότυπη πληροφοριακή ανάγκηκαι Rτο σύνολο των σχετικών της κειμένων. Υποθέστε ότι μία δοσμένη στρατηγική ανάκτησηςπαράγει ένα σύνολο κειμένων απάντησης Α. Έστω Rα το σύνολο των κειμένων που είναι κοινά στα σύνολα R και A. • Ανάκληση = • Ακρίβεια=

Σχέση Ακρίβειας/Ανάκλησης D R A Rα

Σχέση Ακρίβειας/Ανάκλησης

Σχεδίαση Διαγράμματος Έστω ερώτημα q το οποίο ανήκει στη συλλογή των προτύπων πληροφοριακών αναγκών και έστω Rq το σύνολο των σχετικών κειμένων για το ερώτημα q όπως έχει καθοριστεί από ειδικούς. Για παράδειγμα ας υποθέσουμε ότι το σύνολο Rqπεριέχει τα ακόλουθα κείμενα Rq={d1, d3, d5,d7, d9,d13, d21, d41, d43, d45}. 1. d7 6. d5 11. d4 2. d2 7. d28 12. d40 3. d3 8. d12 13. d10 4. d6 9. d22 14. d36 5. d8 10. d13 15. d1

Σχεδίαση Διαγράμματος Θεωρώντας ότι ο αριθμός των επιστρεφόμενων κειμένων είναι 30, σχεδιάστε τα γραφήματα ανάκλησης ακρίβειας, για τα ακόλουθα ερωτήματα (δίνονται ο αριθμός των σχετικών κειμένων και η θέση τους στο αποτέλεσμα) : Μηχανή1,Αριθμός: 10, Θέση: 1, 5, 7, 8, 9, 13, 17, 26, 27, 28 Μηχανή2.Αριθμός: 10, Θέση: 2, 3, 4, 5, 7, 10, 11, 12, 16, 27. Με βάση τα δύο προκύπτοντα γραφήματα συγκρίνετε μεταξύ τους τις δύο μηχανές.

Σχεδίαση Διαγράμματος • Συνήθως το διάγραμμα αυτό βασίζεται σε 11 πρότυπα επίπεδα ανάκλησης τα 0%, 10%, ..., 100%, όπου σε κάθε επίπεδο η ακρίβεια υπολογίζεται με χρήση μίας διεργασίας παρεμβολής (interpolation) της ακόλουθης μορφής: έστω rj, j{0,1,2,…,10} το j-οστό επίπεδο ανάκλησης τότε: P(rj)=max rjrrj+1 P(r) Βήματα Ανάλυσης (τυπικό για TREC) • Υπολόγισε interpolated precision για recall levels 0.0, 0.1, … • Υπολόγισε για κάθε ερώτηση σε κάθε evaluation benchmark • Υπολόγισε μέσες τιμές για κάθε ερώτημα

Σύνοψη Διαγραμμάτων • Μέση ακρίβεια για κάθε σχετικό κείμενο που ανακτάται(Mean Average Precision (latest TREC Conferences)) -- μπορεί να θεωρηθεί και ότι αναπαριστά το συνολικό εμβαδόν • R-Ακρίβεια παράγεται μία τιμή σύνοψης που υπολογίζεται ως η ακρίβεια στη R-οστή θέση διάταξης, όπου R είναι ο συνολικός αριθμός των σχετικών κειμένων για την τρέχουσα ερώτηση (δηλαδή ο αριθμός των κειμένων στο σύνολο Rq). • Ιστογράμματα Ακρίβειας Έστω RPA(i) και RPB(i) οι τιμές της R-ακρίβειας για δύο αλγόρίθμους ανάκτησης A,B για το i-οστό ερώτημα. Ορίζουμε την ακόλουθη διαφορά: RPA/B(i)=RPA(i)-RPB(i).

Receiver Operating Characteristics • true positives (tp): retrieved and relevant • false positives (fp): retrieved and non relevant • true negatives (tn): non relevant and non-retrieved • false negatives (fn): non relevant and retrieved • sensitivity=tp/(tp+fn), false-positive rate or 1-specificity=fp/(fp+tn). • P=tp/(tp+fp), R=tp/(tp+fn)

Καταλληλότητα Ακρίβειας/Ανάκλησης • Απαιτείται λεπτομερή γνώση όλων των κειμένων της συλλογής που σε μεγάλες συλλογές δεν είναι διαθέσιμη • Η καταγραφή μίας μόνο μετρικής αντί για δύο είναι συνήθως εύχρηστη • Σε μοντέρνα συστήματα η διεπαφή και η αλληλεπίδραση με τον χρήστη αποτελούν σημείο κλειδί στην επεξεργασία ενός ερωτήματος, κάτι που καθιστά επιτακτική την υιοθέτηση μετρικώνπου τις λαμβάνουν υπόψη. • Oι μετρικές ανάκλησης και ακρίβειας είναι κατάλληλες όταν υπάρχει μία γραμμική διάταξη στα ανακτώμενα κείμενα, διαφορετικά μπορεί να είναι ανακριβείς.

Εναλλακτικές Μετρικές • Αρμονικός Μέσος Όρος • Η Μετρική Ε • Μετρικές Προσανατολισμένες προς τον Χρήστη

Αρμονικός Μέσος Όρος Ο αρμονικός μέσος όρος Fανάκλησης και ακρίβειας ορίζεται ως εξής: όπου R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j). Αιτία για την επιλογή αυτή, είναι ότι ο αρμονικός μέσος όρο προσεγγίζει το ελάχιστο των δύο τιμών και όχι το μέγιστο.

Η Μετρική Ε Η μετρικήΕορίζεται ως εξής: -- R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j). -- τιμές b>1, σημαίνει ότι ο χρήστης ενδιαφέρεται πιο πολύ για ακρίβεια, τιμές b<1 ότι ενδιαφέρεται για ανάκληση.

Μετρικές Προσανατολισμένες προς τον Χρήστη (1) Έστω R το σύνολο των σχετικών κειμένων για την πληροφοριακή ανάγκη I, A το σύνολο των κειμένων που έχει ανακτηθεί και UR το σύνολο των κειμένων που είναι γνωστό στο χρήστη ότι είναι σχετικά προς το ερώτημα του. Έστω Rkη τομή των συνόλων Α και Uκαι|Ru|o αριθμός των σχετικών κειμένων, που δεν γνώριζε πριν ο χρήστης και τα οποία έχουν ανακτηθεί. • Βαθμός κάλυψης (coverage ratio) = • Bαθμός καινοτομίας (novelty ratio)=

Άλλες Μετρικές • Σχετικήανάκληση (relativerecall) ορίζεται ως το πηλίκο ανάμεσα στον αριθμό των σχετικών κειμένων που έχουν ανακτηθεί και των σχετικών κειμένων που ο χρήστης περιμένει να ανακτηθούν. • Κόστοςανάκλησης (recall effort) ορίζουμε το πηλίκο ανάμεσα στα σχετικά κείμενα που ο χρήστης αναμένει να εντοπίσει και τα κείμενα που εξετάζει μέχρις ότου εντοπίσει αυτά που αναμένει.

‘Αλλες Μετρικές Μηχανής Ψαξίματος • Πόσο γρήγορα δεικτοδοτεί • Αριθμός κειμένων/ώρα • μέσο μέγεθος κειμένου • Πόσο γρήγορα απαντά • Εκφραστικότητα γλώσσας ερώτησης • Ικανότητα διατύπωσης πολύπλοκων πληροφοριακών αναγκών • Ταχύτητα πολύπλοκων ερωτήσεων

Μέτρηση Ικανοποίησης Χρήστη • Θέμα: ποιον χρήστη θέλουμε να ικανοποιήσουμε; εξαρτάται από την εφαρμογή • Web engine: ο χρήστης εντοπίζει αυτό που θέλει και επιστρέφει στην ίδια μηχανή • Καταγραφή ρυθμού επιστροφής χρήστη • eCommerce site: ο χρήστης βρίσκει αυτό που θέλει και κάνει αγορά • Είναι ο end-user, ή το eCommerce site το οποίο μετράμε; • Μέτρηση χρόνου αγοράς, η ποσοστό χρηστών που έγιναν αγοραστές;

Μέτρηση Ικανοποίησης Χρήστη • Enterprise (company/govt/academic): Care about “user productivity” • How much time do my users save when looking for information? • breadth of access, secure access, etc.

Web Search Evaluation - H ανάκληση είναι δύσκολο να υπολογιστεί στο Web - Οι μηχανές ψαξίματος συχνά χρησιμοποιούν ακρίβεια στα πρώτα k, π.χ., k = 10 κείμενα ή μετρικές που πριμοδοτούν, την γρήγορη ανάκτηση κορυφαίων σελίδων - Οι μηχανές χρησιμοποιούν επίσης non-relevance-based μετρικές. Παράδειγμα 1: clickthrough στο πρώτο αποτέλεσμα (αν και όχι πολύ αξιόπιστη μετρική είναι αξιόπιστη κατά μέσο όρο). Παράδειγμα 2: Νέες τεχνικές που ακόμη δεν έχουν κυριαρχήσει στη περιοχή Παράδειγμα 3: A/B testing

Α/Β Μετρική Τεστάρισμα Καινοτόμου Αλγορίθμου Προαπαιτούμενο: ύπαρξη μίας μηχανής ψαξίματος Μετατόπιση ενός μικρού ποσοστού της κυκλοφορίας (περίπου 1%) σε ένα νέο σύστημα, που συμπεριλαμβάνει την καινοτομία Αξιολόγηση με μία “αυτόματη” μετρική όπως clickthrough στο πρώτο αποτέλεσμα Παραλλαγή: δώστε στους χρήστες τη δυνατότητα να μετακινηθούν στο νέο αλγόριθμο.

Συλλογή κειμένων - αντιπροσωπευτική των κειμένων που διαχειριζόμαστε Συλλογή πληροφοριακών αναγκών - ... λανθασμένα αναφέρονται ως ερωτήματα - αντιπροσωπευτικά αυτών που αναμένουμε Καταγραφή σχετικότητας - απαραίτητη η χρήση κριτών ή διαφορετικά εκτιμητών συσχέτισης - διαδικασία ακριβή και χρονοβόρα - οι κρίσεις πρέπει να είναι αντιπροσωπευτικές της εκτίμησης των χρηστών - οι κρίσεις πρέπει να είναι μεταξύ τους συνεπείς - πως μπορεί να αξιολογηθεί η συνέπεια των χρηστών (kappa μετρική) - τιμές του k από 2/3 ως 1 θεωρούνται ικανοποιητικές. Benchmark collection

K μετρική • K είναι μετρική που αξιολογεί κατά πόσο δύο κριτές συμφωνούν ή διαφωνούν • Σχεδιασμένη για κατηγορικά ορίσματα • P(A) είναι το ποσοστό συμφωνίας των δύο κριτών • - P(E) είναι το ποσοστό συμφωνίας από τύχη • Η μετρική K υπολογίζεται ως εξής: • K=(P(A)-P(E))/(1-P(E)) • Και οι δύο πιθανότητες υπολογίζονται από πίνακες αξιολογήσεων των δύο κριτών. • Πιο συγκεκριμένα P(E)=P(relevant)2+P(non_relevant)2 όπου και στις δύο αξιολογήσεις παίρνουμε υπόψην μας όλες τις αξιολογήσεις των referee.

Συλλογή Cranfield • - Από τις πρώτες συλλογές δεδομένων, με παροχή αντιποσωπευτικών μέτρων για καταγραφή ποσοτική της αποτελεσματικότητας συλλογής. • Τέλη 1950, UK • 1938 abstracts άρθρων σε περιοδικά αεροδυναμικής, σύνολο 225 ερωτημάτων, εξαντλητικές κρίσεις σχετικότητας για όλα τα ζεύγη ερωτημάτων-κειμένων • - Αρκετά μικρή, και όχι τόσο τυπική για σοβαρή αξιολόγηση ανάκτηση πληροφορίας σήμερα.

Συλλογή TREC • TREC (Text Retrieval Conference) • Οργανώθηκε από U.S. National Institute of Standards Organization (NIST) • TREC είναι μία συλλογή από διαφορετικά benchmarks • Γνωστή ως TREC Ad Hoc, χρησιμοποιήθηκε για τις πρώτες 8 TREC αξιολογήσεις 1992-1999. • 1.89 εκατομμύρια κείμενα, κυρίως άρθρα, 450 πληροφοριακές ανάγκες • Όχι εξαντλητικές αξιολογήσεις, αρκετά ακριβές • Βασικά εκτιμήσεις αξιολόγησης υπάρχουν μόνο για κείμενα που ήταν ανάμεσα στα k πρώτα που ήταν στην TREC συλλογή και επιστράφηκαν στη διάρκεια απάντησης μίας πληροφοριακής ανάγκης.

Συλλογές • GOV2 • -- μία άλλη TREC/NIST συλλογή • -- 25 εκατομμύρια web σελίδες • -- από τις μεγαλύτερες διαθέσιμες συλλογές • -- 3 τάξεις μεγέθους μικρότερη από Google/Yahho/MSN • NTCIR • -- East Asian Language και Cross Language Information Retrieval • Cross Language Evaluation Forum (CLEF) • -- Αυτή η συλλογή έχει επικεντρωθεί σε Ευρωπαϊκές γλώσσες και cross language information retrieval

Λίστα Αποτελεσμάτων • Πιο συχνά: title, url, λίστα μεταδεδομένων • Μία περίληψη • Πως υπολογίζεται η περίληψη; • Δύο βασικά είδη περίληψης, στατικά και δυναμικά: • - στατική: ανεξάρτητη ερώτησης • - δυναμική: εξαρτώμενη από ερώτηση.

Στατική Περίληψη • Περίληψη του περιεχομένου του κειμένου • Οι πρώτες περίπου 50 λέξεις του κειμένου • Πιο πολύπλοκες περιλήψεις, χρήση τεχνικών NLP • - NLP heuristics για μαρκάρισμα προτάσεων • - περίληψη παράγεται από τις κορυφαίες προτάσεις • Πιο πολύπλοκες προσεγγίσεις εφαρμόζουν NLP για παραγωγή προτάσεων: • - όχι έτοιμη για χρήση σε εφαρμογές

Δυναμικές Περιλήψεις • Παρουσίαση ενός ή περισσοτέρων παράθύρων ή snippets στο κείμενο που παρουσιάζουν μερικούς από τους όρους ερώτησης • Παράγονται σε συνδυασμό με την απάντηση στους όρους ερώτησης • Συνήθως προτιμώνται snippets όπου οι όροι εμφανίζονται σαν μία φράση ή όπου η εγγύτητά τους μέσα στη φράση πραγματοποιείται σε ένα παράθυρο που ορίζεται από τον χρήστη • Η περίληψη η οποία υπολογίζεται έτσι εμφανίζει όλους τους όρους του παραθύρου, όχι μόνο αυτούς που εμπεριέχονται στην ερώτηση.

Τεχνικά Θέματα • Για την γρήγορη υλοποίηση υπολογισμού των snippets θα πρέπει να κάνουμε cache documents στα οποία θα γίνει ο υπολογισμός (επικινδυνότητα τελικά αυτά να είναι outdated) • Λύση το caching να γίνεται σε ένα prefix του κειμένου κατάλληλου μεγέθους • Ιδανικά: τα snippets θα πρέπει να είναι μικρά και να μεταφέρουν ιδανικά το περιεχόμενο του κειμένου • Η ύπαρξη δυναμικών περιλήψεων είναι σημαντικό θέμα το οποίο πρέπει να προσεχθεί έτσι ώστε να είναι ευχαριστημένος ο τελικός χρήστης.

Μοντελοποίηση • Τα Συστήματα Α.Π. χρησιμοποιούν όρουςδεικτοδότησης για να αντιμετωπίσουν τις πληροφοριακές ανάγκες του χρήστη. • ΌροςΔεικτοδότησης: • ένα keyword ή ομάδα επιλεγόμενων λέξεων • κάθε λέξη (πιο γενικά) • Απομάκρυνση καταλήξεων (stemming) μπορεί να χρησιμοποιηθεί: • connect: connecting, connection, connections • Ένα ανεστραμμένο αρχείο χτίζεται για τους δοσμένους όρους δεικτοδότησης.

Κείμενα Όροι Δεικτοδότησης Κείμενο Ταίριασμα Πληροφοριακή Ανάγκη Κατάταξη Ερώτημα

Ad-HocΑνάκτηση και Φιλτράρισμα Ad hoc ανάκτηση: Q1 Q2 Συλλογή Πεπερασμένου Μεγέθους Q3 Q4 Q5

Ad-HocΑνάκτηση και Φιλτράρισμα Φιλτράρισμα Κείμενα για Χρήστη2 Χρήστης2 Προφίλ Χρήστης1 Προφίλ Κείμενα για Χρήστη1 Ροή Κειμένων

Κατάταξη είναι μία ταξινόμηση των ανακτημένων κειμένων που αναπαριστά τη σχετικότητα των κειμένων με το ερώτημα του χρήστη. • Μία κατάταξηβασίζεται σε υποθέσεις σχετικά με την έννοια της σχετικότητας όπως: • Κοινό σύνολο όρων δεικτοδότησης • Διαμοίραση ζυγισμένων όρων • Πιθανότητα συσχέτισης • Διαφορετικά σύνολο υποθέσεων οδηγούν σε διαφορετικά μοντέλα Α.Π.

Τυπικός Ορισμός Μοντέλων Α.Π. Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q,F, R(qi, dj)] όπου: 1) - Dείναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής 2) - Qείναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσειςκαλούνται ερωτήματα 3) - Fείναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους - R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν πραγματικό αριθμό με ένα ερώτημα qiQκαι μια αναπαράσταση κειμένου djD. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα κείμενα πάντα με βάση το ερώτημα. qi.

Μοντέλα Α.Π.

Μοντέλα Α.Π. • Το Μοντέλο Α.Π., η λογική όψη των κειμένων και η διεργασία ανάκτησης αποτελούν διακριτές όψεις του συστήματος.

Μετρικές Εκτίμησης Απόδοσης

Μετρικές Εκτίμησης Απόδοσης

Presentation Transcript