Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Διδάσκων: Μακρής Χρήστος Γραφείο: Π502 (ΠΡΟΚΑΤ) e-mail: makri@ceid.upatras.gr Διδασκαλία: Τρίτη: 19:00-21:00 (φροντιστήριο) Β4 Παρασκευή: 15:00-17:00 Β3 (θεωρία)

Διαδικαστικά • Εξέταση (γραπτή) • Εργασία (σε ομάδες 1-2 ατόμων): • Βιβλιογραφική • Υλοποίηση/Πειράματα • Θεωρητική μελέτη • Τελικός Βαθμός: • Ημιάθροισμα αν βαθμός εξέτασης >= 5

Εισαγωγικά • ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας • Επίκεντρο η πληροφοριακή ανάγκη του χρήστη • Πληροφοριακή ανάγκη χρήστη: • Εντόπισε όλα τα κείμενα με πληροφορίες σχετικά με φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συμμετέχουν σε κάποιο αθλητικό σύλλογο • Έμφαση δίνεται στην ανάκτηση πληροφορίας και όχι δεδομένων

Εισαγωγικά • Ανάκτηση Δεδομένων • Ποια κείμενα περιέχουν ένα σύνολο keywords? • Καλά ορισμένη σημασιολογία • Ελάχιστα λανθασμένη απάντηση συνιστά αποτυχία! • Ανάκτηση Πληροφορίας • Το ερώτημα είναι ασαφές • Η σημασιολογία είναι συχνά ελλιπής • Μικρά λάθη είναι ανεκτά • Σύστημα ΑΠ: • Ερμηνεύει περιεχόμενα αντικειμένων πληροφορίας • Παράγειμίακατάταξη που αναπαριστά σχετικότητα • Έννοια σχετικότηταςπιο σημαντική από ακριβέςταίριασμα

Εισαγωγικά • ΑΠ τα τελευταία 30 χρόνια: • Ταξινόμηση (classification)και κατηγοριοποίηση(categorization) κειμένων • Συστήματα Βιβλιοθήκης και γλώσσες • Διεπαφή χρηστών και οπτικοποίηση • Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος • Με την έλευση του Διαδικτύου: • Παγκόσμια αποθήκη γνώσης • Ελεύθερη (χαμηλού κόστους) προσπέλαση • Πολλά προβλήματα : ΑΠ προσφέρει λύσεις

Πεδία Εφαρμογής • Web Search Engines • Ψηφιακές Βιβλιοθήκες (Digital Libraries) • Ανάκτηση Πληροφορίας σε Peer to Peer Περιβάλλοντα • Βιοπληροφορική • Συστήματα Προσαρμοστικών Πολυμέσων/Υπερμέσων

Γειτονικές Περιοχές • Βάσεις Δεδομένων • Τεχνητή Νοημοσύνη • Εξόρυξη Δεδομένων (Data Mining) • Γλωσσική Τεχνολογία/Επεξεργασία Φυσικής Γλώσσας • Τεχνικές Μοντελοποίησης • Δομές Δεδομένων • Αλγόριθμοι (συμπίεση κειμένων, συμπίεση Δομών Δεδομένων)

Σειρά Μαθημάτων • Εισαγωγή • Μετρικές + Μοντελοποίηση • Κλασσικά Μοντέλα (Vector Space Model, Boolean Model, Πιθανοτικό) • Εναλλακτικά Μοντέλα (Fuzzy Boolean,Extended Boolean, Generalized V.S.) • Latent Semantic Indexing (Λανθάνουσα Σημασιολογική Δεικτοδότηση) • Αλγόριθμοι Ανάκτησης Πληροφορίας στον Παγκόσμιο Ιστό - 1 • Αλγόριθμοι Ανάκτησης Πληροφορίας στον Παγκόσμιο Ιστό - 2 • Δομές Δεικτοδότησης (Δέντρα Επιθεμάτων/Ανεστραμμένα Αρχεία) • Δομές Δεικτοδότησης στη Δευτερεύουσα Μνήμη • Συμπίεση Κειμένωνκαι Δομών Δεικτοδότησης • 11. Φιλτράρισμα Πληροφορίας • Εξειδικευμένα Θέματα (εναλλακτικά μοντέλα, υλοποίηση) • XML Indexing

Σειρά Φροντιστηρίων • Ανεστραμμένα Αρχεία, B- Δέντρα, Perfect Hashing Structures • Συμπιεσμένα Ανεστραμμένα Αρχεία • Δημιουργία Ανεστραμμένων Αρχείων • Αλγόριθμοι σε Ροές Δεδομένων • Προχωρημένα θέματα αλγορίθμων ψαξίματος στον Παγκόσμιο Ιστό • Ψάξιμο σε Συμπιεσμένες Αναπαραστάσεις Συμβολοσειρών 1 • Ψάξιμο σε Συμπιεσμένες Αναπαραστάσεις Συμβολοσειρών 2 • Ψάξιμο σε Ιεραρχίες Μνημών • Web Services και XML Indexing

Ανάκτηση Πληροφορίας • Τα τελευταία 50-60 χρόνια ως επιστημονικό πεδίο • 1945: Vannenar Bush’s “As we may think” • 1960+: Gerald Salton • 1978: Πρώτο ACM SIGIR συνέδριο • 1992: Πρώτο TREC συνέδριο

Unstructured (text) vs. structured (database) data in 1996

Unstructured (text) vs. structured (database) data in 2006

Μαθημaτικός Ορισμός Προβλήματος Μιλώντας σε μαθηματική ορολογία το πρόβλημα που θέτει η Ανάκτηση Πληροφορίας έγκειται στον καθορισμό μίας συνάρτησης: όπου με Dορίζουμε το χώρο των documents, Uορίζουμε το σύνολο των χρηστών του συστήματος και με Sορίζουμε το σύνολο των δυνατών πληροφοριακών αναγκών των χρηστών. Η fείναι μια συνάρτηση με την οποία κάθε ένα κείμενο αντιστοιχεί σε ένα πραγματικό αριθμό, ο οποίος δείχνει κατά πόσο ένα κείμενοανταποκρίνεται σε αυτό που θέλει ο χρήστης.

Μέθοδοι Προσέγγισης • Computer Centered View (Ανάκτηση Πληροφορίας) -Κτίσιμο δομών δεικτοδότησης - Γρήγορη επεξεργασία ερωτημάτων - Ποιοτικοί αλγόριθμοι κατάταξης • Human Centered View (Βιβλιοθοικονομία και Επιστήμη Πληροφορήσης) - Μελέτη βασικών αναγκών του χρήστη - Καταγραφή συμπεριφοράς χρήστη

Βασικές Έννοιες • Η Διεργασία του Χρήστη • Ανάκτηση (Retrieval) • Φυλλομέτρηση (Browsing) • Συνδυασμός (Hidden web)

Επεξεργασία Κειμένων • Σε τι format είναι; • pdf/word/excel/html? • Σε τι γλώσσα είναι; • Ποιο σύνολο χαρακτήρων χρησιμοποιεί; • Τα κείμενα μπορεί να περιέχουν όρους από διαφορετικές λέξεις • Τι είναι ένα μοναδιαίο κείμενο; • ένα αρχείο; • ένα e-mail; • ένα email μεεπισυνάψεις; • oμάδα αρχείων;

Λογική Όψη Κειμένων • Η αναπαράσταση των κειμένων (λογική όψη) μπορεί να πάρει διάφορες μορφές σε μία συνέχεια αναπαραστάσεων

Τεχνικά Θέματα • Μετέτρεψε όλα τα γράμματα σε μικρά • εξαίρεση: κεφαλαία (στη μέση της πρότασης) • γενικά είναι καλύτερο να μετατρέπεις όλα τα σύμβολα σε μικρά. • Με μία stop list, αποκλείεις όρους που: • έχουν ασήμαντη συνεισφορά στη σημασιολογία: the, a, and, to, be • καταλαμβάνουν χώρο: ~30% σε posting list • Συνήθως μεγάλες (200-300 όρους) ως μικρές (7-12) αλλά: • αποδοτικές τεχνικές συμπίεσης καθιστούν δυνατή την αποθήκευση τέτοιων όρων • καλές τεχνικές βελτιστοποίησης επιτρέπουν τη χρήση τους χωρίς να επηρεάζεται ο χρόνος ερώτησης (σχέση tf-idf) • Απαραίτητες για: • Ερωτήσεις φράσεων: “καθηγητής στο Στάνφορντ” • Τίτλους άρθρων ή τραγουδιών • Ερωτήσεις συσχέτισης: “πτήσεις προς Αθήνα”

Αλγόριθμοι Stemming • Porter’s algorithm (αποτελείται από 5 φάσεις, οι φάσεις εφαρμόζονται ακολουθιακά, κάθε φάση αποτελείται από ένα σύνολο εντολών, γενικός κανόνας: από ένα σύνολο κανόνων επέλεξε αυτόν που εφαρμόζεται στο μεγαλύτερο επίθεμα). • Lovins stemmer • Paice stemmer http://www.comp.lancs.ac.uk/computing/research/stemming/general/lovins.htm http://www.cs.waikato.ac.nz/~eibe/stemmers http://www.comp.lancs.ac.uk/computing/research/stemming

Δεικτοδότηση Νόμος του Zipf:

Θέματα Δεικτοδότησης • Δεικτοδότηση φράσεων • Δεικτοδότηση εννοιών • Πολυγλωσσική ανάκτηση (χρησιμοποίηση λεξικών και μετάφρασης με χρήση πιθανοτήτων, tanslation probabilities trained on parallel corpora)

Διεργασία Ανάκτησης

Διεπαφή χρήστη Πράξεις στο κείμενο Ανάδραση χρήστη Μονάδα Πράξεις στα Δεικτοδότηση Διαχείρισης ερωτήματα ΒΔ Αναζήτηση Ευρετήριο Κατάταξη Η Διεργασία Ανάκτησης Πληροφοριακή Ανάγκη χρήστη Λογική Αναπαράσταση Ερώτημα Ανακτημένα κείμενα ΒΔ Κειμένου Καταταγμένα κείμενα

Διαδικασία Ερώτησης • Boolean logic • Proximity (context query) • Contiguous Word Phrases (context query) • Fuzzy searches • Term Masking • Numeric and Date Ranges • Concept and Thesaurus Expansion • Natural Language Queries • Multimedia Queries

Βιβλιογραφία • R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/ ) • Stefan Buttcher, Charles Clark, Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press 2010, http://www.ir.uwaterloo.ca/book/ • W. Croft, D. Metzler, T. Strohman, Search Engines: Information Retrieval in Practise, Pearson 2010, http://www.search-engines-book.com • Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008.(http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html) • Amy Langville, Carl Meyer, Google's PageRank and Beyond, Princeton University Press 2006 • Ι. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers, 1999. • G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York: McGraw-Hill, 1983. • Van Reijsbergen, Information Retrieval, London: Butterworths, 1979 • Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University Press, 2005 • W.B. Frakes, R. Baeza-Yates, Information Retrieval: Data Structures and Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992. • Σημειώσεις : http://mmlab.ceid.upatras.gr/ir

Βιβλιογραφία • B. Allen, Information Tasks: Towards a User-Centered Approach to Information Systems. Academic Press, San Diego, CA, 1996. • M. Attalah ed., “Algorithms and Theory of Computation Handbook” CRC Press 1999. • D. Gusfield, “Algorithms on Strings, Trees and Sequences”, Cambridge University Press, 1997. • V.S. Subrahmanian. “Principles of Multimedia Database Systems”, Morgan Kaufmann, 1998. • Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes: “Compressing and Indexing Documents and Images”, Morgan Kaufmann, 1999. • S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 1999

Εργασίες 1. Συμπίεση κειμένου με τη μέθοδο της κωδικοποίησης Huffmann. Στην παρούσα εργασία ζητείται η επισκόπηση μιας πολύ διαδεδομένης μεθόδου κωδικοποίησης και συμπίεσης, της μεθόδου Huffman. Η μέθοδος αυτή δίνει κωδικοποίηση συμβόλου με μέσο μήκος κώδικα, ίσο με την εντροπία της κατανομής εμφάνισης των συμβόλων και γι’ αυτό το λόγο είναι βέλτιστη. Στην παρούσα εργασία ζητείται επισκόπηση της μεθόδου και των παραλλαγών της με έμφαση στη δυναμική κωδικοποίηση Huffman. Προαιρετικά μπορεί να γίνει και μια υλοποίηση της μεθόδου. Υλικό: • Κεφάλαιο 7 απότοβιβλίο “Modern Information Retrieval”. • Κεφάλαιο 2 από το βιβλίο “Managing Gigabytes”. • Δημοσιεύσεις του Jeff Vitter για Huffman Coding (http://www.cs.duke.edu/~jsv/Papers/catalog/). • Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation Handbook”, CRC Press 1999.

Εργασίες 2. Συμπίεση κειμένου με τη μέθοδο της αριθμητικής κωδικοποίησης. Στην παρούσα εργασία ζητείται η επισκόπηση μιας διαδεδομένης μεθόδου κωδικοποίησης συμβόλων και συμπίεσης κειμένων, της αριθμητικής κωδικοποίησης. Ζητείται η επισκόπηση της μεθόδου και των παραλλαγών της καθώς και παρουσίαση των πλεονεκτημάτων ή μειονεκτημάτων που τυχόν αυτή παρουσιάζει σε σχέση με άλλες τεχνικές κωδικοποίησης. Προαιρετικά η εργασία μπορεί να συνοδευτεί και από υλοποίηση της μεθόδου. Υλικό: • Κεφάλαιο 7 από το βιβλίο «Modern Information Retrieval”. • Κεφάλαιο 2 από το βιβλίο «Managing Gigabytes”. • Δημοσιεύσεις του Jeff Vitter για Arithmetic Coding (http://www.cs.duke.edu/~jsv/Papers/catalog/) . • Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press 1999.

Εργασίες 3. Μέθοδοι Συμπίεσης με χρήση της μεθόδου Burrows-Wheeler . Ο μετασχηματισμός Burrows-Wheeler μετασχηματίζει την ακολουθία εισόδου σε μια ακολουθία, η οποία στη συνέχεια είναι εύκολο να συμπιεστεί. Η παρούσα εργασία αποσκοπεί στην μελέτη της μεθόδου και κάποιων παραλλαγών της. Υλικό: • H δημοσίευσητου G. Manzini “An Analysis of the Burrows–Wheeler Transform”, Journal of the ACM, 48:3, pp. 407-430.

Εργασίες 4. Τεχνικές συμπίεσης ανεστραμμένων αρχείων. Αντικείμενο αυτής της εργασίας είναι η μελέτη των διαφόρων τεχνικών που έχουν προταθεί για την συμπίεση των ανεστραμμένων αρχείων (inverted files). Τα ανεστραμμένα αρχεία είναι μια από τις πιο γνωστές μεθόδους αποθήκευσης κειμένων σε συστήματα ανάκτησης πληροφορίας. Ζητείται παρουσίαση της μεθόδου και κάποιων από τις τεχνικές για την συμπίεση των ανεστραμμένων αρχείων. Εναλλακτικά η εργασία μπορεί να παρουσιάσει μια συγκριτική μελέτη των ανεστραμμένων αρχείων με άλλες γνωστές τεχνικές, όπως είναι τα signature files. Υλικό: • Κεφάλαιο 3 από το βιβλίο “Managing Gigabytes” • Η δημοσίευση των Zobel J.R., Moffat A. and Ramamohanarao K., “Inverted Files Versus Signature Files for Text Indexing”, ACM Trans. On Database Systems, Vol. 23, No 4, pp. 863-896, 1998.

Εργασίες 5. Τεχνικές δημιουργίας ανεστραμμένων αρχείων. Τα ανεστραμμένα αρχεία είναι μια από τις πιο διαδεδομένες τεχνικές δεικτοδότησης κειμένων και η λειτουργία τους βασίζεται στην αποθήκευση των λέξεων και των εμφανίσεών τους σε κείμενα, αντί για την αποθήκευση κειμένων. Στην παρούσα εργασία ζητείται η παρουσίαση των τεχνικών που έχουν παρουσιαστεί στη βιβλιογραφία για την κατασκευή των ανεστραμμένων αρχείων με προαιρετική συνοδεία υλοποίησης κάποιας από αυτές. Υλικό: • Κεφάλαιο 5 από το βιβλίο “Managing Gigabytes”. • Κεφάλαιο 3 από το βιβλίο “Information Retrieval: Data Structures and Algorithms”. • Κεφάλαιο 8 από το βιβλίο “Modern Information Retrieval”.

Εργασίες 6.Ανάκτηση Πληροφορίας με τη μέθοδο της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing). . Η Λανθάνουσα Σημασιολογική Δεικτοδότηση είναι μια μέθοδος δεικτοδότησης και αναπαράστασης κειμένων, βάσει των εννοιολογικών συστάδων που προκύπτουν στα περιεχόμενα των κειμένων και όχι της απλής λεκτικής δεικτοδότησης που εφαρμόζεται στο μοντέλο Διανυσματικού Χώρου (Vector Space). Η αναπαράσταση δανείζεται τεχνικές από τη γραμμική άλγεβρα και συγκεκριμένα την Διάσπαση Ιδιαζουσών Τιμών (Singular Value Decomposition). Στην εργασία προτείνεται παρουσίαση της μεθόδου και των ιδιοτήτων της, καθώς και των εφαρμογών που τυγχάνει. Υλικό: • Δημοσιεύσεις σχετικά με το LSI από τη σελίδα της Telcordia (http://lsi.research.telcordia.com/lsi/LSIpapers.html) με σημείο εκκίνησης το πρώτο paper για LSI από Deerwester, S., Dumais, S. T., Landauer, T. K., Furnas, G. W. και Harshman, R. A. , "Indexing by Latent Semantic Analysis." Journal of the Society for Information Science, 41(6), 391-407, 1990. • Δημοσιεύσεις σχετικά με το LSI από τη σελίδα http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/IR.html

Εργασίες 7. Τεχνικές Μοντελοποίησης Χρήστη (User Modeling) για Φιλτράρισμα Πληροφορίας (Information Filtering) Αντικείμενο της παρούσας εργασίας είναι η παρουσίαση των τεχνικών για την προσωποποίηση των συστημάτων ανάκτησης πληροφορίας και συγκεκριμένα συστημάτων φιλτραρίσματος πληροφορίας, με τη χρήση προσαρμοστικών υπερμέσων. Υλικό: • Κεφάλαιο 10 απότοβιβλίο “Modern Information Retrieval”. • Ένα κεφάλαιο από το βιβλίο “Adaptive Hypertext and Hypermedia”. • H δημοσίευση της Kjersti Aas “A Survey on Personalized Information Filtering Systems for the World Wide Web” December 1997” .

Εργασίες 8. Δεικτοδότηση κειμένων με χρήση Suffix Trees και Suffix Arrays. Δύο εναλλακτικές μέθοδοι για την δεικτοδότηση κειμένων στην κύρια μνήμη, αποτελούν τα Suffix Trees και μια παρόμοια αλλά πιο αποδοτική σε χώρο παρόμοια δομή, τα Suffix Arrays. Οι μέθοδοι αυτοί έχουν προσελκύσει μεγάλο ενδιαφέρον λόγω των αυξημένων δυνατοτήτων που παρουσιάζουν για αποδοτική διαχείριση συμβολοσειρών, ταχύ ταίριασμα προτύπου (pattern matching), εύρεση επαναλήψεων κλπ. Προτείνεται η συγκριτική μελέτη των δύο δομών με εστίαση στα πλεονεκτήματα-μειονεκτήματα που εμφανίζουν. Προαιρετικά προτείνεται η υλοποίηση suffix arrays. Υλικό: • Κεφάλαιο 11 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press 1999. • Κεφάλαιο 5 από το βιβλίο “Ηandbook of Theoretical Computer Science: Algorithms and Complexity, Volume A” Elsevier,1990. • Η δημοσίευση των Manbers, U. και Myers, G.W. “Suffix arrays: a new method for on-line string searches”. SIAM J. Comput., 22, 935-948, 1993.

Εργασίες 9. Αλγόριθμοι Ανάκτησης Πληροφορίας στο Παγκόσμιο Ιστό. Η μεγαλύτερη πρόκληση για τα μοντέρνα συστήματα ανάκτησης πληροφορίας, είναι ο χώρος του διαδικτύου με την απεραντοσύνη και την χαοτική δομή που τον διακρίνει. Κάποια από τα επιτυχημένα μοντέλα (ένα από αυτά μάλιστα χρησιμοποιείται από το Google) για την αποδοτική ανάκτηση πληροφορίας, ανάγουν τη δομή του διαδικτύου σε γράφημα και μελετούν τις φασματικές ιδιότητές τους. Στα πλαίσια αυτής της εργασίας προτείνεται η συγκριτική μελέτη των κυριότερων αλγορίθμων ανάκτησης πληροφορίας στο διαδίκτυο (HITS, Pagerank). Προαιρετικά η άσκηση μπορεί να συνοδεύεται με υλοποίηση ενός εκ των δύο αλγορίθμων. Υλικό: • Οι δημοσιεύσεις του Kleinberg σχετικά με Information Networks, και οι αντίστοιχες δημοσιεύσεις για το σύστημα Clever (http://www.cs.cornell.edu/home/kleinber/, http://www.almaden.ibm.com/cs/k53/clever.html ). • Δημοσιεύσεις σχετικά με τη μηχανή αναζήτησης Google. (http://www7.scu.edu.au/programme/fullprog.html ).

Εργασίες 10. Αλγόριθμοι ταιριάσματος προτύπου Στο πρόβλημα ταιριάσματος προτύπου δίνεται ένα πρότυπο στην είσοδο και μια συμβολοσειρά και ζητείται να αναφερθεί αν υπάρχει ταίριασμα του προτύπου με ένα τμήμα της συμβολοσειράς και σε ποιες θέσεις. Σχετικοί αλγόριθμοι είναι οι Knuth-Morris-Pratt και Boyer – Moore. Μια ενισχυμένη εκδοχή του προβλήματος είναι το ταίριασμα συμβολοσειράς με πολλαπλά πρότυπα όπου η λύση έχει δοθεί από τους Aho-Corasick. Αντικείμενο αυτής της εργασίας θα είναι η μελέτη των αλγορίθμων ταιριάσματος προτύπου που έχουν προταθεί. Προτείνεται και η υλοποίηση των αλγορίθμων και πειραματική μελέτη των αλγορίθμων . Υλικό: • Η δημοσίευση των A. Aho and M. Corasick. “Fast pattern matching: an aid to bibliographic search.” Communications of the ACM, 18:333-340, 1975. • Ηδημοσίευσητων Boyer R.S., Moore J.S., “A fast string searching algorithm.” Communications of the ACM. 20:762-772, 1977. • Ηδημοσίευσητων Knuth, D.E., Morris (Jr) J.H., Pratt, V.R., “Fast pattern matching in strings”, SIAM Journal on Computing 6(1):323-350, 1977.

Εργασίες 11.Αλγόριθμοι προσεγγιστικού ταιριάσματος συμβολοσειρών (approximate string matching) και εφαρμογές τους Κατά το προσεγγιστικό ταίριασμα συμβολοσειρών δίδεται ένα πρότυπο P μεγέθους m, ένα κείμενο Τ μεγέθους n και ένας αριθμός k. Το ζητούμενο είναι να βρεθούν όλες οι θέσεις στο κείμενο που εμφανίζεται το P με το πολύ k λάθη, δηλαδή αποτυχίες ταιριάσματος. Σκοπός αυτής της εργασίας είναι να παρουσιαστούν κάποιες από τις διαφορετικές αποδοτικές τεχνικές για προσεγγιστικό ταίριασμα . Υλικό: • To κεφάλαιο 13 από το βιβλίο “Algorithms and Theory of Computation Handbook” CRC Press 1999. • Η δημοσίευση των Landau και Vishkin “Fast String Matching with k Differences” Journal of Computer and System Sciences, 1988, pp.63-78. • H δημοσίευση των Landau και Vishkin “Fast Parallel and Approximate String Matching” Journal of Algorithms 10, 1989, pp.157-169.

Εργασίες 12. Τεχνικές Μοντελοποίησης και Διαχείρισης Πολυμεσικών Αντικειμένων Πληροφορίας. Στα συστήματα πολυμεσικής ανάκτησης πληροφορίας τα δεδομένα που αποθηκεύονται παρουσιάζουν μεγάλο βαθμό ετερογένειας και γι’ αυτό το λόγο τόσο η αποθήκευση όσο και η μοντελοποίηση των δεδομένων και η μοντελοποίηση του τρόπου υποβολής ερωτημάτων έχουν ιδιαίτερη σημασία. Αντικείμενο αυτής της εργασίας είναι η παρουσίαση κάποιων μοντέλων και τεχνικών για fuzzy searching και content based υποβολή ερωτημάτων σε πολυμεσικά συστήματα ανάκτησης πληροφορίας Υλικό: • Κεφάλαια 11,12 από το βιβλίο “Modern Information Retrieval”. • Κεφάλαιο 9 από το βιβλίο “Principles of Multimedia Database Systems” του V.S. Subrahmanian. • H δημοσίευση των S. Marcus και V.S. Subrahmanian, “Foundations of Multimedia Database Systems” Journal of the ACM 43(3):474-523, 1996

Εργασίες 13. Αλγόριθμοι και Τεχνικές για Text Mining και Text Categorization Τόσο η κατηγοριοποίηση κειμένων όσο και η εξόρυξη πληροφορίας από κείμενα είναι περιοχές μεγάλου ενδιαφέροντος στην Ανάκτηση Πληροφορίας. Και οι δύο τομείς αυτοί έχουν προσελκύσει ιδιαίτερο ενδιαφέρον τελευταία λόγω του μεγάλου όγκου των δεδομένων που είναι διαθέσιμα ηλεκτρονικά, σε συστήματα Ανάκτησης Πληροφορίας και στο Διαδίκτυο. Υλικό: • Ηδημοσίευσητου F. Sebastiani, “Machine learning in automated text categorization”, ACM Computing Surveys, 34:1, pp.1-47, 2002, διαθέσιμηστο:http://portal.acm.org/ft_gateway.cfm?id=505283&type=pdf&coll=GUIDE&dl=ACM&CFID=12688243&CFTOKEN=39196086 • Οιδημοσιεύσειςτης Kjersti Aas “Pattern Recognition in Text Documents”, June 2000, “Text categorization – A survey”, June 1999..

Εργασίες 14. Aλγόριθμοι Επεξεργασίας Συμβολοσειρών με Εφαρμογή στη Διαχείριση Ακολουθιών DNA. Είναι γνωστό ότι το DNA είναι μια αλυσίδα από τα νουκλεοτίδια {C,G,A,T}. Με αυτό τον τρόπο η ακολουθία του DNA μπορεί να αναπαρασταθεί ως μια συμβολοσειρά στο αλφάβητο των νουκλεοτιδίων. Πολλά από τα προβλήματα που ανακύπτουν στον χώρο της Βιολογίας αλλά και στην επεξεργασία του DNA, μπορούν να επιλυθούν με αλγορίθμους επεξεργασίας συμβολοσειρών που έχουν αναπτυχθεί ειδικά γι’ αυτό το σκοπό. Σκοπός της εργασίας αυτή είναι να εξετάσει μερικούς από αυτούς τους αλγορίθμους. Υλικό: • ΤαΚεφάλαια 10 και 17 απότοβιβλίο “Algorithms on Strings, Trees and Sequences”, Cambridge University Press, 1997. • Ηδημοσίευσητων Gerth Stølting Brodal, Rolf Fagerberg, and Christian N. S. Pedersen. “Computing the Quartet Distance Between Evolutionary Trees in Time O(nlogn)”, Algorithmica to appear, απότηνδιεύθυνσηhttp://www.brics.dk/~gerth/publications.html

Εργασίες 15. Aλγόριθμοι και Τεχνικές για Web Mining. Το Web Mining είναι μια επέκταση του κλασσικού Data Mining για την εξόρυξη πληροφορίας που αφορά τη δομή του παγκόσμιου ιστού και κατά κύριο λόγο, τις πλοηγητικές και αγοραστικές συνήθειες των επισκεπτών του. Για τον σκοπό αυτό, χρησιμοποιούνται μια πλειάδα από τεχνικές και ευρετικές μέθοδοι. Η εργασία αυτή θα παρουσιάζει επιλεγμένες τεχνικές για Web Mining. Υλικό: • Ηδημοσίευσητων M.-S. Chen, J.S. Park, P.S. Yu, “Efficient Data Mining for Path Traversal Patterns” , Knowledge and Data Engineering, 10:2, pp.209-221, 1998, διαθέσιμηαπόhttp://citeseer.nj.nec.com/8204.html • Ηδημοσίευσητων R. Srikant, Y. Yang, “Mining Web Logs to Improve Website Organization”, WWW10, 2002. • Ηδιδακτορικήδιατριβήτου R.W. Cooley, “Web Usage Mining: Discovery and Application of Interesting Patterns from Web Data”, University of Minnesota, 2000.

Εργασίες 16.Αλγόριθμοι και Τεχνικές Αποθήκευσης, Δεικτοδότησης για XML-κείμενα Η γλώσσα XML είναι το νέο επερχόμενο πρότυπο στην αποθήκευση πληροφορίας, όπου επιπλέον υπάρχει η δυνατότητα αποθήκευσης πληροφορίας σχετικά με τη δομή. Στα πλαίσια αυτής της εργασίας έχει ενδιαφέρον η μελέτη των εφαρμογών της γλώσσας XML στον χώρο της Ανάκτησης Πληροφορίας καθώς και των μεθόδων για αποθήκευση και δεικτοδότηση XML κειμένων. Υλικό: • To XML tutorial των Anders Møller & Michael I. Schwartzbach, απότηνδιεύθυνση: http://www.brics.dk/~amoeller/XML/index.html. • Ηδημοσίευσητων F. Rizzolo, A. Mendelzon “Indexing XML Data with ToXin”, 4th WebDB 2001, απότηδιεύθυνση: http://citeseer.nj.nec.com/rizzolo01indexing.html • H. Wang, S. Park, W. Fan, and P. S. Yu. “ViST: A dynamic index method for querying XML data by tree structures.” In SIGMOD, 2003, από τη διεύθυνση: http://citeseer.nj.nec.com/wang03vist.html

Εργασίες 17. Social networks και Ανάκτηση Πληροφορίας Στα κοινωνιολογικά Δίκτυα, παρατηρείται εμπειρικά το φαινόμενο της δυνατότητας επικοινωνίας δύο παντελώς αγνώστων ανθρώπων, μέσω μιας, μικρής σε μήκος, αλυσίδας από γνωριμίες. Αυτό το φαινόμενο επιδέχεται ερμηνείας από τη θεωρία γραφημάτων και οι συνέπειες από την εφαρμογή σχετικών μοντέλων, μπορούν να φανούν χρήσιμες σε εφαρμογές Ανάκτησης Πληροφορίας. Υλικό: • Δημοσίευσεις του J. Kleinberg, σχετικά με Small World Phenomena, http://www.cs.cornell.edu/home/kleinber/ • ΗδημοσίευσητωνR. Kumar, S. Rajagopalan, P. Raghavan and A. Tomkins “The web and social networks”, IEEE Computer, November 2002. • ΗδημοσίευσητωνM. Bawa, G.S. Manku and P. Raghavan, “SETS: Search Enhanced by Topic Segmentation”. Proceedings of ACM SIGIR 2003.

18. Πολυγλωσσική Ανάκτηση Πληροφορίας 19. Κατανεμημένη Ανάκτηση Πληροφορίας 20. Νέα Μοντέλα Ανάκτησης Πληροφορίας 21. Υλοποίηση αλγορίθμων stemming

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Presentation Transcript