1 / 34

Γλωσσικη τεχνολογια

Μάθημα 8 ο : Πεδία ενδιαφέροντος κ’ εφαρμογών ( 2 ). Γλωσσικη τεχνολογια. Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 6, 7 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010.

luther
Download Presentation

Γλωσσικη τεχνολογια

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Μάθημα 8ο: Πεδία ενδιαφέροντος κ’ εφαρμογών (2) Γλωσσικη τεχνολογια

  2. Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 6, 7 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. Ακαδημαϊκό Έτος: 2013-2014

  3. Ανάκτηση πληροφορίας (1) Εξαγωγή πληροφορίας (1) Αποσαφήνιση εννοιών λέξεων (Word Sense Disambiguation- WSD) Αυτόματη παραγωγή περιλήψεων (Summarization) Ακαδημαϊκό Έτος: 2013-2014 Πεδια εφαρμογων

  4. Ακαδημαϊκό Έτος: 2013-2014 Αποσαφήνιση εννοιών λέξεων Πεδια εφαρμογων

  5. Οι περισσότερες λέξεις στις φυσικές γλώσσες είναι πολύσημες: • Ποντίκι: τρωκτικό, εξάρτημα Η/Υ, μυς • Βιβλιοθήκη: έπιπλο, κτήριο • Η άρση της ασάφειας γίνεται στο πλαίσιο του περιβάλλοντος (context): • Απόδοση της σωστής σημασίας σε μια λέξη (target word) μέσα στο πλαίσιο που αποτελείται από τις περιβάλλουσες λέξεις Ακαδημαϊκό Έτος: 2013-2014 Ασαφεια εννοιασ λεξεων

  6. Εισαγωγή συντακτικών ή/και σημασιολογικών περιορισμών στο πώς συνδυάζονται οι λέξεις • Τρώω: το υποκείμενο πρέπει να είναι ζωντανός οργανισμός και το αντικείμενο κάτι φαγώσιμο • Κίτρινος: μπορεί να προσδιορίζει φυσικά αντικείμενα αλλά όχι αφηρημένες έννοιες • Οι κανόνες αυτοί καλούνται περιορισμοί επιλογής (selectional restrictions) Ακαδημαϊκό Έτος: 2013-2014 Παραδοσιακη προσεγγιση(1)

  7. Η απόδοση της παραδοσιακής προσέγγισης έχει δοκιμαστεί σε μικρά σώματα κειμένων • Ταυτόχρονα, είναι περιοριστική, αφού μας επιτρέπει μόνο να ελέγξουμε αν κάτι είναι επιτρεπτό • Και δεν μας βοηθά ιδιαίτερα να βρούμε το επιτρεπτό • Η διαθεσιμότητα μεγάλων ηλεκτρονικών λεξικών, όπως το Wordnet έδωσε μεγάλη ώθηση στην ανάπτυξη συστημάτων αποσαφήνισης εννοιών λέξεων Ακαδημαϊκό Έτος: 2013-2014 Παραδοσιακη προσεγγιση(2)

  8. Το λεξικό περιλαμβάνει το πλήρες σύνολο εννοιών για μια λέξη • Κάθε έννοια αποδίδεται σαν ένα σύνολο από συνώνυμες λέξεις (synsets) • Οι λέξεις είναι ιεραρχημένες σε υπερώνυμα – υπώνυμα • Διακριτές ιεραρχίες για ουσιαστικά, επίθετα, ρήματα, επιρρήματα • Υπάρχουν και άλλες σχέσεις • Π.χ. μερώνυμα Ακαδημαϊκό Έτος: 2013-2014 Wordnet

  9. Η ΑΕΛ μπορεί να θεωρηθεί πρόβλημα ταξινόμησης • Κατάταξη των εμφανίσεων κάθε λέξης σε κατηγορίες • Έννοιες της λέξης, από τις διαθέσιμες έννοιες ενός λεξικού • Ουσιαστικά, χρειαζόμαστε έναν ταξινομητή για κάθε λέξη • Το οποίο είναι εφικτό μόνο για μικρά σύνολα λέξεων • Χαρακτηριστικά που είναι χρήσιμα: • Ποιες λέξεις ή/και ποια μέρη του λόγου εμφανίζονται στα συμφραζόμενα (βάσει παραθύρου), ή/και σε συγκεκριμένες θέσεις στο περιβάλλον Ακαδημαϊκό Έτος: 2013-2014 ΑΕΛ μεσω μηχανικησ μαθησησ

  10. Βασίζεται στην σύγκριση «υπογραφών» για κάθε έννοια, με την πρόταση που εμφανίζεται μια λέξη • Σαν «υπογραφή» μιας έννοιας, θεωρείται το “gloss” της έννοιας (simplified Lesk) • Επίσης, μπορεί να θεωρηθεί το “gloss” μαζί με άλλες προτάσεις που εμφανίζεται η λέξη με την συγκεκριμένη έννοια (corpus Lesk) • Η σύγκριση γίνεται με μέτρα ομοιότητας • Όπως το edit distance (μεταξύ πρότασης και υπογραφής), ή το cosine similarity (των διανυσμάτων πρότασης και υπογραφής) Ακαδημαϊκό Έτος: 2013-2014 Η μεθοδοσ αελ του lesk

  11. Παριστάνουμε τα δύο κείμενα (π.χ. υπογραφή και πρόταση στη μέθοδο Lesk) ως δύο διανύσματα • Boolean διανύσματα • Δείχνουν ποιες λέξεις ενός λεξιλογίου εμφανίζονται ή όχι σε κάθε κείμενο • Διανύσματα συχνοτήτων (term frequency, TF) • Δείχνουν πόσες φορές εμφανίζεται κάθε λέξη του λεξιλογίου • Διανύσματα TF-IDF • Για κάθε λέξη W𝑖 του λεξιλογίου, το διάνυσμα περιέχει την τιμή (βάρος) TF𝑖⋅ IDF𝑖 • Θέλουμε οι συχνές στο κείμενο και σπάνιες στη γλώσσα λέξεις να έχουν μεγάλα βάρη • Το IDF𝑖δείχνει πόσο σπάνια είναι η W𝑖στη γλώσσα Ακαδημαϊκό Έτος: 2013-2014 Διανυσματικη παρασταση κειμενων

  12. Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων τα οποία βασίζονται σε θησαυρούς λέξεων • Π.χ. «αγοράζω» – «αποκτώ», «πτήση» – «αεροπλάνο» • Π.χ. εξετάζουν το μήκος του συντομότερου μονοπατιού που ενώνει δύο έννοιες στο Wordnet • Πολλές παραλλαγές • Επεκτείνονται και σε μέτρα που εξετάζουν την ομοιότητα λέξεων (αντί συγκεκριμένων εννοιών λέξεων), προτάσεων, κειμένων Ακαδημαϊκό Έτος: 2013-2014 Μετρα σημασιολογικησ ομοιοτητασ (1)

  13. Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων που χρησιμοποιούν συχνότητες συνεμφανίσεων • Λέξεις με παρόμοια σημασία τείνουν να εμφανίζονται με παρόμοια συμφραζόμενα (distributional hypothesis) • Μπορούμε να αναπαραστήσουμε κάθε λέξη με ένα διάνυσμα • Που δείχνει πόσο συχνά συνεμφανίζεται η συγκεκριμένη λέξη με κάθε άλλη λέξη ενός λεξιλογίου • Πρέπει να αποφασίσουμε τι ακριβώς μετρήσεις θα περιλαμβάνει το διάνυσμα κάθε λέξης w • Μέτρηση της ομοιότητας των διανυσμάτων Ακαδημαϊκό Έτος: 2013-2014 Μετρα σημασιολογικησ ομοιοτητασ (2)

  14. Συγκρίνει τους παρατηρηθέντες και αναμενόμενους αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες • Π.χ. “art” • Art, fine art • Art, artistic creation, artistic production • Art, artistry, prowess • Artwork, art, graphics, nontextual matter • Χρησιμοποιώντας τις σχέσεις του Wordnet, εμπλουτίζω κάθε synsetκαι με άλλες λέξεις • Μετρώ συχνότητες εμφάνισης στο περιβάλλον του “art” • Υπολογίζω τον χ-τετράγωνο έλεγχο, και επιλέγω την έννοια με την μικρότερη τιμή Ακαδημαϊκό Έτος: 2013-2014 Χ-τετρaγωνο eλεγχοσ

  15. Ακαδημαϊκό Έτος: 2013-2014 Αυτόματη εξαγωγή περίληψης Πεδια εφαρμογων

  16. Τι είναι η αυτόματη εξαγωγή περιλήψεων; Η διαδικασία της διήθησης της πιο σημαντικής πληροφορίας από ένα κείμενο, ώστε να δημιουργηθεί μια σύντομη εκδοχή, για μια συγκεκριμένη εργασία και χρήστη Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγη περιληψεων

  17. Δημιουργία «περιγράμματος» (outline) εγγράφων • Περίληψη/σύνοψη επιστημονικών άρθρων • Τίτλοι άρθρων εφημερίδων • Μικρά αποσπάσματα (snippets) ιστοσελίδων • Π.χ. στα αποτελέσματα μηχανών αναζήτησης • Αποφάσεις ενεργειών (action items) συναντήσεων, πρακτικά συναντήσεων • Περιλήψεις από αλληλουχίες e-mail • Εκτενέστερες απαντήσεις σε ερωτήσεις ορισμού ή τρόπου • Π.χ. «Ποιος ήταν ο Σωκράτης;», «Πώς ετοιμάζω το φαγητό Χ;» Ακαδημαϊκό Έτος: 2013-2014 Χρησιμη για πολλεσ εργασιεσ..

  18. Τρεις βασικές διαστάσεις: • Από ένα ή πολλά έγγραφα • Single-document summarization: εξαγωγή περίληψης από ένα μόνο έγγραφο • Multiple-document summarization: εξαγωγή περίληψης από πολλά έγγραφα, συμπτύσσοντας πληροφορία από πολλές πηγές • Π.χ. περίληψη γεγονότος από πολλά ειδησεογραφικά πρακτορεία Ακαδημαϊκό Έτος: 2013-2014 Κατηγοριεσ περιληψεων (1)

  19. Γενική ή εστιασμένη σε ερώτημα • Generic summary: εξαγωγή περίληψης χωρίς να ληφθεί υπ’ όψιν μια συγκεκριμένη πληροφοριακή ανάγκη, ή ένας χρήστης • Query-based summarization: η περίληψη εξάγεται σαν απάντηση σε κάποιο ερώτημα χρήστη • Συχνά θεωρείται σαν μια εκτενής/λεπτομερής απάντηση σε κάποιο ερώτημα • Συνώνυμα: focused-summarization, topic-based summarization, user-focused summarization Ακαδημαϊκό Έτος: 2013-2014 Κατηγοριεσ περιληψεων (2)

  20. Επιλογή αποσπασμάτων ή αναδιατύπωση Extract: παράγεται από συνδυασμό φράσεων/προτάσεων που έχουν επιλεγεί (εξαχθεί) από το κείμενο Abstract: χρησιμοποίηση διαφορετικών λέξεων/φράσεων για να περιγραφούν τα περιεχόμενα ενός εγγράφου Ακαδημαϊκό Έτος: 2013-2014 Κατηγοριεσ περιληψεων (3)

  21. Ακαδημαϊκό Έτος: 2013-2014 Αναδιατυπωση ή επιλογη αποσπασματων;

  22. Τα συστήματα αυτόματης παραγωγής περιλήψεων είναι και συστήματα παραγωγής φυσικής γλώσσας • Κυριότερα στάδια: • Επιλογή περιεχομένου (content selection) • Επιλογή της πληροφορίας για την περίληψη • Συνήθως επιλογή φράσεων/προτάσεων • Σχεδιασμός κειμένου (information ordering) • Ταξινόμηση και διάταξη των επιλεγμένων μονάδων • Επιφανειακή πραγμάτωση (sentence realization) • Εργασίες όπως συνένωση μονάδων, επισκευή αναφορικών εκφράσεων, κλπ. Ακαδημαϊκό Έτος: 2013-2014 Αυτoματη παραγωγh περιλhψεων (1)

  23. Όταν παράγεται περίληψη από ένα έγγραφο, πολλά συστήματα: • Απλά επιλέγουν προτάσεις • Ενδεχομένως τις συντομεύουν • Τις εμφανίζουν με τη σειρά που είχαν στο έγγραφο • Συχνά, το πρόβλημα διατυπώνεται σαν πρόβλημα επιλογής προτάσεων • Στο οποίο μπορεί να εφαρμοστεί μηχανική μάθηση Ακαδημαϊκό Έτος: 2013-2014 Αυτoματη παραγωγh περιλhψεων (2)

  24. Επιλογή περιεχομένου • Επιλογή φράσεων/προτάσεων από το κείμενο • Σχεδιασμός κειμένου • Επιλογή σειράς εμφάνισης των επιλεγμένων προτάσεων στην περίληψη • Επιφανειακή πραγμάτωση • Καθαρισμός προτάσεων • Π.χ. αφαίρεση μη απαραίτητων τμημάτων • Συνένωση προτάσεων σε μια πρόταση • Βελτίωση συνεκτικότητας (coherence) Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγh απoeνα eγγραφο (1)

  25. Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγh απoeνα eγγραφο (2)

  26. Μέσω μηχανικής μάθησης • Πρόβλημα ταξινόμησης προτάσεων/φράσεων σε δύο κατηγορίες • Σημαντική ή όχι, άξια/ανάξια επιλογής • Επιβλεπόμενη ή μη-επιβλεπόμενη μηχανική μάθηση • Παραδείγματα χαρακτηριστικών • TF-IDF • Log-likelihood ratio (LLR) • Σκοπός η αξιοποίηση σημαντικών (salient) ή πληροφοριακών (informative) λέξεων Ακαδημαϊκό Έτος: 2013-2014 Επιλογh περιεχομeνου απoeνα eγγραφο (1)

  27. Μη-επιβλεπόμενη μέθοδος Luhn, 1958 • Η μέθοδος υπολογίζει το βάρος κάθε πρότασης • Επιλέγει ν προτάσεις με το καλύτερο βάρος • Η μέθοδος ανήκει στην κατηγορία των centroid-based summarization αλγορίθμων • Αν θεωρήσουμε τους όρους «υπογραφής» σαν ψευδο-πρόταση, που αποτελεί το κεντροειδές (centroid) • Επιλέγουμε τις προτάσεις που βρίσκονται πιο κοντά στο «κέντρο» Ακαδημαϊκό Έτος: 2013-2014 Επιλογh περιεχομeνου απoeνα eγγραφο (2)

  28. Κεντρικότητα (centrality) • Πολλές οι μέθοδοι που βασίζονται σε αποστάσεις από ένα κεντροειδές • Αντί να χρησιμοποιηθούν σημαντικές λέξεις, μπορεί απλά να μετρηθεί το πόσο μοιάζουν οι προτάσεις μεταξύ τους • Και να επιλεγούν προτάσεις που μοιάζουν μεταξύ τους (clustering) • Vector-space model Ακαδημαϊκό Έτος: 2013-2014 Επιλογh περιεχομeνου απoeνα eγγραφο (3)

  29. Επιλογή περιεχομένου μέσω επιβλεπόμενης μηχανικής μάθησης • Δεδομένα εκπαίδευσης: • Κείμενα και προτάσεις που επέλεξαν άνθρωποι, ή • Προτάσεις περιλήψεων που έγραψαν άνθρωποι • ευθυγραμμισμένες με τις αρχικές (αναδιατύπωση) • Η ευθυγράμμιση μεταξύ περίληψης και αρχικού κειμένου είναι σημαντική Ακαδημαϊκό Έτος: 2013-2014 Επιβλεπoμενη μηχανικh μaθηση

  30. Απλούστευση/συμπίεση προτάσεων (sentence simplification/compression) • Χρήση κανόνων για την επιλογή φράσεων που θα κρατηθούν ή θα απορριφθούν Ακαδημαϊκό Έτος: 2013-2014 Επιφανειακh πραγμaτωση

  31. Πρέπει να επιλεγούν προτάσεις που είναι σημαντικές • Αλλά δεν λένε το ίδιο πράγμα • Ομαδοποιούμε τις προτάσεις που λένε το ίδιο πράγμα, και επιλέγουμε μόνο μία • Επιλέγουμε προτάσεις σαν να είχαμε ένα έγγραφο, και απορρίπτουμε αυτές που μοιάζουν μεταξύ τους Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγh απo πολλaeγγραφα

  32. Το ερώτημα επηρεάζει την επιλογή των εγγράφων • Αν χρησιμοποιείται σύστημα ανάκτησης πληροφοριών • Η επιλογή μπορεί να γίνει μέσω ομοιότητας προτάσεων με το ερώτημα • Το ερώτημα μπορεί να καταταχθεί σε κατηγορίες • Και να δημιουργούνται απαντήσεις με βάση σχεδιότυπα (templates) απαντήσεων • Π.χ. για το ερώτημα «Ποιος ήταν ο Σωκράτης;», το σύστημα εντοπίζει πληροφορίες για γέννηση, θάνατο, επιτεύγματα κλπ., και τις διατάσει με προκαθορισμένο τρόπο • Μέσω μηχανικής μάθησης να εξαχθεί διαφορετικό μοντέλο επιλογής και διάταξης ανά κατηγορία ερώτησης Ακαδημαϊκό Έτος: 2013-2014 Περιληψεισ εστιασμενεσ σε ερωτηματα

  33. Ανοιχτό ερευνητικό ζήτημα • Η πιο αξιόπιστη αξιολόγηση γίνεται μέσω ανθρώπων-κριτών • Οι οποίοι εξετάζουν αν διατηρούνται οι σημαντικότερες πληροφορίες, την ποιότητα της περίληψης, αν είναι κατανοητή, κλπ. • Δεν είναι πρακτικός τρόπος αξιολόγησης • Δεν είναι εύκολο να επαναλαμβάνεται ή διαδικασία κάθε φορά που ελέγχεται μια παραλλαγή του συστήματος Ακαδημαϊκό Έτος: 2013-2014 Αξιολογηση

  34. Το πρόβλημα: • Με δεδομένο ένα σύνολο από περιλήψεις αναφοράς, καθόρισε την ποιότητα μιας αυτόματα παραχθείσας περίληψης • Η λύση • Αναπαράσταση όλων των περιλήψεων σαν γράφους ν-γραμμάτων • Εξαγωγή της ομοιότητας των γράφων μεταξύ της αυτόματης περίληψης, και των περιλήψεων αναφοράς • Υπολογισμός του μέσου όρου ομοιότητας • Εναλλακτικά: δημιουργία ενός γράφου για όλες τις περιλήψεις αναφοράς • Σύγκριση μόνο δύο γράφων Ακαδημαϊκό Έτος: 2013-2014 Αξιολογηση περιληψεων

More Related