1 / 36

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης. Ειρήνη Καλδέλη Διπλωματική Εργασία. Αντικείμενο. Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης Στόχοι Βελτίωση της αποτελεσματικότητας της ταξινόμησης

dolph
Download Presentation

Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εκμάθηση ταξινομητών κειμένου για το χαρακτηρισμό άποψης Ειρήνη Καλδέλη Διπλωματική Εργασία

  2. Αντικείμενο • Κατάταξη κειμένου με βάση την άποψη που αυτό εκφράζει πάνω σε ένα θέμα με χρήση τεχνικών Μηχανικής Μάθησης • Στόχοι • Βελτίωση της αποτελεσματικότητας της ταξινόμησης • Διερεύνηση των παραμέτρων του προβλήματος

  3. Περιεχόμενα • Περιγραφή του προβλήματος • Αλγόριθμος SVM • Μεθοδολογίες • Πειραματική Αξιολόγηση • Συμπεράσματα

  4. Κατηγοριοποίηση κειμένου Παγκόσμιος ιστός  μεγάλος όγκος πληροφορίας, προσβάσιμης σε μεγάλο αριθμό χρηστών  έλλειψη δομής, δυσκολία εντοπισμού της κατάλληλης πληροφορίας Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες

  5. Κατηγοριοποίηση Κειμένου με βάση την άποψη (sentiment classification) Στόχοι ο προσδιορισμός: • της υποκειμενικότητας (αντικειμενικό/υποκειμενικό) • του προσανατολισμού άποψης (θετικό/αρνητικό) • της έντασης του προσανατολισμού (πολύ, αρκετά, λίγο θετικό/αρνητικό)

  6. Εφαρμογές της Κατηγοριοποίησης Κειμένου με βάση την άποψη • Αυτόματη αναγνώριση της άποψης που εκφράζεται στο διαδίκτυο για κάποιο προϊόν, πολιτικό γεγονός κ.ά. • Οργάνωση κειμένων (π.χ. κριτικών ταινιών) σε θετικά και αρνητικά

  7. Περιγραφή του προβλήματος • Κατηγοριοποίηση με βάση τη συνολική άποψη που απηχεί ένα κείμενο • Θεωρούμε δύο κατηγορίες (θετική-αρνητική)

  8. Ιδιαιτερότητες του προβλήματος • Περίπλοκοι εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές) • Δεν μπορούμε να βασιστούμε σε λέξεις-κλειδιά • Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα • Π.χ. “unpredictable plot” vs. “unpredictable function” • Αντιθετικό σχήμα: Π.χ. • “This film should be brilliant. It sounds like a great plot, the actors are first grade, and the supporting cast is good as well. […] However, it can't hold up.” • “[…] Still, despite these flaws, I’d go withthis laptop”

  9. Προσεγγίσεις • Με γλωσσολογική ανάλυση • Εντοπισμός συγκεκριμένων γλωσσικών δομών με βάση κανόνες και πρότυπα • Υπολογισμός στατιστικών • Με Μηχανική Μάθηση • Αυτόματος συμπερασμός των χρήσιμων χαρακτηριστικών του κειμένου

  10. SVM (Support Vectors Machines) Αλγόριθμος ταξινόμησης (classification) • διανυσματικήαναπαράστασητου χώρου του προβλήματος • επιλογή των διανυσμάτων υποστήριξης, πουσυνορεύουν με στιγμιότυπα άλλων κλάσεων Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός

  11. Δυαδική αναπαράστασησακιδίου λέξεων Σύνολο χαρακτηριστικών Διανυσματική αναπαράσταση κειμένου: όπου αν το εμφανίζεται στο κείμενο, αλλιώς • Είδη χαρακτηριστικών • Λεκτικές μονάδες (unigrams) • Θέματα λέξεων (stems) • Μείωση διαστασιμότητας

  12. Αναπαράσταση με συχνότητες και TFIDF • Αναπαράσταση κειμένου ως όπου ο αριθμός εμφανίσεων του στο κείμενο Αριθμός κειμένων αριθμός εμφανίσεων του fiστο κείμενο t αριθμός κειμένων στα οποία εμφανίζεται η wi

  13. Όροι άρνησης • Λέξεις όπως “not”, “don’t”, “hasn’t” κ.τ.λ. οι οποίες αντιστρέφουν τον προσανατολισμό άλλων λέξεων Π.χ. “This movie is not good” • Δύσκολο να προσδιοριστεί η εμβέλειά τους

  14. Όροι άρνησης Εμβέλεια άρνησης: Προσθήκη του _NOT • μόνο στην επόμενη λέξη  “it doesn’t entertain”  “this is not a horroror teen slasher flick” • σε όλα τις λέξειςμέχρι το πρώτο σημείο στίξης που ακολουθεί  “won’t appreciate the delicacy of the emotional scenes” • στο πρώτο επίθετο ή ουσιαστικό που ακολουθεί “none of them are remotely interesting”  “isn't nearly as dull as this”

  15. Χρήση λεξικού υποκειμενικότητας • Λεξικά με λήμματα που έχουν έντονη αρνητική ή θετική χροιά • Παρέχουν εκ των προτέρων γνώση για τον προσανατολισμό κάποιων λέξεων • Π.χ. Also, the ending, while having you fooled for a moment, is rather contrived, and somewhat disappointing. Still, I found the cable guy to be a worthwhile venture. Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό

  16. Διάκριση υποκειμενικών και αντικειμενικών προτάσεων • Ένα κείμενο περιλαμβάνει εκτός από υποκειμενική και αντικειμενική-περιγραφική πληροφορία • Οι αντικειμενικές προτάσεις μπορεί να αποπροσανατολίσουν τον ταξινομητή Ταξινομητής υποκειμενικότητας για την απομάκρυνση των αντικειμενικών προτάσεων

  17. Διάκριση υποκειμενικών και αντικειμενικών προτάσεων

  18. Διγράμματα του Turney • Οι μεμονωμένες λέξεις δεν αρκούν • Συχνά ο προσανατολισμός εξαρτάται από τα συμφραζόμενα • Δυάδες λέξεων συγκεκριμένης μορφής, που περιλαμβάνουν επίθετο ή επίρρημα • Π.χ. “really surprises”, “genuine tenderness” • Αναμένεται ότι δηλώνουν πληρέστερα το θετικό ή αρνητικό προσανατολισμό • Ένταξή τους στο σακίδιο λέξεων

  19. Τιμές SO_PMI • Λέξεις με παρόμοιο προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη • Τιμή συσχέτισης όπου η πιθανότητα οι και να συνεμφανίζονται

  20. Τιμές SO_PMI • Συσχέτιση μιας λέξηςή φράσης με ένα σύνολο θετικών και ένα σύνολο αρνητικών λέξεων • Εκτίμηση της τιμής PMI • Υποβολή ερωτήσεων σε μια μηχανή αναζήτησης με χρήση τελεστών όπως οι AND και ΝEAR • Προσανατολισμός

  21. Τιμές SO_PMI • Προσανατολισμός SO_PMI • Π.χ.Με χρήση του τελεστή AND του google • SO_PMI(“clever”) = +1.73 • SO_PMI(“so clever”) = -0.75 • SO_PMI(“good intentions”) = -5.26 • SO_PMI(“independent film”) = +0.39

  22. Μοντέλο μεταταξινομητή • Συνδυασμός ταξινομητών που βασίζονται σε ετερογενείς πληροφορίες

  23. Μοντέλο μεταταξινομητή • Συνδυασμός ταξινομητή σακιδίου λέξεων • με ταξινομητή που βασίζεται στο ποσοστό θετικών-αρνητικών λέξεων με βάση το λεξικό υποκειμενικότητας • με ταξινομητή που βασίζεται στο μέσο όρο των SO_PMI τιμών των διγραμμάτων του Turney που περιλαμβάνονται σε κάθε κείμενο • Συνδυασμός και των τριών ταξινομητών

  24. Πειραματική αξιολόγηση – Σώματα κειμένων • Βάση με κριτικές ταινιών • Μεγάλης έκτασης, καλά δομημένα κείμενα • Βάση με έγγραφα που συλλέχτηκαν από φόρα και blog και αναφέρονται σε αλυσίδα καταστημάτων • Μικρής έκτασης, άναρχα δομημένα • Αφαιρέθηκαν οι ετικέτες html • Απομονώθηκαν οι προτάσεις που αναφέρονται στην εταιρεία • Βάση θετικών και αρνητικών προτάσεων

  25. Πειραματική αξιολόγηση • Μέτρο αποτελεσματικότητας ταξινόμησης: ορθότητα (accuracy) • Δοκιμή 3-πλής σταυρωτής επικύρωσης: κάθε στιγμιότυπο χρησιμοποιείται μία φορά ως μέλος του συνόλου δοκιμής και 2φορές ως μέλος του συνόλου εκπαίδευσης

  26. Πειραματική αξιολόγηση – Κριτικές ταινιών Σακίδιο λέξεων • Καλύτερα αποτελέσματα η δυαδική αναπαράσταση με χρήση λεκτικών μονάδων Ορθότητα 84.1% • Η μείωση διαστασιμότητας δε βελτιώνει τα αποτελέσματα • Συνυπολογισμός των όρων άρνησης Ορθότητα 84.9% • Συμπερίληψη των διγραμμάτων του Turney Ορθότητα 82.4%   

  27. Πειραματική αξιολόγηση – Κριτικές ταινιών • Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό υποκειμενικότητας Μείωση ορθότητας (83.1%) • Πολλές λέξεις χωρίς προφανή προσανατολισμό, όπως “else”, “because”, “then”, συμβάλλουν καθοριστικά στη διαμόρφωση του συνολικού προσανατολισμού των κειμένων 

  28. Πειραματική αξιολόγηση – Κριτικές ταινιών • Φίλτρο αντικειμενικών προτάσεων

  29. Πειραματική αξιολόγηση – Κριτικές ταινιών Μεταταξινομητής: Συνδυασμός ταξινομητών • με σακίδιο λέξεων – με τιμές SO_PMI Ορθότητα 86.25% • με σακίδιο λέξεων – με χρήση λεξικών υποκειμενικότητας Ορθότητα 85.3% • και των τριών Ορθότητα 86.35%   

  30. Πειραματική αξιολόγηση – Κριτικές ταινιών Συμβολή της επιπλέον πληροφορίας από τα λεξικά ή το διαδίκτυο: • Απ’ ευθείας ένταξή της στο σακίδιο λέξεων Μείωση της αποτελεσματικότητας • Αξιοποίησή της σε ξεχωριστό ταξινομητή και συνδυασμός με το σακίδιο λέξεων μέσω του μεταταξινομητή Βελτίωση της αποτελεσματικότητας

  31. Πειραματική αξιολόγηση – Έγγραφα που αναφέρονται στην αλυσίδα καταστημάτων • Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση και μείωση διαστασιμότητας Ορθότητα 64.3% • Χαμηλές τιμές ορθότητας λόγω • Μεγάλης διασποράς των λεκτικών μονάδων • Μικρού διαθέσιμου σώματος εκπαίδευσης • Άναρχης δομής 

  32. Πειραματική αξιολόγηση - Προτάσεις • Καλύτερα αποτελέσματα το σακίδιο λέξεων με δυαδική αναπαράσταση, χωρίς μείωση διαστασιμότητας Ορθότητα 74.4% • Παρά το μεγάλο διαθέσιμο σώμα εκπαίδευσης, τα χαρακτηριστικά είναι διεσπαρμένα και δεν επαρκούν για να «μάθει» ο ταξινομητής 

  33. Συμπεράσματα  Απλό σακίδιο λέξεων με δυαδική αναπαράσταση • αρκετά καλά αποτελέσματα (84.1%)  Φίλτρο αντικειμενικών προτάσεων: • μικρή βελτίωση της ορθότητας (85.45%) • σημαντικός περιορισμός του όγκου των κειμένων

  34. Συμπεράσματα • Απόδοση μεγαλύτερου βάρους στις λέξεις που περιλαμβάνονται στο λεξικό  Μεταταξινομητές • βελτίωση της ορθότητας (86.25%) • ευελιξία για το συνδυασμό διαφορετικών ταξινομητών και την αξιοποίηση εξωγενούς πληροφορίας

  35. Συμπεράσματα • Κριτικές ταινιών • Ικανοποιητικά αποτελέσματα • Αλλά κατώτερα της θεματικής κατηγοριοποίησης κειμένων • Μικρής έκτασης αποσπάσματα • Χαμηλές τιμές ορθότητας

  36. Μελλοντικές κατευθύνσεις • Απαραίτητη η γλωσσολογική ανάλυση των κειμένων • Συνδυασμός ταξινομητών που βασίζονται σε κανόνες με ταξινομητές Μηχανικής Μάθησης • Αξιοποίηση του μοντέλου του μεταταξινομητή • Προσδιορισμός άποψης για πιο εντοπισμένα θέματα

More Related