1 / 11

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ « Επιςτημη και Τεχνολογια των Υπολογιςτων »

Αυτοματo Φιλτραριςμα Ανεπιθυμητης Ηλεκτρονικης Αλληλογραφιας με Χρηςη Μεθοδων Μηχανικης Ma θηςης. ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ « Επιςτημη και Τεχνολογια των Υπολογιςτων » ΑΝΥΦΑΝΤΗΣ ΔΙΟΝΥΣΙΟΣ A.M 478. ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ.

field
Download Presentation

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ « Επιςτημη και Τεχνολογια των Υπολογιςτων »

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΑυτοματoΦιλτραριςμαΑνεπιθυμητης Ηλεκτρονικης Αλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟΥ «Επιςτημη και Τεχνολογια των Υπολογιςτων» ΑΝΥΦΑΝΤΗΣ ΔΙΟΝΥΣΙΟΣ A.M 478 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ I. XATZΗΛYΓΕΡΟΥΔΗΣ

  2. Εισαγωγή • Αντικείμενο Εργασίας • Ορισμός Spam ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης

  3. Προσεγγίσεις Προβλήματος • Φιλτράρισμα με χρήση τεχνικών μηχανικής μάθησης • RIPPER • Φιλτράρισμα με βάση λίστες • SpamHaus ­http://www.spamhaus .org/, ORDB -http://www.ordb.org, mail-abuse -http://www.mail­abuse.org • Φιλτράρισμα με βάση υπογραφές • Vipul’sRazor (http://razor.sourceforge.net) • Τεχνικές ανίχνευσης ιών • Σύγκριση µέσω βάσης στατιστικών και τυχαίων υπογραφών που εντοπίζουν αποδοτικά διάφορα χαρακτηριστικά τµήµαταspam µηνυµάτων • Φιλτράρισμα με συνδυασμό τεχνικών • BrightMail (http://www.brightmail.com) • Διευθύνσεις «παγίδες» σε στρατηγικά σηµεία του διαδικτύου • Πράκτορας BrightMailενηµερώνει τη βάση του µε νέους κανόνες φιλτραρίσµατος, τη στιγµή της δηµιουργίας τους • Αποφυγή µαζικής αποστολής τους στους λογαριασµούς των χρηστών του εξυπηρετητή (Domain restriction) • SpamAssassin (http://spamassassin.taint.org) • Μηχανισµοί για την ανάλυση των επικεφαλίδων των µηνυµάτων • Μηχανισµοί για την ανάλυση του περιεχοµένου των µηνυµάτων, µε τη βοήθεια ευριστικών κανόνων και της χρήσης γενετικών αλγορίθµων µάθησης. • Μαύρες λίστες, που παρέχονται στο σύστηµα τόσο στατικά, υπό µορφή αρχείων, όσο και δυναµικά, µέσω της χρήσης on-line βάσεων δεδοµένων, όπως οι mail-abuse.org και η ordb.org. • Χρήση Disposable E-mail Addresses – DEA • Δεν επιδιώκει την αναγνώριση και κατά επέκταση το φιλτράρισµα των spam από το γραμματοκιβώτιο του χρήστη, αλλά αποσκοπεί στον έµµεσοπεριορισµό τους • Spamex (http://www.spamex.com) , Emailias (http://www.emailias.com),SneakeMail (http://www.sneakemail.com) ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 3

  4. Δυσκολία Προβλήματος • Ενσωμάτωση Εικόνων σε HTML tags • Xωρισμός Λέξεων με HTML tags • Εισαγωγή Κενών χαρακτήρων/ειδικοί χαρακτήρες • Τυχαίες ακολουθίες χαρακτήρων • Ενσωμάτωση javascript • Accented Χαρακτήρες-Αντικατάσταση Χαρακτήρων ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 4

  5. Μηχανική Μάθηση • Έναπρόγραµµα µαθαίνειαπότην εµπειρία Ε πουαποκτάκατάτηνεκτέλεσηενόςσυνόλουδιεργασιών ∆, εφόσον η απόδοσήτου Α βελτιώνεται µε τηναξιοποίησητηςεµπειρίας Ε. • Επιτελούµενη ∆ιεργασία ∆: Αναγνώριση των spam µηνυµάτων από το γραμματοκιβώτιο ενός χρήστη και διαχωρισµός τους από τα προσωπικά του µηνύµατα (θεµιτά - legitimate). • Μέτρο Απόδοσης Α: Το ποσοστό των µηνυµάτων που ταξινομούνταισωστά. • Εµπειρία Ε: Ένα σώµα µηνυµάτων που έχει ήδη ταξινομηθεί. • Κατηγοριοποίηση emails σε πραγµατικό χρόνο. • Κατηγοριοποίηση αρχείων σε ιεραρχίες φακέλων. • Αναγνώριση θεµάτων για την υποστήριξη διαδικασιών επεξεργασίας κειµένων συγκεκριµένης θεµατολογίας. • Εύρεση εγγράφων πουταιριάζουν µε τα ενδιαφέροντα συγκεκριµένων χρηστών. ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 5

  6. Αρχιτεκτονική Συστήματος Online Procedure Offline Procedure Combined Output ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 6

  7. Βάσεις Ηλ. Μηνυμάτων • Χαρακτηριστικά • Περιλαμβάνει 2893 ηλ. Μηνύματα • 2412 είναικανονικά ηλ. Μηνύματα • 481 είναι spam • Βάση ηλ. μηνυμάτων Ling-Spam • Βάση ηλ. μηνυμάτων ENRON • Βάση ηλ. μηνυμάτων SPAMASSASIN • Χαρακτηριστικά • Η αρχικήβάσηπεριλαμβάνει 619446 ηλ.μηνύματααπό 158 χρήστες. • Μετάτονκαθαρισμότηςβάσηςαπόδιπλότυπα ηλ. μηνύματα, μιαςκαιτα ηλ. μηνύματαυπήρχανσεπερισσότερουςαπό 1 χρήστες, ο αριθμόςπεριορίστηκεσε 200399 • Περίπου 757 μηνύματαανάχρήστηκατάμέσοόρο • 61.63% σε φακέλλους • 13%Spam • Χαρακτηριστικά • Ηλ. μηνύματα spam : 1001 ηλ. μηνύματα spam από διάφορες πηγές. • Ηλ. μηνύματα easy_ham : 5051legitimate ηλ. μηνύματα τα οποία χαρακτηρίζονται ως εύκολα κατηγοριοποιήσιμα στην κατηγορία legitimateμιάς και δεν περιέχουν χαρακτηριστικά spam μηνυμάτων. • Ηλ. μηνύματα hard_ham : 500 legitimate ηλ. μηνύματα τα οποία παρουσιάζουν χαρακτηριστικά παρόμοια με spam μηνύματα. • Ηλ. μηνύματα easy_ham_2 : 1400 legitimate ηλ. μηνύματα. • Ηλ. μηνύματα spam_2 : 1397 spam ηλ. μηνύματα. • Σύνολο μηνυμάτων 9349, η αναλογία των spam Μηνυμάτων κυμαίνεται στο 35%. ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 7

  8. Επιλογή Παραμέτρων (Mutual Information) Για κάθε ηλ. μήνυμα μετά τις προηγούμενες διαδικασίες αποθήκευση των Ν χαρακτηριστικών (λέξεων) : Για κάθε ηλ μήνυμα i δημιουργία χαρακτηριστικού Boolean διανύσματος V Υπολογισμός του ΜΙ για κάθε fm Εξαγωγή Παραμέτρων Εξόρυξη-Ανάκτηση Γνώσης Γνώση Εξ. Χαρακτηριστικών Ερμηνεία Προεπεξεργασία Επιλογή Προεπεξεργασία Βασίζεται στο γεγονός ότι ένα ηλ. μήνυμα παρουσιάζει συγκεκριμένη δομή (όπως επιβάλλεται με την χρήση των επικεφαλίδων). Αφαιρέθηκαν επίσης τα τμήματα από το κυρίως σώμα του ηλ. μήνυμα που παρέπεμπαν σε απάντηση προηγούμενου μηνύματος, πχ χρησιμοποίηση συμβόλων ‘>’, λέξεων ‘Sender wrote’,’- - - - - original message - - - -‘, κλπ. Έγινε επίσης αφαίρεση των επικεφαλίδων όπου ήταν ενσωματωμένες στα ηλ. μηνύματα, όπως Subject, Sender, To, From, Cc, Importance, κλπ. • Εξαγωγή Χαρακτηριστικών • Απομάκρυνση των Ριζών Προέλευσης • H συνηθέστερη προσέγγιση είναι η αφαίρεση επιθημάτων του τύπου –ED,-ING, -ION, -IONS, (Αλγόριθμος Porter) • Απομάκρυνση Λέξεων • ιs, a, of, the, an, and, or, while, at Δεδομένα ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMΑθηςης 8

  9. Πειράματα Spam Assasin Enron-Spam Ling-Spam MultiLayerPerceptron Παράμετροι για το WEKA : MultilayerPerceptron -L 0.3 -M 0.2 -N 300 -V 0 -S 0 -E 20 -H a Confusion Matrixes Μετρικές ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 9

  10. Συμπεράσματα - Επεκτάσεις Επεκτάσεις – Βελτιώσεις : • Βελτίωση του αλγόριθμου εξαγωγής παραμέτρων, με χρήση άλλων μετρικών για το χαρακτηριστικό διάνυσμα που χρησιμοποιήθηκε στους ταξινομητές. • Επέκταση της µεθόδου με χρήση Ενεργούς Μηχανικής Μάθησης με αλληλεπίδραση του χρήστη • Χρήση τεχνικών αναγνώρισης εικόνας προκειμένου για την αντιμετώπιση των ανεπιθύμητων ηλ. μηνυμάτων με επισυναπτόμενες εικόνες. • Η διαδικασία εξαγωγής παραμέτρων δεν θα πρέπει να περιορίζεται μόνο σε λέξεις φυσικής γλώσσας αλλά να διαχειρίζεται HTML επικεφαλίδες. • Χρήση ταξινομητών με λίστες ηλεκτρονικών διευθύνσεων, γνωστών spammers στην απλούστερή τους µορφή, ή ακόµα και DNS-based IP διευθύνσεων γνωστών συµµοριών spammers, δικτυακών υπηρεσιών µαζικής αποστολής µηνυµάτων (spam-for-hiresites), πρακτόρων µεταφοράςταχυδροµείου (MTAs) και αναµεταδοτών (mailrelays). Προυπόθεση η χρήση βέβαια και άλλων πεδίων του ηλ. μηνύματος εκτός του σώματος/θέματος ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης 10

  11. Τέλος Παρουσίασης ΑυτοματoΦιλτραριςμαΑνεπιθυμητηςΗλεκτρονικηςΑλληλογραφιας με ΧρηςηΜεθοδωνΜηχανικηςMaθηςης

More Related