1 / 110

Δομή Παρουσίασης

Σ ύ στ η μα Αυτόματης Επεξεργασίας Εγράφου και Αναγνώρισης Χειρόγραφων Χαρακτήρων, Ανεξάρτητο Συγγραφέα. Δομή Παρουσίασης. Το πρόβλημα Οπτική ς Αναγνώριση ς Χαρακτήρων (OCR) Στόχοι Παρουσίαση Συστήματος – Ανάλυση Modules Πειραματικά Δεδομένα Πειραματικά Αποτελέσματα

mairi
Download Presentation

Δομή Παρουσίασης

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Σύστημα Αυτόματης Επεξεργασίας Εγράφου και Αναγνώρισης Χειρόγραφων Χαρακτήρων, Ανεξάρτητο Συγγραφέα

  2. Δομή Παρουσίασης • Το πρόβλημα Οπτικής Αναγνώρισης Χαρακτήρων (OCR) • Στόχοι • Παρουσίαση Συστήματος – Ανάλυση Modules • Πειραματικά Δεδομένα • Πειραματικά Αποτελέσματα • Συμπεράσματα - Προοπτικές

  3. Η μετατροπή εικόνων κειμένων ή λέξεων, τυπωμένων ή χειρόγραφων (ICR), σε ηλεκτρονικό κείμενο. Οπτική Αναγνώριση Χαρακτήρων (OCR) Ορισμός

  4. Ιστορική Αναδρομή • Οπτική Αναγνώριση Χαρακτήρων (OCR) • 19ος αιώνας:πατέντες αναγνώρισης χαρακτήρων για τηλέγραφο. • 1916: εμπορικά πακέτα για τηλέγραφο. • 1950: εμπορικά πακέτα αναγνώρισης τυπωμένων ψηφίων. • 1960: ανάλυση εικόνων εγγράφων (DIA).

  5. Ιστορική Αναδρομή (συν.) • Οπτική Αναγνώριση Χαρακτήρων (OCR) • 1965: εγκατάσταση αναγνωστών για τυπωμένες ταχ.διευθύνσεις. • 1971: πρώτο περιοδικό στο OCR (Pattern Recognition). • 1980:Συσκευές ανάγνωσης τυπωμένων και μεμονωμένων χειρόγραφων χαρακτήρων.

  6. Συστημάτα Επεξεργασίας Γραφής • Οπτική Αναγνώριση Χαρακτήρων (OCR) • Αναγνώρισης Γραφής • Κατανόησης Γραφής • Προσδιορισμού Συγγραφέα • Αναγνώρισης Υπογραφής

  7. Συστήματα Αναγνώρισης Γραφής • Οπτική Αναγνώριση Χαρακτήρων (OCR) Ως προς τον τρόπο εισόδου δεδομένων: • On-line • Off-line Ως προς το είδος των δεδομένων: • μεμονωμένων χαρακτήρων • συνεχόμενης γραφής • γραφής χωρίς περιορισμούς

  8. Στόχοι Δημιουργία οff-line συστήματος οπτικής αναγνώρισης γραφής χωρίς περιορισμούς. • Ανεξάρτητο συγγραφέα. • Με κατάτμηση σε χαρακτήρες. • Υψηλής ακρίβειας.

  9. Στόχοι • Γρήγορης ανταπόκρισης. • Εύκολα εκπαιδεύσιμο. • Εύκολα προσαρμόσιμο σε συγκεκριμένη γλώσσα. • Εύκολα προσαρμόσιμο σε συγκεκριμένο συγγραφέα.

  10. Διάκριση χειρόγραφου και τυπωμένου κειμένου Διόρθωση Γωνίας Εκτροπής με Εφαρμογή Wigner-Ville Κατανομής. Διόρθωση Κλίσης Χαρακτήρων με Εφαρμογή Wigner-Ville Κατανομής. Επεξεργασία Εγγράφου Αναγνώριση βασισμένη σε νέα Μορφολογικά Χαρακτηριστικά. Κατάτμηση σε Χαρακτήρες με Αυτόματη Εξαγωγή Κανόνων. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσειςχαρακτήρων ΚανόνεςΚατάτμησης

  11. Διόρθωση Γωνίας Εκτροπής Εγγράφου • Παρουσίαση Συστήματος – Ανάλυση Modules Γωνία εκτροπής -42.1°

  12. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Τεχνικές • Συνήθεις τεχνικές σε χρήση (O’Gorman, 1993): • Ιστογράμματα • Πλησιέστεροι Γείτονες • Μετασχηματισμός Hough

  13. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Μειονεκτήματα • Συνήθη μειονεκτήματα που αντιμετωπίζουμε: • Μεγάλο υπολογιστικό κόστος • Χειρόγραφα έγγραφα • Παρουσία πλαισίων, γραφικών, φωτογραφιών κ.α. • Μεγάλες γωνίες κλίσης (89o)

  14. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου • Χρήση οριζοντίου ιστογράμματος και κατανομήςWigner-Ville. • Χρήση μέρους της σελίδας για μείωση υπολογιστικού κόστους. • Ανίχνευση σε βήματα για μείωση υπολογιστικού κόστους.

  15. Έγγραφο Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Έγγραφο Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Step=10 Step=1 Διορθωμένο έγγραφο Εντοπισμός Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle Διορθωμένο έγγραφο Εντοπισμός Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle • Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Διαδικασία Step=0.1

  16. Έγγραφο Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Έγγραφο Εντοπισμός Παραθύρου προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Step=10 Step=1 Διορθωμένο έγγραφο Εντοπισμός Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle Διορθωμένο έγγραφο Εντοπισμός Γωνίας Angle που μεγιστοποιεί την ένταση Διόρθωση εγγράφου ως προς Angle • Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Γωνίας Εκτροπής Εγγράφου - Διαδικασία Step=0.1

  17. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης σε Χειρόγραφη Σελίδα

  18. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης σε Χειρόγραφη Σελίδα

  19. Απόδοση Αλγορίθμου Διόρθωσης Γωνίας Εκτροπής • Παρουσίαση Συστήματος – Ανάλυση Modules • CPU χρόνος 4.1-4.6 sec σε Pentium III 350Mhz. • Απόδοση ανεξάρτητη ανάλυσης (resolution), παρουσίας πινάκων, γραφικών, είδος και οργάνωσης κειμένου. • Ακρίβεια πάνω από 100%για ανοχή 0.3ο

  20. Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός χειρόγραφου κειμένου Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης

  21. Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου

  22. Παρουσίαση Συστήματος – Ανάλυση Modules Εντοπισμός Χειρόγραφου Κειμένου – Διαδικασία Εντοπισμός συστατικών κάθε περιοχής (λέξεις, γράμματα) Ξεκαθάρισμα περιοχών (θόρυβος, γραμμές) Κατάτμηση εγγράφου σε περιοχές (CC) Εισαγωγή εγγράφου Κατάταξη περιοχών (βάσει συστατικών) σε χειρόγραφες ή μη Χειρόγραφο

  23. Απόδοση Αλγορίθμου Εντοπισμού Χειρόγραφου Κειμένου • Παρουσίαση Συστήματος – Ανάλυση Modules • Ακρίβεια 96% επί των εντοπισμένων περιοχών. • CPU χρόνος 15 sec / παράθυρο 600x600pixels. • Το υπόλοιπο 4% είναι συνήθως μικρές περιοχές με ανεπαρκή πληροφορία.

  24. Εντοπισμός Χειρόγραφου Κειμένου – Παράδειγμα • Παρουσίαση Συστήματος – Ανάλυση Modules

  25. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Γραμμές Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης

  26. Κατάτμηση σε Γραμμές • Παρουσίαση Συστήματος – Ανάλυση Modules

  27. Κατάτμηση σε Γραμμές - Διαδικασία • Παρουσίαση Συστήματος – Ανάλυση Modules • Τροποποίηση της μεθόδου των Shridar and Kasturi. • Χρήση οριζοντίου Ιστογράμματος. χειρόγρ. Εντοπισμός ορίων γραμμών στο Ιστόγραμμα Χάραξη μονοπατιού λευκών pixels από αριστερά προς δεξιά Κόψιμο και αποθήκευση γραμμών γραμμές

  28. Απόδοση Αλγορίθμου Τεμαχισμού σε Γραμμές • Παρουσίαση Συστήματος – Ανάλυση Modules • άριστη αντιμετώπιση περιπτώσεων καλά διαχωρισμένων γραμών. • εισαγωγή θορύβου στην αντίθετη περίπτωση.

  29. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης

  30. Διόρθωση Κλίσης Χαρακτήρων • Παρουσίαση Συστήματος – Ανάλυση Modules

  31. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων

  32. Διόρθωση Κλίσης Χαρακτήρων - Τεχνικές • Παρουσίαση Συστήματος – Ανάλυση Modules • Συνήθεις τεχνικές σε χρήση: • Μέση κλίση κάθετων ή σχεδόν κάθετων γραμμών. • Μεταβολή περιγραμμάτων χαρακτήρων.

  33. Διόρθωση Κλίσης Χαρακτήρων - Μειονεκτήματα • Παρουσίαση Συστήματος – Ανάλυση Modules • Συνήθη μειονεκτήματα που αντιμετωπίζουμε: • Μεγάλο υπολογιστικό κόστος • Εξάρτηση από χαρακτήρες.

  34. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Χαρακτηριστικά • Χρήση κάθετου ιστογράμματος γραμμής και κατανομήςWigner-Ville. • Χρήση τμημάτων λέξεων κατά την ανίχνευση για μείωση υπολογιστικού κόστους. • Ανίχνευση σε βήματα για μείωση υπολογιστικού κόστους.

  35. Παρατηρήσεις • Τα περισσότερα γράμματα έχουν περίπου ίσο πλάτος με ύψος, wchc: Εξαιρέσεις: • Γράμματα με ουρές προς τα πάνω (ascenders) ή κάτω (descenders): Iσχύει η παρατήρηση 1 αν αφαιρέσουμε τις ουρές. • Οι χαρακτήρες ι,i,j,l,t , όπου προσεγγιστικά wchc/2. • Οι χαρακτήρες ω,w,m, όπου προσεγγιστικά wc3hc/2.

  36. Παρατηρήσεις • Εντός των λέξεων είναι απίθανο να υπάρχει κενό πλάτους μεγαλύτερο του wc. • Οι χειρόγραφες λέξεις απέχουν μεταξύ τους διάστημα πλάτους ενός τουλάχιστον χαρακτήρα wc.

  37. Γραμμές Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Γραμμές Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Step=10 Step=1 Διορθωμένεςγραμμές Εντοπισμός κλίσηςAngle που μεγιστοποιεί την ένταση Διόρθωση κλίσης ως προς Angle Διορθωμένεςγραμμές Εντοπισμός κλίσηςAngle που μεγιστοποιεί την ένταση Διόρθωση κλίση ως προς Angle • Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Διαδικασία

  38. Γραμμές Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Γραμμές Εντοπισμός Ν τμημάτων προς χρήση Υπολογισμός Ιστογραμματων ανά Step Υπολογισμός αντίστοιχων κατανομών WV Step=10 Step=1 Διορθωμένεςγραμμές Εντοπισμός κλίσηςAngle που μεγιστοποιεί την ένταση Διόρθωση κλίσης ως προς Angle Διορθωμένεςγραμμές Εντοπισμός κλίσηςAngle που μεγιστοποιεί την ένταση Διόρθωση κλίση ως προς Angle • Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση Κλίσης Χαρακτήρων - Διαδικασία

  39. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Κατάτμηση σε λέξεις Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης

  40. Κατάτμηση σε Λέξεις • Παρουσίαση Συστήματος – Ανάλυση Modules

  41. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Λέξεις Υπολογισμός κάθετων Ιστογραμμάτων Γραμμών Εντοπισμός κοιλάδων Ιστογραμμάτων με πλάτος > hc Κόψιμο και αποθήκευση λέξεων Γραμμές Λέξεις

  42. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Κατάτμηση σε χαρακτήρες Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης

  43. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες

  44. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες - Πλεονεκτήματα Πλεονεκτήματα συστημάτων αναγνώρισης χαρακτήρων με κατάτμηση: • Γενικότερες εφαρμογές (λεξικά, γλώσσες). • Μεγαλύτερη ταχύτητα. • Μειωμένες ανάγκες σε μνήμη.

  45. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Συνήθεις Μέθοδοι • Εφαρμογή εμπειρικών κανόνων: • αδυναμία εύρεσης όλων των κανόνων. Αυτόματη εξαγωγή κανόνων με στατιστικές μεθόδους (Markov Models, Neural Networks):  εξαγωγή δυσνόητων κανόνων για περαιτέρω επεξεργασία.

  46. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Τεχνική Προεπεξεργασία Εντοπισμός όλων των πιθανών ορίων Εξαγωγή Διανυσμάτων Κατάργηση των μη-ορίων Χαρακτήρες Λέξη

  47. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Απόδοση Αλγορίθμου

  48. Παρουσίαση Συστήματος – Ανάλυση Modules Διόρθωση γωνίας εκτροπής Εντοπισμός χειρόγραφου κειμένου Κατάτμηση σε γραμμές Εικόνα Εγγράφου Διόρθωση κλίσης Αναγνώριση Χαρακτήρων Αναγνώριση χαρακτήρων Κατάτμηση σε χαρακτήρες Κατάτμηση σε λέξεις Κείμενο Κλάσεις χαρακτήρων Κανόνες Κατάτμησης

  49. Παρουσίαση Συστήματος – Ανάλυση Modules Αναγνώριση Χαρακτήρων – Συνήθεις Μέθοδοι Οι προτεινόμενες τεχνικές αναγνώρισης ποικίλουν ως προς: • Εξαγωγή Χαρακτηριστικών (στατιστικά ή περιγραφικά). • Μέθοδοι Κατηγοριοποίησης (K-means, Markov Models, Νευρωνικά δίκτυα, γράφοι).

  50. Παρουσίαση Συστήματος – Ανάλυση Modules Κατάτμηση σε Χαρακτήρες – Τεχνική • Επιλογή περιγραφικών χαρακτηριστικών (Bunke, 1985,Pavlidis 2000) • Kατηγοριοποίηση με Κ-means Κείμενο Εξαγωγή Διανυσμάτων Κατηγοριοποίηση με Κ-means Χαρακτήρες Προεπεξεργασία

More Related