1 / 38

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ. ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Σύγκριση των μοντέλων LPC και Filter Bank αναγνώρισης ομιλίας από ανεξάρτητο ομιλητή. Επιβλέπων Καθηγητής: Δρ. Αθανασίου Μιχαήλ. Σπουδάστρια: Μωυσίδου Ελπίδα.

Download Presentation

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Ιανουάριος 2012 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Σύγκριση των μοντέλων LPC και Filter Bank αναγνώρισης ομιλίας από ανεξάρτητο ομιλητή. Επιβλέπων Καθηγητής: Δρ. Αθανασίου Μιχαήλ Σπουδάστρια: Μωυσίδου Ελπίδα

  2. ΣΚΟΠΟΣ ΤΗΣ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ • Σκοπός της εργασίας είναι η σύγκριση των μοντέλων Filter Bank και LPC αναγνώριση ομιλίας από ανεξάρτητο ομιλήτη.

  3. ΠΕΡΙΕΧΟΜΕΝΑ • Μέθοδος Filter bank και LPC-Βασική Θεωρία • Πειραματικά αποτελέσματα για 10 μονοψήφιους αριθμούς και 10 ονόματα από τις μεθόδους Filter bank και LPC • Σύγκριση αποτελεσμάτωντων μεθόδων Filter bank και LPC • Ανακεφαλαίωση συμπεράσματα

  4. Μέθοδος Filter bank και LPC-Βασική Θεωρία Περιβάλλον CoolEdit Η κυματομορφή του σήματος που αντιστοιχεί στη λέξη «Τέσσερα»

  5. Μέθοδος Filter bank και LPC-Βασική Θεωρία Δημιουργία frames Το αρχικό σήμα χωρίζεται σε frames Ν=240 δειγμάτων το καθένα. Ένα frame προκύπτει από τη μετατόπιση του προηγούμενου κατά M=80 δείγματα

  6. Μεθοδος Filter bank και LPC-Βαςικη Θεωριαιδανικο ζωνοπερατο φιλτρο

  7. Μέθοδος Filter bank και LPC-Βασική Θεωρία Σε κάθε frame εφαρμόζεται το filter bank. Το filter bank αποτελείται από Q=15 φίλτρα με εύρος συχνοτήτων 200 Hz το καθένα. Η μικρότερη συχνότητα των καναλιών είναι 200 Hz και η μεγαλύτερη 3200 Hz. Η κρουστική απόκριση κάθε φίλτρου έχει k=80 όρους Κανάλια συχνοτήτων

  8. Μέθοδος Filter bank και LPC-Βασική Θεωρία ΔΗΜΙΟΥΡΓΙΑ ΠΡΟΤΥΠΟΥ Πρότυπο της λέξης Vectorπου αντιστοιχεί στο i frame P: Σύνολο των frames

  9. Πρότυπο της λέξης «Αριστοτέλης» Τα πρώτα 30 διανύσματα (vectors) από τα 110 συνολικά του προτύπου που αντιστοιχεί στη λέξη «Αριστοτέλης» Οκτώβριος 2010

  10. Πρότυπο της λέξης «Μαρία» Τα πρώτα 17 διανύσματα από τα συνολικά 61 του προτύπου που αντιστοιχεί στη λέξη «Μαρία»

  11. Μέθοδος Filter bank και LPC-Βασική Θεωρία ΣΥΓΚΡΙΣΗ ΠΡΟΤΥΠΩΝ • Χρονική ευθυγράμμιση και απόσταση προτύπων Έστω Χ, Υ δύο πρότυπα (πίνακες) που αντιστοιχούν σε δύο διαφορετικές λέξεις και Τx, Τyοι γραμμές των πινάκων Χ και Υ αντίστοιχα. • Εφαρμογή της γραμμικής αντιστοίχησης των vectors στο χρόνο • Απόσταση μεταξύ των προτύπων Χ και Υ • Ευκλείδεια απόσταση

  12. Μέθοδος Filter bank και LPC-Βασική Θεωρία Παράδειγμα σύγκρισης προτύπων Έστω Υ πρότυπο της λέξης «Αριστοτέλης» της 12ης βάσης y110 Έστω Χ πρότυπο της λέξης «Μαρία» της βάσης test x61

  13. Μέθοδος Filter bank και LPC-Βασική Θεωρία • Για Τx=61 και Τy=110είναι: • Εύρεση των ζευγών ( ix , iy ) των γραμμών που θα συγκριθούν • Εύρεση της απόστασης μεταξύ των προτύπων Χ και Υ Η απόσταση αυτών των δύο προτύπων είναι: D=1.45

  14. Μέθοδος Filter bank και LPC-Βασική Θεωρία ΜΟΝΤΕΛΟ L.P.C. ΓΙΑ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΦΩΝΗΣ • Παρέχει ένα καλό μοντέλο του σήματος ομιλίας. • Μαθηματικά ακριβής μέθοδος και απλή στην εφαρμογή της σε software και hardware • Αναπαράσταση του σήματος με λίγα χαρακτηριστικά – Καλύτερη συμπίεση • Μικρότερο υπολογιστικό κόστος από άλλες μεθόδους όπως Filter-bank

  15. Μέθοδος Filter bank και LPC-Βασική Θεωρία ΜΟΝΤΕΛΟ L.P.C • Mια τιμή (sample) ενός σήματος στο χρόνο, την χρονική στιγμή n μπορεί να προσεγγισθεί ως γραμμικός συνδυασμός των ‘p’ προηγούμενων δειγμάτων • Εύρεση συντελεστών

  16. Πειραματικά αποτελέσματα για 10 μονοψήφιους αριθμούς και 10 ονόματα από τις μεθόδους Filter bank και LPC • Ηχογραφήθηκαν οι αριθμοί 0 έως 9, σαράντα φορές ο καθένας, και ταξινομήθηκαν σε 40 αντίστοιχες βάσεις. • Η ίδια διαδικασία ηχογράφησης εφαρμόστηκε και για δέκα ονόματα. • Η ηχογράφηση έγινε από σαράντα διαφορετικούς ομιλητές. • Για την ηχογράφηση επιλέχθηκε η συχνότητα δειγματοληψίας των 8000 Hz. ΗΧΟΓΡΑΦΗΣΗ ΛΕΞΕΩΝ

  17. Πειραματικά αποτελέσματα για 10 μονοψήφιους αριθμούς και 10 ονόματα από τις μεθόδους Filter bank και LPC Η ίδια διαδικασία επαναλαμβάνεται για την εύρεση των αποστάσεων των αριθμών της βάσης test από τους αριθμούς των άλλων 39 βάσεων που αντιστοιχούν σε 39 άτομα. Οπότε προκύπτουν συνολικά 40 διαφορετικοί πίνακες όμοιοι με τον πίνακα της προηγούμενης διαφάνειας. Από αυτούς τους πίνακες με την εφαρμογή κατάλληλου προγράμματος βρίσκονται οι αποστάσεις του προτύπου ενός αριθμού της βάσης test από τα αντίστοιχα πρότυπα των αριθμών 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 των 40 ατόμων.

  18. Στον παρακaτω filter bank πινακα δειχνονται οι αποςταςεις του αριθμου τεςςερα της βαςης τεςςερα απο τα προτυπα των αριθμων της γενικης βαςης βα των αριθμων των ςαραντα ατομων για ευρος παραθυρου Ν=120.

  19. Αποςταςεις του προτυπου αριθμου τεςςερα της βαςης τεςτ απο τα προτυπα των αριθμων της γενικης βαςης των αριθμων των 40 ατομων για ευρος παραθυρου Ν=120

  20. Στον πινακαfilter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «Τεςςερα» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=120.

  21. Στον πινακαfilter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «Τεςςερα» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=240.

  22. Στον πινακα filter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «Τεςςερα» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=360.

  23. Στον πινακα LPCπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «Τεςςερα» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=240.

  24. Στον πινακαfilter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «αριςτοτελης» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=120.

  25. Στον πινακαfilter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «αριςτοτελης» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=240.

  26. Στον πινακαfilter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «αριςτοτελης» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=360.

  27. Στον πινακαLPCπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «αριςτοτελης» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=240

  28. Στον πινακα filter bankπαρουςιαζονται τα αποτελεςματα της μικροτερης αποςταςης καθως και ο μεςος ορος των δυο ,πεντε και δεκα μικροτερων αποςταςεων των προτυπων της λεξης «Τεςςερα»kai«αριςτοτελης» της βαςης test των αριθμων και ονοματων απο τα αντιςτοιχα προτυπα των γενικων βαςεων, με Ν=240kainf=4.

  29. ΣΥΓΚΡΙΣΗ ΤΩΝ ΜΕΘΟΔΩΝ FILTER BANK ΚΑΙ LPCΣΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΤΗΣ ΛΕΞΗΣ ΤΕΣΣΕΡΑ-%ςφαλμα

  30. ΣΥΓΚΡΙΣΗ ΤΩΝ ΜΕΘΟΔΩΝ FILTER BANK ΚΑΙ LPCΣΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΤΗΣ ΛΕΞΗΣ αριςτοτελης- %ςφαλμα

  31. ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΜΕΘΟΔΩΝ FILTER BANK ΚΑΙ LPC ΓΙΑ ΑΡΙΘΜΟΥΣ • Ανάμεσα στις μεθόδους Filter Bank και LPC η μέθοδος που δίνει τα καλύτερα αποτελέσματα είναι η μέθοδος LPC με Ν=240 • Στη μέθοδο Filter Bank με nf=15 και nf=4 τα καλύτερα αποτελέσματα τα έχω για nf=4 και Ν=240 • Στη μέθοδο Filter Bank με nf=15 και Ν=120,Ν=240 και Ν=360 τα καλύτερα αποτελέσματα τα έχω για Ν=240

  32. ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΩΝ ΜΕΘΟΔΩΝ FILTER BANK ΚΑΙ LPC ΓΙΑ ΟΝΟΜΑΤΑ • Ανάμεσα στις μεθόδους Filter Bank και LPC η μέθοδος που δίνει τα καλύτερα αποτελέσματα είναι η μέθοδος Filter Bank με Ν=240 και nf=4 • Στη μέθοδο Filter Bank με nf=15 και nf=4 τα καλύτερα αποτελέσματα τα έχω για nf=4 και Ν=240 • Στη μέθοδο Filter Bank με nf=15 και Ν=120,Ν=240 και Ν=360 τα καλύτερα αποτελέσματα τα έχω για Ν=240

  33. Ποια βαςη εχει μεγαλυτερη αναγνωριςιμοτητα οι αριθμοι η τα ονοματα? • Την μεγαλήτερη αναγνωρισιμότητα την έχει η βάση με τα ονόματα

  34. ΑΝΑΚΕΦΑΛΑΙΩΣΗ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ • Εφαρμόστηκε η μέθοδος filter bank και LPC για αναγνώριση ξεχωριστών λέξεων από σαράντα διαφορετικούς ομιλητές. • Ο έλεγχος των μεθόδων έγινε για δύο κατηγορίες δεδομένων αποτελούμενες από 10 αριθμούς και 10 ονόματα. • Δεν υπήρχε λανθασμένη αναγνώριση λέξης τόσο για τους αριθμούς όσο και για τα ονόματα. • Διαπιστώθηκε ότι μεγαλύτερη αναγνωρισιμότητα από την εφαρμογή αυτή είχαν οι λέξεις των ονομάτων. • Επίσης είναι φανερό πως στη μέθοδο Filter Bank τη μεγαλύτερη αναγνωρισιμότητα έχουν τα ονόματα για Ν=240, ενώ για Ν=120 και Ν=360 το ποσοστό αναγνωρισιμότητας για τους αριθμούς και τα ονόματα είναι το ίδιο.

  35. Διαπιστώθηκε ότι οι μεθόδοι Filter bank και LPC για την αναγνώριση ξεχωριστών λέξεων από ανεξάρτητο ομιλητή είναι αποτελεσματικές. • Ακόμη σε αυτή την εργασία εφαρμόστηκαν οι μέθοδοι Filter Bankκαι LPC για τηναναγνώριση λέξεων που εκφωνήθηκαν από μια συγκεκριμένη γυναίκα. Τα πρότυπα των λέξεων αυτών συγκρίθηκαν με τα αντίστοιχα πρότυπα των λέξεων που εκφωνήθηκαν από 40 άτομα. Όμως από τα 40 αυτά άτομα μόνο 19 ήταν γυναίκες.Στη μέθοδο Filter Bankτα αποτελέσματα αναμένεται να είναι καλύτερα όσο μεγαλύτερο είναι το ποσοστό γυναικών στα 40 άτομα ενώ στη μέθοδο LPCθα είχαμε καλύτερα αποτελέσματα αν στη γενική βάση είχαμε περισσότερους άνδρες

  36. ΠΑΡΟΥΣΙΑΣΗ ΚΑΙ ΣΥΓΚΡΙΣΗ ΚΥΜΑΤΟΜΟΡΦΩΝ ΔΙΑΦΟΡΕΤΙΚΩΝ ΛΕΞΕΩΝ Α ρι στο τέ λης Μη δ έ ν α) Κυματομορφή της λέξης «Αριστοτέλης» της 1ης βάσης των ονομάτων β) Κυματομορφή της λέξης «Μηδέν» της 1ης βάσης των αριθμών Τέ σσ ε ρ α Μα ρί α γ) Κυματομορφή της λέξης «Μαρία» της 1ης βάσης των ονομάτων δ) Κυματομορφή της λέξης «Τέσσερα» της 1ης βάσης των αριθμών

More Related