1 / 1

To πρόβλημα :

Doc Adapter. docXML. Word. Math. VXML. HTML. ASL Library. Modules properties. DtA :. Doc to docXML. docXML to SSML. ciXML to S&A. Speech & Audio. Voice Browser. Transformer. SSML. Doc.

Download Presentation

To πρόβλημα :

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Doc Adapter docXML Word Math VXML HTML ASL Library Modules properties DtA: Doc to docXML docXML to SSML ciXML to S&A Speech & Audio Voice Browser Transformer SSML Doc ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια (Auditory Icons) * Γεώργιος Κουρουπέτρογλουκαι Γεράσιμος Ξύδας Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών koupe@di.uoa.gr http://demosthenes.di.uoa.gr To πρόβλημα: • Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής: • Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίαςπου συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML),δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. • Αδυναμία παραγωγής ρεαλιστικής προσωδίας  ασάφειες στην κατανόηση της συνθετικής ομιλίας. • Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών  ασάφειες κατά την ανάγνωση των εκφράσεων. Η προταθείσα λύση: • ΔΗΜΟΣΘέΝΗΣ:Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA),που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ. • Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα. • Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣαποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και διατίθεται ελεύθερα από το Web. Χειρισμός NSW κλιτών γλωσσών: • Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας. • Απομεταγλώττιση εγγράφου σε λογικό επίπεδο. • Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό. • XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας. Απο-μεταγλώττιση εγγράφου • Non-Standard Word Pronunciation Format (NSWPF): Βασίζεται σε κανονικές εκφράσεις και μορφοποιεί αλφαριθμητικά. Π.χ. 210-7275320  2.10-72.75.3.20 • Target Morphological Format (TMF): Ορίζει τη μορφολογία μίας λέξης. Π.χ. Στο «21/7» το «21» θα αποδοθεί σε γένος θηλυκό και το «7» σε γένος ουδέτερο. • Για την απόδοση προσωδιακής αξίας χρησιμοποιείται η ASL. Αναγνώρισημερών του λόγου ΚανονικοποίησηNSW Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72</subtok><subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok><tmf gender=”feminine” case=”nominative” number=”singular”> 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”>5</tmf></subtok> </nswpf></W> για να προχωρήσουμε. Συντακτικήανάλυση Μετατροπήσε φωνήματα Μετά την εφαρμογή του ASL για τηλεφωνικά νούμερα και ημερομηνίες • Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). • Αξιολόγηση LR μοντέλου • standardenriched • RMSE 24.79Hz 21.30Hz • Correlation 0.58 0.77 • Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. • CART based μοντέλα – Correlation στη πρόβλεψη των προσωδιακών δομών • standardenriched • Breaks 69.11% 92.35% • Accents 71.67% 87.76% • Boundaries 97.59% 99.03% Πρόβλεψηπροσωδιακών δομών Σύνθεσηχρονικού διανύσματος Σύνθεσητονικού διανύσματος Σύνθεσηκυματομορφής Original Enriched Standard • Πρόσθετα modules: • Μορφολογικό λεξικό 1,2 εκατ. λέξ. • Αντίστροφο λεξικό καταλήξεων • Αναγνώριση function-content 99% • Αναγνώριση POS 93% • Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή • Λεξικό και letter-to-sound για τα Αγγλικά • Diphone-Based: δύοΕλληνικές βάσεις διφώνων ελεύθερες στο Web • Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία • Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 • Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141 • Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International Conference on Human - Computer Interaction (HCII2003), pp 806-810 • Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 3025, pp. 390-399 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol 3206, pp. 521-528 • Xydas G.,D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005 Αναφορές: *Χρηματοδοτήθηκε μερικώς από τα έργα:Μ-PIRO(IST)της Ευρωπαϊκής Ένωσης, ΠΡΟΣΩΔΙΑ(ΗΡΑΚΛΕΙΤΟΣ) του ΕΠΕΑΕΚ, «Προηγμένα Αλληλεπιδραστικά Συστήματα Ομιλίας»(ΠΡΑΞΕ)της ΓΓΕΤ και GR-PROSODY (ΚΑΠΟΔΙΣΤΡΙΑΣ) του ΕΚΠΑ .

More Related