10 likes | 79 Views
The platform allows efficient transmission of meta-information, realistic pronunciation, and accurate transcription of non-standard words. It includes tools for general speech synthesis and is available for free on the web.
E N D
Doc Adapter docXML Word Math VXML HTML ASL Library Modules properties DtA: Doc to docXML docXML to SSML ciXML to S&A Speech & Audio Voice Browser Transformer SSML Doc ΔΗΜΟΣΘέΝΗΣ: Ακουστική Αναπαράσταση Εγγράφων με Φυσική Προσωδία και Ηχητικά Εικονίδια (Auditory Icons) * Γεώργιος Κουρουπέτρογλουκαι Γεράσιμος Ξύδας Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών koupe@di.uoa.gr http://demosthenes.di.uoa.gr To πρόβλημα: • Η ακουστική αναπαράσταση των εγγράφων μέσω συνθετικής ομιλίας μέχρι σήμερα περιοριζόταν από τα εξής: • Αδυναμία αποδοτικής μετάδοσης της μετα-πληροφορίαςπου συνοδεύει το κείμενο σε περιβάλλοντα φωνητικών διεπαφών, όπως για παράδειγμα οπτικής (π.χ. HTML),δομικής (π.χ. XML) μετα-πληροφορίας, κωδικοποίησης μαθηματικών τύπων (πχ. MathML), μη-κανονικοποιημένες λέξεις (Non-standard Words - NSW) μεταφορά ελλιπούς μηνύματος στο χρήστη. • Αδυναμία παραγωγής ρεαλιστικής προσωδίας ασάφειες στην κατανόηση της συνθετικής ομιλίας. • Αδυναμία σωστής μετεγγραφής των NSW σε περιπτώσεις κλιτών γλωσσών ασάφειες κατά την ανάγνωση των εκφράσεων. Η προταθείσα λύση: • ΔΗΜΟΣΘέΝΗΣ:Μία ανοικτή πλατφόρμα βασισμένη σε XML, την Document-to-Audio (DtA),που επιτρέπει τη δημιουργία ακουστικών σεναρίων για οποιοδήποτε είδος μετα-πληροφορίας. Ο προτεινόμενος φορμαλισμός σεναρίων (Auditory Scripting Language - ASL) δύναται να χρησιμοποιήσει ελεύθερα όλες τις προδιαγραφές του WWW Consortium για συνθετική ομιλία (SSML), όπως: λεπτομερειακό έλεγχο προσωδίας, εισαγωγή ήχων μη-ομιλίας, αλλαγή ομιλητή κλπ. • Μία σειρά από εκπαιδευμένα δέντρα παλινδρόμησης (CART) παραγωγής της προσωδιακής δομής των εκφράσεων για την παραπάνω πλατφόρμα. • Φορμαλισμός για την προφορά μη-κανονικοποιημένων λέξεων μέσα από το DtA • Το σύστημα ΔΗΜΟΣΘέΝΗΣαποτελεί επιπλέον και ένα εργαλείο γενικής χρήσης σύνθεσης ομιλίας και διατίθεται ελεύθερα από το Web. Χειρισμός NSW κλιτών γλωσσών: • Ανοικτή XML-based ακουστική μετεγγραφή οποιασδήποτε machine readable πληροφορίας. • Απομεταγλώττιση εγγράφου σε λογικό επίπεδο. • Αναπαράσταση λογικού επιπέδου σε οποιοδήποτε modality (τρόπο), οπτικό, ακουστικό ή απτικό. • XSLT–based ακουστικά σενάρια (ASL) για την απόδοση συγκεκριμένων προδιαγραφών ομιλίας και ήχων σε στοιχεία μετα-πληροφορίας. Απο-μεταγλώττιση εγγράφου • Non-Standard Word Pronunciation Format (NSWPF): Βασίζεται σε κανονικές εκφράσεις και μορφοποιεί αλφαριθμητικά. Π.χ. 210-7275320 2.10-72.75.3.20 • Target Morphological Format (TMF): Ορίζει τη μορφολογία μίας λέξης. Π.χ. Στο «21/7» το «21» θα αποδοθεί σε γένος θηλυκό και το «7» σε γένος ουδέτερο. • Για την απόδοση προσωδιακής αξίας χρησιμοποιείται η ASL. Αναγνώρισημερών του λόγου ΚανονικοποίησηNSW Το τηλέφωνο μου είναι <W NSW=”NTEL” name=”7275320”> <nswpf><ssml:prosody rate=”-20%”><subtok> 72</subtok><subtok> 75</subtok> <ssml:break time=”long”/><subtok> 3</subtok><subtok> 20</subtok></nswpf></W>. Σας παρακαλώ, ελάτε στις <W NSW=”NDATE” value=”21/5”><nswpf> <subtok><tmf gender=”feminine” case=”nominative” number=”singular”> 21</tmf></subtok> <subtok><tmf gender=”neutral” case=”nominative” number=”singular” type=”ordinal”>5</tmf></subtok> </nswpf></W> για να προχωρήσουμε. Συντακτικήανάλυση Μετατροπήσε φωνήματα Μετά την εφαρμογή του ASL για τηλεφωνικά νούμερα και ημερομηνίες • Για τη δημιουργία της καμπύλης επιτονισμού F0 έχει υιοθετηθεί το Learning Linear Regression μοντέλο. Η εκπαίδευση του μοντέλου περιλαμβάνει πέρα από τα κλασικά χαρακτηριστικά (standard) και άλλα πολύπλοκα γλωσσολογικά (enriched). • Αξιολόγηση LR μοντέλου • standardenriched • RMSE 24.79Hz 21.30Hz • Correlation 0.58 0.77 • Εισαγωγή Προσωδιακών Δομών για την αντιμετώπιση του προβλήματος μη-φυσικής προσωδίας στην Ελληνική. Πέρα από τα κλασικά χαρακτηριστικά (standard) εκμεταλλευόμαστε και πλούσια γλωσσολογική πληροφορία (enriched) για καλύτερη απόδοση. • CART based μοντέλα – Correlation στη πρόβλεψη των προσωδιακών δομών • standardenriched • Breaks 69.11% 92.35% • Accents 71.67% 87.76% • Boundaries 97.59% 99.03% Πρόβλεψηπροσωδιακών δομών Σύνθεσηχρονικού διανύσματος Σύνθεσητονικού διανύσματος Σύνθεσηκυματομορφής Original Enriched Standard • Πρόσθετα modules: • Μορφολογικό λεξικό 1,2 εκατ. λέξ. • Αντίστροφο λεξικό καταλήξεων • Αναγνώριση function-content 99% • Αναγνώριση POS 93% • Συντακτική Ανάλυση: Αναγνώριση Υποκειμένου, Αντικειμένου, Ρήματος και Κατηγορουμένου • Μηχανή Αυτομάτων για ανοικτή φωνηματική μετεγγραφή • Λεξικό και letter-to-sound για τα Αγγλικά • Diphone-Based: δύοΕλληνικές βάσεις διφώνων ελεύθερες στο Web • Unit-Selection: Cluster Unit Selection για μικρά θεματικά πεδία • Xydas G. and Kouroupetroglou G. (2001): “The DEMOSTHeNES Speech Composer”, Proc. 4th ISCA Tutorial and Workshop on Speech Synthesis, pp. 167-172 • Xydas G., Kouroupetroglou G. (2001): “Augmented Auditory Representation of e-Texts for Text-to-Speech Systems”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 2166, pp. 134-141 • Xydas G. and Kouroupetroglou G. (2001): “Text-to-Speech Scripting Interface for Appropriate Vocalisation of e-Texts”,Proc. EUROSPEECH 2001, pp. 2247-2250 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2003): “Modelling Emphatic Events from Non-Speech Aware Documents in Speech Based User Interfaces”, Proc. 10th International Conference on Human - Computer Interaction (HCII2003), pp 806-810 • Xydas G., Karberis G. and Kouroupetroglou G. (2004): “Text Normalization for the Pronunciation of Non-Standard Words in an Inflected Language”, Lecture Notes in Artificial Intelligence (LNAI), Vol. 3025, pp. 390-399 • Xydas G., Spiliotopoulos D. and Kouroupetroglou G. (2004): “Modeling Prosodic Structures in Linguistically Enriched Environments”, Lecture Notes in Artificial Intelligence (LNAI), Vol 3206, pp. 521-528 • Xydas G.,D. Spiliotopoulos and G. Kouroupetroglou “Modeling Improved Prosody Generation from High-Level Linguistically Annotated Corpora”, to appear in IEICE TRANS, 2005 Αναφορές: *Χρηματοδοτήθηκε μερικώς από τα έργα:Μ-PIRO(IST)της Ευρωπαϊκής Ένωσης, ΠΡΟΣΩΔΙΑ(ΗΡΑΚΛΕΙΤΟΣ) του ΕΠΕΑΕΚ, «Προηγμένα Αλληλεπιδραστικά Συστήματα Ομιλίας»(ΠΡΑΞΕ)της ΓΓΕΤ και GR-PROSODY (ΚΑΠΟΔΙΣΤΡΙΑΣ) του ΕΚΠΑ .