1 / 62

ΜΟΡΦΟΛΟΓΙΑ

ΜΟΡΦΟΛΟΓΙΑ. Γιατί μορφολογική ανάλυση??? Πιθανές εφαρμογές Εφαρμογές Φυσικής Γλώσσας (NLP) -parsing - παραγωγή κειμένων -μηχανική μετάφραση - λεξικογραφικά εργαλεία & λημματοποίηση. Γιατί μορφολογική ανάλυση???. 2. Εφαρμογές Φωνής (Speech applications) -συστήματα σύνθεσης φωνής

Lucy
Download Presentation

ΜΟΡΦΟΛΟΓΙΑ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΜΟΡΦΟΛΟΓΙΑ Γιατί μορφολογική ανάλυση??? Πιθανές εφαρμογές • Εφαρμογές Φυσικής Γλώσσας (NLP) -parsing -παραγωγή κειμένων -μηχανική μετάφραση - λεξικογραφικά εργαλεία & λημματοποίηση

  2. Γιατί μορφολογική ανάλυση??? 2.Εφαρμογές Φωνής (Speech applications) -συστήματα σύνθεσης φωνής text-to-speech systems -συστήματα αναγνώρισης φωνής speech-to-text systems

  3. Γιατί μορφολογική ανάλυση??? 3.Εφαρμογές Επεξεργασίας Κειμένου (Word Processing Applications) -έλεγχος ορθογραφίας Spelling checkers -εισαγωγή κειμένου Text input 4.Ανάκτηση Εγγράφων (Document Retrieval) 5. Εκπαιδευτικά εργαλεία διδασκαλίας μορφολογίας(Ahmad & Rogers 1979; Holman 1988; Klavans & Chodorow 1988)

  4. Γιατί μορφολογική ανάλυση??? Το είδος της μορφολογικής ανάλυσης που πραγματοποιεί ένας αναλυτής εξαρτάται από την εκάστοτε εφαρμογή που τον χρησιμοποιεί -σειρά μορφημάτων που εντοπίζονται σε μια μορφολογικά σύνθετη λέξη -μια δεδομένη λέξη είναι τύπος μιας συγκεκριμένης ρίζας

  5. 1. Εφαρμογές NLP Η πλέον προφανής περιοχή χρήσης ενός μορφολογικού επεξεργαστή είναι στο πλαίσιο ενός γενικότερου συστήματος φυσικής γλώσσας, όπως είναι ένας parser ή ένας generator, ή και τα δύο: σύστημα Μηχανικής Μετάφρασης

  6. Συστήματα Ανάλυσης Ποιες είναι οι ιδιότητες των λέξεων ενός κειμένου? π.χ. • POS της λέξης • θεματικός ρόλος του υποκειμένου • δομή της λέξης • μορφοσυντακτικό (γραμματικό) περιεχόμενο • σημασία μιας μορφολογικά σύνθετης λέξης *Δεν είναι πρακτικό να περιλαμβάνουμε όλους τους τύπους ενός λεξήματος (list all words)

  7. Συστήματα Σύνθεσης Παραγωγή/Σύνθεση (generation) συγκεκριμένων τύπων ενός λεξήματος σε συγκεκριμένο συντακτικό ή σημασιολογικό περιβάλλονμε βάση ένα σύνολο συντακτικών ή σημασιολογικών χαρακτηριστικών

  8. Εύρεση ορίων λέξης 1 • Ορθογραφικά συστήματα π.χ. Ινδο-ευρωπαϊκές γλώσσες: όρια λέξεων συμβατικά διακρίνονται με κενό (whitespace) • Κινεζική γλώσσα: δεν υπάρχει συμβατική/εμφανής διάκριση ορίων λέξεων: χαρακτήρες αντιστοιχούν σε μονοσύλλαβα μορφήματα • Μονομορφηματικές – πολυμορφηματικές λέξεις • Ομαδοποίηση χαρακτήρων επηρεάζει τόνο, επιτονισμό ή και προφορά ορισμένων χαρακτήρων

  9. Εύρεση ορίων λέξης 2 • Toy parsing systems: dictionary look-up (Yang 1985, Lin 1985) • Unrestricted Chinese text: δεν έχει αναφερθεί σύστημα ικανοποιητικής αντιμετώπισης της παραγωγικής μορφολογίας (Ούτε λεξικό, ούτε στατιστικά υποκατάσταταδίνουν ικανοποιητικά αποτελέσματα)

  10. Χρήση Ηλεκτρονικών Λεξικών Ανάγκη ύπαρξης εργαλείων τα οποία, με αφετηρία ένα συγκεκριμένο τύπο ενός λεξήματος, παρουσιάζουν όλους τους παραδειγματικούς τύπους του λεξήματος που βρίσκονται στο λεξικό puo: posso, puoi,possiamo..vient: viens,venons.. Αποφασίστηκε: αποφασίζουμε, αποφασίσει.. Το σύστημα πρέπει να διαθέτει μηχανισμό μορφολογικής ανάλυσης

  11. Κατασκευή Ηλεκτρονικών Λεξικών Επέκταση υπάρχοντων λεξικών π.χ (Wolff 1984) λεξικό ιατρικής ορολογίας Αυτόματη λεξική κωδικοποίηση -Χρήση υπάρχοντων δεδομένων -Εντοπισμός ενός συνόλου μορφημάτων & σημασιολογικού τους περιεχομένου π.χ. electro- πρόθημα prefix -itis επίθημα suffix

  12. ΛημματοποίησηLemmatization Μηχανισμός εντοπισμού του λήμματος με αφετηρία ένα συγκεκριμένο τύπο του λεξήματος dogs -> dog puede -> poder θεωρήθηκαν -> θεωρώ Απαραίτητος σε μεγαλύτερα συστήματα indexing, document retrieval, MT

  13. 2. Εφαρμογές Φωνής Σύνθεση Φωνής (text-to-speech)??? Στόχος: εισαγωγή κειμένου & παραγωγή ομιλίας από μηχανή, τέτοια που δεν διαφέρει από την ανθρώπινη Τα περισσότερα συστήματα ΤtS κάνουν κάποιο ποσό συντακτικής ανάλυσης π.χ. MITalk system: DECOMP module μορφολογικήςανάλυσης: POS πληροφορίες για το συντακτικό αναλυτή (major benefits, Klatt 1987)

  14. Σύνθεση Φωνής (text-to-speech) Ορθή προφορά π.χ. <boathouse>:*/θ/ ή /δ/ Σύνορα μορφημάτων μεταξύ <t> & <h> Γερμανικά (Russi 1990; Scnabel & Roth 1990) Ιταλικά (Martin 1990)

  15. Αναγνώριση Φωνής (speech-to-text) 1 Αν και μορφολογική ανάλυση απαραίτητη για την αναγνώριση άγνωστων λέξεων, όπως και η συντακτική ανάλυση,πολύ λίγη προσοχή Τα περισσότερα συστήματα StT: λεξιλόγιο 1000 λέξεων και καταχώρηση όλων των μορφολογικά διαφορετικών τύπωνπ.χ. Λεξιλόγιο του συστήματος SPHINX στα πλαίσια του Resource Management (RM) task (ερωτήσεις σχετικά με πολεμικά πλοία στον Ειρηνικό): length/lengthsdowngrade/downgraded

  16. Αναγνώριση Φωνής (speech-to-text) 2 Από 1982: Κυρίαρχο μοντέλο αναγνώρισης: Κρυφό Μοντέλο Markov (HMM) doubly stochastic: Both underlying phoneme string and frame-by-frame surface acoustic representations: represented probabilistically as Markov processes Από 1992: Στροφή προς μεγαλύτερα λεξιλόγια (20.000 λέξεις+) με εφαρμογές στην υπαγόρευση κειμένων

  17. Αναγνώριση Φωνής (speech-to-text) 3 Roe et al. 1991: morph-based recognition: Πλήρεις τύποι λέξεων αναπαρίστανται ως αλυσίδες μορφηματικών μοντέλων (Sproat 1992:8) Μείωση του μεγέθους του συνόλου των τύπων που απαιτούνται για την εκπαίδευση του συστήματος αναγνώρισης soup, cup, meat, -s

  18. 3. Εφαρμογές Επεξεργασίας Κειμένου Έλεγχος ορθογραφίας • UNIX spell-checker (McIlroy 1982): κλασσικό λεξικό: παράλειψη κλιτών τύπων, κύριων ονομάτων, συντομογραφιών, νέων τεχνικών όρων Σημερινή έκδοση του SPELL: 30 κλιτικά επιθήματα + 40 προθήματα -s, -er, -ism, -ing, -able anti-, intra-, bio

  19. Εφαρμογές Επεξεργασίας Κειμένου Είσοδος κειμένου στην Ιαπωνική γλώσσα Γραπτός λόγος Ιαπωνικής: συνδυασμόςσυλλαβικών χαρακτήρων (kana) & Κινεζικών μορφηματικών χαρακτήρων (kanji) Kana: προσφύματα & κλιτικά (closed-class: 50) Kanji: ουσιαστικά επίθετα ρήματα(open-class:3.000) Πρόβλημα: όρια λέξεων – επίλυση ομογραφιών Στατιστική αυτόματη μετατροπή σύνθετων λέξεων kana-kanji Γράφος πιθανών μορφημάτων (Abe et al. 1986)

  20. 4.Ανάκτηση Εγγράφων 1Document Retrieval (Dolby et al. 1965; Buttel et al. 1986; Thurmair 1984; Jappinen et al. 1985; Koskenniemi 1984b; Meya-Lloport 1987) etc. Είσοδος: λέξεις-κλειδιά Έξοδος: όλα τα κείμενα σε μια Βάση Δεδομένων (ΒΔ) που περιέχουν αυτές τις λέξεις

  21. 4.Ανάκτηση Εγγράφων 2 Αγγλικά: φτωχή κλιτική μορφολογία <church> <churches> <spy> <spies> word/lexeme-based morphology Πολλές γλώσσες: πλούσιο κλιτικό σύστημα Ελληνικά: stem-based morphology <τσαγκάρ-ης> <τσαγκάρ-ηδες> <αναπαριστ-ώ> <αναπαραστήσ-ω>

  22. Ανάκτηση Εγγράφων 3 • Θησαυρός Ελληνικής Γλώσσας (Thesaurus Linguae Grequae): ΒΔ Αρχαίας Ελληνικής Γραμματείας (CD-ROM)->online Επέκταση αυτού σε Βυζαντινή & Νέα Ελληνική γραμματεία ????? Η μορφολογική ανάλυση ‘επιστρέφει’ το σύνολο των πιθανών μορφολογικά συνδεόμενων λέξεων ενός κειμένου

  23. Ανάκτηση Εγγράφων 4 Εβραϊκά: Attar et al. 1978 Το σύστημα ‘επιστρέφει’ το σύνολο των παράγωγων και κλιτών τύπων που επιτρέπεται να παραχθούν από μια δεδομένη ρίζα bat benot benotenu <bt> <bnwt> <bnwtynw> ‘κορίτσι’ ‘κορίτσια’ ‘κορίτσια μας’

  24. ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΜΟΡΦΟΛΟΓΙΑΣ • Μορφολογικές Διαδικασίες • Μορφήματα, Δομή των Λέξεων & Κανόνες Σχηματισμού Λέξεων • Τι συνδέεται και Πώς? • Morphotactics: Η Σειρά των Μορφημάτων • Ψυχογλωσσολογικές Αποδείξεις

  25. Αλληλεπίδραση Θεωρητικής-Υπολογιστικής Μορφολογίας • Θεωρητική Μορφολογία: γιατί η γλώσσα x έχει το χαρακτηριστικό y ή γιατί όλες οι γλώσσες έχουν το χαρακτηριστικό y: αναλύσεις τείνουν προς πιο αφηρημένες αναπαραστάσεις, μακριά από την επιφανειακή δομή των γλωσσών • Υπολογιστική Μορφολογία: άμεσοι στόχοι: σύστημα που καλύπτει ικανοποιητικά 99% των λέξεων κειμένων π.χ. εφημερίδων σε συγκεκριμένη γλώσσα

  26. Αλληλεπίδραση Θεωρητικής-Υπολογιστικής Μορφολογίας • Υπολογιστική: ποια θέματα πρέπει να εξεταστούν για να επεκταθεί ένα σύστημα και σε άλλες γλώσσες ή ένα toy system σε ένα πραγματικό σύστημα μιας γλώσσας • Θεωρητική: δυσκολίες κατασκευής ενός συστήματος που καλύπτει μεγάλα τμήματα μιας γλώσσας (όχι συχνός στόχος) - έλεγχος καταλληλότητας & πληρότητας (adequacy) θεωρητικών μοντέλων

  27. Μορφολογική ταξινόμηση γλωσσών • Η μορφολογία μεταφέρει/εκφράζει πληροφορία • Τρόποι κωδικοποίησης πληροφορίας-ποσότητα & είδη πληροφορίας Isolating Agglutinative Polysynthetic Inflectional Bloomfield 1933

  28. Απομονωτικές Γλώσσες (isolating) Δεν έχουνεξαρτημένες μορφές (bound forms)= δεν απαντούν στο λόγο παρά μόνο ως τμήματα λέξεων: α-, δυσ-, -ω Κινεζική: oι μορφοσυντακτικές πληροφορίες του αριθμού & του χρόνου δεν μαρκάρονται/δηλώνονται εμφανώς

  29. Συγκολλητικές Γλώσσες (agglutinative) Έχουνεξαρτημένες μορφές που ταξινομούνται στις λέξεις σαν χάντρες σε κομπολόι Τουρκική, Oυγγρική, Σουαχίλι Cop+luk+ler+imiz+de+ki+ler+den+mi+y+di (σκουπίδια+AFF+PL+1P/PL+LOC+REL+PL+ABL+INT+AUX+PAST) ‘ήταν από εκείνα που ήταν στους sκουπιδοντενεκέδες μας;’ (Hankamer 1986)

  30. Πολυσυνθετικές Γλώσσες (polysynthetic) Ολόκληρες προτάσεις που αποτελούνται από μια λέξη Γλώσσες Εσκιμώων π.χ. Yupik Κεντρικής Αλάσκας qaya:liyu:lu:ni ‘ήταν τέλειος (-yu-) στονα φτιάχνει (-li-) καγιάκ (qaya:-)’ (Woodbury 1987) Ενσωμάτωση του αντικειμένου μέσα στη λέξη

  31. Κλιτές Γλώσσες (inflectional) Χαρακτηρίζονται από μεγάλη χρήση μορφημάτων portmanteau= εκφράζουν ταυτοχρόνως πολλές μορφοσυντακτικές κατηγορίες Ελληνική, Λατινογενείς (Ισπανική, Ιταλική, Γαλλική κλπ.) παίζ-ουν: 3o+PL+ACT+PRES/PAST vogli-o: 1ο+SNG+ACT+PRES/PAST

  32. Ιnflectional Μorphology # Inflectional Language Kλιτική μορφολογία # Κλιτή γλώσσα Κλιτική μορφολογία: αναφέρεται στο είδος της γραμματικής/μορφοσυντακτικής διάκρισης που κωδικοποιείται, ανεξάρτητα από το πώςδηλώνεται εμφανώς αυτή η διάκριση -Τουρκική έχει κλιτική μορφολογία, αν και δεν βρίθει από μορφήματα portmanteau

  33. Μορφολογική πολυπλοκότητα & συνέχεια Isolating-Agglutinative-Inflectional-Polysynthetic Τα κριτήρια διάκρισης είναι γενικά και ποικίλα Τhree last classes ‘werenever clearly defined’ (Bloomfield1933:208) Κεντρική αλήθεια: μερικές γλώσσες κωδικοποιούν περισσότερες πληροφορίες μορφολογικά από άλλες: Central Alaskan Yupik# Mandarin Chinese Όλη η γραμματική εκφράζεται στο μορφολογικό επίπεδο # σχέσεις μεταξύ γραμματικών στοιχείων εκφράζονται στο συντακτικό επίπεδο

  34. 1. Mορφολογικές Διαδικασίες • Κλίση (inflection) • Σχηματισμός λέξεων (word-formation): ΠαραγωγήΣύνθεση (derivation) (compounding/ /composition) Inflectional Lexical Morphology Morphology

  35. Κλίση (inflection) Paradigm του λεξήματος ΠΑΙΖΩ παραδειγματικό επίπεδο παίζ-ω παίζ-ουμε παίζ-εις παίζ-ετε παίζ-ει παίζ-ουν Ίδια γραμματική κατηγορία (POS)= Διαφορετικοί τύποι ίδιου λεξήματος: Διαφορετικές λειτουργίες (προσώπου & αριθμού)

  36. Παραγωγή(derivation) Διαφορετική γραμματική κατηγορία (POS) antidisestablishmentarianism establish (V) establish+ment (N) establish+ment+ary (Adj) establish+ment+ari+an (N) establish+ment+ari+an+ism (N) dis+establish+ment+ari+an+ism (N) anti+dis+establish+ment+ari+an+ism (N)

  37. Μορφοσυντακτικές κατηγορίεςΚλιτικής Μορφολογίας(context-sensitive) Ρήμα Όνομα + Επίθετο -Πρόσωπο(person)(Άρθρο+Μτχ+Αντ/μία) -Αριθμός (number) -Γένος (gender) -Χρόνος (tense) -Aριθμός (number) -Ποιόν Ενέργειας (ΠΕ)(aspect) -Πτώση (case) -Φωνή (voice) -Έγκλιση (mood) Κινεζική: -Number,-Tense,-Specificity,+Aspect gou bu ai chi qingcai (the) dog/s do/does/did not like eat vegetables

  38. Ρηματικές Μορφοσυντακτικές ΚατηγορίεςΝ. Ελληνικής • Πρόσωπο1/2/3 • ΑριθμόςSG/PL • Χρόνος: PAST/NON-PAST • ΠΕ PERFECTIVE/NON-PERFECTIVE (τέλειο / ατελές) • Φωνή ACTIVE/(MEDIO)PASSIVE • ΈγκλισηIMPERATIVE/NON-IMPERATIVE

  39. Ονοματικές Μορφοσυντακτικές Κατηγορίες • Γένος(Φυσικό/Γραμματικό) MAS/FEM/(NEUT) • AριθμόςSG/PL • ΠτώσηNOM/GEN/ACC/VOC (syncretism) -Λατινική: 5 πτώσεις -Φινλανδική: 14πτώσεις (nominative, genitive, accusative, partitive, inessive,abessive, adessive, ablative, elative, illative, allative, prolative, translative & instrumental) - Όχι δήλωση γένους

  40. Παραγωγική Μορφολογία -Περισσότερο ανοιχτό σύνολο επιλογών από κλιτική μορφολογία -Αρκετά παραγωγικοί μηχανισμοί Παραγωγικά προσφύματα (derivational affixes) • Suffixing Derivational Morphology • Prefixal Derivational Morphology pseudo-pacifist/intellectual semiformal

  41. Suffixing Derivational Morphology Deverbal nominal morphology xeroxer, destruction Deverbal adjectival morphology parsable, likeable Deadjectival morphology rarity, weirdness Denominal morphology catless (pet-owner), speechless

  42. Κλίση & Παραγωγή Και οι 2 λειτουργίες στηρίζονται κυρίως στην προσφυματοποίηση (affixation) Κλιτικά-Παραγωγικά Προσφύματα Affixes: prefix: prefixation πρόθημα ξε-πλένω suffix: suffixationεπίθημα πατερ-ούλης infix: infixationένθημα αναλα-μ-βάνω

  43. Σύγκριση Κλίσης & Παραγωγήςστην Ελληνική 1 ΔΙΑΦΟΡΕΣ (Ράλλη 1993) • Ενδεχόμενη αλλαγή γραμματικής κατηγορίας της λεξικής βάσης που δέχεται το παραγωγικό πρόσφυμα • Η παραγωγική διαδικασία προηγείται πάντα κάθε κλιτικής διαδικασίας & αντίθετα με την κλίση επιτρέπει περιορισμένο ποσοστό επαναδρομής (recursivity)

  44. Σύγκριση Κλίσης & Παραγωγήςστην Ελληνική 2 3. Κλίση εξαρτάται από συντακτικό περιβάλλον: Ονομ/Αιτ=Υποκ/Αντικ 4. Η κλίση είναι πιο παραγωγική διαδικασία από την παραγωγή & δεν αλλάζει την εννοιολογική σημασία (conceptual meaning) της λεξικής βάσης, πράγμα που συμβαίνει συχνά με την παραγωγή 5. Για τις παράγωγες λέξεις πρέπει να γίνει διάκριση ανάμεσα σε υπαρκτές & πιθανές να παραχθούν λέξεις, ενώ οι κλιτές μορφές των λέξεων ανήκουν στον κατάλογο των υπαρκτών (???)

  45. Σύνθεση (compounding) • κλιμακωτή σύνδεση (concatenation) θέματος 2 ή περισσοτέρων λεξημάτων για το σχηματισμό ενός νέου λεξήματος Γερμανική - Ολλανδική Leben-s-versicherung-s-gesellschaft-s-angestellter ‘life insurance company employee’ ice-cream newspaper handwriting διαστημ-ό-πλοιο εικοσι-ένα κακο-καιρία

  46. Διευρυμένος τομέας μορφολογίας • one-word compounds # multi-word compounds/syntactic words: fin de semaine (Ράλλη 1990) Λεξικές Φράσεις = πολυλεκτικοί μορφολογικοί σχηματισμοί πρακτορείο ειδήσεων ομάδα εργασίας νόμος πλαίσιο τύχη βουνό μέση ηλικία δημόσιος υπάλληλος

  47. 2. Μορφήματα, Δομή των Λέξεων & Κανόνες Σχηματισμού Λέξεων ΚΕΙΜΕΝΟ ................................................................ ΠΡΟΤΑΣΕΙΣefar΄mozun ΄nea ΄meθoδo… ΣΥΝΤΑΓΜΑΤΑ΄nea ΄meθoδos, ΄ena pe΄δi…. ΛΕΞΗΜΑΤΑ΄nea, ΄ena, na΄e, e΄an, ΄logos… ΜΟΡΦΗΜΑΤΑ ΄ne-a, ΄en-a, na-΄e, e΄an, ΄logo-s…. ΦΩΝΗΜΑΤΑ/ a e o i u p t k b d g v δγ…. ΓΡΑΦΗΜΑΤΑ ΦΘΟΓΓΟΙ/ a e o i u p t k k b d g g v δγ γ…. ΑΛΛΟΦΩΝΑ

  48. Ιεραρχική Δομή Γλώσσας Από απλούστερες μονάδες σε συνθετότερες: • από φθόγγους στα φωνήματα (φθόγγοι με διαφοροποιητική αξία για τη σημασία των λέξεων) • από φωνήματα/γραφήματα στα μορφήματα (ελάχιστες σημασιολογικές μονάδες) • από μορφήματα στις λέξεις/λεξήματα • από λέξεις στις φράσεις/συντάγματα (μικρότεροι δυνατοί συντακτικοί συνδυασμοί)

  49. Τι είναι το Μόρφημα;1(morpheme/formative) Όπως όλα τα (γλωσσικά) σημεία (επικοινωνίας), αποτελεί μοναδικό συμβατικό συνδυασμό ορισμένης σημασίας και ορισμένης μορφής Ετερωνυμία/Ετεροσημία Ετεροηχία/Ετερομορφία (Μπαμπινιώτης 1980)

  50. Τι είναι το Μόρφημα; 2 Ζεύγος: γραμματικής ή λεξικής σημασίας & φωνολογικής/γραφηματικής έκφρασής της • Γραμματικό Λεξικό PL {s}home, chair {ες} πατέρας Φορέας: Γραμματικής Λεξικής Σημασίας

More Related