1 / 29

ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ

ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ. Ιστορικά ξεχωριστοί τομείς αρχίζουν να συγκλίνουν : Επεξεργασία Φυσικής Γλώσσας ( NLP ) Αναγνώριση Φωνής ( speech recognition) Υπολογιστική Γλωσσολογία Υπολογιστική Ψυχογλωσσολογία. Ευρέως διαθέσιμα πλέον : μεγάλα Σώματα Κειμένων on-line

diedrick
Download Presentation

ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑΕΙΣΑΓΩΓΗ Ιστορικά ξεχωριστοί τομείς αρχίζουν να συγκλίνουν: • Επεξεργασία Φυσικής Γλώσσας (NLP) • Αναγνώριση Φωνής (speech recognition) • Υπολογιστική Γλωσσολογία • Υπολογιστική Ψυχογλωσσολογία

  2. Ευρέως διαθέσιμα πλέον: • μεγάλα Σώματα Κειμένων on-line • Ηλεκτρονικά λεξικά • Τράπεζες ορολογίας • Συστήματα ελέγχου ορθογραφίας, γραμματικής & στυλ • Συστήματα Ανάκτησης Πληροφοριών • Συστήματα αναγνώρισης φωνής • Συστήματα Μηχανικής Μετάφρασης

  3. ΓΛΩΣΣΟΛΟΓΙΑ & ΠΛΗΡΟΦΟΡΙΚΗ • Υπολογιστική Γλωσσολογία Computational Linguistics Η επιστήμη της γλώσσας που χρησιμοποιεί υπολογισμούς ως εργαλείο διερεύνησης • Επεξεργασία Φυσικής Γλώσσας Natural Language Processing/NLP Η επιστήμη των υπολογισμών η οποία έχει ως αντικείμενο τις δομές δεδομένων & τους αλγορίθμους επεξεργασίας μιας φυσικής γλώσσας • Γλωσσική Τεχνολογία Language Technology Aνάπτυξη συστημάτων επεξεργασίας φυσικής γλώσσας

  4. ΓΛΩΣΣΟΛΟΓΙΑ & ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ (NLP) (1) • Κλασσική γλωσσολογική προσέγγισηστον 1 αιώνα ζωής της επιστήμης: -Μελέτη μεμονωμένων φαινομένων βάσει περιορισμένων γλωσσικών δεδομένων με στόχο την ερμηνεία & τον καθορισμό του βαθμού παραγωγικότητας του κανόνα που διέπει το φαινόμενο -Ανάπτυξη γλωσσολογικών θεωριών/μοντέλων ανάλυσης των γλωσσικών δομών

  5. ΣΤΟΧΟΙ ΓΛΩΣΣΟΛΟΓΙΚΗΣ ΕΞΕΤΑΣΗΣ Μέχρι 1980: έμφαση στηΔομή της γλώσσας - Περιγραφές (συγχρονικές/διαχρονικές) Φωνητικές/Φωνολογικές Μορφολογικές Συντακτικές - Καθολικές αρχές/ Τυπολογία γλωσσών Language Typology - Κατάκτηση γλώσσας/ΨυχογλωσσολογίαPsycholinguistics - Κοινωνιογλωσσολογία Sociolinguistics

  6. Δευτερεύουσας σημασίας: -Σημασιολογία Semantics -Πραγματολογία Pragmatics -Ανάλυση λόγου DiscourseAnalysis ΑΜΦΙΣΗΜΙΑ ΑΠΟΔΕΚΤΗ

  7. ΦΩΝΗΤΙΚΗ/ΦΩΝΟΛΟΓΙΑ • μελέτη φθόγγων • ΜΟΡΦΟΛΟΓΙΑ • μελέτη μορφημάτων (ελάχιστων μονάδων λεξικής ή γραμματικής σημασίας δυσ-προ-φερ-το-ς • ΣΥΝΤΑΞΗ • μελέτη συνταγμάτων (συντακτικών δομών των λέξεων) • ΣΗΜΑΣΙΟΛΟΓΙΑ μελέτη σημασιών • ΠΡΑΓΜΑΤΟΛΟΓΙΑ • μελέτη τρόπων χρήσης γλώσσας για την επίτευξη στόχων • ΑΝΑΛΥΣΗ ΛΟΓΟΥ • μελέτη γλωσσικών μονάδων μεγαλύτερων των απλών εκφωνημάτων

  8. ΓΛΩΣΣΟΛΟΓΙΑ & ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ (NLP) (2) • Προσέγγιση NLP τα τελευταία 50 χρόνια: Υιοθέτηση γλωσσολογικών θεωριών και ΕΛΕΓΧΟΣ της υπολογιστικής αποτελεσματικότητας αυτών βάσει εκτεταμένων γλωσσικών δεδομένων με στόχο τη κατανόηση της φυσικής γλώσσας & τηνΑΡΣΗ ΤΗΣ ΑΜΦΙΣΗΜΙΑΣ(disambiguation)

  9. ΣΥΝΕΠΕΙΑ Έλεγχος του μοντέλου γλωσσολογικής ανάλυσης ως προς τη • κάλυψη του φαινομένου • ανθεκτικότητά του (αντιμετώπιση μη αναμενόμενων δεδομένων) • πολυπλοκότητα εφαρμογής του ως προς χώρο και χρόνο • επεκτασιμότητά του • προσαρμοστικότητά του • δυνατότητα συντήρησής του

  10. ΜΕΘΟΔΟΙ NLP & ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ • Βασισμένες στη γνώση rule/knowledge-based • Στατιστικές data-driven Μοντέλα και αλγόριθμοι από: -Επιστήμη των Η/Υ -Γλωσσολογία -Τεχνητή Νοημοσύνη -Λογική -Μαθηματικά -Ψυχολογία -Φιλοσοφία -Γνωσιακή Επιστήμη

  11. ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ NLP για ανάλυσηφωνητική, μορφολογική & συντακτική • Μηχανές Καταστάσεων: διαδικαστικές State machines: procedural Καταστάσεις – μεταπτώσεις μεταξύ καταστάσεων– Αναπαράσταση εισόδου • Αυτόματα Πεπερασμένων Καταστάσεων deterministic/non-deterministic FSA • Trasnducers? (FST) Πεπερασμένων Καταστάσεων • Αυτόματα με Βάρη Weighted Automata • Μοντέλα Markov • Κρυφά Μοντέλα Markov (ΗΜΜ)=Μοντέλα Markov εμπλουτισμένα με στοιχεία πιθανοτήτων

  12. ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ NLP για ανάλυσηφωνητική, μορφολογική & συντακτική B)Τυπικά συστήματα κανόνων :δηλωτικά Formal rule systems:declarative • Κανονικές Γραμματικές Regular Grammars & Κανονικές Σχέσεις Regular Relations • Αλγεβρικές Γραμματικές Context-Free Grammars • Γραμματικές Επαυξημένες με Χαρακτηριστικά? Feature-Augmented Grammars + παραλλαγές αυτών με στοιχεία πιθανοτήτων

  13. ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ NLP για ανάλυσησημασιολογική, πραγματολογική & λόγου Α) Λογική • Λογική Πρώτης Τάξης First Order Logic = Κατηγορηματικός Λογισμός Predicate Calculus • Δομές Χαρακτηριστικών Feature-Structures • Σημασιολογικά Δίκτυα Semantic Networks • Εννοιολογική Εξάρτηση Conceptual Dependency

  14. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 1 • Χρήση Η/Υ στη λογοτεχνική ανάλυση Literary & Linguistic Computing • Μηχανική Μετάφραση (ΜΜ) Machine Translation(ΜΤ) 17o αιώνα: πρόταση Descartes & Leibniz: Ανάγκη δημιουργίας λεξικών βασισμένων σε καθολικούς αριθμητικούς κώδικες

  15. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 2 -Μέσα 17ου αιώνα: Δημοσίευση παραδειγμάτων Cave Beck, Athanasius Kischer, Johann Becher -Kίνημα «Παγκόσμιας Γλώσσας» βασισμένης σε αρχές λογικής και εικονικά σύμβολα Interlingua του John Wilkins (1668) “Essay towards a Real Character & a Philosophical Language”

  16. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 3 18ος αιώνας – μέσα 20ου αιώνα: διάφορες προτάσεις για Παγκόσμια Γλώσσα Esperanto 1933: 2 πατέντες ανεξάρτητες α) Γαλλία: George Artsouni: αποθηκευτικό μηχάνημα σε χάρτινη ταινία όπου βρίσκεται το αντίστοιχο οποιασδήποτε λέξης σε άλλη γλώσσα 1937: επίδειξη πρωτοτύπου

  17. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 4 β) Ρωσία: P. Smirnov-Troyanski: 3 στάδια μηχανικής μετάφρασης: -ανθρώπινη ‘λογική’ ανάλυση των λέξεων της γλώσσας-πηγής στη βασική τους λημματική μορφή και καθορισμός των συντακτικών τους λειτουργιών -μηχανική μετατροπή των λημμάτων και συντακτικών λειτουργιών τους σε αντίστοιχη μορφή στη γλώσσα-στόχο -ανθρώπινη απόδοση στη γλώσσα-στόχο

  18. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 5 1949: W. Weaver, Ίδρυμα Rockfeller, Η.Π.Α Υπόμνημα: χρήση για Μηχανική Μετάφραση • μεταπολεμικών τεχνικών κρυπτογραφίας • στατιστικής ανάλυσης • θεωρία της πληροφορίας του Shannon • λογικής και καθολικών γλωσσικών χαρακτηριστικών

  19. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 6 • 1951:1ος full-time ερευνητής σε ΜΜ στο ΜΙΤ: Yehoshua Bar-Hillel • 1952: προτάσεις 1oυσυνεδρίου Μηχανικής Μετάφρασης: -σύνταξη -ελεγχόμενες γλώσσεςcontrolled languages -κατασκευή συστημάτων υπογλώσσας -αναγνώριση ανάγκης pre- & post-editing

  20. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 7 • 1956: Πρώτη δημόσια επίδειξησυστήματος ΜΜ (Georgetown University-ΙΒM): 49 προτάσεις Ρωσικά-Αγγλικά Λεξιλόγιο 250 λέξεων 6 γραμματικοί κανόνες -Μεγάλης κλίμακας κρατική χρηματοδότηση στις ΗΠΑ την επόμενη 10ετία - Νέα projects ΜΜ σε Ρωσία και Αγγλία

  21. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 8 • 1956-1966: πολλές ενεργές ομάδες: Α) εμπειρικές μέθοδοι δοκιμής-λάθους, συχνά στατιστικές, με στόχο άμεσα λειτουργικά συστήματα (brute-force) Β) θεωρητικές μέθοδοι βασικής γλωσσολογικής έρευνας, με στόχο μακροπρόθεσμες λύσεις (perfectionist)

  22. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 9 Παραδείγματα εμπειρικής προσέγγισης (pragmatically oriented): -Λεξικογραφική προσέγγιση Παν/μιο Washington (Seattle)IBM Ρωσικά-Αγγλικά/ Πολεμική Αεροπορία ΗΠΑ -Στατιστική engineering προσέγγιση RAND Corporation -Institute of Precision Mechanics Σοβ. Ένωση -National Physical Laboratory Αγγλία

  23. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 10 -Μεγαλύτερη όλων: Georgetown University Επιτυχημένο Ρωσο-Αγγλικό σύστημα, τυπικό των συστημάτων 1ης γενεάς ΜΜ ‘Direct’ translation: ζεύγος 2 γλωσσών με αυστηρά προκαθορισμένη κατεύθυνση από μια γλώσσα-πηγή σε μια γλώσσα-στόχο

  24. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 11 Παραδείγματα θεωρητικής προσέγγισης: -MIT -Παν/μιο Harvard -Παν/μιο Texas -Παν/μιο Καλιφόρνιας στο Berkeley -Institute of Linguistics Μόσχα -Παν/μιο Λένιγκραντ -Cambridge Language Research Unit (CLRU) -Παν/μιο Μιλάνου -Παν/μιο Grenoble

  25. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 12 Η έρευνα περιόδου 1956-1966 είναι σημαντικότατη, όχι μόνο για τη ΜΜ, μα κυρίως για την Υπολογιστική Γλωσσολογία και την Τεχνητή Νοημοσύνη (ανάπτυξη αυτοματοποιημένων λεξικών και τεχνικών συντακτικής ανάλυσης) Σημαντική συμβολή στη Γλωσσολογία

  26. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 13 Αποτυχία στις προσπάθειες δημιουργίας συστημάτων FAHQT Fully Automatic High Quality Translation 1960: Bar-Hillel (review of MT progress): “Σημασιολογικά εμπόδια στη ΜΜ μπορούν να ξεπεραστούν μόνο με τεράστιες ποσότητες εγκυκλοπαιδικής γνώσης για τον ‘πραγματικό κόσμο’” Πραγματολογία

  27. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 14 -Λιγότερο φιλόδοξοι στόχοι -ΜΑHΤ Machine-Aided Human Translation -HAMT Human-Aided Machine Translation Computer-aided Translation (CAT) Προοπτικές Μηχανικής Μετάφρασης ??? • 1966 Τελική ΈκθεσηAutomatic Language Processing Advisory Committee (ALPAC):

  28. ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 15 « ΜΜ πιο αργή, λιγότερο ακριβής & διπλάσια ακριβότερη της ανθρώπινης» «Δεν υπάρχουν άμεσες ή προβλέψιμες προοπτικές χρήσιμης ΜΜ» «Δημιουργία μηχανικών εργαλείων για μεταφραστές, π.χ. ηλεκτρονικών λεξικών» «Συνεχής υποστήριξη βασικής έρευνας Υπολ.Γλωσσολογίας» ΤΕΛΟΣ ΚΡΑΤΙΚΗΣ ΧΡΗΜΑΤΟΔΟΤΗΣΗΣ στις ΗΠΑ ΑΡΧΗ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ/NLP/ ΓΛΩΣΣΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ

  29. ΔΙΑΡΘΡΩΣΗ ΜΑΘΗΜΑΤΟΣ • ΛΕΞΗ: Φωνητική/Φωνολογία Μορφολογία Αλγόριθμοι επεξεργασίας: Πεπερασμένα Αυτόματα

More Related