mm machine translation mt n.
Skip this Video
Loading SlideShow in 5 Seconds..
Μηχανική Μετάφραση (MM) Machine Translation (MT) PowerPoint Presentation
Download Presentation
Μηχανική Μετάφραση (MM) Machine Translation (MT)

Loading in 2 Seconds...

  share
play fullscreen
1 / 66
Download Presentation

Μηχανική Μετάφραση (MM) Machine Translation (MT) - PowerPoint PPT Presentation

brit
195 Views
Download Presentation

Μηχανική Μετάφραση (MM) Machine Translation (MT)

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Μηχανική Μετάφραση (MM)Machine Translation (MT) 1960: Bar-Hillel (review of MT progress): “Σημασιολογικά εμπόδια στη ΜΜ μπορούν να ξεπεραστούν μόνο με τεράστιες ποσότητες εγκυκλοπαιδικής γνώσης για τον ‘πραγματικό κόσμο’” Πραγματολογία Αποτυχία στις προσπάθειες δημιουργίας συστημάτων Fully Automatic High Quality Translation (FAHQT)

  2. Ιστορική Ανασκόπηση 13 • Λιγότερο φιλόδοξοι στόχοι: ΜΑHΤ Machine-Aided Human Translation HAMT Human-Aided Machine Translation Computer-aided Translation (CAT) Προοπτικές Μηχανικής Μετάφρασης ??? • 1966 Τελική Αναφορά Αξιολόγησης της Automatic Language Processing Advisory Committee (ALPAC):

  3. Προοπτικές Μηχανικής Μετάφρασης ??? « ΜΜ πιο αργή, λιγότερο ακριβής & διπλάσια ακριβότερη της ανθρώπινης» «Δεν υπάρχουν άμεσες ή προβλέψιμες προοπτικές χρήσιμης ΜΜ» «Δημιουργία μηχανικών εργαλείων για μεταφραστές, π.χ. ηλεκτρονικών λεξικών» «Συνεχής υποστήριξη βασικής έρευνας Υπολ.Γλωσσολογίας» ΤΕΛΟΣ ΚΡΑΤΙΚΗΣ ΧΡΗΜΑΤΟΔΟΤΗΣΗΣ στις ΗΠΑ ΑΡΧΗ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ/NLP/ ΓΛΩΣΣΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ

  4. Βασικές ΣτρατηγικέςΣχεδίασης Α. Δίγλωσσο # /Πολύγλωσσο σύστημα (bilingual # multilingual) -Δίγλωσσο:1) μονής ή αμφίδρομης κατεύθυνσης (uni-directional # bi-directional) 2) αντιστρέψιμο # μη αντιστρέψιμο (reversible # non-reversible) Τεράστιες οι θεωρητικές και πρακτικές δυσκολίες κατασκευής αληθινά αντιστρέψιμου συστήματος (όπου η διαδικασία ανάλυσης της γλώσσας μπορεί να αντιστραφεί χωρίς αλλαγές για την παραγωγή κειμένου σε αυτή τη γλώσσα): τα περισσότερα δίγλωσσα συστήματα είναι στην ουσία δύο παρόμοια συστήματα μονής κατεύθυνσης που ‘τρέχουν’ στον ίδιο Η/Υ.

  5. Πολύγλωσσα συστήματα ΜΜ • Πολύγλωσσο: σύστημα μετάφρασης που περιλαμβάνει περισσότερες των 2 γλώσσες π.χ. -Project Ευρωπαϊκής Επιτροπής Eurotra (9 γλώσσες της ΕΕ προς όλες τις κατευθύνσεις: 72 ζεύγη γλωσσών) -Γλώσσα-πηγή: αγγλική προς 3 γλώσσες-στόχους (3 ζεύγη) -Γλώσσα-πηγή & στόχος: ιαπωνική, μετάφραση από και προς την αγγλική, γαλλική, γερμανική και ισπανική • Αληθινά πολύγλωσσο το σύστημα στο οποίο τα τμήματα ανάλυσης και παραγωγής παραμένουν σταθερά ανεξαρτήτως των γλωσσών που εμπλέκονται.

  6. Συστήματα Direct # Indirect Β. Επιλογή θεωρητικού γλωσσολογικού μοντέλου αναπαράστασης Direct (άμεσα)‘πρώτης γενεάς’ (1950-1960) Indirect (έμμεσα): Transfer-based ‘δεύτερης γενεάς’ (1960-1990) Interlingua-based • Άμεσα Συστήματα: Συστήματα ΜΜ από τη μεταφραστική διαδικασία των οποίων απουσιάζουν οποιουδήποτε είδους ενδιάμεσα στάδια. Η επεξεργασία του κειμένου της γλώσσας-πηγής οδηγεί απευθείας στο επιθυμητό κείμενο της γλώσσας-στόχου.

  7. Άμεσα Συστήματα • Κώδικας assembler/Διαγράμματα ροής (flow-charts) • Στοιχειώδης γλωσσολογική ανάλυση -μορφολογική ανάλυση γλώσσας-πηγής: επισήμανση καταλήξεων & λημματοποίηση -όχι συντακτική ή σημασιολογική ανάλυση -αναζήτηση τύπων σε δίγλωσσο λεξικό - κανόνες τοπικής αναδιάταξης της γλώσσας-στόχου Προφανή ανεπιτυχή αποτελέσματααπό έλλειψη συντακτικών σχέσεων: λανθασμένη/μη αποδεκτή λεξική επιλογή & μη αποδεκτά συντακτικά σχήματα.

  8. Modules Άμεσων Συστημάτων Άμεσο (direct) σύστημα ΜΜ source bilingual target language morphological dictionary local language input analysis look-up reordering output

  9. Διάγραμμα Ροής Άμεσου Συστήματος Μετάφραση των λέξεων much & many στη ρωσική 1(2,3) Is preceding word how? 2(0)skol’ko(numeral, invariable) 3(4,5) Is preceding word as? 4(0)stol ko ze(numeral, variable) 5(7,9) Is current word much? 6(0) Not to be translated (adverb) 7(6,11) Is preceding word very? 8(0)mnogiii (adjective, hard stem, with sibilant) 9(8,12) Is preceding word a preposition, and following word a noun? 10(0)mnogo (adverb) 11,(12,10) Is following word a noun? 12(0)mnogo (adverb

  10. Σύστημα METEO • Καναδικό σύστημα METEO, το οποίο, αν και είναι 2ης γενεάς (1976), διατηρεί το βασικό χαρακτηριστικό των άμεσων συστημάτων και ενεργοποιεί τη διαδικασία λεξικής μεταφοράς πριν από τη συντακτική ανάλυση, λόγω του περιορισμένου / εξειδικευμένου λεξιλογίου και τηλεγραφικού ύφους των μετεωρολογικών δελτίωνπου μεταφράζει.

  11. Έμμεσα Συστήματα • Διαγλώσσα (Interlingua):αφηρημένη αναπαράστασηανεξάρτητη συγκεκριμένης φυσικής γλώσσας -Κάθε ενότητα (module) του συστήματος είναι επίσης ανεξάρτητη των υπολοίπων ενοτήτων. -Σύνθεση του κειμένου στη γλώσσα-στόχο βάσει των δεδομένων του ενδιάμεσου αφηρημένου σταδίου αναπαράστασης: μεταφραστική διαδικασία 2 σταδίων: γλώσσα-πηγή  διαγλώσσα διαγλώσσα  γλώσσα-στόχο 1960-1970: Grenoble Γαλλίας: ρωσο-γαλλικό σύστημα διαγλώσσας CETA (με δίγλωσσο τμήμα λεξικής μεταφοράς): απογοητευτικά αποτελέσματα

  12. Συστήματα Διαγλώσσας (Interlingua) 1985-1993: σύστημα DLT ολλανδικής εταιρείας BSO: γαλλικά, γερμανικά, αγγλικά, ιταλικά με διαγλώσσατη γλώσσα Esperanto. (Harada 1986): ιαπωνικό σύστημα της εταιρείας NEC (Uchida 1988,1989): ιαπωνικό σύστημα της εταιρείας Fujitsu (Hobbs & Kameyama 1990): χρήση τύπων της προτασιακής λογικής/δομών κατηγορήματος-ορισμάτων 1980-1990: σύστημα Rosetta της ολλανδικής εταιρείας Phillips με διαγλώσσα τη γραμματική του Montague η οποία συνδέει σημασιολογικές ερμηνείες με συντακτικές σχέσεις (δέντρα αναπαράστασης) Σημερινά συστήματα διαγλώσσας είναι λιγότερο φιλόδοξα.

  13. Συστήματα Διαγλώσσας (Interlingua) 1982: Ευρωπαϊκή Επιτροπή: σύστημα Eurotra: προ-βιομηχανικό πρωτότυπο 2.500 λέξεων, επέκταση λεξιλογίου σε 20.000 λέξεις μέχρι 1990 1992 έκθεση Danzin: σπουδαία συμβολή στη βασική έρευνα Γλωσσικής Τεχνολογίας σε 12 χώρες (150 επιστήμονες) με τον καθορισμό ‘επιστημονικού πρωτοτύπου’, αλλά αποτυχία κατασκευής λειτουργικού συστήματος ΜΜ 1993: Έκθεση Oackley: Λήξη προγράμματος Σταύρου Μ. & Μ. Τζεβελέκου, 2000, Οι Γλωσσολογικές Προδιαγραφές του Συστήματος EUROTRA, Η Μηχανική Μετάφραση & η Ελληνική Γλώσσα, εκδ. Καστανιώτη

  14. Σύστημα Διαγλώσσας EUROTRA Αφομοίωση μεγαλύτερων σύγχρονων γλωσσολογικών θεωριών: • Γενετική-Μετασχηματιστική Γραμματική (Chomsky (1965, 1981) Generative-Transformational Grammar • Λεξική-Λειτουργική Γραμματική (Bresnan 1982) Lexical-Functional Grammar / LFG • Γενικευμένη Γραμματική Φραστικής Δομής (Gazdar et al. 1985) Generalized Phrase Structure Grammar / GPSG • Γραμματική των Εξαρτήσεων (Hudson 1984) Dependency Grammar

  15. Σύστημα Διαγλώσσας EUROTRA • Μετάφραση 2 μεταβάσεων: -από κείμενο-πηγή σε σημασιολογική αναπαράσταση -από σημασιολογική αναπαράσταση σε κείμενο-στόχο Στο σημασιολογικό επίπεδο η Δομή Διεπαφής (ΔΔ) των γλωσσών, απ’όπου έχουν αφαιρεθεί ιδιόμορφα στοιχεία: κοινή μορφή αναπαράστασης γλωσσών Κείμενο (γλώσσα Χ) → ΔΔ (γλώσσα Χ) → ΔΔ (γλώσσα Ψ) → κείμενο (γλώσσα Ψ)

  16. Σύστημα Διαγλώσσας EUROTRA ΕΙΣΟΔΟΣ (γλώσσα-πηγή) ΕΞΟΔΟΣ (γλώσσα-στόχος) ↓↑ ΚΑΝΟΝΙΚΟΠΟΙΗΜΕΝΟ ΚΕΙΜΕΝΟ ΚΑΝΟΝΙΚΟΠΟΙΗΜΕΝΟ ΚΕΙΜΕΝΟ ↓↑ ΜΟΡΦΟΛΟΓΙΚΗ ΔΟΜΗ /ΜΔ ΜΟΡΦΟΛΟΓΙΚΗ ΔΟΜΗ/ΜΔ ↓↑ ΣΥΣΤΑΤΙΚΗ ΔΟΜΗ/ΣΤΔ ΣΥΣΤΑΤΙΚΗ ΔΟΜΗ/ΣΤΔ ↓↑ ΣΥΣΧΕΤΙΣΤΙΚΗ ΔΟΜΗ/ΣΧΔ ΣΥΣΧΕΤΙΣΤΙΚΗ ΔΟΜΗ/ΣΧΔ ↓↑ ΔΟΜΗ ΔΙΕΠΑΦΗΣ — ΜΕΤΑΒΑΣΗ → ΔΟΜΗ ΔΙΕΠΑΦΗΣ

  17. Σύστημα Διαγλώσσας EUROTRA • Μορφολογική Δομή (ΜΔ): Αναγνώριση μορφημάτων ΚΑΝΟΝΑΣ ΠΕΡΙΓΡΑΦΗΣ ΔΟΜΗΣ ΟΥΣΙΑΣΤΙΚΩΝ Ουσιαστικό={συστατικό=λέξη, κατηγορία=ουσιαστικό, λέξημα=L, γένος=G, αριθμός=Ν, πτώση=C} [ {συστατικό=θέμα, κατηγορία=ουσιαστικό, λέξημα=L, γένος=G}, {συστατικό=κατάληξη, κατηγορία=κλιτικό μόρφημα, αριθμός=Ν, πτώση=C} ]

  18. Σύστημα Διαγλώσσας EUROTRA ΚΑΝΟΝΑΣ ΠΕΡΙΓΡΑΦΗΣ ΔΟΜΗΣ ΡΗΜΑΤΩΝ Ρήμα={συστατικό=λέξη, κατηγορία=ρήμα, λέξημα=L,αριθμός=Ν, πρόσωπο=P, χρόνος=Τ, όψη=Α} [ {συστατικό=θέμα, κατηγορία=ρήμα, λέξημα=L, όψη=Α}, {συστατικό=κατάληξη, κατηγορία=κλιτικό μόρφημα, αριθμός=Ν, πρόσωπο=P, χρόνος=Τ} ]

  19. Σύστημα Διαγλώσσας EUROTRA • Συστατική Δομή (ΣΤΔ): Ομαδοποιούνται οι λέξεις της πρότασης σε συστατικά τα οποία θα εισαχθούν σε σχέσεις εξάρτησης στο επόμενο επίπεδο, αυτό της ΣΧΔ. ΚΑΝΟΝΑΣ ΠΕΡΙΓΡΑΦΗΣ ΔΟΜΗΣ ΠΡΟΤΑΣΗΣ Μόνος υποχρεωτικός κόμβος: η ρηματική ομάδα Όλοι οι άλλοι κόμβοι είναι προαιρετικοί () ή εναλλασσόμενοι (;) Πρόταση={κατηγορία=πρόταση, διάθεση=D,χρόνος=Τ, όψη=Α, έγκλιση=Μ, φωνή=V}

  20. Σύστημα Διαγλώσσας EUROTRA [ στον κήπο ({κατηγορία=προθετική φράση, λειτουργία=επίρρημα}; {κατηγορία=επιρρηματική φράση};αύριο {κατηγορία=φράση προσδιοριστικού δείκτη, τύπος=ημερομηνία, πτώση=αιτιατική}; τη Δευτέρα {κατηγορία=πρόταση, τύπος=δευτερεύουσα}), {κατηγορία=φράση προσδιοριστικού δείκτη, πτώση=ονομαστική, πρόσωπο=P, αριθμός=Ν},

  21. Σύστημα Διαγλώσσας EUROTRA {κατηγορία=ρηματική ομάδα, διάθεση=D,χρόνος=Τ, όψη=Α, έγκλιση=Μ, πρόσωπο=P, αριθμός=Ν, φωνή=V}, *{κατηγορία=προθετική φράση, λειτουργία=συμπλήρωμα}, ({κατηγορία=φράση προσδιοριστικού δείκτη, πτώση=αιτιατική}, {κατηγορία=προθετική φράση, λειτουργία=συμπλήρωμα}; ({κατηγορία=πρόταση, έγκλιση=υποτακτική, τύπος=δευτερεύουσα}; {κατηγορία=πρόταση, τύπος=γερούνδιο}), ].

  22. Σύστημα Διαγλώσσας EUROTRA • Συσχετιστική Δομή (ΣΧΔ):με στοιχεία από LFG & DependencyGrammar. Πληροφορίες από το λεξικό ως προς πλαίσιο υποκατηγοριοποίησης 3 τύπων κατηγορημάτων (ρήμα, επίθετο ή πρόθεση). • Στοιχεία 3 τύπων: 1) κυβερνήτες=κατηγορήματα που ορίζουν εξαρτήσεις μέσα από το πλαίσιο υποκατηγοριοποίησης 2) συμπληρώματα=ορίσματα του πλαισίου υποκατηγοριοποίησης: Υποκείμενο, Αντικείμενο (άμεσο, έμμεσο, εμπρόθετο ή επιρρηματικό)

  23. Σύστημα Διαγλώσσας EUROTRA 3) προσαρτήματα=στοιχεία που δεν ανήκουν στο πλαίσιο υποκατηγοριοποίησης (επιρρηματικές, επιθετικές ή προθετικές φράσεις) (Συντακτική Λειτουργία: ΣΛ) Διάβασε το βιβλίο {κατηγορία = Πρόταση} {ΣΛ=κυβερνήτης, {ΣΛ=Υποκ.,... {ΣΛ=Αντικ.,... λεξ.μονάδα=διαβαζ, λεξ.μονάδα=κενό} λεξ.μονάδα=βιβλι} Κατηγορία=ρήμα,... Πλαίσιο Υποκατηγοριοποίησης=Υποκ-Αντικ}

  24. Σύστημα Διαγλώσσας EUROTRA • Δομή Διεπαφής (ΔΔ): Δομή εξάρτησης που απεικονίζει τις βαθιές συντακτικές σχέσεις. Κάθε φραστική κατηγορία αποτελείται από 1 πυρηνικό στοιχείο, τον κυβερνήτη, ο οποίος προαιρετικά ακολουθείται από εξαρτώμενα στοιχεία. Εξαρτώμενα στοιχεία: 3 ειδών: 1) Ορίσματα πλαισίου υποκατηγοριοποίησης κυβερνήτη [Ο Πέτρος] έδωσε [το βιβλίο] [στον Γιάννη]. 2) Προσαρτήματα προαιρετικής παρουσίας Ο Πέτρος έδωσε το βιβλίο στον Γιάννη [χθες]. 3) Διαπροτασιακά στοιχεία = στοιχεία προσανατολισμένα στον ομιλητή & ορίζονται με βάση το λόγο [Τέλος], θα αναφέρω ορισμένα συμπληρωματικά στοιχεία...

  25. Συστήματα Μετάβασης (Transfer) • ΣυστήματαΜετάβασης:Μεταφραστική διαδικασία σε 3 στάδια: 1) Ανάλυση κειμένου γλώσσας-πηγής σε όλα τα επίπεδα (έμφαση στην επίλυση αμφισημιών) και ενδιάμεση αναπαράσταση πληροφοριών ανεξαρτήτως γλώσσας-στόχου. 2) Μετατροπή αναπαραστάσεων λεξικών & συντακτικών πληροφοριών σε αντίστοιχες της γλώσσας-στόχου 3) Σύνθεση τελικών κειμένων γλώσσας-στόχου Τα προγράμματα ανάλυσης & σύνθεσης είναι ανεξάρτητα μεταξύ τους αλλά language-dependent.

  26. Σύστημα Μετάβασης SYSTRAN • Σύστημα SYSTRAN: Peter Toma, βασικός προγραμματιστής της ομάδας του Πανεπιστημίου Georgetown: σύστημα 1ηςγενεάς GAT (1960 επίδειξη) 1964: ανάπτυξη ρωσοαγγλικού συστήματος SYSTRAN στη Γερμανία 1968: ίδρυση εταιρείας LatsecInc. στη Καλιφόρνια για την ανάπτυξη του συστήματος προσαρμοσμένο στις ανάγκες της Αμερικανικής Πολεμικής Αεροπορίας. Χρηματοδότηση & χρήση SYSTRAN από NASA 1974-1975 (Apollo-Soyuz) 1976: εγκατάσταση ρωσοαγγλικού συστήματος σε οργανισμό Euratom, Ιταλία & συμβόλαιο με Επιτροπή Ευρωπαϊκών Κοινοτήτων ανάπτυξης αγγλο-γαλλικού συστήματος

  27. Σύστημα Μετάβασης SYSTRAN • SYSTRAN-EE: ανάπτυξη 18 ζευγών • 1976-1986: Ίδρυση ποικίλων εταιρειών ανάπτυξης και προώθησης SYSTRAN: Systran Institut (Γερμανία), World Translation Corporation (Καναδάς), Systran Corporation (Ιαπωνία) • 1986: Αγορά όλων των αμερικανικών και ευρωπαϊκών εταιρειών από γαλλική εταιρεία Gachot. Μόνο η Ιαπωνική IONA παραμένει ανεξάρτητη.Σύστημα προσβάσιμο στη Γαλλία μέσω δικτύου Μinitel (6-7 εκ.τερματικά τo 1996) • 2000: Αγορά από εταιρεία Gachot και του συστήματος SYSTRAN-EE που ανέπτυξε η Ευρωπαϊκή Επιτροπή στο Λουξεμβούργο.

  28. Λεξικά Συστήματος SYSTRAN-ΕΕ • Δύο είδη λεξικών: • (STEM Dictionary)Λεξικό μεμονωμένων όρων ή ιδιωματικών αμετάβλητων εκφράσεων: απόδοση σημασίας στη γλώσσα-στόχο ανεξάρτητα γλωσσικού περιβάλλοντος (πλέον συχνή χρήση) + 21 Θεματικοί κώδικες ορολογίας + Κώδικες ορολογίας χρηστών Κωδικοποίηση λήμματος: γραμματική κατηγορία, κλιτικό υπόδειγμα, κώδικας ομογραφίας, συντακτικοί & σημασιολογικοί κώδικες, πλαίσια υποκατηγοριοποίησης ουσιαστικών & ρημάτων Κώδικες Αγγλικής Ανάλυσης: γραμματικής υποκατηγοριοποίησης102, ομογραφίας 83, συντακτικοί 69, σημασιολογικοί 40 100.000 λήμματα αγγλικής ανάλυσης

  29. SYSTRAN-EE STEM Dictionary ΛΕΞΙΚΟ ENGANY 00 GREECE 1011 GN=(N,S) D 0 0 C$GRIEKENLAND 1000 4 0 0 SYN-GRP,HU F 0 0 C$GR2ECE 1000 1 0 SEM-COUNTR G 0 0 C$GRIECHENLAND1101 0 0 *GEOLOC H 0 0 C$ELLA’DA 10221110 *LOCATN, I 0 0 C$GRECIA 1000 10 GROUPS P 0 0 C$GR3ECIA 1000 3 10 *BEINGS S 0 0 C$GRECIA 1000 5 10 C0IN COMMON WITH 004R-IN.COMMON.WITH (Idiom Replace)

  30. SYSTRAN-EE STEM Dictionary ΛΕΞΙΚΟ ENGHEL 01 GREEK 1011 HMRTN=38,GN=(M,F,N,S) H00C$E’LLINAS1011120 41 GREEKS SYN-ABS,CT,HU,MS 8 ELLINJKO’ 1035100 SEM-NATLTY*HUMANS CDS-AP *BEINGS 00 GREEK 2020 HMRTN=38,GN=(S,P) H00 ELLINJKO’S2001100 SEM-NATLTY*HUMANS 7C$E’LLINAS 2032100 *BEINGS

  31. Λεξικά Συστήματος SYSTRAN-ΕΕ • (IDLS Dictionary) Λεξικό εκφράσεων & λεξικών/συντακτικών κανόνων οι οποίοι προσδιορίζουν την απόδοση στη γλώσσα-στόχο βάσει του γλωσσικού περιβάλλοντος της γλώσσας-πηγής 5 είδη λημμάτων: 1) Ονοματική Φράση χωρίς μετάφραση (Β) 2) Ονοματική Φράση με μετάφραση (C) 3) Κανόνας καθορισμού συντακτικής σχέσης συγκεκριμένων λέξεων (ParsingLimitedSemantics) 4) Κανόνας επίλυσης ομογραφίας (HomographLS) 5) Κανόνας σημασιολογικής επιλογής βάσει γλωσσικού περιβάλλοντος της γλώσσας-πηγής (ConditionalLS) 60.000 λήμματα αγγλικής ανάλυσης

  32. SYSTRAN-EE IDLS Dictionary • Εκφράσεις Β: B2GROWING DEMAND B2COMPUTER NODE B2SWITCHING SYSTEM 2) Εκφράσεις C: C2CROPPING PERIOD C2ADVANCED TECHNOLOGY C3INFORMATION TECHNOLOGY EQUIPMENT 3) 91REPORT $C-B1,E,4C REQUIREMENT $C-CW,WA $C-B0,-,2 RESPECT $C-CW,WB $C-PW,CW $C-B18,CH,00 $C-WA,CW $C-B28,CH,00 $C-PW,CW $C-B12,BN,80 $C-PW,CW,B30,B20 $C-WB,WA,B18,B28 Κανόνες PLS

  33. SYSTRAN-EE IDLS Dictionary In addition we re-emphasize the importance of keeping to deadlines and respecting reporting requirements $C-B18,CH,00$C-B28,CH,00 Ακύρωση σχέσης Ρήματος-Αντικειμένου: B18/B28 μεταξύ reporting & requirements Καθιέρωση νέου Aντικειμ για λέξη respecting: requirements Καθιέρωση σχέσης adnominal B30/B20 μεταξύ reporting & requirements Πριν από PLS: του σεβασμού εκθέτοντας τις απαιτήσεις Μετά από PLS: του σεβασμού των απαιτήσεων έκθεσης

  34. SYSTRAN-EE IDLS Dictionary 4) Κανόνες HLS: C8MEETING $C-B137,E,20 QUALITY CRITERIUM $C-HMPOS=4C Meeting quality criteria alone does not guarantee support. Πριν από HLS: Ποιοτικά κριτήρια συνεδρίασης μόνο δεν εγγυώνται την υποστήριξη. Μετά από HLS: Η ικανοποίηση των ποιοτικών κριτηρίων μόνο δεν εγγυάται την υποστήριξη.

  35. SYSTRAN-EE IDLS Dictionary 5) Κανόνες CLS: 41APPLICATION $C-TG=P $C-ADNOM30 $PROCEDURE: ΥΠΟΒΟΛΗ ΥΠΟΨΗΦΙΟΤΗΤΑΣ 41ASPECT $C-B24 $OF $C-B18 $PROCEDURE: ΠΤΥΧΗ …in response to requests to simplify and clarify certain aspects of the application procedures Πριν από CLS:πλευρές των διαδικασιών εφαρμογής Μετά από CLS: πτυχές των διαδικασιών υποβολής υποψηφιότητας

  36. Περιγραφή συστήματος SYSTRAN • Δύο είδη προγραμμάτων: • βασικά λειτουργικά, ανεξάρτητα των φυσικών γλωσσών του συστήματος, γραμμένα σε assembler: προγράμματα επεξεργασίας δεδομένων εισόδου, πρόσβασης στα λεξικά του συστήματος & ελέγχου σταδίων μετάφρασης b)μετάφρασης, κατανεμημένα σε ξεχωριστές ενότητες: ανάλυσης, μετάβασης & σύνθεσης, γραμμένα σε ειδική μακρο-γλώσσα (Systran Programming Language)

  37. Περιγραφή συστήματος SYSTRAN • Αναπαράσταση όλων των πληροφοριών μιας λέξης του κειμένου-πηγής ως σύνολο 192 ψηφιολέξεων (bytes): Σε κάθε λέξη της μεταφραστικής ενότητας αντιστοιχεί μια δέσμη ψηφιολέξεων (byte area). Σε κάθε ψηφιολέξη αποθηκεύεται συγκεκριμένος τύπος πληροφορίας, που εντοπίζεται από το λεξικό και από κάθε διαδοχικό στάδιο επεξεργασίας. The Greek Ministry and the Commission organized a SYSTRAN demonstration on July 7th 1993, and showed that machine translation is very useful.

  38. Περιγραφή συστήματος SYSTRAN Byte area της λέξης MINISTRY: 03 1010 MINISTRY PLURALR MN-ΥΠΟΥΡΓΕΙΟ 002-..21…10. 010-.128002B2B5 016- . . . . 020-……01.. 029-…..25. . 037-. 01 . . . . 043-0631.. 047-06.08…. 056-.E42103 084-4002B2AB02 090-59..02 094-B249F0 103-…01.07 111-03. . . 0207 117-. . . . 121-. . . . . 08 130-. . . . . . . .138-. . F1 . . . 144-. . . . 148-8002..80 157-02B2C5. 165-. . . . . . 171-. . . . 175. . . . . . . . 184-.01011C LSNUM:00C4D5 BASIC FORM:MINISTRY SEM=BEINGS, ENPRIS, GROUP TG-0 50000021 ΥΠΟΥΡΓΕΙΟ MNCDS 0-0000000400 0000000000

  39. Στάδια επεξεργασίας SYSTRAN ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ Α. ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ • Καθορισμός μεταφραστικών ενοτήτων (προτάσεων) • Ανίχνευση λέξεων κειμένου σε λεξικό εκφράσεων • Ανίχνευση λέξεων κειμένου σε βασικό λεξικό • Μορφολογική Ανάλυση Β. ΑΝΑΛΥΣΗ • Επίλυση ομογράφων • Αναγνώριση & χαρακτηρισμός κυρίων & δευτερευουσών προτάσεων • Αναγνώριση των επιφανειακών συντακτικών δομών • Αναγνώριση παρατακτικών δομών • Καθορισμός κατηγορηματικών σχέσεων

  40. Στάδια επεξεργασίας SYSTRAN Γ. ΜΕΤΑΒΑΣΗ (Στάδιο συγκριτικής μελέτης) • Ενεργοποίηση κανόνων λεξικής μετάβασης που έχουν κωδικοποιηθεί βάσει του γλωσσικού περιβάλλοντος της γλώσσας-πηγής (IDLS) • Μετάφραση προθέσεων βάσει γλωσσικού περιβάλλοντος • Ενεργοποίηση λεξικών ρουτινών μετάφρασης μεμονωμένων λέξεων ή λεξικών ομάδων με ειδικά χαρακτηριστικά (π.χ. απόδοση αγγλικής ημερομηνίας στα ελληνικά, μετάφραση συγκεκριμένων αντωνυμιώνboth, one, own, μετάφραση επιθέτων εθνικότητας) – 28 ρουτίνες στο αγγλοελληνικό σύστημα το 1994

  41. Στάδια επεξεργασίας SYSTRAN Δ. ΣΥΝΘΕΣΗ • Απόδοση μεμονωμένων λέξεων & εκφράσεων στη γλώσσα-στόχο • Μορφολογική σύνθεση στη γλώσσα-στόχο • Αναδιάταξη: τοποθέτηση των λέξεων σύμφωνα με τους κανόνες σειράς όρων πρότασης στη γλώσσα-στόχο Ε. ΤΕΛΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ • Αποκατάσταση αρχικής μορφής κειμένου ΕΞΑΓΩΓΗ ΜΕΤΑΦΡΑΣΘΕΝΤΟΣ ΚΕΙΜΈΝΟΥ

  42. Άλλα Συστήματα Μετάβασης 2ης γενεάς • Αρχετυπικό σύστημα 2ης γενεάς, πρωτοποριακό για την εποχή του:GETA-Ariane: μετά την αποτυχία του συστήματος διαγλώσσας CETA από την ομάδα του Πανεπιστημίου της Grenoble(Bernard Vauquois): 1971, GETA (Groupe d’Etudes pour la Traduction Automatique): σύστημαμετάβασης Ariane. • Κυρίως Ρωσικά-γαλλικά, επίσης γερμανικά-γαλλικά & ενίοτε πορτογαλικά, μαλαισιανά, ιαπωνικά & κινεζικά • Mεγάλη επιρροή στους χώρους ΜΜ μεταξύ ’60 & ‘80 (πολλά ιαπωνικά συστήματα παρόμοιας σχεδίασης, ειδικά το σύστημα Mu του Πανεπστημίου του Κυότο, το οποίο επηρέασε αρκετά εμπορικά ιαπωνικά συστήματα). Ariane-78, Ariane-85, Ariane-G5

  43. Σύστημα Μετάβασης Ariane-78 • Διαχωρισμός ανάλυσης-σύνθεσης σε 2 ενότητες: μορφολογική & συντακτική ανάλυση • Μετάβαση 2 φάσεων: λεξική & δομική • Αυστηρός διαχωρισμός γλωσσολογικής & αλγοριθμικής γνώσης σε κάθε στάδιο • Αληθινά πολύγλωσσο σύστημα: επαναχρησιμοποίηση προγραμμάτων ανάλυσης & σύνθεσης για νέες γλώσσες-πηγές ή στόχους. • Πολυ-επίπεδες δομές οι οποίες συνδυάζουν σχέσεις εξάρτησης με δομές συστατικών σε επιφανειακό και βαθύ επίπεδο. • Ανεπαρκής σημασιολογική ανάλυση • Σύστημα πειραματικό με μικρές λεξικές βάσεις δεδομένων(μοναδική δοκιμή μεγάλης έκτασης: 7.000 ρωσικές λεξικές μονάδες διαστημικής επιστήμης & μεταλλουργίας)

  44. Σύστημα Μετάβασης Ariane-78 source text target text character string character string ↓↑ MORPHOLOGICAL ATEFSYGMOR MORPHOLOGICAL ANALYSIS GENERATION ↓↑ flat labelled tree surface representation of ROBRA target string ↓↑ MULTILEVEL SYNTACTIC ANALYSIS GENERATION ↓↑ intermediate source TRANSF intermediate target structure structure ↓↑ LEXICAL TRANSFER → source structure with → STRUCTURAL TRANSFER target LUs

  45. Σύστημα Μετάβασης METAL • Γερμανικά-αγγλικά • 1959-1979: Linguistics Research center (LRC) του Πανεπιστημίου του Τέξας, Austin – Στρατός ΗΠΑ, Πολεμική Αεροπορία ΗΠΑ • Εξερεύνηση προσέγγισης διαγλωσσικής, όπως CETA-Grenoble. • 1978: Εταιρεία Siemens Μονάχου: Αλλαγή προς σύστημα μετάβασης • 1989: Πρώτο εμπορικό σύστημα, για μεγάλες εταιρείες • Και αυτό το σύστημα αρχικά σχεδιασμένο για mainframe (Symbolics 36-series Lisp machines on workstations: Siemens SINIX-based machines MX-2/300/500)

  46. Σύστημα Μετάβασης METAL • Αγγλικά-γερμανικά (LRC), ολλανδικά ↔γαλλικά(Πανεπιστήμιο του Leuven, Βέλγιο), γερμανικά → ισπανικά (Πανεπιστήμιο της Βαρκελώνης), γαλλικά, δανικά(Handelshøjskole Syd, Kolding Δανίας) • Κλασικά στάδια επεξεργασίας • Μονόγλωσσα λεξικά χρησιμοποιούμενα και για την ανάλυση και τη σύνθεση • Δίγλωσσα: μονής κατεύθυνσης ανάλογα με γλωσσικό ζεύγος • Μορφολογικές, συντακτικές & σημασιολογικές πληροφορίες στο λεξικό υπό μορφή λίστας ζευγών (χαρακτηριστικό, τιμή)

  47. Σύστημα Μετάβασης METAL • Γραμματικές του συστήματος: μη ταξινομημένα σύνολα κανόνων φραστικής δομής ανεξάρτητων περιβάλλοντος, επαυξημένων με τεστ και συνθήκες καθώς και με προδιαγραφές επιδιωκόμενων δομών εξόδου. • Κανόνες = Λειτουργίες Lisp • Φιλικές εφαρμογές διεπαφής: -Τέλειο αλληλεπιδραστικό expert system για τη δημιουργία των λεξικών (Intercoder) - συγγραφής της γραμματικής του συστήματος (Metalshop syntax development tool)

  48. Σύστημα Μετάβασης METAL • Τάσεις για διαγλωσσική συντακτική ανάλυση με κλασική δίγλωσση λεξική μετάβαση • Μη αντιστρέψιμα τα διαφορετικά τμήματα του συστήματος (ανάλυσης, σύνθεσης) • Πλέον των 20 οργανισμών οι χρήστες του συστήματος (ελβετική μεταφραστική εταιρεία Compulex, Philips Kommunikations-Industrie AG)

  49. Πειραματικό σύστημα μετάβασης SUSY • 1967-1986:Πανεπιστήμιο του Saarlandes στη Saarbrücken Γερμανίας: έμφαση στην ανάλυση και σύνθεση των γερμανικών σε συνδυασμό με αγγλικά, ρωσικά, γαλλικά • Μετά το 1986 η έρευνα συγχωνεύθηκε με το έργο Eurotra. • Fortran: Δομές δέντρων εξάρτησης (Dependency tree structures) • Ιδιαίτερα αρθρωτή αρχιτεκτονική, με διάσπαση της μεταφραστικής διαδικασίας σε υπο-ενότητες αυστηρής σειράς • Δυσδιάκριτος διαχωρισμός γλωσσολογικών & αλγοριθμικών ενοτήτων

  50. MM: 1966-1980 • Όλη η δραστηριότητα εστιασμένη σχεδόν αποκλειστικά στην αυτόματη μηχανική μετάφραση με ανθρώπινη παρέμβαση είτε πριν από (προεπεξεργασία κειμένου:pre-editing/ελεγχόμενη γλώσσα:controlled language), είτε κατά τη διάρκεια (διαδραστική επίλυση προβλημάτων) είτε μετά (post-editing) την μεταφραστική διαδικασία HAMT • Σχεδόν όλη η ερευνητική προσπάθεια αφιερωμένη στην εξερεύνηση μεθόδων γλωσσικής ανάλυσης και σύνθεσης βάσει παραδοσιακών rule-based μοντέλων μετάβασης& διαγλώσσας.