1 / 46

Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)

Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics). Στόχος της γλωσσολογικής επιστήμης : χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων Κατάκτηση, παραγωγή & κατανόηση γλώσσας (γνωσιακή πλευρά) Κατανόηση σχέσης γλωσσικών σημείων & πραγματικότητας Κατανόηση γλωσσικών δομών επικοινωνίας.

trevina
Download Presentation

Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Γλωσσολογία Σωμάτων Κειμένων(Corpus Linguistics) Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων • Κατάκτηση, παραγωγή & κατανόηση γλώσσας (γνωσιακή πλευρά) • Κατανόηση σχέσης γλωσσικών σημείων & πραγματικότητας • Κατανόηση γλωσσικών δομών επικοινωνίας

  2. Κατανόηση γλωσσικών δομών Κανόνες Δόμησης γλωσσικών εκφράσεων (2.000 χρόνια) Κρατύλος Πλάτωνα: τέχνη γραμματική Διονύσιος ο Θραξ 100 π.Χ. Γραμματική Καθορισμός ορθών-λανθασμένων εκφωνήσεων περιγραφή νόρμας

  3. Στατιστική προσέγγιση ‘All grammars leak” Edward Sapir 1921 Δυναμικός χαρακτήρας γλώσσας: παραβίαση κανόνων για λόγους επικοινωνιακούς Ποιά είναι τα κοινά σχήματα που εμφανίζονται στη χρήση της γλώσσας; Κύριο εργαλείο εντοπισμού: καταμέτρηση Στατιστική προσέγγιση

  4. Ρασιοναλιστικές#Εμπειριοκρατικές Προσεγγίσεις στη Γλώσσα • 1960-1985 ρασιοναλισμός στη Γλωσσολογία, Ψυχολογία, Τεχνητή Νοημοσύνη, Επεξεργασία Φυσικής Γλώσσας (NLP) Μεγάλο τμήμα της γνώσης στον ανθρώπινο εγκέφαλο καθορισμένο εκ των προτέρων μέσω της γενετικής κληρονομικότητας Noam Chomsky: εγγενής γλωσσική ικανότητα ως τμήμα του ανθρώπινου γενετικού κώδικα AI: ευφυή συστήματα (κωδικοποίησης αρχικής γνώσης και μηχανισμών λογικής ανάλυσης κατ’αναπαράσταση ανθρώπινου εγκεφάλου)

  5. Εμπειριοκρατία • 1920-1960 εμπειριοκρατία δέχεται γνωστικές ικανότητες του εγκεφάλου μα σε μικρότερο βαθμό Μάθηση: αδύνατη από κατάσταση tabula rasa Αρνείται την ύπαρξη λεπτομερών συνόλων αρχών και διαδικασιών όπως θεωρίες μορφολογικής δομής. Δέχεται την ύπαρξη γενικών λειτουργιών σύνδεσης, αναγνώρισης σχημάτων & γενικεύσεων εφαρμοζόμενων κατά την επεξεργασία του πλούσιου αισθητηριακού υλικού της παιδικής ηλικίας

  6. Εμπειριοκρατία και NLP • Επανεμφάνιση από 1985 Εκμάθηση πολύπλοκης και εκτενούς δομής γλώσσας μέσω καθορισμού γενικού μοντέλου και κατόπιν επαγωγική απόδοση αξιών στις παραμέτρους μέσω της εφαρμογής -σε εκτεταμένα ποσά γλωσσικής χρήσης- στατιστικών μεθόδων, μεθόδων αναγνώρισης σχημάτων και μεθόδων εκπαίδευσης μηχανών

  7. Στατιστική NLP Χρήση σώματος κειμένων ως υποκατάστατο γλώσσας σε πραγματικό περιβάλλον Corpus-based approach • “You shall know a word by the company it keeps” J. R. Firth (1957)in “A synopsis of linguistic theory 1930-1955” • Post-Bloomfieldians, i.e. Zellig Harris 1951 Methods in Structural Linguistics Ανακάλυψη διαδικασιών για την αυτόματη ανακάλυψη της γλωσσικής δομής

  8. Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών • Ρασιοναλιστές (Chomskyan/Generative) Περιγραφή της εσωτερικής γλώσσας (I-language), στον ανθρώπινο εγκέφαλο (Λόγος), για την οποία λαμβάνουμε έμμεσα δεδομένα από την εξωτερική γλώσσα (E-language) (Ομιλία), κείμενα κ.λπ. • Εμπειριοκράτες Περιγραφή της εξωτερικής γλώσσας όπως αυτή εμφανίζεται

  9. Λόγος # Ομιλία • Λόγος (ενδιάθετος) (langue): η εσωτερικευμένη, ασυνείδητη εν πολλοίς, γνώση ενός συστήματος επικοινωνίας, μόνιμης σταθερής υφής: • Ομιλία (parole): Φωνούμενος λόγος: πράξη συνειδητή, πρακτική εφαρμογή της γνώσης της γλώσσας για την πλήρωση συγκεκριμένης επικοινωνιακής ανάγκης= φυσική πραγματικότητα περιστασιακού χαρακτήρα, προσιτή στις αισθήσεις (δυνατή να καταγραφεί): Saussure (Μπαμπινιώτης 1980)

  10. Γενετική Μετασχηματιστιστική Γλωσσολογία • Chomsky Syntactic Structures 1957 Aspects of the Theory of Syntax 1965 Γλωσσική ικανότητα (Linguistic Competence) #Γλωσσική πλήρωση/εφαρμογή (Linguistic Performance)

  11. Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών • Ρασιοναλιστές: Είναι δυνατόν να απομονώσουμε και να περιγράψουμε τη γλωσσική ικανότητα Β΄ φάση Τεχνητής Νοημοσύνης (1970-1989): Απομόνωση μικρών προβλημάτων, κατασκευή μικρών συστημάτων (toy systems) που λειτουργούσαν ευφυώς • Σύγχρονοι εμπειριοκράτες: έμφαση σε πρακτικές λύσεις βάσει ακατέργαστων κειμένων Στατιστική NLP βάσει του έργου του Shannon: απόδοση πιθανοτήτων σε γλωσσικά γεγονότα βάσει συχνότητας

  12. Γραμματικές#Μη-γραμματικές προτάσεις Παραδοσιακή γλωσσολογία (δομιστική ή μετασχηματιστική): κατηγορηματική περιγραφή γλωσσικής ικανότητας που αποτελεί τη βάση της γλώσσας (competence grammar) Colorless green ideas sleep furiously Γραμματικά ορθή

  13. Δυναμικός χαρακτήρας γλώσσας • Πραγματικότητα: μη κατηγορηματική • Δυναμική συμπεριφορά της γλώσσας John I believe Sally said Bill believed Sue saw While: ουσιαστικό έως 1742: take a while σύνδεσμος (complementizer) από 1742

  14. Γλωσσική εξέλιξη Η γλωσσική εξέλιξη είναι γενικά βαθμιαία • Ανακάλυψη λεπτομερειών αλλαγής μέσω της εξέτασης της συχνότητας χρήσης • Ανάγκη στατιστικών και όχι κατηγορηματικών παρατηρήσεων • Στατιστική ανάλυση καλύπτει καλύτερα μη κατηγορηματικά φαινόμενα (π.χ. γλωσσική εξέλιξη)

  15. Πιθανοτικές προσεγγίσεις 1 • Ανθρώπινη γνώση: πιθανοτική Γλώσσα πρέπει να είναι πιθανοτική όντας αναφαίρετο τμήμα της γνώσης • Γνωσιακές διαδικασίες για τη γλώσσα: παρόμοιες με αυτές που χρησιμοποιούνται για την επεξεργασία άλλων ειδών αισθητηριακών δεδομένων

  16. Πιθανοτικές προσεγγίσεις 2 • Σκεπτικισμός σχετικά με πιθανοτικά μοντέλα (1940-1960): υπερβολικά απλοϊκά • Σύνθετα πιθανοτικά μοντέλα συλλαμβάνουν την αβεβαιότητα και ατέλεια που χαρακτηρίζουν τη νόηση και γλώσσα ειδικότερα • Στατιστική NLP & σημασία “The meaning of a word is defined by the circumstances of its use” Wittgenstein 1968

  17. Γλωσσικοί Πόροι • Κείμενα σε ηλεκτρονική μορφή • Ηλεκτρονικά Λεξικά • Θησαυροί • Προφορικό Υλικό (speech corpora) • Εργαλεία επεξεργασίας τους

  18. Σώματα Κειμένων 1 • Brown corpus (Πανεπιστήμιο Brown 1960-1980) 1.000.000 λέξεις γραπτής Αμερικανικής Αγγλικής γλώσσας Ισορροπημένο σώμα κειμένων (αντιπροσωπευτικό της γλωσσικής πραγματικότητας σε δεδομένη χρονική περίοδοπ.χ. 1961)

  19. Brown corpus • Many_DT0 people_NN0 with_PRP AIDS_NN1 have_VHB to_TO0 spend_VVI long_AJ0 periods_NN2 of_PRF time_NN1 in_PRP hospital_NN1 unless_CJS there_EX0 is_VBZ someone_PNI at_PRP home_NN1 who_PNQ can_VM0 help_VVI and_CJC look_VVI after_CJS them_PNP ._. • ACET_NP0 volunteers_NN2 work_NN1 as_CJS part_NN1 of_PRF a_AT0 team_NN0 and_CJC provide_VVB help_NN1 in_PRP many_DT0 different_AJ0 ways_NN2 to_TO0 ensure_VVI that_CJT people_NN0 do_VDB n't_XX0 spend_VVI time_NN1 in_PRP hospital_NN1 unnecessarily_AV0 ._. • How_AVQ much_DT0 time_NN1 to_PRP I_PNP need_NN1 to_TO0 give_VVI ?_? • The_AT0 simple_AJ0 answer_NN1 is_VBZ as_AV0 much_AV0 or_CJC as_AV0 little_AJ0 as_CJS you_PNP feel_VVB able_AJ0 to_TO0 give_VVI ._.

  20. Σώματα Κειμένων 2 • Lancaster-Oslo-Bergen (LOB) corpus Βρετανική Αγγλική • Susanne coprus 130.000 λέξεις του Brown corpus χαρακτηρισμένες ως προς συντακτική λειτουργία • Penn Treebank > Wall Street Journal: συντακτικά χαρακτηρισμένο σώμα http://www.cis.upenn.edu/~treebank/home.html

  21. Penn Treebank (POS Tagging) • SpeakerB3/SYM ./. Well/UH what/WP do/VBP you/PRP think/VB about/IN the/DT idea/NN of/IN ,/, uh/UH ,/, kids/NNS having/VBG to/TO do/VB public/JJ service/NN work/NN for/IN a/DT year/NN ?/. Do/VBP you/PRP think/VBP it/PRP 's/BES a/DT ,/,

  22. Penn Treebank (Syntactic Bracketing) • ( (CODE SpeakerB3 .)) ( (SBARQ (INTJ Well) (WHNP-1 what) (SQ do (NP-SBJ you) (VP think (NP *T*-1) (PP about (NP (NP the idea) (PP of , (INTJ uh) , (S-NOM (NP-SBJ-2 kids) (VP having (S (NP-SBJ *-2) (VP to (VP do (NP public service work)))) (PP-TMP for (NP a year))))))))) ? E_S))

  23. Σώματα Κειμένων 3 • Canadian Hansards Καναδικό Κοινοβούλιο Γνωστότερο παράδειγμα δίγλωσσου σώματος παράλληλων μεταφρασμένων κειμένων (γαλλικά-αγγλικά): στατιστική Μηχανική Μετάφραση

  24. Βασικοί προμηθευτές αγγλικών σωμάτων κειμένων • Linguistic Data Consortium (LDC) http://www.ldc.upenn.edu • European Language Resources Association http://www.icp.grenet.fr/ELRA/ • International Computer Archive of Modern English (ICAME) http://nora.hd.uib.no/icame.html

  25. Βασικοί προμηθευτές σωμάτων κειμένων της Αγγλικής • Oxford Text Archive (OTA) http://ota.ahds.ac.uk • Child Language Data Exchange System (CHILDES) http://childes.psy.cmu.edu/

  26. Σώμα Κειμένων (text corpus) Ιδιαίτερη συλλογή κειμενικού υλικού το οποίο έχει επιλεγεί σύμφωνα με συγκεκριμένα κριτήρια π.χ. Brown coprus δεν περιέχει ποίησηαλλά κείμενα σε αναλογία προς βαθμό δημοσίευσής τους: άρθρα εφημερίδων, λογοτεχνία, επιστημονικά κείμενα, νομικά κείμενα κ.λπ. (Francis & Kucera 1982)

  27. Eθνικός Θησαυρός Ελληνικής Γλώσσας (ΙΕΛ)http:// hnc.ilsp.gr • Περισσότερες από 34.000.000 λέξεις, με συνεχή εμπλουτισμό. • Επιλεγμένα, έτσι ώστε να αντικατοπτρίζουν την πραγματική εικόνα της σύγχρονης γλώσσας από το 1990 και μετά. Αποφεύγονται τα κείμενα με διαλεκτικές ή άλλες ιδιαιτερότητες και προτιμώνται κείμενα με υψηλή αναγνωσιμότητα (εφημερίδες μεγάλης κυκλοφορίας, βιβλία με υψηλές πωλήσεις κτλ). • Προφορικός λόγος δεν έχει περιληφθεί στην παρούσα έκδοση του Σώματος • Στοιχεία κατηγοριοποίησηςΚατάταξη των κειμένων σε καθορισμένες κατηγορίες, με βάσηα) το μέσο δημοσίευσής τους,β) το γένος / κειμενικό είδος στο οποίο ανήκουν καιγ) το θέμα / περιεχόμενό τους.

  28. α) Ταξινόμηση με βάση το μέσο δημοσίευσης • Βιβλία: κάθε είδους βιβλίο • Εφημερίδες: ημερήσιες ή εβδομαδιαίες εφημερίδες • Περιοδικά: εβδομαδιαίες, δεκαπενθήμερες, μηνιαίες κτλ εκδόσεις • Αδιευκρίνιστο: κάθε είδους κείμενα, που δεν εντάσσονται στις παραπάνω κατηγορίες:-κείμενα σχεδιασμένα για το διαδίκτυο ή άλλα ηλεκτρονικά μέσα-διαφημιστικά ή ενημερωτικά φυλλάδια, προσπέκτους-δακτυλογραφημένο υλικόπ.χ.αναφορές, αιτήσεις, νομικά κείμενα, πρακτικά, ανακοινώσεις

  29. β) Ταξινόμηση με βάση το γένος/κειμενικό είδος1 ΕΙΔΟΣ ΠΕΡΙΓΡΑΦΗ ΠΑΡΑΔΕΙΓΜΑ • Βιογραφία προσωπική ζωή και καθημερινότητα«Μάης 36: Αναμνήσεις βιογραφίες, αυτοβιογραφίες, βιογραφικάενός πρωταγωνιστή» • Γνώμη βασικά άρθρα του τύπου, επιφυλλίδες, «Υπολογιστές στην κριτικές,μόνιμες στήλες, δοκίμια, εκπαίδευση: πώς και επιστημονικές ανακοινώσεις, γιατί» διατριβές, επιστημονικά βιβλία, στήλες με υποκειμενικά σχόλια, χιουμοριστικό ή χρονογραφικό περιεχόμενο, παράθεση άρθρων άλλων εντύπων και γενικότερα κείμενα που εκφράζουν κάποια υποκειμενική άποψη • Διαφήμιση διάφορα διαφημιστικά κείμενα, φυλλάδια, «Το Ίδρυμα Ελληνικού σποτ καθώς και κάθε κείμενο που Πολιτισμούεξορμά σε προαναγγέλλει εκδηλώσειςΑμερική και Ευρώπη»

  30. β) Ταξινόμηση με βάση το γένος/κειμενικό είδος • Επίσημα κείμενανομικά κείμενα, διοικητικές αναφορές, «Σύνταγμα της Ελλάδας» αξιολογήσεις,πρακτικά της Βουλής, αποσπάσματα από την Εφημερίδα της Κυβερνήσεως, αιτήσεις, επίσημες επιστολές • Ιδιωτικά κείμεναπροσωπικές επιστολές, ημερολόγια«Μονόλογος οργής και απόγνωσης» • Λογοτεχνίαλογοτεχνικά έργα, σενάρια, παραμύθια «Η μητέρα του σκύλου» • Πληροφόρησηκείμενα πληροφοριακού χαρακτήρα«Ταχύπλοα: Διασκέδαση (ειδήσεις,ρεπορτάζ, ανταποκρίσεις, μεκανόνες» ερωτηματολόγια, δελτία καιρού/ειδήσεων, δημοσκοπήσεις, επίσημες αναφορές, εγχειρίδια, τουριστικοί οδηγοί, βιβλιογραφικοί πίνακες, εγκυκλοπαίδειες, διδακτικά βιβλία • Συζήτησησυζητήσεις, ομιλίες, συνεντεύξεις,«Η ιστορική συνέντευξη επιστολές,άρθρα που εμφανίζονταιστο ABC» με τη μορφή επιστολής (όλα σε γραπτό λόγο) • Αδιευκρίνιστοκείμενα που δεν εντάσσονται σε καμία από τις παραπάνω κατηγορίες 

  31. γ) Ταξινόμηση με βάση το περιεχόμενο • Ασχολίες Ελεύθερος Χρόνος, Αθλητισμός, «Μπράβο Σπόρτινγκ!» Τηλεόραση, Αυτοκίνητο, Μοτοσυκλέτα, Αγορές, Κατοικία, Αστρολογία, Μόδα • Γεωγραφία Ταξίδια, Πόλεις, Ανθρωπολογία, «Οι παγίδες στα Λαογραφία λιμάνια του Αιγαίου» • Επιστήμη Τεχνολογία, Μαθηματικά, «Η Ανθρακική Περιβάλλον-Οικολογία, Διάστημα Πλατφόρμα Παρνασσού κατά το ανώτερο Ιουρασικό-κατώτερο Κρητιδικό: Στρωματογραφική διάρθρωση και Παλαιογεωγραφική εξέλιξη» • Επιχειρήσεις Επιχειρήσεις, Οικονομία, Διαφήμιση «Πονοκέφαλος ύψους 1,5 τρισ.»

  32. Ταξινόμηση με βάση το περιεχόμενο • Ιστορία Ιστορία, Αρχαιολογία, Ιστορία Τέχνης, «Ένα ταξίδι στην ιστορία Βιογραφίες κτλ που καταξιώνει το μύθο» • Κοινωνία Πολιτική, Κοινωνιολογία, Νομική, Άμυνα, «Διαλύεται 1 στους 3 Ευρωπαϊκή Ένωση κτλ γάμους στην Ε.Ε.» • Τέχνες Ανθρωπιστικές Επιστήμες, Βιβλίο- «Αυτός που έκανε Γράμματα, Φιλοσοφία, Θρησκεία, το κόμικς τέχνη» Αρχαιολογία, Εικαστικά, Εκπαίδευση- Παιδεία • Υγεία Υγεία, Ιατρική, Ψυχολογία, «Έμφραγμα: Μεγάλος Παιδαγωγική, Κτηνιατρική κίνδυνος οι μικρές βλάβες» • Αδιευκρίνιστο κείμενα που δεν εντάσσονται σε καμία «Διηγήσεις παραφυσικών από τις παραπάνω κατηγορίες φαινομένων»

  33. Προβλήματα προ-επεξεργασίας κειμένου 1 Low-level formatting issues • Εκκαθάριση υλικού από άχρηστα σύμβολα (π.χ. τίτλοι, υποσημειώσεις, πίνακες, λάθη οπτικής αναγνώρισης χαρακτήρων) • Αντιμετώπιση κεφαλαίων χαρακτήρων (κύρια ονόματα, τέλος πρότασης) • Tokenization: Διαδικασία κατάτμησης κειμένου εισόδου σε tokens: λέξεις, αριθμοί, σημεία στίξης: graphic word: a string of contiguous alphanumeric characters with space on either side; may include hyphens and apostrophes, but no other punctuation marks (Kucera & Francis 1967) • Αντιμετώπιση της τελείας: τέλος πρότασης ή συντομογραφία; • Hyphenization: 1 ή 2 λεξήματα;

  34. Προβλήματα προ-επεξεργασίας κειμένου 2 • Ομόγραφα: 1 ή 2 λεξήματα; • Ποικιλία στην κωδικοποίηση συγκεκριμένου σημασιολογικού τύπου π.χ. αριθμοί τηλεφώνου +45 43 48 60 60 Δανία 95-51-279648 Πακιστάν +411/284 3797 Ελβετία (94-1) 866854 Σρι Λάνκα +49 69 136-2 98 05 Γερμανία 33 1 34 43 32 26 Γαλλία ++31-20-5200161 Ολλανδία (44.171) 830 1007 Αγγλία 212. 995.5402 Η.Π.Α. The Economist

  35. Προβλήματα προ-επεξεργασίας κειμένου 3 • Μορφολογική ανάλυση stemming: stripping off affixes: left with stem Lemmatizationκαθορισμός λήμματος/λεξήματος • Καθορισμός ορίων πρότασης -90% των τελειών= δείκτες ορίων πρότασης (Riley 1989), μα όχι πάντα.. -προτάσεις ενσωματωμένες σε άλλες προτάσεις (embedded sentences) Ευριστικοί Αλγόριθμοι

  36. Στατιστική Ανάλυση 1 Μετατροπή κείμενου σε λίστα λέξεων Α) Ποιές είναι οι πλέον κοινές λέξεις ενός κειμένου; (ποιοτική ανάλυση) Λειτουργικές λέξεις (Function words) Β) Πόσες είναι οι λέξεις ενός κειμένου; (ποσοτική ανάλυση) Δείγματα λέξεων # Τύποι λέξεων (Word Tokens # Word Types)

  37. Στατιστική Ανάλυση 2 Α) Ποιοτική ανάλυση Mark Twain’s Tom Sawyer the 3332 determiner (article) and 2972 conjunction a 1775 determiner to 1725 preposition, verbal infinitive marker of 1440 preposition was 1161 auxiliary verb it 1027 personal/expletive pronoun (there/it:the logical subject follows the copula) in 906 preposition that 877 complementizer, demonstrative he 877 (personal) pronoun I 783 (personal) pronoun his 772 (possessive) pronoun you 686 (personal) pronoun Tom 679 proper noun with 642 preposition Open Lexical Categories # Closed Functional categories

  38. Στατιστική Ανάλυση 3 Β) Ποσοτική ανάλυση Mark Twain’s Tom Sawyer 0,5 ΜΒ: 71.370 Δείγματα 8.018 Τύποι ιδιαίτερα άνισης κατανομής: 12 πλέον κοινές λέξεις (λειτουργικές): πάνω από 700 φορές= 1% κειμένου Πλέον κοινές 100 λέξεις: 50,9% του κειμένου Μοναδικής εμφάνισης τύποι (‘hapax legomena’ ): 49,8% 90%+ τύπων εμφανίζονται 10 ή λιγότερο φορές 12% κειμένου= λέξεις που εμφανίζονται 3 ή λιγότερο φορές Κρυπτογραφία Αναγνώριση ύφους ή συγγραφέα • Σε κείμενο πληροφόρησης ιδίου μεγέθους: 11.000+ τύποι λέξεων

  39. Στατιστική Ανάλυση4 Νόμος του Ζιπφ: Human Behavior and the Principle of Least Effort (1949) Οι άνθρωποι δρουν κατά τρόπο ώστε να ελαχιστοποιηθεί ο πιθανός μέσος όρος εργασίας τους (όχι μόνο της άμεσης μα και της μακροπρόθεσμης) Σχέση συχνότητας f και σειράς r (rank) (τύπου) λέξης Λίγες πολύ συχνές λέξεις – μέτριος αριθμός λέξεων μεσαίας συχνότητας – πολλές λέξεις χαμηλής συχνότητας: μικρό λεξιλόγιο κοινών λέξεων ομιλητή & μεγάλο λεξιλόγιο σπάνιων λέξεων ακροατή (μηνύματα λιγότερο αμφίσημα) Mandelbrot 1954

  40. Παρα-θέσεις (collocations) Σημασία παράθεσης διαφορετική της σημασίας των μερών της disk drive σύνθετη make upπεριφραστικό ρήμα bacon and eggsέκφραση κλισέ strong tea ?powerful tea in broad daylight ?bright daylight ??narrow darkness kick the bucket ?kick the horse

  41. Σημασία εντοπισμού παρα-θέσεων • Μηχανική Μετάφραση (MT) • Ανάκτηση Πληροφορίας (IR) • Λεξικογραφία + Θεωρητικό ενδιαφέρον, καθώς το μεγαλύτερο ποσοστό γλωσσικής χρήσης είναι επαναλαμβανόμενες φράσεις & δομές • Δημιουργικότητα γλωσσικής χρήσης (Chomsky)??? • Πραγματικό & κοινωνικό περιβάλλον γλωσσικής χρήσης (Halliday)???

  42. Παρα-θέσεις (collocations)2 Πλέον συχνά δίγραμμα (bigrams) σε σώμα 14.000.000 λέξεων από New York Times (115ΜΒ, Αύγουστος-Νοέμβριος 1990) ΣυχνότηταΛέξη 1 Λέξη 2ΣυχνότηταΛέξη 1 Λέξη 2 80.871 of the 13.689 of a 58.841 in the 13.361 by the 26.430 to the 13.183 with the 21.842 on the 12.622 from the 21.839 for the 11.428 New York 18.568 and the 10.007 he said 16.121 that the 9.775 as a 15.630 at the 9.231 is a 15.494 to be 8.753 has been 13.899 in a 8.573 for a Είναι παραθέσεις;;;;;;

  43. Παρα-θέσεις (collocations)3 Φιλτράρισμα ως προς γραμματική κατηγορία: A-N N-N 11.487 New York A-N 7.261 United States A-N 5.412 Los Angeles N-N 3.301 last year A-N ??? 3.191 Saudi Arabia N-N 2.699 last week A-N ??? 2.514 vice president A-N Παράθεση=συχνό δίγραμμα συγκεκριμένου συνδυασμού γραμματικών κατηγοριών

  44. Συμφωνίες (concordances) Αυτόματος εντοπισμός πλαισίου εμφάνισης KWIC (Key Word In Context) 1 could find a target. The librarian showedoff- running hither 2.ihts in. The young lady teachers showedoff- bending sweetl 3.nuwyne?” Tom lifted his lip and showed the vacancy. “Wel 4.is little finger for a pen. Then he showed Huckleberry how t 5. face was haggard, and his eyes showed the fear that was u 6. e first thing his aunt said to him showedhim that he had br 7. om her lethargy of distress and showed good interest in the

  45. Συμφωνίες (concordances) • NP agent showed off (PP[with/in] manner) • NP agent showed NP[interest] PP[in] content • NP agent showed NP [aversion] PP[to] content NP content CP[that] content • NP agent showed (NP recipient) VP[inf] content how VP[inf] content CP[where] content

  46. Συμφωνίες (concordances) Χρήση σε • Λεξικογραφία • Μηχανική Μετάφραση • Οποιοδήποτε είδος parsing (στατιστικό ή μη)

More Related