Γλωσσική Τεχνολογία
Sponsored Links
This presentation is the property of its rightful owner.
1 / 31

Γλωσσική Τεχνολογία PowerPoint PPT Presentation


  • 93 Views
  • Uploaded on
  • Presentation posted in: General

Γλωσσική Τεχνολογία. Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση. Σοφία Στάμου Άκ.Έτος 200 9 - 1 0. Τι είναι το ευρετήριο;. Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω)

Download Presentation

Γλωσσική Τεχνολογία

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Γλωσσική Τεχνολογία

Μάθημα 3ο

Επεξεργασία Κειμένου και Δεικτοδότηση

Σοφία Στάμου

Άκ.Έτος 2009-10


Τι είναι το ευρετήριο;

  • Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο

  • Τύποι οργάνωσης

    • Αλφαβητική (Α-Ω)

    • Δευτερευόντων όρων (υπο-καταχωρήσεων)

    • Διαφόρων όρων (πολλαπλές καταχωρήσεις)

    • Ετερο-αναφορών

Γλωσσική Τεχνολογία


Κανόνες ευρετηρίασης

  • Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα

  • Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη

  • Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων

Γλωσσική Τεχνολογία


Δημιουργώντας το ευρετήριο

Αρχείο Ευρετηρίου

Αρχείο κειμένων

Γλωσσική Τεχνολογία


Αξιολόγηση της Ανάκτησης

  • Ακρίβεια

    • Ποσοστό σχετικών κειμένων στα ανακτηθέντα

    • Ακρίβεια(P) = |σχετικάÇ ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα )

  • Ανάκληση

    • Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών

    • Ανάκληση(R) = |σχετικάÇ ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά )

  • F1 Μετρική

    • F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας

Γλωσσική Τεχνολογία


Σχετικά κείμενα

Λόγος Ακρίβειας/Ανάκλησης

Κείμενα

Ανακτηθέντα σχετικά!

Ra

P

R

Ακρίβεια

Ανάκληση

Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0

Μέση Ακρίβεια = 0.62

(1 + .67 + .5 + .44 + .5) / 5

Precis. 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5

Γλωσσική Τεχνολογία


Μουσική

2

4

8

16

32

64

128

Θέατρο

1

2

3

5

8

13

21

34

Τέχνη

13

16

Θεματικά Ευρετήρια

  • Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν

Αναγνωριστικά κειμένων

Γλωσσική Τεχνολογία


Θεματικά Ευρετήρια

Κεντρικό ευρετήριο αναζητήσεων

Πολλαπλά ευρετήρια

  • Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου

Γλωσσική Τεχνολογία


Αναζήτηση κειμένων

Λεξικό

Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής”

Μουσική – 0Τέχνη – 1Πιάνο – 2

Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND):

Ευρετήριο

IDs λέξεων : 0, 1

0 -> 0, 11 -> 0, 22 -> 1

Γλωσσική Τεχνολογία


Είδη Ευρετηρίων

  • Θεματικά

  • Συγγραφέων

  • Ονομάτων

  • Γεωγραφικά

  • Τίτλων

  • Αριθμών και κωδικών

Γλωσσική Τεχνολογία


Ευρετήρια ΤίτλωνKWIC (KeyWord-in-Context)

  • Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ.

    Descent of Man

    The Ascent of Man

    The Old Man and The Sea

    A Portrait of the Artist As a Young :

    a portrait of the ARTIST as a young man

    the ASCENT of man

    DESCENT of man

    descent of MAN

    the ascent of MAN

    the old MAN and the sea

Γλωσσική Τεχνολογία


Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context)

Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου:

LibraryA modern outline of library classification

LibraryIntroduction to library classification

LibraryLibrary education

LibraryPublic library administration

LibraryNational Library of Canada

Γλωσσική Τεχνολογία


KWIC vs. KWOC

  • Απαλοιφή τερματικών όρων

  • Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού

  • Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι

Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες

Γλωσσική Τεχνολογία


Λέξεις - Κλειδιά

Πλεονεκτήματα

  • Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών

    Μειονεκτήματα

  • Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών

  • Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο

Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου

Γλωσσική Τεχνολογία


Επιλέγοντας τις λέξεις-κλειδιά

Βήματα επεξεργασίας κειμένου:

  • Αναγνώριση προτάσεων και λέξεων

  • Μορφοσυντακτική ανάλυση

  • Απαλοιφή τερματικών όρων

  • Μετρική βαθμολόγησης σπουδαιότητας

  • Επιλογή σημαντικών όρων

Γλωσσική Τεχνολογία


Μορφοσυντακτική ανάλυση

  • Κρυφά Μοντέλα Markov

  • Νευρωνικά Δίκτυα

  • Μετασχηματιστικοί Κανόνες

  • Δέντρα Απόφασης

  • Μοντέλα Μέγιστης Εντροπίας

Γλωσσική Τεχνολογία


Λέξεις

Ετικέτες

the

koala

put

the

keys

on

the

table

N

V

P

DET

Μορφοσυντακτική ανάλυση

  • Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει κάθε λέξη του κειμένου

Πώς θα βρούμε την POS ετικέτα;

Γλωσσική Τεχνολογία


Μορφοσυντακτική ανάλυση

Γλωσσική Τεχνολογία


Πού θα βρούμε τις ετικέτες;

Γλωσσική Τεχνολογία


Μετασχηματιστικοί Κανόνες

  • Μορφοσυντακτική ετικέτα μεγαλύτερης συχνότητας (άγνωστες λέξεις = ουσιαστικό)

    • Charniak: 90% σωστές επιλογές ως εδώ!

  • Χρήση μετασχηματιστικών κανόνων

  • Διόρθωση ετικετών που είναι ασύμβατες με τα συμφραζόμενα

Γλωσσική Τεχνολογία


Μηχανική Μάθηση Κανόνων

Γλωσσική Τεχνολογία


Μηχανική Μάθηση Κανόνων

  • Είσοδος:

    • Σώμα κειμένων C1 χωρίς ετικέττες (tags)

    • Ακριβές αντίγραφό του C2, μορφοσυντακτικά σχολιασμένο από ειδικούς.

    • Πρότυπα κανόνων

  • Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον αρχικό tagger  Παραγωγή του C1a.

  • Βήμα 2:

    • Σύγκριση του σώματος C1a με το ιδανικό C2.

    • Καθορισμός της λίστας των λανθασμένων επιλογών.

    • Από τη λίστα των λαθών, κατασκευάζονται με χρήση προτύπων κανόνων όλοι οι πιθανοί κανόνες που μπορούν να εφαρμοστούν.

Γλωσσική Τεχνολογία


Μηχανική Μάθηση Κανόνων

  • Βήμα 3:

    • Εφαρμογή των κανόνων και ανάθεση ενός σκορ σε κάθε κανόνα.

    • Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών

    • Επιλογή κανόνα με το καλύτερο σκορ

  • Βήμα 4: Ανανέωση του C1a με εφαρμογή του επιλεγμένου κανόνα.

  • Βήμα 5:

    • Τερματισμός αν η βελτίωση είναι μικρότερη από ένα κατώφλι

    • Αλλιώς: επανάληψη από το βήμα 2

  • Έξοδος: Διατεταγμένο σύνολο κανόνων.

Γλωσσική Τεχνολογία


Μετασχηματιστικοί Κανόνες

Γλωσσική Τεχνολογία


Γλωσσική Τεχνολογία


Γλωσσική Τεχνολογία


Επιλέγοντας λέξεις κλειδιά

Γλωσσική Τεχνολογία


tf*idfΒαθμολόγηση

tf = term frequency

  • Συχνότητα όρου σε ένα κείμενο.

    df = document frequency

  • Πόσα κείμενα περιέχουν τον όρο;

  • Κατανομή του όρου

    idf = inverse document frequency

  • Η άνιση κατανομή του όρου στο κείμενο

  • Πόσο συγκεκριμένος είναι ο όρος για το κείμενο

    Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο

    weight(t,D) = tf(t,D) * idf(t)

Γλωσσική Τεχνολογία


Index

Search

#1: The brown cat purred.

Brown

1, 3

Cat

1, 2, 3

#2: Cats like brown chairs.

Chair

2

Like

2, 3

#3: Tommy likes cats.

Purr

1

Tommy

3

Ευρετηρίαση

Γλωσσική Τεχνολογία


Στο επόμενο μάθημα....

  • Ποια είδη ευρετηρίων υπάρχουν;

  • Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

Γλωσσική Τεχνολογία


.....

http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html

Γλωσσική Τεχνολογία


  • Login