Γλωσσική Τεχνολογία
This presentation is the property of its rightful owner.
Sponsored Links
1 / 31

Γλωσσική Τεχνολογία PowerPoint PPT Presentation


  • 82 Views
  • Uploaded on
  • Presentation posted in: General

Γλωσσική Τεχνολογία. Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση. Σοφία Στάμου Άκ.Έτος 200 9 - 1 0. Τι είναι το ευρετήριο;. Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω)

Download Presentation

Γλωσσική Τεχνολογία

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


4719980

Γλωσσική Τεχνολογία

Μάθημα 3ο

Επεξεργασία Κειμένου και Δεικτοδότηση

Σοφία Στάμου

Άκ.Έτος 2009-10


4719980

Τι είναι το ευρετήριο;

  • Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο

  • Τύποι οργάνωσης

    • Αλφαβητική (Α-Ω)

    • Δευτερευόντων όρων (υπο-καταχωρήσεων)

    • Διαφόρων όρων (πολλαπλές καταχωρήσεις)

    • Ετερο-αναφορών

Γλωσσική Τεχνολογία


4719980

Κανόνες ευρετηρίασης

  • Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα

  • Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη

  • Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων

Γλωσσική Τεχνολογία


4719980

Δημιουργώντας το ευρετήριο

Αρχείο Ευρετηρίου

Αρχείο κειμένων

Γλωσσική Τεχνολογία


4719980

Αξιολόγηση της Ανάκτησης

  • Ακρίβεια

    • Ποσοστό σχετικών κειμένων στα ανακτηθέντα

    • Ακρίβεια(P) = |σχετικάÇ ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα )

  • Ανάκληση

    • Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών

    • Ανάκληση(R) = |σχετικάÇ ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά )

  • F1 Μετρική

    • F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας

Γλωσσική Τεχνολογία


4719980

Σχετικά κείμενα

Λόγος Ακρίβειας/Ανάκλησης

Κείμενα

Ανακτηθέντα σχετικά!

Ra

P

R

Ακρίβεια

Ανάκληση

Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0

Μέση Ακρίβεια = 0.62

(1 + .67 + .5 + .44 + .5) / 5

Precis. 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5

Γλωσσική Τεχνολογία


4719980

Μουσική

2

4

8

16

32

64

128

Θέατρο

1

2

3

5

8

13

21

34

Τέχνη

13

16

Θεματικά Ευρετήρια

  • Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν

Αναγνωριστικά κειμένων

Γλωσσική Τεχνολογία


4719980

Θεματικά Ευρετήρια

Κεντρικό ευρετήριο αναζητήσεων

Πολλαπλά ευρετήρια

  • Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου

Γλωσσική Τεχνολογία


4719980

Αναζήτηση κειμένων

Λεξικό

Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής”

Μουσική – 0Τέχνη – 1Πιάνο – 2

Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND):

Ευρετήριο

IDs λέξεων : 0, 1

0 -> 0, 11 -> 0, 22 -> 1

Γλωσσική Τεχνολογία


4719980

Είδη Ευρετηρίων

  • Θεματικά

  • Συγγραφέων

  • Ονομάτων

  • Γεωγραφικά

  • Τίτλων

  • Αριθμών και κωδικών

Γλωσσική Τεχνολογία


Kwic keyword in context

Ευρετήρια ΤίτλωνKWIC (KeyWord-in-Context)

  • Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ.

    Descent of Man

    The Ascent of Man

    The Old Man and The Sea

    A Portrait of the Artist As a Young :

    a portrait of the ARTIST as a young man

    the ASCENT of man

    DESCENT of man

    descent of MAN

    the ascent of MAN

    the old MAN and the sea

Γλωσσική Τεχνολογία


Kwoc keyword out of context

Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context)

Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου:

LibraryA modern outline of library classification

LibraryIntroduction to library classification

LibraryLibrary education

LibraryPublic library administration

LibraryNational Library of Canada

Γλωσσική Τεχνολογία


Kwic vs kwoc

KWIC vs. KWOC

  • Απαλοιφή τερματικών όρων

  • Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού

  • Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι

Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες

Γλωσσική Τεχνολογία


4719980

Λέξεις - Κλειδιά

Πλεονεκτήματα

  • Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών

    Μειονεκτήματα

  • Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών

  • Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο

Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου

Γλωσσική Τεχνολογία


4719980

Επιλέγοντας τις λέξεις-κλειδιά

Βήματα επεξεργασίας κειμένου:

  • Αναγνώριση προτάσεων και λέξεων

  • Μορφοσυντακτική ανάλυση

  • Απαλοιφή τερματικών όρων

  • Μετρική βαθμολόγησης σπουδαιότητας

  • Επιλογή σημαντικών όρων

Γλωσσική Τεχνολογία


4719980

Μορφοσυντακτική ανάλυση

  • Κρυφά Μοντέλα Markov

  • Νευρωνικά Δίκτυα

  • Μετασχηματιστικοί Κανόνες

  • Δέντρα Απόφασης

  • Μοντέλα Μέγιστης Εντροπίας

Γλωσσική Τεχνολογία


4719980

Λέξεις

Ετικέτες

the

koala

put

the

keys

on

the

table

N

V

P

DET

Μορφοσυντακτική ανάλυση

  • Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει κάθε λέξη του κειμένου

Πώς θα βρούμε την POS ετικέτα;

Γλωσσική Τεχνολογία


4719980

Μορφοσυντακτική ανάλυση

Γλωσσική Τεχνολογία


4719980

Πού θα βρούμε τις ετικέτες;

Γλωσσική Τεχνολογία


4719980

Μετασχηματιστικοί Κανόνες

  • Μορφοσυντακτική ετικέτα μεγαλύτερης συχνότητας (άγνωστες λέξεις = ουσιαστικό)

    • Charniak: 90% σωστές επιλογές ως εδώ!

  • Χρήση μετασχηματιστικών κανόνων

  • Διόρθωση ετικετών που είναι ασύμβατες με τα συμφραζόμενα

Γλωσσική Τεχνολογία


4719980

Μηχανική Μάθηση Κανόνων

Γλωσσική Τεχνολογία


4719980

Μηχανική Μάθηση Κανόνων

  • Είσοδος:

    • Σώμα κειμένων C1 χωρίς ετικέττες (tags)

    • Ακριβές αντίγραφό του C2, μορφοσυντακτικά σχολιασμένο από ειδικούς.

    • Πρότυπα κανόνων

  • Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον αρχικό tagger  Παραγωγή του C1a.

  • Βήμα 2:

    • Σύγκριση του σώματος C1a με το ιδανικό C2.

    • Καθορισμός της λίστας των λανθασμένων επιλογών.

    • Από τη λίστα των λαθών, κατασκευάζονται με χρήση προτύπων κανόνων όλοι οι πιθανοί κανόνες που μπορούν να εφαρμοστούν.

Γλωσσική Τεχνολογία


4719980

Μηχανική Μάθηση Κανόνων

  • Βήμα 3:

    • Εφαρμογή των κανόνων και ανάθεση ενός σκορ σε κάθε κανόνα.

    • Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών

    • Επιλογή κανόνα με το καλύτερο σκορ

  • Βήμα 4: Ανανέωση του C1a με εφαρμογή του επιλεγμένου κανόνα.

  • Βήμα 5:

    • Τερματισμός αν η βελτίωση είναι μικρότερη από ένα κατώφλι

    • Αλλιώς: επανάληψη από το βήμα 2

  • Έξοδος: Διατεταγμένο σύνολο κανόνων.

Γλωσσική Τεχνολογία


4719980

Μετασχηματιστικοί Κανόνες

Γλωσσική Τεχνολογία


4719980

Γλωσσική Τεχνολογία


4719980

Γλωσσική Τεχνολογία


4719980

Επιλέγοντας λέξεις κλειδιά

Γλωσσική Τεχνολογία


Tf idf

tf*idfΒαθμολόγηση

tf = term frequency

  • Συχνότητα όρου σε ένα κείμενο.

    df = document frequency

  • Πόσα κείμενα περιέχουν τον όρο;

  • Κατανομή του όρου

    idf = inverse document frequency

  • Η άνιση κατανομή του όρου στο κείμενο

  • Πόσο συγκεκριμένος είναι ο όρος για το κείμενο

    Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο

    weight(t,D) = tf(t,D) * idf(t)

Γλωσσική Τεχνολογία


4719980

Index

Search

#1: The brown cat purred.

Brown

1, 3

Cat

1, 2, 3

#2: Cats like brown chairs.

Chair

2

Like

2, 3

#3: Tommy likes cats.

Purr

1

Tommy

3

Ευρετηρίαση

Γλωσσική Τεχνολογία


4719980

Στο επόμενο μάθημα....

  • Ποια είδη ευρετηρίων υπάρχουν;

  • Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

Γλωσσική Τεχνολογία


4719980

.....

http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html

Γλωσσική Τεχνολογία


  • Login