1 / 24

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου spip@ilsp.gr. Περιεχόμενα. Διαχείριση Περιεχομένου Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας Εξαγωγή Πληροφορίας

margot
Download Presentation

Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές Βάσεις Δεδομένων Στέλιος Πιπερίδης Ινστιτούτο Επεξεργασίας Λόγου spip@ilsp.gr

  2. Περιεχόμενα • Διαχείριση Περιεχομένου • Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας • Εξαγωγή Πληροφορίας • Πολυγλωσσική Εξαγωγή Πληροφορίας

  3. ... Where is the Life we have lost in living? Where is the wisdom we have lost in knowledge? Where is the knowledge we have lost in information? ... -- T.S. Eliot, 1934, “The Rock”, I:14-16

  4. Ιεραρχία ; ... Γνώση ….. Knowledge Πληροφορία Information Data Δεδομένα

  5. Ιεραρχία Πληροφορίας ... Γνώση πληροφορία που έχουμε αντιληφθεί (ανάγνωση[κείμενο] / ακοή[φωνή] / όραση[εικόνα, κίνηση]) και ‘κατανοήσει’ Πληροφορία • δεδομένα οργανωμένα και παρουσιασμένα με • συγκεκριμένο τρόπο • Δεδομένα • ανεπεξέργαστο υλικό

  6. Ανάκτηση πολυμεσικών πληροφοριών κείμενο, φωνή, εικόνες δρουν συνεργατικά για τη δημιουργίακαι μεταφορά πληροφορίας και γνώσης η επεξεργασία πολυμεσικών πληροφοριών φαίνεται ότι είναι το σκηνικό στο οποίο θα λειτουργούμε στο μέλλον, τη στιγμή που αναπαριστά ότι είναι πλησιέστερο σε πραγματικά σενάρια επικοινωνίας (φυσικοί διάλογοι άνθρωπος-με-άνθρωπο/ άνθρωπος-με-μηχανή, αλληλοδραστική/ψηφιακή τηλεόραση, κλπ) η επεξεργασία πολυμεσικών δεδομένων απαιτεί τη συνεργασία τεχνολογιών μετατροπής μέσου σε μέσο (π.χ. φωνή σε κείμενο) με τις τεχνολογίες επεξεργασίας γραπτού λόγου

  7. Διαχείριση Περιεχομένου • Γιατί χρησιμοποιείται κυρίως η γλώσσα επειδή η γλώσσα είναι ένα λειτουργικό σύστημα που βασίζεται σε αυτο-ρυθμιζόμενες μονάδες, δηλ. έκτυπα που χωρίζονται μεταξύ τους από κενά • Τεχνικές διαχείρισης περιεχομένου • μετατροπή όλων των μέσων περιεχομένου σε κείμενο • ισχυρή απαίτηση ευρωστίας για τις τεχνολογίες μετατροπής • (π.χ. αναγνώριση φωνής, εικόνας, κλπ) αλλά κυρίως για • τις τεχνολογίες επεξεργασίας γραπτού λόγου

  8. Ανάκτηση – Εξαγωγή Πληροφορίας Διαχείριση περιεχομένου μέσω κειμένου • διαχείριση σε επίπεδο εγγράφουέγγραφα και μονάδες τους, • π.χ. παράγραφοι • ανάκτηση πληροφορίας • ΕΡΩΤΗΣΗΑνάκτησηΕΓΓΡΑΦΩΝ • διαχείριση σε επίπεδο περιεχομένου προτάσεις και σχέσεις τους • μέσα στα έγγραφα • εξαγωγή πληροφορίας • ΠροκαθορισμένοΠΛΑΙΣΙΟΕξαγωγήΠΛΗΡΟΦΟΡΙΑΣαπόΕΓΓΡΑΦΑ

  9. εξαγωγή κανόνων που συσχετίζουν τα δεδομένα με σκοπό την μετατροπή των δεδομένων σε γνώση αριθμητικά δεδομένα κειμενικά δεδομένα Εξόρυξη πληροφορίας κειμενικές βάσεις δεδομένων για ένα θεματικό πεδίο π.χ. εξαγωγή του κανόνα Το φάρμακο Α χρησιμοποιείται για την ασθένεια Β. βάση οικονομικών δεδομένων βάση πελατών βάση ιατρικών δεδομένων κλπ.

  10. Περιεχόμενα • Διαχείριση Περιεχομένου • Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας • Εξαγωγή Πληροφορίας • Πολυγλωσσική Εξαγωγή Πληροφορίας

  11. Ανάκτηση Πληροφορίας με γλωσσική τεχνολογία τυπικές διαδικασίες: • αναγνώριση δομής κειμένου (text structure) • τίτλοι, κεφάλαια, παράγραφοι, κλπ. • λεκτική ανάλυση (tokenisation) • αναγνώριση λέξεων, προτάσεων (ιδιαίτερες δυσκολίες κυρίως όταν δεν ακολουθείται κάποια γραμματική στίξης) • κανονικοποίηση μορφής • αποκοπή καταλήξεων/μορφολογική ανάλυση/λημματοποίηση • δεικτοδότηση

  12. Κανονικοποίηση μορφής • ο στόχος είναι να ‘υπολογίσουμε’ (κανονικοποιήσουμε) μορφογραφημικά παρόμοιες λέξεις • μορφολογία (“μορφή” των λέξεων) • κλιτική μορφολογία (inflectional morphology) • παραγωγική μορφολογία (derivational morphology) • λημματοποίηση (lemmatisation) • αποκοπή καταλήξεων (stemming) • συγχώνευση όρων (term conflation)

  13. Δεικτοδότηση (με γλωσσική τεχνολογία) • δεικτοδότηση όρων εξαγωγή όρων από (term indexing) κείμενα • δεικτοδότηση με θησαυρούς κατασκευή θησαυρών (thesaurus indexing) από κείμενα • δεικτοδότηση ονομάτων αναγνώριση και (name indexing) κατηγοριοποίηση ονοματικών οντοτήτων • κατηγοριοποίηση κειμένων απόδοση θεματικής (text classification) κατηγορίας,(κλειστή ή ανοιχτή λίστα) • κατασκευή περίληψης εξαγωγή σημαντικών (text summarisation) προτάσεων από κείμενα

  14. Δεικτοδότηση και Ανάλυση Περιεχομένου • αναγνώριση συναναφορών (coreference) σε κείμενα • συναναφορά αντωνυμιών(pronouns) και οριστικών ονοματικών φράσεων(definite noun phrases) • απαιτείται συντακτική, σημασιολογική και πραγματολογική ανάλυση για συνολική επίλυση των φαινομένων συναναφοράς • Διαγραμματικά επίλυση συναναφορών δεικτ/ηση όρων δεικτ/ηση ονομάτων ευφυής δεικτοδότηση

  15. Περιεχόμενα • Διαχείριση Περιεχομένου • Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας • Εξαγωγή Πληροφορίας • Πολυγλωσσική Εξαγωγή Πληροφορίας

  16. Παράδειγμα Εξαγωγής Πληροφορίας Εξαγωγή Πληροφορίας ΠΡΟΚΑΘΟΡΙΣΜΕΝΟ ΠΛΑΙΣΙΟ ΓΕΓΟΝΟΤΩΝ : <organisation, location, money, type, percent…> ΠΛΗΡΟΦΟΡΙΑ ΑΠΟ ΕΓΓΡΑΦΑ <EVENT-01>:= ORGANISATION : ‘Venture capital Corp.’ LOCATION : ‘Νέα Υόρκη’ MONEY : ‘$100.000’ TYPE : ‘χρηματοδότηση νέας τεχνολογίας’ PERCENT: ‘60%-40%’ ...

  17. Κειμένο Εισόδου Λεκτική Ανάλυση Λεκτικός Αναλυτής Λεξικό Μορφοσυντακτικός σχολιασμός Κανόνες Μορφοσυντακτικός σχολιαστής & Λημματοποιητής Λημματοποίηση-Κανονικοποίηση Λίστες ονομάτων Αναγνώριση Ονομάτων Αναγνωριστής ονομάτων Κανόνες ονομάτων Συντακτική Ανάλυση Γραμματικοί κανόνες Συντακτικός και σημασιολογικός επεξεργαστής Ανάλυση βάσει σεναρίου Κανόνες σεναρίου Επίλυση συναναφορών Μοντέλο Πεδίου Διερμηνευτής Λόγου Συμπερασμός Κανόνες συμπερασμού Πλαίσιο Κατασκευή Πλαισίου Στάδια Εξαγωγής Πληροφορίας

  18. Ονοματικές Οντότητες σε ελληνικά κείμενα (2)

  19. Ανάκτηση καιΕξαγωγή πληροφορίας ΔΙΑΔΙΚΤΥΟ Ανάκτηση και φιλτράρισμα πληροφορίας Βάση δεδομένων Σύστημα Εξαγωγής Πληροφορίας

  20. Ανάκτηση καιΕξαγωγή πληροφορίας ΒΔ 1 Σύστημα ΕΠ 1 ΔΙΑΔΙΚΤΥΟ ΒΔ 2 Σύστημα ΕΠ 2 Ταξινόμηση και δρομολόγηση πληροφορίας ΒΔ N Σύστημα ΕΠ 3

  21. Περιεχόμενα • Διαχείριση Περιεχομένου • Γλωσσική Τεχνολογία στην Ανάκτηση Πληροφορίας • Εξαγωγή Πληροφορίας • Πολυγλωσσική Εξαγωγή Πληροφορίας

  22. Κατανομή περιεχομένου στο διαδίκτυο ανά γλώσσα

  23. Πολυγλωσσική Εξαγωγή Πληροφοριών • πολλές φορές η αναζητούμενη πληροφορία βρίσκεται σε κείμενα διαφορετικών γλωσσών • Δύο δυνατότητες χειρισμού της πολυγλωσσίας στην εξαγωγή πληροφορίας: • μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία σε διαφορετικές γλώσσες • μονογλωσσικό σύστημα ΕΠ: γλώσσα κειμένου και γλώσσα πλαισίου είναι ίδιες • γλώσσα πλαισίου : η γλώσσα στην οποία συμπληρώνονται οι τιμές του πλαισίου • διαγλωσσικό σύστημα εξαγωγής πληροφορίας • διαγλωσσικό σύστημα ΕΠ : γλώσσα κειμένου και γλώσσα πλαισίου διαφορετικές

  24. Προσεγγίσεις στη διαγλωσσική εξαγωγή πληροφορίας σύστημα αυτόματης μετάφρασης μεταφράζει το κείμενο και ένα μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το μετάφρασμα Μηχανική Μετάφραση Εξαγωγή Πληροφορίας κείμενο πηγή κείμενο στόχος πλαίσιο στη γλώσσα στόχο μονογλωσσικό σύστημα ΕΠ εξάγει πληροφορία από το κείμενο πηγή και σύστημα μετάφρασης μεταφράζει την πληροφορία του πλαισίου Μηχανική Μετάφραση Εξαγωγή Πληροφορίας κείμενο πηγή πλαίσιο στη γλώσσα πηγή πλαίσιο στη γλώσσα στόχο μονογλωσσικοί επεξεργαστές αντιστοιχίζουν το κείμενο σε γλωσσικά ανεξάρτητο μοντέλο λόγου αναπαράσταση περιεχομένου ανεξάρτητη γλώσσας διερμηνευτής περιεχομένου λόγου κείμενο πηγή πλαίσιο στη γλώσσα στόχο

More Related