1 / 45

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project Γεράσιμος Τουρκογιάννης gtourkog @ cc . uoa . gr. Θεματική Ενότητα :.

talon
Download Presentation

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project Γεράσιμος Τουρκογιάννης gtourkog@cc.uoa.gr

  2. Θεματική Ενότητα : Αυτόματη Ταξινόμηση και Ευρετηρίαση

  3. ECDL2003-Session 3bNorway Automatic classification and indexing

  4. Automatic classification and indexing Άρθρα και παρουσιάσεις από το Συνέδριο • Cross-Lingual Text Categorization. Nuria Bel, Cornelis H.A.Koster and Marta Villegas • Automatic multi-label subject indexing in a multilingual environment. Boris Lauser and Andreas Hotho

  5. Automatic classification and indexing • Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονΨηφιακής Βιβλιοθήκης. Automated Text Categorization (ATC)

  6. Περιεχόμενα Παρουσίασης • Ορισμοί • Εφαρμογή • Αρχιτεκτονική • Τρέχουσες εφαρμογές • Σχόλια - Παρατηρήσεις – ερωτήσεις • Συμπεράσματα

  7. σχηματικό πλαίσιο εννοιών ευρετηρίαση—ταξινόμηση (κατηγοριοποίηση με γλωσσική ανάλυση κειμένων) αναζήτηση πληροφορίας ανάκτηση ακρίβεια και ανάκληση

  8. Σχηματική παράσταση διεργασιών

  9. Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονΨηφιακής Βιβλιοθήκης Τι είναι; • η αυτόματη ευρετηρίαση είναι η απλή προέλευση των λέξεων κλειδιών από ένακείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις. • τα πιο σύνθετα αυτόματα συστήματα ευρετηρίασης προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (θησαυρός) βασισμένους στους όρους του κειμένου.

  10. Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονΨηφιακής ΒιβλιοθήκηςΤι είναι; • Η αυτόματη ταξινόμηση προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : 1. μια πλήρως αυτόματη μέθοδο clustering 2. ένα καθιερωμένο σχήμα ταξινόμησης και ένα σύνολοκειμένων που είναι ήδη ευρετηριασμένα από το σχήμα

  11. Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονΨηφιακής ΒιβλιοθήκηςΤι είναι; • η αυτοματοποιημένη κατηγοριοποίηση κειμένων είναι η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα (hypertexts) κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες • Clusteringείναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing), Latent Semantic Analysis, Bayesian statistical analysisκαι άλλους.

  12. Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονΨηφιακής Βιβλιοθήκης Γιατί; • Αντιμετωπίζοντας την υπερπληροφόρηση με την κατηγοριοποίηση κειμένων Είτε • Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτηση σε μια μη δομημένη βάση τεκμηρίων π.χ. Web. Αυτή είναι η συνήθης απάντηση από την αναζήτηση ενός κειμένουμέσω crawler Είτε • Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμηση μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την αυτοματοποιημένη κατηγοριοποίηση κειμένου (ATC)

  13. Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονΨηφιακής Βιβλιοθήκης Πώς; Με τρέχουσες εφαρμογές π.χ.: PEKINGproject Ακρωνύμιο του PEople and Knowledge Cross-Lingual INformation Gathering www.interpeking.com

  14. επεξεργασία εγγράφου

  15. Γλωσσολογική Διαχείριση Γνώσης

  16. PEKING (1/6) Γενικά • Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης • Μια πρωτοβουλία (Initiative)στην Ε.Ε. • Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: κέντρα τεκμηρίωσης διαχείρισης πληροφοριών προμηθευτές τεχνολογίας • Γλωσσική Διαχείριση Γνώσης (KM) 1.Γλωσσική Κατηγοριοποίηση κειμένου (Document Management) 2. Διαγλωσσική επεξεργασία 3. Σιωπηρή γνώση χρηστών (Tacit Knowledge) 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και διαχείριση γνώσης

  17. PEKING (2/6) Σκοπός: • Διαγλωσσική Ανάκτηση Πληροφοριών Cross-Lingual Information Retrieval (CLIR)

  18. PEKING (3/6) • Διαγλωσσική Κατηγοριοποίηση Κειμένων Cross-Lingual Text Categorization (CLTC) με 3 πολιτικές μετάφρασης: • Μετάφραση εγγράφου • Μετάφραση ορολογίας • Μετάφραση κατ’ επιλογή με 2 πρακτικές μοντέλων: • Πολύγλωσση εκπαίδευση μηχανής • Διαγλωσσική εκπαίδευση μηχανής

  19. PEKING (4/6) • Ένας ταξινομητής (classifier) είναι εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσες • LCS (Linguistic Classification System) μηχανή ταξινόμησης • “Πολύ-ταξινόμηση” έναντι “μονό-ταξινόμησης” • Με τη βοήθεια 2 αλγόριθμων των Winnow και Rocchio

  20. LCS (Linguistic Classification System) μηχανή ταξινόμησης Another example: the infamous noun phrase 'the Hillary Clinton health care bill proposal', resulting (with some effort) in the HM frame [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which (omitting the single heads) will be unnested to the set of HM pairs [ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ]

  21. PEKING (5/6) ΕΦΑΡΜΟΓΗ σε ποιο υλικό; • ILO corpus : International LaborOrganization (Σώμα κειμένωντου Διεθνούς Οργανισμού Εργασίας) • 2165 έγγραφα στην αγγλική και • 1590 έγγραφα στην ισπανική γλώσσα • Επισκόπηση ILO

  22. 12 κατηγορίες ταξινόμησης(μια για κάθε έγγραφο)

  23. PEKING (6/6) Επεξεργασία φυσικής γλώσσας (NLP) στο κείμενο-πηγή που χαρακτηρίζεται γραμματικώς και λημματοποιείται, πώς; • Μορφολογική ανάλυση (τύπος του όρου, ρήμα κλπ) • Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός χαρακτηριστής - tagger) • Συντακτική ανάλυση • Φρασεολογική ανάλυση • Σημασιολογική ανάλυση • Πραγματολογική ανάλυση

  24. Αυτόματη Κατηγοριοποίηση Κειμένου (ATC) Επεξεργασία με τις ακόλουθες τεχνολογίες: • Γλωσσολογικές μέθοδοιγια Ακρίβεια στην Ανάκτηση Πληροφοριών (IR) και στην Εξαγωγή Πληροφορίας (Information Extraction) • Υπολογιστική γλωσσολογία (Computational Linguistics) • Μηχανική Μετάφραση (Machine Translation) • Γλωσσική Τεχνολογία (Language Technology) • Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods) • Διαδικασία λέξεων διανύσματος (word vector processing)

  25. Από το ελληνικό έργο «Σχηματοποίηση» γλωσσικός έλεγχος

  26. Λεξική ανάλυση (tokens)

  27. Γραμματικός και συντακτικός χαρακτηρισμός κειμένου

  28. Από το έργο «Έλλογον»

  29. Δενδρική γλωσσολογική ανάλυση πρότασης

  30. Σχηματική γλωσσολογική ανάλυση

  31. Automatic Text Categorization Introduction AutomaticIndexing Evaluation Outlook Discussion Word Vector Representation The riceproduction……India…farmers grow…water irrigation… producerice flour and…new productionlines… Wordstemming Document Word Vector

  32. Automatic Text Categorization Introduction AutomaticIndexing Evaluation Outlook Discussion Binary Support Vector Machines Class c Document word vectors Maximum Margin Hyperplane Class ĉ

  33. Automatic Text Categorization Introduction AutomaticIndexing Evaluation Outlook Discussion Word Vector Processing Stopwords Pruning Word Vector Word Vector Word Vector

  34. Automatic Text Categorization Introduction AutomaticIndexing Evaluation Outlook Discussion Integration of Background Knowledge Word vector with ontology integration Parameter Maximum Integration Depth: 1 Add Concepts! • Other strategies: • Replace • Only (document is represented only by its concepts  language independent!) Integrationstrategy

  35. Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (1/2)

  36. Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (2/2) τεχνολογίες φωνής, επεξεργασίας κειμένου και ΔΓ στην παγκόσμια αγορά

  37. Ελληνικοί οργανισμοί που συμμετέχουν στην Γλωσσική Τεχνολογία με έργα • Ινστιτούτο Επεξεργασία του Λόγου (οικΟΝΟΜίΑ, METIS, UNL, EuroMAT) • Γενική Γραμματεία Έρευνας και Τεχνολογίας • ΕΚΕΦΕ «Δημόκριτος» (Σχηματοποίηση, Ellogon, ΜΙΤΟΣ, Greek Information Extraction GUI)

  38. Γλωσσική Τεχνολογία με Ελληνικές εφαρμογές : ελληνικό εστιακό σημείο

  39. Το παράδειγμα του Εργαστηρίου Τεχνολογίας γνώσεων και λογισμικού (SKEL) Δημόκριτος

  40. Ελληνική εμπορική ιδιωτική πρωτοβουλία intarget

  41. Webliography • www.htlcentral.org • www.interpeking.com • http://www.iit.demokritos.gr/skel/Ellogon/ • http://www.cs.kun.nl/peking/ecdl03.pdf • http://www.aifb.uni-karlsruhe.de/WBS/aho/pub/lauserhothoecdl03.pdf • http://www.ilsp.gr/euromap.html • http://194.219.21.163/index/ie/index.asp • www.cs.kun.nl/peking

  42. Ευχαριστίες στον καθηγητή Kees Koster

  43. σας ευχαριστώ!

  44. Προβληματισμοί-συζήτηση • Αποτελεί απειλή για τον επιστήμονα της πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος; • Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες; • Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης;

  45. Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;

More Related