1 / 26

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ:ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ:ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ. Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες. Παρουσίαση και εφαρμογή του Unicode Μητρέλης Άγγελος. Η ανάπτυξη του διαδικτύου συνέβαλε…. Επικοινωνία ανθρώπων διαφορετικών χωρών

kobe
Download Presentation

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ:ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ:ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες. Παρουσίαση και εφαρμογή του Unicode Μητρέλης Άγγελος

  2. Η ανάπτυξη του διαδικτύου συνέβαλε… • Επικοινωνία ανθρώπων διαφορετικών χωρών • Ανταλλαγή ιδεών και πολιτισμού • Διεθνής συνεργασίες • Πρόσβαση σε υλικό με το πάτημα ενός κουμπιού • Κατάργηση των φυσικών συνόρων

  3. Βασικοί τρόποι επικοινωνίας… • Γλώσσα • Γραφή

  4. Ιστορικά… Με την λήξη του Β΄ Παγκοσμίου πολέμου η επικρατούσα γλώσσα είναι τ’ αγγλικά • Διεθνής γλώσσα για την επικοινωνία • Γλώσσα υπολογιστικών συστημάτων • Γλώσσα για την έρευνα • Γλώσσα των δημοσιεύσεων

  5. Μειονεκτήματα… • Δυσκολία έκφρασης σε μια ξένη γλώσσα • Με την χρήση του λατινικού αλφαβήτου στους Η/Υ μόνο, έχουμε απώλειες πληροφοριών από μη λατινικές γλώσσες Όλα αυτά οδηγούν στην απώλεια γνώσης!!

  6. Σκοπός ψηφιακών βιβλιοθηκών Παροχή γνώσης στην πληρέστερή της μορφή Γι’ αυτό πρέπει: Να καλύπτουν περισσότερα αλφάβητα έτσι ώστε άνθρωποι διαφορετικών πολιτισμών και χωρών να έχουν πρόσβαση στην πληροφορία στον ίδιο βαθμό

  7. Πολυγλωσσικά συστήματα που… • Μιλούν μια γλώσσα αλλά καταλαβαίνουν πολλές • Μιλούν και καταλαβαίνουν μερικές προεπιλεγμένες γλώσσες • Μιλούν και καταλαβαίνουν πολλές γλώσσες

  8. Γλωσσικά προβλήματα… • Μορφολογικά (διαφορετικός τρόπος γραφής ίδιων λέξεων διαφορετιών γλωσσών π.χ behaviour και behavior • Ορολογικά (πολλές λέξεις για μια έννοια) • Εννοιολογικά (αντιστοίχηση εννοιών από μια γλώσσα σε μια άλλη μέσω της αντιστοίχησης τωv λέξεων) • Κωδικοποίησης (κωδικοποίηση χαρακτήρων έτσι ώστε να αναπαρίστανται και μη λατινικές γραφές στις οθόνες των Η/Υ)

  9. Ορισμοί… • Κωδικοσελίδα χαρακτήρων (coded character set):αποτελείται από πάρα πολλούς χαρακτήρες, κάθε ένας από τους οποίους περιγράφεται από μια μοναδική αλληλουχία bits. • Ανάγλυφο(glyph): Οπτική αναπαράσταση ενός χαρακτήρα. Ανάγλυφα είναι τα σχήματα ενός χαρακτήρα (αριθμού, γράμματος) • Γραμματοσειρά (font): Συλλογή αναγλύφων (glyphs) για την οπτική αναπαράσταση χαρακτήρων στις οθόνες των υπολογιστών.

  10. Ιστορικά… • ASCII (American Standard Code for Information Interchange): είναι ένα σύστημα κωδικοποίησης που στηρίζεται σ’ ένα 7-bit και στην συνέχεια 8-bit σχήμα και θεωρείται πιο οικείο στους χρήστες, αφού όλοι οι χαρακτήρες που έχει κωδικοποιήσει εμφανίζονται στα πληκτρολόγια που χρησιμοποιούμε • EBCDIC (Extended Binary Coded Decimal Interchange Code): σύστημα κωδικοποίησης 8-bit που δημιουργήθηκε από την IBM αλλά δεν ευδοκίμησε • ISO 8859 περιλαμβάνει μια σειρά από πρότυπα που καλύπτουν τιςγραφές των περισσότερων χωρών της Ευρώπης που δεν καλύπτονται από το ASCII • Kanji: πρότυπο που χρησιμοποιεί η Ιαπωνία και καλύπτει πάνω από 6.000 χαρακτήρες • GuoBiao (GB): Το κινεζικό πρότυπο κωδικοποίησης που καλύπτει πάνω από 13.000

  11. Μέθοδοι επίλυσης πολυγλωσσικότητας… • Μέθοδος transliteration: αντιστοίχηση χαρακτήρων μιας γραφής με τους χαρακτήρες μιας άλλης (απλή αναπαράσταση χαρακτήρων και όχι της σημασίας των λέξεων, απαλοιφή γλωσσικών χαρακτηριστικών, δυσκολία αναπαράστασης ιδεογραμμάτων) • Μέθοδος φωτογραφίας χαρακτήρων: χρήση εικόνων για την αναπαράσταση χαρακτήρων (το περιεχόμενό τους γίνεται εύκολα κατανοητό από τους browsers και όλοι οι υπολογιστές είναι σε θέση να παράγουν τέτοιες εικόνες, αλλά δεν είναι αναζητήσιμες από το σύστημα καθώς αποθηκεύεται μια αναφορά στην εικόνα αυτή και όχι η εικόνα και ο χαρακτήρας καθαυτός.

  12. Μέθοδοι επίλυσης πολυγλωσσικότητας… • Συνδυασμός γραμματοσειρών:χρήση πολλών γραμματοσειρών για την αναπαράσταση χαρακτήρων (ομοιότητα των αναγλύφων χαρακτήρων δεν σημαίνει ότι είναι ίδιοι χαρακτήρες, για να το δούμε σε άλλο σύστημα θα πρέπει να έχει τις ίδιες γραμματοσειρές, δεν ακολουθούν όλες οι γραμματοσειρές την ίδια κωδικοσελίδα) • Συνδυασμός κωδικοσελίδων: χρησιμοποίηση μιας συγκεκριμένης κωδικοσελίδας και μετατροπή όλων των εισερχόμενων έγγραφων μέσω ενός ενδιάμεσου εξυπηρετητή σε αυτή ή κατανόηση όλων των κωδικοσελίδων από τους υπολογιστές

  13. Unicode… • Δημιουργήθηκε στα μέσα της δεκαετίας του 1980 από τους Joseph Becker, Lee Collins και Mark Davis • Ονομάστηκε έτσι από τα χαρακτηριστικά του: Universality (οικουμενικότητα) Uniqueness (μοναδικότητα) Uniformity (ομοιομορφία) • Το 1991 δημιουργήθηκε το Unicode Consortium και τον Οκτώβριο του 1991 εκδόθηκε ο πρώτος τόμος του

  14. Το Unicode είναι… • Διεθνές πρότυπο κωδικοποίησης χαρακτήρων στην γλώσσα των υπολογιστών • Η σχεδίαση του αφορά την κωδικοποίηση χαρακτήρων όλων των γραπτών γλωσσών του κόσμου • Περιέχει χαρακτήρες από τις κυριότερες γραπτές γλώσσες του κόσμου και βρίσκεται σε συνεχή ανανέωση • Περιλαμβάνει τεχνικά σύμβολα, ιδιαίτερα γλωσσικά χαρακτηριστικά μιας γραφής όπως διαλυτικά, αριθμητικά σύμβολα, σημεία στίξης και γενικά οτιδήποτε μπορεί να περιέχεται σε μια γλώσσα • Προτείνει έναν μοναδικό αριθμό για κάθε χαρακτήρα, ανεξάρτητα από το λογισμικό, το λειτουργικό σύστημα και τη γλώσσα

  15. Η λειτουργία του… • Η βασική του μορφή βασίζεται σε 16-bit σχήμα και επιτρέπει την κωδικοποίηση 65.536 χαρακτήρων • Οι πρώτες 256 θέσεις καλύπτουν τους χαρακτήρες του ASCII που περιλαμβάνονται στις 8.192 θέσεις των βασικών αλφαβήτων • 4.096 θέσεις για σημεία στίξης, σύμβολα κτλ • 4.096 κωδικοποιημένων θέσεων είναι για τους λεγόμενους CJK χαρακτήρες (China, Japan, Korea) • 20.000 θέσεις αφορούν τα ιδεογράμματα αυτών των χωρών. • Το τελευταίο τμήμα είναι για προσωπική χρήση και χαρακτήρες συμβατότητας

  16. Συνέχεια… Η 16-bit μορφή δεν είναι αρκετή και δημιουργήθηκε ένας μηχανισμός για την δημιουργία περισσότερων κωδικοποιημένων θέσεων. Ο μηχανισμός του Unicode χρησιμοποιεί ζευγάρια τιμών σαν χαρακτηριστικά για να μπορέσει να δημιουργήσει πάνω από 1.000.000 πιθανές τιμές και να κωδικοποιήσει περίπου 1.114.112 χαρακτήρες. Για να μπορέσει να επιτευχθεί όμως αυτό, χρησιμοποιήθηκαν τρία διαφορετικά σχήματα του Unicode, τα UTF8, UTF16 και UTF32.

  17. Διάφορα σχήματα… UTF (Universal Multiple-Octet Character Set Transformation Format): σχήματα κωδικοποίησης • UTF8: 8-bits • UTF16: 16-bits • UTF32: 32 bits

  18. Προβλήματα Unicode… • Η αγγλική γλώσσα δεν θεωρείται πλέον διεθνής • Πρόβλημα αποθήκευσης και ανταλλαγής πληροφοριών • Κωδικοποίηση ιδεογραμμάτων • Αραβική γραφή • Δημιουργία γραμματοσειρών • Μετατροπή κωδικοποιημένων εγγραφών από ASCII σε Unicode

  19. Πλεονεκτήματα Unicode… • Δημιουργία διεθνής κωδικοσελίδας • Κάθε χαρακτήρας είναι μοναδικός και περιγράφεται από έναν αριθμό • Κωδικοποίηση των περισσότερων γραφών του κόσμου • Ομοιομορφία κωδικοποίησης χαρακτήρων

  20. Unicode και ινδικές γραφές… Πέρα από την επίσημη ινδική γλώσσα Hindi και τ’ αγγλικά, υπάρχουν περίπου 16 ακόμα ινδικές γλώσσες και γραφές. Με την βοήθεια του Unicode το οποίο συνεχώς αναπτύσσεται, στην έκδοση 3.0.0. συμπεριέλαβε περίπου 10 ινδικές γραφές, ενώ στην τελευταία έκδοσή του, έχει συμπεριλάβει νέους χαρακτήρες που δεν υπήρχαν στην προηγούμενη έκδοση

  21. Η βάση Vidyanidhi… • Στην Ινδία λειτουργούν περίπου 281 πανεπιστήμια, εκπονουνται περίπου 25.000-30.000 διδακτορικές διατριβές κάθε χρόνο και το 20%-25% αυτών είναι γραμμένες σε ινδικές γλώσσες και οι υπόλοιπες στ’ αγγλικά • Σκοπός του είναι: διεύρυνση της πρόσβασης των χρηστών, στην περαιτέρω διάρκεια της αρχειοθέτησής του, στην μεγέθυνση της διασποράς της έρευνας, στην αύξηση των χρηστών με την ανάπτυξη της συλλογής και στην ακρίβεια και καλύτερη εκφραστικότητα των ερευνητών όταν γράφουν στην δική τους γλώσσα. • Περιλαμβάνει πάνω από 22.000 εγγραφές από τις οποίες οι 19.000 ασχολούνται με διδακτορικά που είναι γραμμένα στα αγγλικά, 2.200 εγγραφές στη γλώσσα Hindi και 640 στη γλώσσα Kannada.

  22. Ιδιομορφίες ινδικών γραφών… • Οι ινδικές γραφές είναι συλλαβικές φωνητικά προσανατολισμένες και έχουν ανακρίβειες στην κωδικοσελίδα τους. • Οι διαφορετικές γραφές φαίνονται να είναι διαφορετικές, λόγω των σχημάτων των χαρακτήρων, αλλά έχουν που περισσότερες ομοιότητες παρά διαφορές στο αλφάβητο και στην γραμματική. • Οι ινδικοί χαρακτήρες αποτελούνται από σύμφωνα, φωνήεντα, κάποια φωνήεντα που λέγονται ‘matras’ και τους συνδυασμούς κάποιων ή όλων αυτών που λέγονται ‘conjuncts’. • Η ταξινόμηση των γραφών αυτών είναι ένα μόνιμο πρόβλημα καθώς οι γραφές αυτές έχουν φωνητική βάση και δεν βασίζονται σε αλφάβητο.

  23. Αρχές και λειτουργία της… • Η βάση Vidyanidhi είναι ενιαία για τις λατινικές εγγραφές και για τις εγγραφές σε ινδική γλώσσα. Οι γραφές που χρησιμοποιούνται είναι η λατινική, η Hindi και η Kannada. • Κάθε μια από αυτές τις γλώσσες έχει έναν ξεχωριστό πίνακα. • Τα διδακτορικά που είναι γραμμένα σε ινδική γραφή έχουν δύο εγγραφές, μια σε λατινική γραφή και μια στην τοπική, ενώ αντίθετα τα διδακτορικά που χρησιμοποιούν την αγγλική γλώσσα έχουν μόνο μια εγγραφή στ’ αγγλικά. • Οι δύο εγγραφές που αφορούν σε ένα μόνο διδακτορικό συνδέονται μέσω του κοινού τους κωδικού, του ThesisID. • Η βιβλιογραφική περιγραφή των τεκμηρίων ακολουθεί το πρότυπο του Dublin Core.

  24. Λόγοι μη υιοθέτησης Unicode στην Ινδία… • εισαγωγή δεδομένων • αναπαράσταση των χαρακτήρων στην οθόνη και την εκτύπωσή τους • ταξινόμηση των χαρακτήρων

  25. Επίλογος… Κρίνεται απαραίτητη η επίλυσή του για τη καλύτερη επικοινωνία μεταξύ ανθρώπων και συστημάτων διαφορετικών χωρών και πολιτισμών και την πληρέστερη αξιοποίηση των ψηφιακών βιβλιοθηκών απ’ όλους.

  26. Much remains to be done before linguistic barriers can be surmounted as effectively as geographic ones (Oard 1997)

More Related