1 / 22

Biblioteca Italiana

Biblioteca Italiana. Predisposizione delle fonti per l’utilizzo degli studiosi Fabio Ciotti. Il progetto BibIt. Biblioteca Italiana (BibIt) è una biblioteca digitale di testi rappresentativi della tradizione culturale e letteraria italiana dal Medioevo al Novecento

davin
Download Presentation

Biblioteca Italiana

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Biblioteca Italiana Predisposizione delle fonti per l’utilizzo degli studiosi Fabio Ciotti

  2. Il progetto BibIt • Biblioteca Italiana (BibIt) è una biblioteca digitale di testi rappresentativi della tradizione culturale e letteraria italiana dal Medioevo al Novecento • promossa dal "Centro interuniversitario Biblioteca italiana telematica" (CiBit) • progettata realizzata e gestita dal 2001 dalla sua unità attiva presso il dipartimento di Italianistica dell'Università di Roma "La Sapienza" • supportata dal progetto "Biblioteca Digitale Italiana" del Ministero per i beni e le attività Culturali

  3. Il contesto: i repositories testuali nelle istituzioni di ricerca e universitarie • OTA • Electronic text center • WWP • Cibit • TIL • Orientati da obiettivi di ricerca o di supporto alla ricerca • Risorse in formati testuali (prevalentemente) • Organizzazione per corpora testuali scientificamente coerenti • Rivolti a un pubblico specialistico

  4. Il contesto: i progetti di archiviazione digitale istituzionali • American memory • Gallica • Biblioteca Digitale Italiana • Orientati alla conservazione e alla valorizzazione del patrimonio testuale • Risorse in formato immagine (prevalentemente) • Rivolti a un pubblico generalista

  5. Il contesto: il paradigma della biblioteca digitale • A partire dagli anni ’90 emerge il paradigma della biblioteca digitale • Sperimentazioni • Finanziamenti • USA: DLI I e II • UE: vari programmi quadro • Riflessioni • DLib magazine • Esplosione della letteratura sul tema

  6. Linee guida e indirizzi fondamentali • recuperare il patrimonio di risorse digitali in formati testuali prodotte in precedenti progetti di digitalizzazione di opere della tradizione letteraria italiana • rendere accessibile tale patrimonio a sia a utenti specialisti e ricercatori sia a utenti generici • inserire tale patrimonio in un progetto di Biblioteca Digitale adeguato al livello di elaborazione teorica e alle esperienze di punta a livello internazionale • adottare i più avanzati standard disponibili nella progettazione e implementazione delle varie componenti funzionali del sistema • fornire testi scientificamente affidabili • dal punto di vista linguistico tenendo conto della possibilità di perfettibilità indefinita che consentono i testi elettronici • dal punto di vista dei formati • fornire servizi ricerca che consentano di ottimizzare la capacità degli utenti di individuare l’insieme di risorse informative che in un dato momento risponde nel modo più adeguato ai propri bisogni informativi • garantire la preservazione a lungo termine degli oggetti informativi (risorse) acquisite/prodotte e l’accesso a essi da parte della comunità di utenti di riferimento • adottare soluzioni software open source e aperte

  7. La progettazione del sistema BibIt • Il conseguimento di questi obiettivi ha richiesto una attenta progettazione del sistema e dei relativi servizi • Progettazione e definizione culturale in primo luogo (che cosa come e perché digitalizzare, per quale utenza o gruppi di utenze, con quali rapporti costi/benefici di cui tenere conto) • Progettazione e modellizzazione concettuale • Architettura logica del sistema informativo e definizione dei modelli e formati di dati • Progettazione tecnica e implementazione del sistema informativo, scelta dei software e sviluppo delle interfacce

  8. Progettazione concettuale • Il modello concettuale che ha orientato lo sviluppo di Bibit è (liberamente) ispirato al Reference Model for an Open Archival Information System (OAIS) • CCSDS 650.0-B-1: Reference Model for an Open Archival Information System (OAIS). Blue Book. Issue 1. January 2002.adottata come standard ISO 14721:2003 • The reference model would define the basic functional components of a system dedicated to the long-term preservation of digital information, detail the key internal and external system interfaces, and characterize the information objects managed by the system. These descriptions would be expressed in terms of a well-defined set of concepts and terminology transcending, yet mappable to, domain-specific vocabularies. The reference model would also enumerate a set of minimum requirements an archival system is expected to meet [B. Lavoie, The Open Archival information System Reference Model: Introductory Guide, 2004] • Modello funzionale e modello informativo

  9. Open Archival Information System • Open • Reference Model standard(s) are developed using a public process and are freely available • Information • Any type of knowledge that can be exchanged • Independent of the forms (i.e., physical or digital) used to represent the information • Data are the representation forms of information • Archival Information System • Hardware, software, and people who are responsible for the acquisition, preservation and dissemination of the information

  10. OAIS: tipo di pacchetti informativi • Submission Information Package • Negotiated between Producer and OAIS • Sent to OAIS by a Producer • Archival Information Package • Information Package used for preservation • Includes complete set of Preservation Description Information (PDI) for the Content Information • Dissemination Information Package • Includes part or all of one or more Archival Information Packages • Sent to a Consumer by the OAIS

  11. Architettura logica del sistema informativo modelli e formati dei dati • L’architettura del sistema BibIt si articola in • Repository dei documenti primari • Archivia i documenti e fornisce i servizi di ricerca full-text e di presentazione degli stessi in diversi formati derivati • Repository dei metadati • Archivia i metadati associati a ciascuna risorsa e fornisce i servizi di ricerca strutturata e di presentazione degli stessi • Sistema di immissione dei metadati • Modulo back-office per la cerazione dei metadati che si interfaccia con con il relativo repository • Modulo di interfaccia basato sul Web • Modulo di ricerca e presentazione dei metadati (ereditato dall’interfaccia degli OPAC) • Modulo di ricerca full-text dei documenti • Quali strumenti per quali utenti? • Limiti dei servizi di ricerca linguistica specialistica di un servizio di BD • Modulo di presentazione dei documenti: • il problema del paratesto digitale e degli strumenti di mediazione del testo in ambiente digitale • ridefinizione dei ruoli della biblioteca • assunzione di una vera e propria responsabilità editoriale della Biblioteca Digitale

  12. I metadati • Per la gestione dei metadati è stato adottato il modello di dati e la sintassi XML dello schema METS (Metadata Encoding and Transmission Standard) • Il profilo METS di BibIt identifica un modello di dati compatibile con quello dello schema MAG al fine di garantire l’interoperabilità con questo standard e con i servizi on-line che lo adottano (portale IC) • Uno schema per la creazione di documenti di raccordo tra i vari componenti di una risorsa digitale e i metadati che li descrivono e per descrivere le relazioni strutturali che intercorrono tra tali componenti e la struttura logica del loro contenuto • Implementazione XML del concetto di Information Package OAIS • Può svolgere il ruolo di • SIP • AIP • DIP

  13. METS • Identifica i file o le parti di file che compongono il contenuto di una risorse digitale ed esprime la struttura o le strutture di questo contenuto • Collega I metadati descrittivi con il contenuto digitale • Collega I metadati amministrativi con il contenuto digitale • Impacchetta il contenuto digitale e i metadati a esso associati come dati in formato binario

  14. METS • METS non fornisce un vocabolario e una sintassi autonome per codificare metadati descrittivi e amministrativi • METS fornisce un modo per puntare a metadati esterni e/o per includere metadati descrittivi in formato XML all’interno del documento METS • METS fornisce un sistema per collegare questi metadati al contenuto di una risorsa digitale

  15. Struttura di un documento METS • Una istanza METS consiste di 6 sezioni • Header • Descriptive Metadata Section • Administrative Metadata Section • File Section • Structural Map Section • Behavior section

  16. Uso di METS in BIBIT • METS come AIP (formato del repository) • METS come DIP (trasformato in XHTML mediante procedura XSLT server-side o trasmesso direttamente • Trasformato in sintassi MAG come DIP per interoperare con i servizi del portale Internet Culturale • A ogni risorsa informativa unitaria (espressione di un’opera) corrisponde un documento METS • Extension schema adottati • Metadati descrittivi • MODS 3.0 (Metadata Object Description Schema) • Metadati amministrativi • BibIt Digital Text Metadata Set (DTMS), • uno schema sviluppato internamente per la registrazione dei metadati tecnici di formati testuali sottoposto • BIBIT Digital Provenance Metadata Set • MIX (NISO Technical Metadata for Digital Still Images) • LOC Schema for Rights Declaration

  17. I formati per i documenti • La collezione di risorse digitali di BibIt è in formato testuale • Il formato primario di archiviazione è un sottoinsieme del il linguaggio di markup TEI/XML • Data la vastità dello schema TEI, nell’ambito del progetto Bibit sono stati individuati diversi livelli di codifica ai quali un testo può essere sottoposto: • livello 1: codifica della struttura editoriale del testo, di un limitato gruppo di fenomeni editoriali intralineari e linguistici; • livello 2: codifica di una serie di fenomeni linguistici e semantici, dei riferimenti bibliografici, oltre alla eventuale introduzione di riferimenti incrociati; • livello 3: codifica di fenomeni testuali complessi in vista di applicazione di analisi avanzate (struttura semantica, narrativa, retorica, morfosintattica, etc.); • livello 4: trascrizione diplomatica di una fonte primaria; • livello 5: edizione critica di un opera. • Allo stato attuale la maggior parte dei documenti presenti nella collezione sono al livello di codifica 1

  18. I criteri editoriali • Le risorse testuali prodotte nel contesto del progetto BibIt – ad eccezione di edizioni diplomatiche di fonti primarie – sono considerate in generale come vere e proprie edizioni digitali autonome • Di nuovo la responsabilità editoriale della Biblioteca Digitale • Il rapporto con l’edizione cartacea fonte è circoscritto al solo contenuto testuale dell’opera nella forma linguistica e nella struttura editoriale con cui essa vi appare. • Il processo di digitalizzazione e codifica si limita esclusivamente a tale contenuto testuale, trascurando • l’aspetto materiale della fonte • i materiali paratestuali la cui responsabilità intellettuale non è ascrivibile all’autore dell’opera (a meno che tali elementi non siano entrati a far parte dell’opera stessa nel corso della sua tradizione) • tutti i materiali paratestuali non d’autore o comunque estranei al testo in sé, per come questo è attestato nella tradizione (frontespizio, introduzione, prefazione, indice dei contenuti, note, titoli correnti, numeri di pagina etc.), saranno omessi • le parole sillabate a fine riga saranno normalizzate; • ogni fenomeno materiale non inerente al testo dell’opera occorrente sulle pagine viene tralasciato • ogni fenomeno di evidenziazione viene codificato in modo funzionale • Il contenuto linguistico e ortografico del testo è trascritto fedelmente nella forma in cui esso appare nella fonte, senza alcun intervento di normalizzazione. • Il code set di riferimento per la rappresentazione dei caratteri è Unicode in codifica UTF-8.

  19. Architettura software • Front-end Web: HTTP server Apache 2.0 • Fornisce direttamente tutti i contenuti Web statici e gestisce l’accesso ai servizi dinamici basata su java • Java application server/servlet container: Jakarta Tomcat 5.5 o sup • Esegue le applicazioni Web basate su Java presenti nell’archiettura • Repository metadati: Exist XML database • Contiene e indicizza i metadati in formato XML nativo • Creazione metadati: Exist XML database + Java Web application B-Mes • L’immissione dei metadati si basa su una applicazione Web Java sviluppata ad hoc, B-Mes, che memorizza i dati direttamente su database XML Exist • Ricerca e visualizzazione metadati: Exist XML database + applicazione web basata su Cocoon Web framework integrato con Exist • La ricerca e visualizzazione dei metadati viene effettuata mediante una applicazione Web eseguita da Cocoon che ineterroga il db XML Exist e formatta i dati in HTML. Il linguaggio di query usato è Xquery 1.0 e l’elaborazione e formattazione dei dati in formato XML si basa su fogli di stile XSLT 1.2 • Gestione e visualizzazione risorse in formato immagine: Exist XML database + applicazione web basata su Cocoon Web framework integrato con Exist • La visualizzazione delle risorse in formato immagine si basa su una applicazione Web Cocoon che elabora server side i metadati XML/METS estratti dal db Exist mediante fogli di stile XSLT 1.1. Le immagini sono conservate direttamente su file system. • Visualizzazione e ricerca full-text delle risorse testuali in formato XML/TEI: Web application XTF • La ricerca e la visualizzazione on-line dei documenti testuali in formato XML si basa attualmente sull’applicazione proprietaria Dynaweb • L’applicazione permette effettuare ricerche full-text e sull’intera collezione testuale e di convertire dinamicamente i documenti XML in formato HTML per la visualizzazione in ambiente Web • A breve completeremo il passaggio verso la nuova piattaforma open-source XTF sviluppata dal California Digital Library basata sul motore di ricerca full-text Lucene

  20. Sviluppi futuri • Estensione della collezione. • Sono in lavorazione circa 150 nuovi testi che completeranno i corpora di alcuni tra i maggiori autori del canone • Sviluppo di servizi avanzati differenziati per i profili di utenza • Per gli utenti specialisti • Servizi di ricerca e di statistica testuale avanzati con accesso ristretto • Approfondimento dei livelli di codifica • Predisposizione di collezioni speciali con edizioni diplomatiche e critiche

  21. Sviluppi futuri • Per gli utenti specialisti • Servizi di ricerca e di statistica testuale avanzati con accesso ristretto • Approfondimento dei livelli di codifica • Predisposizione di collezioni speciali con edizioni diplomatiche e critiche • Avvio del progetto Incunaboli Volgari in formato immagine

  22. Sviluppi futuri • Per gli utenti generalisti • Fornitura di contenuti di mediazione e contestualizzazione culturale dei testi • Adozione di tecnologie di descrizione e ricerca semantica (Sematic Web e Topic Map) • Distribuzione dei testi in formati derivati adatti alla lettura mediante apparati e-book (PDF e MS Reader)

More Related