1 / 17

La rappresentazione dell’informazione testuale e i linguaggi di codifica

La rappresentazione dell’informazione testuale e i linguaggi di codifica. Capitolo V. Le forme della rappresentazione digitale. La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate

milos
Download Presentation

La rappresentazione dell’informazione testuale e i linguaggi di codifica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La rappresentazione dell’informazione testuale e i linguaggi di codifica Capitolo V.

  2. Le forme della rappresentazione digitale • La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate • L’aggiunta di informazioni sul testo e sul documento: i linguaggi di codifica – dati informazionali sulle istanze di contenuto tradite dalle fonti testuali

  3. Testo e documento • Il documento come rappresentazione MATERICA e MATERIALE della fonte • Il testo come fonte di contenuto, trasmissione di DATI INFORMAZIONALI Es. Rappresentazione logica del contenuto veicolato da una fonte testuale, il contenuto dell’opera, che è il testo VS una specifica rappresentazione fisica, cioè una particolare edizione del testo, che è il documento, vale a dire l’attestazione fisica del testo, lo specifico esemplare.

  4. I linguaggi dichiarativi e procedurali • Sistemi di tipo WYSIWYG (What You See Is What You Get) – a interfaccia grafica • Sistemi basati sui markup language: 1. PROCEDURALI (specificmarkup), che istruiscono il device di output sull’aspetto del documento; 2. DICHIARATIVI (genericmarkup) che consentono di aggiungere informazioni sul testo

  5. SGML Standard Generalized Markup Language • Linguaggio di markup dichiarativo per la codifica della struttura logica delle fonti testuali. • Metalinguaggio che consente l’elaborazione di linguaggi di codifica fornendo principi sintattici. • Markup: aggiunta di informazioni a ogni partizione logica della fonte tramite tag • Aspetto tag: delimitatori che contengono l’informazione utile a descrivere la porzione di testo, nella forma: <elemento> • Concetto di DTD come luogo utile a specificare il valore di ogni elemento che si intende utilizzare in fase di markup

  6. HTML Hyper Text Markup Language • DTD SGML: set di marcatori ad hoc per la codifica di costrutti ipertestuali • Principi sintattici basati su SGML • Struttura del codice: <ISTRUZIONE ATTRIBUTO=“valore dell’attributo”> testo a cui si riferisce il marcatore </ISTRUZIONE> • Limiti HTML: linguaggio non modificabile, scarsamente strutturato, predilezione marcatori stilistici

  7. Un file HTML <HTML> <HEAD> <TITLE>Le Stanze di Poliziano</TITLE> </HEAD> <BODY> <H1><I>Stanze</I></H1> <H2>Angelo Poliziano</H2> <H3>LIBRO PRIMO</H3> <DIV> <H4>1</H4> <FONT SIZE=+1>Preposizione</FONT> <P>Le gloriose pompe e' fieri ludi<BR> della città che 'l freno ..<BR> </P> </DIV> <DIV> <H4>2</H4> <FONT SIZE=+1>Invocazione ad Amore</FONT>. <P>O bello idio ch'al cor per gli occhi ..<BR> dolce disir d'amaro pensier ..<BR> </P> </DIV> </BODY> </HTML>

  8. XML Extensible Markup Language • Sottoinsieme SGML (non DTD!) semplificato e ottimizzato specificamente per applicazioni in ambiente Word Wide Web • Propensione per la descrizione della struttura logica della fonte rispetto alla resa grafica in layout • Aspetto del documento delegato ad altri linguaggi (come XSL) • Utilizzo di DTD esistenti o creazione dei marcatori ad hoc per la tipologia documentaria • Documenti XML validi (che si rifanno a una DTD) e “ben-formati” (well-formed), ossia che si limitano ad aderire alle norme sintattiche XML

  9. File per lavorare con XML • Documento XML (file.xml): struttura gerarchica ad albero dei marcatori – concetto di elemento, attributo ed entità • DTD (file.dtd): specificazione dei nomi degli elementi e delle mutue relazioni gerarchiche, degli attributi e dei riferimenti di entità utilizzati nel documento XML • Foglio di stile (file.xsl): descrizione del layout, di come appariranno in fase di visualizzazione le porzioni di testo codificate nel file XML

  10. Un documento XML <?xml version="1.0"?> <?xml-stylesheet href="poesie.xsl" type="text/xsl"?> <!DOCTYPE Poesie SYSTEM "poesie.dtd"> <POEMA> <TITOLO>Stanze</TITOLO> <AUTORE>Angelo Poiliziano</AUTORE> <CANTO n="1"> <INTESTAZIONE>LIBRO PRIMO</INTESTAZIONE> <OTTAVA n="1"> <TITOLO tipo="numerico">1</TITOLO> <TITOLO tipo="tematico">Preposizione</TITOLO> <VERSO>Le gloriose pompe e' fieri ludi</VERSO> <VERSO>della città che 'l freno ..</VERSO> ... </OTTAVA> <OTTAVA n="2"> <TITOLO tipo="numerico">2</TITOLO> <TITOLO tipo="tematico">Invocazione ad Amore</TITOLO> <VERSO>O bello idio ch'al cor per gli occhi ..</VERSO> <VERSO>dolce disir d'amaro pensier ..</VERSO> ... </CANTO> </POEMA>

  11. Schema ad albero POEMA TITOLO AUTORE CANTO CANTO INTESTAZIONE OTTAVA OTTAVA … TITOLO VERSO VERSO VERSO …

  12. Porzione di DTD <!ELEMENT poema (titolo, autore, canto*)> <!ELEMENT titolo (#PCDATA)> <!ELEMENT autore (#PCDATA)> <!ELEMENT canto (intestazione?, ottava*)> <!ATTLIST canto n ID #REQUIRED> <!ELEMENT ottava (titolo?,verso*)> <!ATTLIST ottava n ID #REQUIRED> <!ELEMENT verso (#PCDATA)>

  13. Porzione di file XSL <xsl:template match="/"> <HTML> <BODY BGCOLOR="#fff000"> <font face="Verdana" size="2"> <xsl:apply-templates/> </font> </BODY> </HTML> </xsl:template> <xsl:template match="titolo"> <font color="#cccccc"><i><xsl:apply-templates/></i></font> </xsl:template> <xsl:template match="autore"> <font size="+1"><b><xsl:apply-templates/></b></font> </xsl:template>

  14. Alcuni standard correlati a XML • Gestione dei fogli di stile: XSL (Extensible Stylesheet Language) • Gestione dei link ipertestuali: XML Linking Language (Xlink e Xpointer) • Gestione dei metadati: RDF (Resource Description Format )

  15. La DTD per i testi umanistici: Text Encoding Initiative (TEI) • DTD elaborata per la gestione dei testi letterari • Nasce per SGML e ora è compatibile anche con XML • Prevede la codifica di ogni fenomeno letterario (conta oltre 400 elementi) • TEILite – versione ridotta dello schema di codifica • Pizza Chef – per la creazione del set di marcatori ad hoc per la tipologia testuale o gli scopi della ricerca

  16. Struttura TEI Divisa in sezioni: • elementi utilizzabili in ogni tipo di testo • elementi specifici per tipologia testuale (testo in prosa, in versi, testo drammatico, dizionario, trascrizione di registrazioni verbali) • elementi legati agli obiettivi della resa computazionale (codifica di fonti primarie e predisposizione dell’apparato delle varianti, codifica di strutture morfosintattiche, rappresentazione di strutture interpretative profonde, rappresentazione di costrutti ipertestuali)

  17. Schema base della DTD TEI <Tei.2>[start tag della TEI] <teiHeader> [informazioni relative all’esemplare cartaceo di riferimento e alla versione elettronica - metadati] </teiHeader> <text>[start tag del testo] <front>[dati che precedono il corpo del documento]</front> <body> [corpo del testo] </body> <back> [dati che seguono il corpo del documento] </back> </text>[end tag del testo] </Tei.2>[end tag della Tei]

More Related