1 / 48

T ext E ncoding I nitiative

T ext E ncoding I nitiative. Mats Dahlström | Digitalisering av kulturarvet | Januari 2008. TEI: bakgrund. Behov av uniformt system för textkodning och utbyte inom humaniora Till 80-talet användes proprietära representationssystem Behov av: Återanvändbarhet Interoperabilitet

leiko
Download Presentation

T ext E ncoding I nitiative

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Text Encoding Initiative Mats Dahlström | Digitalisering av kulturarvet | Januari 2008

  2. TEI: bakgrund • Behov av uniformt system för textkodning och utbyte inom humaniora • Till 80-talet användes proprietära representationssystem • Behov av: • Återanvändbarhet • Interoperabilitet • Plattforms, hård- och mjukvaruoberoende • Portabilitet • Kollaborationsmöjligheter • Ett verktyg för flera discipliner / vetenskaper inom humaniora • TEI-konsortiet <http://www.tei-c.org>

  3. TEI: utveckling • 1986: SGML / ISO • 1987: Poughkeepsie principles • 1990: P1 (SGML) • 1992: P2 • 1994: P3 : 600+ element • 1995: TeiLite : 121 element • 1999: P3rev • 2000: TEI Consortium • 2001: P4 : XML (viss SGML) • 2001: TeixLite : XML • 2005: XML Schema • 2005-2008(?): P5 (ingen SGML): -500 element

  4. Hur används TEI? • För kodning av: • texter på olika språk, av olika ålder och epoker, i olika litterära och bibliografiska genrer (texttyper) • såväl “continuous material” som “discontinuous material” (t.ex. lexika och korpora)

  5. Varför så omfattande? • TEI uppbyggt kring riktlinjer, regler och rekommendationer istället för standard eftersom • Textkodning innebär representation och tolkning • Frihet för forskaren att uttrycka sin teori om texten genom att göra olika val • Riktlinjerna att betrakta som referensmanual

  6. Vad innehåller TEI? • Inte en enda given DTD, utan en mängd DTD-fragment (tag sets), som kan kombineras • Vissa nödvändiga (required), andra grundläggande (basic) och vissa valfria (optional)

  7. Sugen på pizza? • Core tag sets • Base tag sets • Additional tag sets http://www.tei-c.org/pizza.html

  8. Core tag set • Nödvändigt • Innefattar bl.a. <teiHeader> (kapitel 5 i ”Guidelines”) • Jämförbart med titelsidan i tryckt bok • Gemensamma element för alla TEI-dokument (kapitel 6)

  9. Base tag sets • Prose • Verse • Drama • Speech • Dictionaries • Terminology • General base • Mixed base

  10. Additional tag sets • Urvalsförfarande och ej nödvändiga • Länkar • Figurer • Analyselement (mycket enkla) • Textkritiska möjligheter (apparat) • Namn och datum

  11. Prologen • XML-deklaration <?xml version=”1.0” encoding=”ISO-8859-1” standalone=”no”?> • Dokumenttypsdeklaration <!DOCTYPE TEI.2 PUBLIC ”-//TEI P4//DTD Main Document Type//EN” http://www.adm.hb.se/~mg/dig/XMLLab/masterx.dtd>

  12. <TEI.2> <teiHeader> [Metadata] </teiHeader> <text> <front> [Preliminärer, t.ex. titelsidans text och förord] </front> <body> [Huvudtexten] </body> <back> [Subsidiärer, t.ex. appendix, epilog och liknande] </back> </text> </TEI.2>

  13. I ett TEI-dokument ingår alltid [rotelementet] exv. <tei.2> teiHeader text body Dessa kan inte innehålla text (PCDATA)

  14. TEI Lite • Den mest populära DTD:n är TEI Lite • 121 fasta element • Med bara 20 % av elementen täcks 90 % av TEI-användarnas behov i 90 % av fallen • 80 % av projekten • TeixLite: den XML-kompatibla versionen • http://www.tei-c.org/Lite/

  15. TEI Lite – prolog, t.ex.: <?xml version="1.0"?> <!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN" "teixlite.dtd">

  16. med rotelement, header och text <?xml version="1.0"?> <!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN" "teixlite.dtd"> <TEI.2> <teiHeader>...<teiHeader> <text>...<text> <TEI.2>

  17. <text> <text> <front>...</front> <body>...</body> <back>...</back> </text>

  18. <group> <group> <text>...</text> <text>...</text> <text>...</text> </group> <text> innehåller ingen ‘text’, utan andra element

  19. teiCorpus.2 tei.2 TEI.2 tei.2 teiHeader text teiHeader front back group body div text front back body div div TEI:s textstruktur er

  20. <body> • ’body’ kan inte innehålla text, dvs PCDATA (parsed character data). • I normalfallet innehåller ’body’ ett antal avsnitt, innehållna i ett antal ’div’-element, vilka i sin tur vanligen innehåller ett antal stycken. • Kap. 35 i Guidelines specificerar vilka element som är tillåtna, eller nödvändiga, i vilka element.

  21. <front> • “Preliminärer” ss titelsidor, förordstexter osv – dvs den explicita informationen i förlagan <front> <titlePage> <docTitle> <titlePart type="main"> ... </titlePart> <docAuthor>...</docAuthor> <docDate>...</docDate> <docEdition>...</docEdition> <docImprint>...</docImprint> <epigraph>...</epigraph> </docTitle> </titlePage> </front>

  22. sektionsindelning av text:<div> <text> <front> <!-- titlepage etc here --> </front> <body> <head>Bok 1</head> <div type="chapter" n="1" id="b0101"> <head>Kapitel 1</head> <!– resten av kapitel 1 --> </div> <div type="chapter" n="2" id="b0102"> <head>Kapitel 2</head> <!-- resten av kapitel 2 --> </div> </body> </text>

  23. Attribut i <div> • Elementet ’div’ är mångtydigt, vi vet inte (utifrån uppmärkningen blott och bart) vad för en typ av avsnitt det handlar om. . . • Vi kan också vilja indikera en kapitelnumrering. . .

  24. //...// <div type=’chapter’ n=’2’> <p>//...//</p> <p>//...//</p> <div type=’chapter’ n=’3’> <p>//...//</p> <p>//...//</p>

  25. sektionsindelning av text:<div> <text> <front> <!-- titlepage etc here --> </front> <body> <div1 type="book" n="1" id="b0100"> <head>Bok 1</head> <div2 type="chapter" n="1" id="b0101"> <head>Kapitel 1</head> <!– resten av kapitel 1 --> </div2> <div2 type="chapter" n="2" id="b0102"> <head>Kapitel 2</head> <!-- resten av kapitel 2 --> </div2> </div1> </body> </text>

  26. Globala attribut • Kan tilldelas alla element • id för unik identifikation • n för (icke-unikt) namn eller nummer • rend för återgivning • lang för språk

  27. under <div> • Prose: stycken (<p>) • Verse: rader (<l>), ibland grupperade hierarkiskt (<lg>) • Drama: repliker (<sp>) som innehåller t.ex. <p>, <l> och <stage>

  28. prosaexempel: <p> • <p> Skulle vi ha valt HTML som märkspråk för textkodningen hade du visserligen fått en snabbare och mer direkt väg från uppmärkning till publicering. Men den hade också varit mindre ut- och påbyggbar. </p>

  29. poesiexempel 1 Summer grass — all that's left of warriors' dreams.

  30. poesiexempel 1 <lg type='haiku'> <l>Summer grass &mdash;</l> <l>all that's left</l> <l>of warriors' dreams.</l> </lg>

  31. poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.

  32. poesiexempel 2 <lg type="poem"> <head>This Be The Verse</title> <lg type="stanza"> <l>They fuck you up, your mum and dad.</l> <l>They may not mean to, but they do.</l> <l>They fill you with the faults they had</l> <l>And add some extra, just for you.</l> </lg> <!– ytterligare strofer --> </lg>

  33. “Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says: -I wish to the Lord, Mr. Wilson, that I was a red-headed man” Anförande

  34. <q who='Wilson'>Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:&mdash;<q who='Spaulding'>I wish to the Lord, Mr. Wilson, that I was a red-headed man.</q></q> Anförande • Använd attributet who för att ange vem som talar • Anföranden kan nästas i andra anföranden ... • .. men inte över styckegränser (överlappning!)

  35. My dear Mr. Bennet,said his ladyto him one day, have you heard that Netherfield Parkis let at last? Namn och andra refereringar • Elementet<rs> (referring string) kan användas för namn eller referens

  36. <q>My dear <rs type='person' key='BENM1'>Mr. Bennet</rs>,</q> said <rs type='person' key='BENM2'> his lady</rs> to him one day,<q>have you heard that <rs type='place' key='NETP1'> Netherfield Park</rs> is let at last?</q> Namn och andra refereringar • Elementet<rs> (referring string) kan användas för namn eller referens

  37. Både <name> och <rs> Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be ...

  38. Både <name> och <rs> <p><name>Mr. Joseph Andrews</name>, <rs>the hero of our ensuing history</rs>, was esteemed to be ...

  39. sid- och radbrytningar And bathed every veyne in swich licour Of which vertu engendred is the flour; ------------------------ s. 23 Whan Zephirus eek with his sweete breeth

  40. sid- och radbrytningar • <pb /> : sidbrytning • <lb /> : radbrytning And bathed every veyne in swich licour<lb /> Of which vertu engendred is the flour;<lb /> <pb ed="riverside" n="23" /> Whan Zephirus eek with his sweete breeth<lb />

  41. Today is <date>Tuesday 29th</date>. Today is <date value='1994-11-29'>Tuesday 29th </date>. One afternoon in <date certainty='approx' value='1994-11'>late November.</date>. One afternoon in <dateRange from='1994-11-15' to='1994-11-30 exact='to'> late November.</dateRange>. <date> • attribut kan precisera <date> och <dateRange> • dito med <time>, <timeRange> och <num>

  42. Överlappande hierarkier • Välformad XML • Men dokument är komplexa saker och flera parallella hierarkier kan identifieras, t.ex. • kapitel/ sektion / stycke / fras • ark / blad / sida / kolumn • Repliker och versrader

  43. (Å): Peer, du lyver! (P): Nei, jeg gjør ei! (Å): Nå, så bann på det er sant! (P): Hvorfor banne? (Å): Tvi, du tør ei! Alt i hop er tøv og tant!

  44. <sp who="A">Peer, du lyver!</sp><sp who="P">Nei, jeg gj&oslash;r ei!<ml/></sp><sp who="A">N&aring;, s&aring; bann p&aring; det er sant!<ml/></sp><sp who="P">Hvorfor banne?</sp><sp who=“A">Tvi, du t&oslash;r ei!<ml/>Alt i hop er t&oslash;v og tant.<ml/></sp>

  45. to get <hi> or not • Återge emfatiskt markerade ord med <hi> när du inte kan eller vill specificera anledningen till emfasen. • Men om du kan identifiera varför ordet är betonat, bör du tillgripa ett mer specifikt element, t.ex.: <emph>, <foreign>, <title>, <term>

  46. Validering • Hur vet vi att vi använt TEI Lite, eller vår egen TEI-tillämpning, på ett syntaktiskt korrekt sätt? • Online XML-validatorer: Brown University http://www.stg.brown.edu/service/xmlvalid/ • Editorer med inbyggd validering: JEDIT, OXYGEN m fl • Hur vet vi att vi använt TEI Lite, eller vår egen TEI-tillämpning, på ett semantiskt korrekt sätt? • Genom dokumentation!

  47. Behovspröva alltid • Är det motiverat med textdigitalisering och sofistikerad uppmärkning? Varför? Vilka alternativ finns? • Är det motiverat med just TEI? Varför? Vilka alternativ finns? • Är det motiverat med TEI Lite, eller behöver jag producera ngn annan delmängd av TEI för mina ändamål? Lavagnino 2006

More Related