1 / 20

Kotus 29.3.07: Rakennepaja

Kotus 29.3.07: Rakennepaja. Ongelmana luettavuus ja editointi, kun nimittäjänä ovat UTF-8 ja XSLT Jack Rueter rueter@ling.helsinki.fi. Heikki Paasosen mordvan murresanakirja. Ongelmana luettavuus ja editointi, kun nimittäjinä ovat UTF-8 ja XSLT. Sisältö. Koneet, ohjelmat ja kirjasimet

pepper
Download Presentation

Kotus 29.3.07: Rakennepaja

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kotus 29.3.07: Rakennepaja • Ongelmana luettavuus ja editointi, kun nimittäjänä ovat UTF-8 ja XSLT Jack Rueter rueter@ling.helsinki.fi

  2. Heikki Paasosen mordvan murresanakirja Ongelmana luettavuus ja editointi, kun nimittäjinä ovat UTF-8 ja XSLT

  3. Sisältö • Koneet, ohjelmat ja kirjasimet • Merkkiratkaisumalli • Emacs auki • XSLTPROC-konversio

  4. Murresanakirjan kirjoitusvaihe • Macintosh 1987-1996 • Ohjelmat • WriteNow • QuarkExpress • Kirjasimet • Tilaustyö (J.Lehtiranta)

  5. Merkkiratkaisumalli • UTF-8 • Perusmerkkejä + tarkkeita • Sekä yhdisteperusmerkkejä että perusmerkkejä + tarkkeita • Tarkkeet = • (Combining Diacritical Marks) • Spacing Modifier Letters <http://www.unicode.org/charts/>

  6. Merkkiratkaisumalli • Merkkiyhdisteet • Perusmerkki + tarke/tarkkeet • Ensin perusmerkin alapuolella olevat tarkkeet • Sitten perusmerkin yläpuolella olevat • Tarkkeet järjestyksessä perusmerkistä poispäin • Tätä voi hahmottaa kuin planeettojen kulkuradat auringon suhteen: Merkurius, Venus, Maa … • Spacing Modifier Letters tulevat siten omina yksikköinä.

  7. Unix-yhteys • Unix 2006-2007 • Editori: emacs • Windows: XSessions: Putty • Linux: emacs: (mule-ratkaisuja)

  8. Putty • Sessions • Host Name or (IP address) • Window/Translation • Received data assumed to be in which character set • UTF-8 • SSH/X11 • X11 forwarding • Enable X11 forwarding

  9. Putty/emacs • Komentoriviltä: • ]$ emacs -nw paasonen.xml • Työympäristö • Näppäimistöltä syötetään latinalaisia ja kyrillisiä kirjaimia • Alt + shift -näppäimistönvaihto

  10. Putty/emacs/työympäristö Näppäimistöltä syötetään latinalaisia ja kyrillisiä kirjaimia, jotka ovat UNICODEa • Voi käyttää (C-s) hakemaan kaikkea, mitä tulee näppäimistöltä • Oikealla: haluttu merkkijono • (C-s C-y) • s´

  11. Linux/emacs • Komentoriviltä: • ]$ emacs paasonen.xml • emacs auki graafisessa ympäristössä • Options/Mule (Multilingual Environment) • Set Font/Fontset • Font menu/ Fontset • Standard: 16-dot medium

  12. Linux/emacs • Tiedosto auki • (C-x C-f) • .xml-loppuiset tiedostot automaattisesti oletusarvoltaan UNICODE-muotoisia • (M-x nxml-mode) • s&#x030C; => s&#x030C;ˇ • &#x0161; => &#x0161;š

  13. Puutteet • Mule-ratkaisun takia ei voi etsiä näppäimistöltä käsin sellaisia kyrillisiä kirjaimia, jotka on kirjoitettu muissa sessioissa.

  14. XSLTPROC-konversio • Automaattinen konversio • xsl:copy-of • Tiedoston sisällä: s&#x030C; => s&#x30C; • Tiedoston nimeksi: 2- tai 3-tavuisia vastineita: s&#x030C; => s%CC%8C

  15. Artikkelinkokoisia tiedostoja • <?xml version="1.0" encoding="utf-8"?> • <xsl:stylesheet version="1.0" • xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> • <xsl:template match="/"> • <xsl:for-each select="//entry"> • <xsl:variable name="fileName"> • <xsl:value-of select="subentry[1]/compositeSubentry[1]/b[1]" • /><xsl:text>_</xsl:text><xsl:value-of select="subentry[1]/co • mpositeSubentry[1]/index[1]"/><xsl:text>.xml</xsl:text> • </xsl:variable> • <xsl:document method="xml" encoding="utf-8" href="{$fileName}"> • <xsl:copy-of select="." /> • </xsl:document> • <xsl:value-of select="subentry[1]/compositeSubentry[1]/b[1]" /><xsl:text>_</ • xsl:text><xsl:value-of select="subentry[1]/compositeSubentry[1]/index[1]"/><xsl: • text>.xml • </xsl:text> • </xsl:for-each> • </xsl:template> • </xsl:stylesheet>

  16. Artikkelinkokoisia tiedostoja • Tiedoston nimeksi: 2- tai 3-bittisiä vastineita • s&#x030C; => s%CC%8C • Luettavuuden takia käytetään perl- ja shell-skriptiä tiedostonimien muuntamiseksi

  17. Tiedostonimien muunto • ls Versiot/*xml | perl -pe ‘s/x/<a>$1</a><b>$1</b>/g;’ | \... • mv us%CC%8Codoms_.xml usˇodoms_.xml

  18. Tiedostojen avaaminen • $ emacs • C-x C-f TAB TAB • Näppäimistöltä mitä pystyy syöttämään TAB:illä täydennetään ja • C-x + o tiedostojen valintaan • Editoidut tiedostot eteenpäin näppäimistösyötön helpottamiseksi

  19. Tiedostossa emacsilla • Käyttöympäristönä Windows • [^]* työkalun hyödyntämiseksi perlillä on muunnettu kaikki &#x????; muodot virtuaalisiksi merkeiksi. • Yhdistelmätarkkeet aiheuttavat ongelmia.

  20. Yhdistetarkeongelmat • Ei ole löydetty/tehty näppäimistöä, jolla tarkkeita voisi syöttää oletusjärjestyksessä • Onko järjestys perusteltu • Näkyvät virtuaalisesti oikeassa paikassa, joten editoinnissa täytyy käyttää C-s –komentoa oikean paikan löytämiseksi.

More Related