1 / 42

Tema 5; XML en la descripción de recursos

Tema 5; XML en la descripción de recursos. Ricardo Eíto Brun Sevilla, 23-25 de octubre 2002. Introduction.

lael
Download Presentation

Tema 5; XML en la descripción de recursos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tema 5;XML en la descripción de recursos Ricardo Eíto Brun Sevilla, 23-25 de octubre 2002

  2. Introduction • Los formatos de marcas se han presentado como una alternativa/complemento a los sistemas de codificación de datos utilizados tradicionalmente por la comunidad bibliotecaria en la descripción de recursos • Desde mediados de los años 90 se han planteado distintas iniciativas en esta línea • El origen de estas iniciativas están distintas bibliotecas. Las iniciativas más importantes han sido lideradas por la Library of Congress

  3. MARC y XML • Podemos señalar distintas líneas de trabajo: • Diseño de modelos alternativos para la descripción de recursos (Dublin Core) • Adaptación de los modelos “tradicionales” – MARC -, a los nuevos formatos Internet (xml) • El formato XML se ha presentado como una alternativa para representar y transferir registros MARC a través de Internet y facilitar su tratamiento automatizado

  4. MARC y XML • Las ventajas de XML son: • XML ofrece un sistema de codificación más simple y fácil de procesar que el utilizado actualmente para registros MARC (2709) • XML se presenta como un formato “universal”, utilizado en cualquier tipo de aplicación, frente al sistema de codificación actual de MARC • XML elimina complejidad innecesaria para los desarrolladores • Se pretende evitar la “segregación” de MARC frente a otros formatos de metadatos Internet utilizados en los proyectos de “biblioteca electrónica”

  5. MARC y XML • Al mismo tiempo, MARC presenta ventajas frente a los formatos de metadatos que se han propuesto para el “mundo Internet”, como Dublin Core: • Mayor capacidad expresiva • Soporte de más de 30 años por parte de la comunidad bibliotecaria y de la industria software especializado • Una semántica claramente definida, aceptada y adaptada a las distintas realidades nacionales • Cobertura a un amplio número de “formatos” y “tipos de información” (autoridades, datos bibliográficos, holdings, etc.)

  6. MARC y XML • Resumiendo: • MARC es un formato que permite codificar y transmitir un gran número de datos de una forma estandarizada y fácilmente procesable • El resto de alternativas que se an propuesto para la descripción de recursos adaptadas a “Internet” no ofrecen la expresividad o el nivel de detalle necesario • Estas alternativas se encuentran en fase de desarrollo, y no podemos garantizar su permanencia en un futuro

  7. MARC y XML • Resumiendo: • MARC no sólo es un estándar para facilitar el intercambio de información bibliográfica, • También se ha convertido en la base de los sistemas integrados de gestión bibliotecaria actuales

  8. MARC y XML • Sin embargo, hay quien señala que MARC no es un formato “óptimo” para las necesidades actuales en lo referente a la descripción de recursos: • MARC es sumamente complejo, la descripción es costosa y lenta para el gran número de recursos que tenemos que describir • El creciente número de recursos a describir nos obliga a plantear sistemas de indización “descentralizados”, que no requieran una formación tan compleja como la requerida para trabajar con MARC, ni mecanismos de entrada de datos tan complejos

  9. MARC y XML • Los partidarios de “alternativas a MARC”: • se basan más en la rapidez con que se podría describir los recursos, y • sacrifican la calidad y el detalle de la descripción de los recursos...

  10. Adaptar MARC a Internet: primeras iniciativas • Las primera iniciativa de la LOC se remonta a 1992 con la inclusión del campo 856 (electronic location and access) en MARC • Este campo permitiría crear un enlace entre un registro bibliográfico y un recurso remoto disponible en formato electrónico • Proyectos como el OCLC Internet Cataloging (1994-1996) utilizaron este campo para codificar 5000 registros de recursos Internet • El proyecto CATRIONA (CATaloguing and Retrieval of Information Over Network Applications) también utilizó el 856

  11. Adaptar MARC a Internet: primeras iniciativas • El campo 856 “contiene la información necesaria para localizar y acceder a un recurso electrónico [...] puede utilizarse en un registro bibliográfico de un recurso cuando éste o una parte del mismo esté disponible electrónicamente...” • El primer indicador “define el método de acceso al recurso electrónico. Si el recurso es accesible por más de un método, éste repite” • El segundo indicador “indica la relación entre el recurso electrónico identificado en el campo 856 y el documento descrito en el registro como un todo”

  12. Adaptar MARC a Internet: primeras iniciativas • Los valores posibles para el primer indicador son: • # - no se proporciona información • 0 – correo electrónico • 1 – FTP • 2 – Telnet • 3 – Llamada telefónica • 4 – HTTP • 7 – Un método distinto al anterior, que se habrá indicado en el subcampo $2.

  13. Adaptar MARC a Internet: primeras iniciativas • Los valores posibles para el segundo indicador son: • # - No se proporciona información • 0 – Recurso. La localización electrónica hace referencia al mismo recurso descrito en el registro como un todo. Es decir, el ítem representado por el registro bibliográfico es un recurso electrónico • 1 – versión del recurso. La localización electrónica hace referencia a la versión electrónica del recurso descrito en el registro. Es decir, el documento descrito mediante el registro no es electrónico, pero existe una versión en formato electrónico • 2 – Recurso relacionado • 8 – “no hay una visualización asociada”

  14. Adaptar MARC a Internet: primeras iniciativas 245 10$aProceedings of the Seminar… 856 40$uhtp://www.loc.gov/seminar.html 245 00$aAnalyzing qualitative date$c/edited by… 856 40$uhtp://www.loc.gov/analyzing.html 245 00$aAmerican quarterly 856 41$uhtp://www.muse.edu/journals/amquarterly.htm 245 00$aDocumentos de D. Pedro Valverde… 856 42$3Indice$uhtp://www.bne.es/pedroValverde.pdf

  15. Adaptar MARC a Internet: primeras iniciativas • SUBCAMPOS • $a – nombre del host de la localización electrónica • $b – número de acceso (dirección IP) • $c – información sobre la compresión • $d – ruta física • $f – nombre electrónico del fichero • $k – contraseña necesaria para acceder al recurso • $m – contacto para facilitar el acceso • $p – puerto • $u – URI o URL • $y – texto del enlace • $3 – Especificación de materiales

  16. Adaptar MARC a Internet: primeras iniciativas • Una segunda iniciativa de la LOC consistió en adaptar MARC a SGML, iniciada en 1995 • El objetivo era crear una DTD que permitiese la conversión de registros MARC a SGML – y viceversa -, sin pérdida de información • Se diseñaron 2 DTDs, para datos bibliográficos / fondos y para autoridades / clasificación y una aplicación PERL para la conversión de MARC 2709 a MARC SGML y viceversa • Las DTD se publicaron en mayo 1996. La utilidad de conversión se inició en julio 1997. En enerp 1998 se hizo pública. • Posteriormente, estas DTDs se migraron a XML para adaptarlas al “nuevo escenario tecnológico”

  17. Adaptar MARC a Internet: primeras iniciativas • El programa de conversión de MARC a SGML/XML utiliza PERL y nsgmls • Estas utilidades de libre distribución se pueden descargar de: • http://www.perl.com • http://www.jclark.com/sp • En el diseño de las DTD y utilidades de conversión participaron las empresasa Mulberry Technologies y ATLIS Consulting Group

  18. Adaptar MARC a Internet: primeras iniciativas • Las DTD para XML y SGML contenían un elemento XML para cada campo y subcampo de MARC • Por ejemplo, para el elemento 245 MARC, en la DTD se incluía un elemento mrcb245, un mrcb245-b, mrcb245-c, etc. • Estos campos se agrupaban en otros elementos, como por ejemplo mrcb-title-and-title-related, mrcb-subject-access, etc. • Los campos de control variables – 008 – contaban con un elemento para cada “posición” o “ítem” del que contienen información, etc... • Esto hacía que la DTD y los registros fuesen muy largos • PRACTICA: Abrir con XML Spy el archivo mrcbxmlfile

  19. Adaptar MARC a Internet: estado actual • El 5 de junio 2002, la LOC Network Development and MARC Standards Office publicó un esquema XML para codificar registros MARC21 • Este esquema, resultado del trabajo de la LOC, OCLC, RLG - y revisado por la NLM y la National Library of Canada – sustituía a la iniciativa anterior derivada de la DTD SGML • Este esquema está previsto que sirva para codificar cualquier tipo de registro MARC (bibliográfico, autoridades, etc.)

  20. Adaptar MARC a Internet: estado actual • El nuevo esquema pretende ir más allá de un mero mecanismo de conversión, y así facilitar: • La representación de registros MARC existentes en formato XML • La representación de metadatos para facilitar el harvesting del proyecto OAI (Open Archives Initiative) • La descripción inicial de recursos utilizando MARC • La codificación de metadatos MARC que puedan ser “incluidos” como parte o junto a recursos de información disponibles en formato electrónico

  21. Adaptar MARC a Internet: estado actual • El elemento raíz es collection, que tendrá un elemento record para cada registro • El elemento record contendrá: • un elemento no vacío leader para la cabecera, • Elementos no vacíos controlfield para cada campo de control y • Elementos no vacíos datafield para cada campo de datos • La cabecera se indica en un elemento leader • Los campos de control se indican con elementos controlfield. • Cada campo de control tendrá un atributo tag que recogerá su código (éste se indica mediante 3 dígitos). Entre sus etiquetas de inicio y de fin se escribirá su valor

  22. Adaptar MARC a Internet: estado actual • Los campos se representan mediante elementos datafield • La etiqueta (nombre del campo) y los indicadores se escriben como valores de los atributos tag, ind1 y ind2 del elemento datafield • Los subcampos se tratan como elementos hijos – subfield - del elemento datafield correspondiente al campo. • El código del subcampo se escriben como valor del atributos code • El valor del subcampo se escribe entre las etiquetas de inicio y fin del elemento subfield • PRACTICA: Abrir el documento de ejemplo sandburg.xml para ver un ejemplo

  23. Adaptar MARC a Internet: estado actual • La información que encontramos en MARC 2709 sobre longitud de campos y las posiciones de inicio del campo (el directorio) no se utilizan en el esquema xml • Las posiciones de la cabecera del registro que no son necesarias se mantienen, pero se dejan en blanco • Se trata de un esquema más fácilmente procesable y comprensible que la DTD anterior

  24. Adaptar MARC a Internet: estado actual • El esquema XML forma parte de una iniciativa mayor – framework -, que incluye el desarrollo de distintas “aplicaciones”, utilidades e interfaces para permitir: • Transformaciones entre MARC (2709), MARC (xml) Dublin Core y MODS (Metadata Object Description Schema) forman parte de la iniciativa • Hojas de estilo para la presentación de la información XML como HTML

  25. Adaptar MARC a Internet: estado actual • En el modelo propuesto se habla del esquema xml como “piedra angular” para representar los datos de una forma que sea fácilmente procesable por distintas aplicaciones “consumidoras” – xml consumers • Los XML consumers procesan los documentos xml codificados con el esquema anterior. Los “consumidores” incluyen distintos tipos de utilidades: • Transformación de MARC xml a otros formatos de metadatos • Presentación de registros MARC xml en un formato fácilmente legible (html, pdf, etc.) • Validación de documentos, extracción de datos, etc.

  26. Adaptar MARC a Internet: estado actual

  27. Adaptar MARC a Internet: estado actual • Entre las utilidades que se han diseñado a partir del esquema anterior, contamos con las siguientes: • MARC4J – conversión de MARC 2709 a xml • Hojas de estilo XSLT para convertir de MARC XML a MODS, Dublin Core y OAI MARC (Open Archives Initiative) • Hojas de estilo XSLT para presentar datos MARC en HTML

  28. MARCXML – Prácticas codificación • Utilizando el esquema MARCXMLSlim.xsd y XML Spy, codifica el siguiente registro MARC:

  29. MARCXML – Prácticas codificación • Utilizando el esquema MARCXMLSlim.xsd y XML Spy, codifica el siguiente registro MARC:

  30. MARCXML – Prácticas codificación • Utilizando las utilidades de conversión, crea el registro COLLECTION.xml a formato MODS, y a las presentaciones HTML con etiquetas numéricas y con textos en inglés.

  31. XMLMARC – Stanford University • XMLMARC es una iniciativa dirigida por Lane Medical Library en la Universidad de Stanford, en el ámbito de las bibliotecas digitales • La motivación: analizar la viabilidad de adaptar MARC a XML para facilitar la integración de distintas fuentes de información y descripciones de recursos • En diciembre 1999 publicaron una utilidad Java que convertía registros MARC 2709 a formato XML, de libre utilización. • El proyecto diseñó una DTD para codificar datos bibliográficos y de autoridades • Como parte del proyecto se convirtieron 250.000 registros MARC a XML • http://xmlmarc.stanford.edu

  32. XMLMARC – Stanford University • El proyecto XMLMARC de Stanford sigue vivo • Próximamente se presentará XOBIS v1.0a (XML Organic Bibliographic Information Schema ) , un esquema XML para codificar datos bibliográficos que reemplazará al XMLMARC anteriormente usado en este proyecto • Se puede obtener información detallada de este formato en: http://xobis.stanford.edu . Un ejemplo de documento XML codificado según este esquema se encuentra en el archivo lanerecords.xml

  33. XMLMARC – Stanford University • La estructura de un registro XOBIS sigue el siguiente modelo: • ControlData – metadatos acerca del registro propiamente dicho: fecha creación, tipo, etc. • Principal elements o Work element • Relationships

  34. BiblioML • Este es otro proyecto que muestra el interés despertado por el lenguaje XML como mecanismo para codificar información bibliográfica y de autoridades UNIMARC • El proyecto subvencionado por el Ministère de la culture et de la communication, France, aparentemente está detenido • http://www.culture.fr/BiblioML/en/index.html

  35. MODS (Metadata Object Description Schema) • Se trata de un proyecto reciente, liderado por la LOC americana • Consiste en un esquema para codificar metadatos e información bibliográfica utilizando XML • Se utilizan etiquetas alfanuméricas en lugar de numéricas, y en ciertos casos se agrupan elementos de MARC en un mismo elemento • De su mantenimiento se encarga la LOC NDMSO • Última versión disponible: 14 junio de 2002 – v1.2. Estable por un periodo de 6 meses • http://www.loc.gov/standards/mods

  36. MODS (Metadata Object Description Schema) • MODS no nos indica cómo transferir registros MARC utilizando XML, sino que ofrece un mecanismo que permite describir recursos con XML utilizando un esquema que se sitúa a medio camino entre MARC y Dublin Core • Aparentemente, MODS es la opción que debería imponerse como sistema para la descripción de recursos en Internet • Es más sofisticado que DC • No es tan complejo como MARC • Es más compatible con MARC que otros esquemas (la pérdida de información en las transformaciones en menor)

  37. MODS (Metadata Object Description Schema) • MODS define un conjunto de elementos que son un subconjunto del MARC21 Format for Bibliographic Data • En total se definen 20 elementos (cada uno de ellos con unos elementos hijos que matizan su semántica) • Todos los elementos, excepto dos, y atributos son opcionales • La LOC ha establecido un “mapeo” entre los elementos MODS y los campos y subcampos de MARC • Práctica: abrir el archivo mods99042030Book.xml y ver su estructura. • La conversión entre MARC 2709 y MODS siempre se hará mediante MARC XML; nunca directamente.

  38. MODS (Metadata Object Description Schema) • Los principales elementos en MODS son: • titleInfo – es obligatorio. Contiene al menos un elemento hijo llamado title • name – correspondería al “encabezamiento”. Puede ser de persona, organización o conferencia.El tipo de encabezamiento se indica mediante un atributo type que aceptará los valores personal, corporate o conferencename puede incluir los elementos hijos: namePart, role, affiliation y displayForm • typeOfResource – tipo del recurso

  39. MODS (Metadata Object Description Schema) • genre – género. No tiene elementos hijos. Sólo tiene un atributo authority que tomará el valor marc. Su valor se tomará de la lista disponible en la URL:http://www.loc.gov/marc/sourcecode/genre/ • publicationInfo – agrupa los datos sobre el “editor”, mediante los elementos hijos placeCode, place, publisher, dateIssued, dateCreated, edition, etc. • language – idioma del recurso • physicalDescription – descripción física del recurso. Incluye los elementos hijos: form, extent, digitalOrigin, etc. • abstract – resumen; puede apuntar a un recurso remoto

  40. MODS (Metadata Object Description Schema) • tableOfContents – incluirá una URL que apunta a un recurso remoto con esta información • targetAudience – audiencia a la que va dirigida el contenido • note – para codificar notas. Puede apuntar a una nota disponible como un recurso externo mediante un hipervínculo • cartographics – para información cartográfica, contiene los elementos hijos coordenadas, escala y proyección • subject – temas de los que trata el recurso. Incluye los elementos hijos topic, geographic y temporal.

  41. MODS (Metadata Object Description Schema) • Classification – código de clasificación según un esquema de clasificación que se indicará en el atributo authority de este elemento • relatedItem – permite relacionar elementos • Identifier – ID del recurso. Puede ser un isbn, issn, etc. Su tipo se indicará mediante un atributo type • Location – • accessConditions – • Extension • recordInfo – contiene los siguientes elementos hijos: recordCreationDate, recordChangeDate, recordIdentifier, etc.

  42. Conclusiones • En los últimos 10 años se han lanzado distintas iniciativas para complementar / sustituir MARC con XML • El último modelo propuesto por la LOC parece más fiable, y probablemente tenga una mayor aceptación que la iniciativa de 1995 • MODS ofrece un esquema más completo que DC y más próximo a MARC • El hecho de estar promovido por la LOC puede ser un punto importante, aunque la experiencia de MARC SGML puede repetirse • Actualmente, falta una documentación detallada sobre cómo usar este nuevo esquema, para que pueda considerarse una alternativa real a DC

More Related