1 / 18

Greenstone

Greenstone. Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com. Greenstone…. Es una aplicación para bibliotecas digitales… Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc.

felton
Download Presentation

Greenstone

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Greenstone Basado en el trabajo de Jesús Tramullas Depto. CC. Documentación /Univ. de Zaragoza http://tramullas.com

  2. Greenstone… • Es una aplicación para bibliotecas digitales… • Su objetivo es trabajar con documentos con contenido textual, imagen, audio, video, etc. • La interface de visualización es en html y permite una visualización total del contenido • Organiza los documentos en colecciones… • Permite desarrollar estructuras de organización de la colección…

  3. Aplicaciones • En organizaciones y/o servicios de información que utilicen documentos digitales • Indexa y busca sobre texto completo además de hacerlo sobre los metadatos • Es multilingüe: utiliza Unicode

  4. Arquitectura • Aplicación en Perl • Usa el motor de representación y recuperación de información MG, o su versión avanzada MGPP, que usan el modelo vectorial • Codifica toda la información en XML • Necesita de un servidor web de soporte • Incorpora una interfaz gráfica en Java

  5. Requerimientos • Versiones binarias ejecutables para Linux, Windows y Mac • Requiere un intérprete Perl • Requiere un servidor web • Requiere Java Runtime Environment, JRE • Para otros Unix hay código fuente que es necesario compilar

  6. Greenstone en acción • Da acceso a una interfaz predefinida, donde muestra las colecciones disponibles • La selección de una de ellas lleva a la consulta de la misma • La interfaz está muy estandarizada: barra de botones, campo de expresión de búsqueda y listado de respuestas • El acceso es libre a la interfaz de busqueda y recuperación

  7. La consulta en Greenstone • Uso de las opciones en la barra de menú, y del campo de búsqueda • Une los términos con AND • Uso de comillas para frases • Existencia de una interfaz más avanzada, a través de Preferencias • Visualiza los documentos según haya sido predefinido por el creador de la colección

  8. Creación de colecciones • El proceso clave es la creación de colecciones • Es necesario definir claramente el objetivo, contenido, características y organización de la colección • Interfaces de creación: • Greenstone Librarian Interface, GLI • Línea de órdenes

  9. Greenstone Librarian Interface, GLI • Método recomendado (y recomendable) desde la versión 2.41a • Interfaz en Java que necesita el JRE • Integra todos los pasos necesarios para crear una colección • Comprobar las Preferencias

  10. Desarrollo de la colección, 1 • Definir el nombre y la descripción de la colección • Seleccionar el conjunto de metadatos a utilizar • Crea un fichero básico de configuración de la colección • Selección de los documentos a incluir • Asignación de metadatos a cada uno de los documentos

  11. Desarrollo de la colección, 2 • Es necesario definir los tipos de documentos, y los plugins necesarios para su manipulación • Definir tipos de búsqueda • Definir índices para las búsquedas • Definir los clasificadores • Definir los formatos de presentación • Construir la colección… e informe de errores

  12. Plugins • Son los procesadores de los tipos de documentos • Son terceros programas, pueden aparecer nuevos • Se pueden seleccionar y configurar • Cuatro son necesarios: BasPlug, GAPlug, ArcPlug y RecPlug • Los más importantes: TextPlug, WordPlug, PDFPlug, IsisPlug, EMAILPlug, ExcelPlug, LaTeXPlug, PSPPlug…

  13. Clasificadores • Criterios de organización de los documentos de la colección • Suelen aparecer en forma de botones • Clasificadores: • List • AzList, AzCompactList • DateList • Hierarchy • Phind…

  14. Nuestra experiancia • Instalación LinuxSi bien tiene algunos inconvenientes ya que necesita que estén instalados ciertos componentes y en el manual de instalación no indica cuales, una vez que estos están instalados no tiene mayor dificultad, la inteface es buena y se configura fácilmente, en la versión 2.60 han corregidos alguno errores con respecto a esto.

  15. Nuestra experiencia • Interface para crear coleccionesMuy amena e intuitiva, su pueden configurar los plugins que procesan los distintos tipos de documentos, se puede asociar un conjunto de metadatos a cada archivo de la colección, se puede indicar la forma de recuperación de las colecciones, (institución, letra, tema, etc), se puede editar el formato de visualización (no fue investigado a fondo) entre otras cosas.

  16. Nuestra Experiencia • Marcado de las tesis para que se puedan ver en capítulosEl marcado es sencillo, cualquier persona con conocimientos intermedios de HTML lo puede hacer, lo recomendable en todos los casos es convertir el documento a html, por lo que habría que conseguir un buen programa, el mejor resultado que conseguí para convertir docs es con el CZ-Doc2html y después aplicando el Bresoft Word HTML cleanup, para “limpiar” el documento ya que deja mucho “basura” de Word al convertirlo, y esto dificulta el marcado.En el caso de pdf el procedimiento es el mismo.Después de la conversión hay que recorrer todo el documento de punta a punta para observar si se corresponde con el original, ya que puede haber algunos problemas con las tablas y listas.En promedio (depende de la cantidad de capítulos, exagerada muchas veces y de la fidelidad de la conversión) el formateo de la tesis en capítulos nos llevó entre uno y dos días de trabajo.

  17. Nuestra Experiencia • Tratamiento de tesis escaneadas En líneas generales el ocr interpretó bien el texto. Problemas: • Se pierden las listas, sobre todo si en lugar de puntos, se usó otro caracter. • Las tablas salen bien en cuanto al contenido, se pierde todo el formato, por lo que hay que reconstruirlas

  18. Nuestra Experiencia • Imágenes y formulas, principal problema, no se puede obtener automáticamente, hay que escanear uno por uno, por lo que con una tesis con muchas formulas como es el comun en exactas, ingenieria, etc., el trabajo que lleva es mucho y tedioso.Una buena manera de tratar las formulas, podría ser, conseguir el texto en Word y escribirlas de vuelta con el constructor de formulas (se va a conseguir una calidad mejor que escanearlas, si bien es mas trabajoso) • El tiempo de tratamiento de las tesis escaneadas depende de la cantidad de gráficos y formulas que tengan.

More Related