1 / 34

Dra. Rocío Abascal-Mena

Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente. Dra. Rocío Abascal-Mena. DC-2006, México. Contenido. Introducción Propuesta para la creación de un nuevo modelo de documento Extracción de conceptos

nicole-head
Download Presentation

Dra. Rocío Abascal-Mena

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

  2. Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión

  3. Introducción • Contexto: Biblioteca Digital. • Instituto Nacional de Ciencias Aplicadas de Lyon, Francia (INSA). • Consulta Integral de Tesis en Red (CITHER) • Difusión de tesis en línea. • Búsqueda a partir de palabras claves. • Búsqueda por catálogo. • Formato PDF (Portable Document Format).

  4. Introducción

  5. Introducción • Objetivo: Crear nuevo modelo de documentos para permitirle al usuario obtener la información pertinente. • Nuestro trabajo consiste en: • Modelar la tesis durante su creación. • Permitir la búsqueda de información pertinente. • Uso de “etiquetas semánticas”.

  6. Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión

  7. Etapa 2 Tesis Tesis con las nuevas etiquetas Estudiante Almacenamiento de Etapa 1 la tesis Creación manual de etiquetas Llamado a Llamado a la ( 1 ) ( 2 ) ( 3 ) Nomino base Base de CITHER Conceptos Propuesta para la creación de un nuevo modelo de documentos

  8. Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión

  9. Extracción de conceptos • Estudio comparativo de 4 herramientas de extracción automática de conceptos: • Copernic Summarizer • Nomino • TerminologyExtractor • Xerox Terminology Suite (XTS) • Corpus: 25 documentos científicos. • Análisis basado en la “precisión” y la “exhaustividad”.

  10. Documentos relevantes recuperados Precisión = Documentos recuperados Extracción de conceptos • La “precisión” es la proporción de documentos recuperados realmente relevantes, del total de documentos recuperados.

  11. Documentos relevantes recuperados Exhaustividad = Documentos relevantes Extracción de conceptos • La “exhaustividad” es la proporción de documentos que son relevantes en la base de datos, independientemente de que éstos se recuperen o no.

  12. Extracción de conceptos • Resultados del análisis de nuestro corpus:

  13. Extracción de conceptos • Selección de Nomino como la herramienta más adecuada a nuestras necesidades. • A pesar de la calidad de las herramientas el usuario experto debe de validar los conceptos extraídos.

  14. Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión

  15. Análisis de la estructura lógica • Dos tipos de análisis: • Estructura lógica • Estructura semántica • Análisis de la estructura lógica: • Observando la organización de la tesis constatamos que: • Siguen un plan, estructura  “descomposición lógica”. • Existe una relación entre la estructura “semántica”.

  16. Análisis de la estructura lógica • Análisis de los principales conceptos extraídos de acuerdo a la estructura lógica • Nomino se apoya en dos principios: • “ganancia al alcance”: estipula que la información es aún más importante si es rara • “ganancia a la expresividad”: clasifica los árboles en función de la información que se encuentra a su alrededor • Aplicando Nomino al corpus nos damos cuenta de que hay conceptos que se repiten mucho y que por lo tanto no serán clasificados como pertinentes

  17. Análisis de la estructura lógica

  18. Análisis de la estructura lógica

  19. Análisis de la estructura lógica • Resultados • Para nuestro estudio: • Índice • Introducción • Conclusión Son de menor interés

  20. Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión

  21. Análisis de la estructura semántica • “Segmento semántico”: descomposición o corte del documento que nos permite acceder al contenido de las tesis por medio de temas o conceptos tratados. • Ejemplos: estado del arte, metodología, modelo, algoritmo, etc.

  22. Análisis de la estructura semántica • Análisis de la estructuración de la tesis de acuerdo a sus “segmentos semánticos”.

  23. Análisis de la estructura semántica • Un ejemplo de la extracción de conceptos usando dos “segmentos semánticos”.

  24. Análisis de la estructura semántica • Validación del interés de cortar la tesis en diferentes “segmentos semánticos” • Localización de las partes de la tesis más ricas en información • Extracción de conceptos del área de estudio (informática) • Creación de una base de conceptos del área

  25. Contenido • Introducción • Propuesta para la creación de un nuevo modelo de documento • Extracción de conceptos • Análisis de la estructura lógica • Análisis de la estructura semántica • Un nuevo modelo de documento • Conclusión

  26. Un nuevo modelo de documento • (1) Creación de un documento de tipo TESIS • Estructura lógica (recomendaciones del Ministerio de Educación + Universidad). • Estructura semántica: usando XML Schéma.

  27. Etapa 2 Tesis Tesis con las nuevas etiquetas Estudiante Almacenamiento de Etapa 1 la tesis Creación manual de etiquetas Llamado a Llamado a la ( 1 ) ( 2 ) ( 3 ) Nomino base de conceptos Base de CITHER Conceptos Un nuevo modelo de documento • (2) Puesta en marcha de un sistema que ayuda al estudiante a la hora de redactar su tesis.

  28. Un nuevo modelo de documento

  29. Un nuevo modelo de documento Nomino Extracción de conceptos haciendo una llamada a Nomino

  30. Un nuevo modelo de documento

  31. Un nuevo modelo de documento

  32. Un nuevo modelo de documento

  33. Conclusión • Definición de un nuevo modelo de documento tipo “TESIS” • Permitiendo el acceso a las partes pertinentes de los documentos • Conjugando simultáneamente las 2 estructuras: lógica y semántica • Construcción de una herramienta para la generación de tesis • Obedeciendo a una estructura predefinida y controlable • Permitiendo la integración de los conceptos con el fin de describir el contenido • Aprovechando la experiencia del autor

  34. Conclusión • Dra. Rocío Abascal Mena mabascal@correo.cua.uam.mx

More Related