1 / 41

Informática Documental Introducción

Informática Documental Introducción. Pablo Garaizar Sagarminaga garaizar@eside.deusto.es. Introducción. ¿Qué es la informática documental? ¿Qué es un documento? ¿Qué es una Base de Datos? El ordenador en la documentación. Introducción. ¿Qué es la informática documental? Informática:

orrin
Download Presentation

Informática Documental Introducción

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Informática DocumentalIntroducción Pablo Garaizar Sagarminaga garaizar@eside.deusto.es

  2. Introducción • ¿Qué es la informática documental? • ¿Qué es un documento? • ¿Qué es una Base de Datos? • El ordenador en la documentación.

  3. Introducción • ¿Qué es la informática documental? • Informática: • Tratamiento automatizado de la información. • Software + Hardware. • Documental: • Encaminada a la gestión de documentos: • Recepción, catalogación, almacenamiento, búsqueda de documentos.

  4. Introducción • Hardware vs. Software: • Sistema operativo. • Ratón. • Navegador web. • Disco duro. • CD-ROM.

  5. Introducción • Dispositivos de entrada y de salida: • Teclado. • Pantalla. • Ratón. • Impresora. • Lector DVD. • Diskette. • Lápiz USB.

  6. Introducción

  7. Introducción • ¿Qué es un documento? • Es fuente y soporte de información. • Fuente: proporciona información. • Soporte: almacena, contiene, la información. • Diferentes tipos en función de diferentes criterios: • Naturaleza de la información (visual, auditivo, etc.). • Tipo de soporte físico (impresos, digitalizados, etc.). • Difusión del documento (inédito, publicado, reservado). • Contenido del documento: • Primarios: fuentes originales (libros, artículos, informes, leyes, etc.). • Secundarios: resultado del análisis documental de documentos primarios (anuarios, bibliografías, resúmenes, fichas, etc.).

  8. Introducción • ¿Qué es una Base de Datos? • Conjunto de información almacenada en cualquier tipo de soporte, de forma que sea accesible y manipulable por un sistema informático. • Base de Datos vs. SGBD. • AEROPUERTOS.MDB vs. Microsoft Access. • LIBROS.DOK vs. Knosys.

  9. Introducción • Tipos de Bases de Datos: • En función del diseño: • Jerárquicas, en Red, Relacionales, Documentales, Orientadas a Objetos, etc. • En función de la información almacenada: • Referenciales: almacenan documentos secundarios: • BD bibliográficas, directorios. • Fuentes: almacenan documentos primarios: • BD textuales, numéricas (bancos de datos), mixtas. • Mixtas: textuales + bibliográficas.

  10. Introducción • El ordenador en la documentación: • Ordenador = centro de documentación: • Como BD, almacenamiento de documentos. • Como SGBD, sistema eficaz de búsqueda y localización de documentos. • Modos de acceso a la información: • Conexión on-line (Teledocumentación). • Acceso local o conexión off-line

  11. Introducción • Tele-documentación:

  12. Introducción • Acceso local:

  13. Tareas del servicio de documentación • Paralelismo con la informática documental: • Almacenamiento y análisis: • Obtener una descripción del documento formalizada dentro del sistema (registro-índice). • Interrogación y búsqueda: • Comprender las peticiones del usuario y encontrar los documentos apropiados.

  14. Hardware y software para la documentación • Entrada de documentos: • Teclado + Procesador de textos: • Varias disposiciones: QWERTY, Dvorak, etc. • Procesador de textos: MS Word, OpenOffice Writer, Google Docs, etc. • Ventajas: sencillo y cómodo. • Desventajas: lentitud.

  15. Hardware y software para la documentación • Entrada de documentos: • Scanner + software OCR: • Reconocimiento óptico de caracteres. • Ventajas: rapidez. • Desventajas: errores y pérdida de formato.

  16. Hardware y software para la documentación • Salida de documentos: • Pantalla-Monitor: • Diferentes tipos: • CRT: Tubo de rayos catódicos. • LCD-TFT: Pantalla de cristal líquido – Transistor de Película Fina. • Plasma: excitación de sustancias fosforescentes mediante una corriente de plasma.

  17. Hardware y software para la documentación • Salida de documentos: • Impresora: • Diferentes tipos: • Matricial: matriz de agujas con tinta golpean el papel. • Chorro de tinta: pequeños eyectores de tinta. • Láser: similar a las fotocopiadoras (tóner + rodillo).

  18. Hardware y software para la documentación • Almacenamiento de documentos: • Cinta magnética: • En desuso. • Acceso secuencial: lento. • Discos magnéticos: • Los más utilizados. • Disco girando + cabeza lectora / escritora. • Dos tipos: • Disco flexible: diskette. • Disco rígido / duro: herméticamente sellado.

  19. Hardware y software para la documentación • Almacenamiento de documentos: • Discos ópticos: • Láser y lente + picos y valles en los discos. • Tipos más comunes: • CD-ROM: sólo lectura, 650-900 MB. • CD-R: escritura una vez, lectura varias (WORM). • CD-RW: muchas escrituras, muchas lecturas. • DVD: sólo lectura, una capa 4,7 GB, doble capa, 8,5 GB. • DVD-R, DVD+R: escritura una vez, lectura varias. • DVD-RW: muchas escrituras, muchas lecturas.

  20. Nociones sobre ficheros • Fichero: • Conjunto de información similar con una estructura determinada. • Cada unidad de acceso a un fichero se llama registro, y cada registro está compuesto por diferentes campos. • Ejemplo: • Fichero de clientes de una empresa: • Cada cliente es un registro. • Cada registro contiene los campos "nombre", "número", "dirección", "teléfono"...

  21. Nociones sobre ficheros • Organización y tipos de acceso: • Secuencial: el primer registro es el primero que ha llegado. • Indexada: se define un campo clave y se crea un árbol de índices (metadatos).

  22. Gestión documental • Primera parte: análisis de contenido. • Objetivo: Documento >>> Índice (proceso de indexación). • El registro-índice tiene un diseño estandarizado en cada Sistema de Gestión Documental. • Ejemplo: nombre, identificativo, fecha de entrada, 10 campos descriptores + pesos.

  23. Gestión documental • Análisis de contenido: • Subtareas: • Catalogación o descripción física del documento: título, autor, etc. • Indexación del documento: texto >>> términos-índice o descriptores (palabras clave). • Valoración de los índices del documento: cálculo de pesos en base a frecuencias.

  24. Gestión documental • Análisis de contenido: • Tipos de Indexación: • Indexación Automática / Manual: • Crear diccionarios que el sistema necesita (glosario, palabras-vacías, tesauro). • Indicar las zonas del documento objeto de análisis. • Indexación de términos controlados / incontrolados: • Incontrolado: toda la variedad del lenguaje natural. • Controlado: propio de sistemas sobre un tema en concreto. • Indexación Postcoordinada / Precoordinada: • Postcoordinada: términos-índice individuales, posteriormente pueden coordinarse. • Precoordinada: términos-índice ya coordinados, como frases.

  25. Gestión documental • Análisis de contenido: • Diccionarios necesarios para el análisis: • Glosario-Lexicón-Vocabulario: • Descriptores del área de conocimiento tratada (= todas las palabras de búsqueda e identificación de los documentos). • Stoplist-Diccionario de palabras vacías: • Palabras no útiles para la búsqueda, con valor únicamente gramatical (artículos, preposiciones, etc.). • Thesaurus (tesauro): • Diccionario estructurado de conceptos, con relaciones jerárquicas y asociativas entre ellos. • Objetivo: garantizar la coincidencia entre el descriptor usado para analizar el documento y para la formulación de la búsqueda o pregunta.

  26. Gestión documental • Análisis de contenido: • Tesauro: • Componentes: • Unidades léxicas: • Descriptores. • No-descriptores: términos rechazados, reenvían al descriptor adecuado. • Identificadores: nombres propios, de lugares, etc.. • Relaciones conceptuales.

  27. Gestión documental • Análisis de contenido: • Relaciones conceptuales: • Equivalencia: descriptor y sus sinónimos. • USE: para remitir del sinónimo al descriptor. • UP: para remitir del descriptor al sinónimo. • ORDENADOR UP COMPUTER • COMPUTER USE ORDENADOR • Jerárquicas: cosa-tipo, género-especie, todo-parte. • TG: Términos genéricos. • TE: Términos específicos. • TG PERRO TE CANICHE

  28. Gestión documental • Análisis de contenido: • Relaciones conceptuales: • Asociativas: horizontales, de proximidad conceptual. • TR: Término relacionado. • TA: Término asociado. • CRISTAL TR: TRANSPARENCIA • LAPIZ TA: PORTAMINAS • Definitorias: no son una definición, sino que facilitan la correcta utilización del descriptor, delimitando su uso ("nota de alcance"). • NA: Nota de alcance (en inglés SN, scope note) • ALUMNO NA: Referido al que cursa la ESO.

  29. Gestión documental • Análisis de contenido: • Tareas: • Catalogación: trivial, rellenar una ficha con los datos físicos. • Indexación, Elección de los descriptores. • Valoración o Cálculo de los pesos de los índices.

  30. Gestión documental • Indexación, Elección de los descriptores: • Identificar palabras individuales, separadas por espacios. • Cálculo de la frecuencia de cada palabra (FREQik). • Calculo de la frecuencia total de cada palabra (TOTFREQk). • Ordenación de las palabras en orden decreciente por su frecuencia total. • Eliminación de las palabras que pertenecen al STOPLIST. • Eliminación de las palabras de menor frecuencia. • Elección de las palabras con mayor frecuencia individual en el documento (FREQik) y menor frecuencia total. • Traducción de estas palabras a forma canónica (quitando prefijos, sufijos, plurales, etc.). • Identificación de las categorías semánticas en el Tesauro y elección del PT (Preferred Term).

  31. Gestión documental • Valoración o Cálculo de los pesos de los índices: • Efectividad: • Exhaustividad de indexación: si la indexación es exhaustiva, se asignan muchas palabras clave (normal: de 5 a 12). Poca exhausitividad = silencio. • Especificidad o precisión del término: si los términos-índice asignados son muy generales, se recuperará mucha información útil, pero junto con otra que no lo es (ruido).

  32. Gestión documental • Valoración o Cálculo de los pesos de los índices: • Efectividad: • Ruido: conjunto de documentos no útiles recuperados en una consulta (inverso a la precisión). • Silencio: conjunto de documentos relevantes existentes en la base de datos que no han sido recuperados (inverso a la exhaustividad).

  33. Gestión documental • Efectividad: a: doc relevantes recuperados b: doc relevantes no recuperados (silencio) c: doc irrelevantes recuperados (ruido) d: doc irrelevantes no recuperados b d a c

  34. Gestión documental • Efectividad: • Tasas: • Ruido: c / a + c. • Precisión: a / a + c. • Silencio: b / a + b. • Exhaustividad: a / a + b.

  35. Gestión documental • Pesos: • Wik = FTik x FIk • El mejor índice es el de mayor frecuencia en el documento (FT) y menor frecuencia en los otros documentos (FI). • Frecuencias de Término: FTk = FREQik • Frecuencia inversa: FIk = 1 / TOTFREQk

  36. Gestión documental • Elementos funcionales: • Elementos de exhaustividad: • Objetivo: disminuir el silencio. • Estructuración jerárquica del tesauro. • Normalización de la indexación. • Elementos de precisión: • Objetivo: disminuir el ruido. • Especificidad del lenguaje de indexación. • Nivel de coordinación: poca precoordinación → fácil tesauro → mucha postcoordinación → más ruido. • Indicadores de unión y de función: poco usados.

  37. Gestión documental • Segunda parte: recuperación de la información. • Técnicas relativas al acceso y posterior selección de información almacenada en un sistema informático. • Dos componentes: • Interfaz de usuario: traducir la demanda del usuario a una ecuación en lenguaje formal (lenguaje de interrogación). • Función de recuperación: comparación de esta ecuación con la información almacenada para proporcionar la respuesta adecuada.

  38. Gestión documental • Recuperación de la información. • Interfaz de usuario: • Diferentes posibilidades: • Mediante menús o ventanas. • Mediante instrucciones o comandos. • Mediante Lenguaje Natural: • Estado-ASK: el usuario desconoce la respuesta. • NLQ: petición en lenguaje natural. • QNF: petición en lenguaje normalizad.

  39. Gestión documental • Recuperación de la información. • Función de recuperación: • Modelos de operadores: • Operadores boléanos: AND, OR, etc. • CNF: Forma Normal Conjuntiva (AND). • DNF: Forma Normal Disyuntiva (OR). • Modelos booleanos con pesos. • Operadores de intervalo: =, >, <, etc. • Operadores de proximidad: INFORMATICA D3 DOCUMENTACION. • Operadores de cualificación: (INFORMATICA D3 DOCUMENTACION) EN TITULO. • Operadores de encadenamiento: encadenando búsquedas precedentes.

  40. Referencias • DA COSTA CARBALLO, C. Introducción a la Informática Documental. Fundamentos Teóricos, Prácticos y Jurídicos. Agapea, 1995. • GARCÍA MELERO, L. y GARCÍA CAMARERO, E.: Automatización de bibliotecas. Arco-Libros, 1999. • KOWALSKI, G.: Information Retrieval Systems. Teory and Implementation. Kluwer Academic Press, 1997. • MIGUEL CASTAÑO, A.d.y PIATTINI VELTHUIS, M.: Fundamentos y modelos de bases de datos. Madrid: RAMA, 1999. • PEÑA, R., BAEZA-YATES,R. y RODRÍGUEZ, J.V.: Gestión digital de la Información. De bits a bibliotecas digitales y la web. Madrid: RA-MA, 2002.

More Related