280 likes | 464 Views
2. LA VIGILANCIA TECNOLÓGICA Herramientas de búsqueda en Internet. Estudio Cienciométrico.
E N D
2. LA VIGILANCIA TECNOLÓGICA Herramientas de búsqueda en Internet
Estudio Cienciométrico Conjuntos de estudios que tratan de cuantificar el proceso de comunicación escrita, y la naturaleza y evolución de las disciplinas científicas, mediante el recuento y análisis de diversas características de dicha comunicación. El progreso científico técnico está documentado: patentes, publicaciones, memorias…
Estudio Cienciométrico: Etapas • Formación del corpus de información • Modelización de la información • Análisis de la información • Extracción de resultados
Definición de la tipología de fuentes • Detección de las fuentes disponibles • Evaluación de las fuentes de información: calidad, características, contenidos, acceso... • Identificación de la información deseada • Descarga de la información • Pretratamiento del corpus de información Corpus de información Definición de las áreas de trabajo + Captura de la información
Internet: Estructura INPUT 50 m. OUTPUT 50 m. Núcleo Central 60 m. • 2 millones por día • Los contenidos se duplican cada año Adaptado a partir de J.A. Cabrera (2003)
Es más importante disponer de información de calidad que de una gran cantidad de información Internet: Problemática • Veracidad de la información • Cobertura “percibida” y real de internet • Internet oculta • Ruido informativo y silencio documental • Adquisición, tratamiento y explotación
Internet oculta • Servidores y páginas no accesibles • Formatos de texto no accesibles • Animaciones e imágenes • Intranet y páginas internas • páginas dinámicas • bases de datos no indexadas
Internet y Vigilancia • Marco Legal • Búsqueda y descarga de información • Análisis de la información • Difusión y explotación de la actividad de vigilancia • Definición de objetivos y área de trabajo • Optimización de recursos • Definición de fuentes de información y • evaluación de las mismas • Conocimiento de las metodologías y • herramientas de búsqueda • - Saturación y ruido informativo
Herramientas de búsqueda Internet • Índices y directorios • Motores de búsqueda • Herramientas segunda Generación Información complementaria procedente de I.F. Aguillo, CINDOC-CSIC (2003)
Robot • Spider/ • Crawler- Motor de búsqueda Indexador -base datos- Estructura de un buscador Interface Buscador
Límites de cobertura • Precisión • Opciones no avanzadas • Internet invisible • ruido y silencio documental • Automatización • Programación • Personalización Herramientas de búsqueda Primera Generación Segunda Generación
Motores Índices Primera generación Primera generación Portales Motores Indices Bibliotecas Virtuales Internet Invisible
Índices y directorios • Características generales: • Recursos organizados jerárquicamente por evaluadores y expertos, a través de descriptores. • Son útiles para temáticas amplias y exploraciones iniciales. Ventajas: • Se recuperan los registros más relevantes, con valor añadido en la clasificación, descripción y evaluación de estos. • Handicaps: • Actualización poco frecuente, descripciones pobres, organización jerárquica ambigua.
Índices y directorios Información complementaria procedente de I.F. Aguillo, CINDOC-CSIC (2003)
Motores de búsqueda • Características generales: • Un robot explora los servidores públicos y se indexa automáticamente la información de las páginas Web en una base de datos. • Son útiles para temáticas específicas, cuando se conoce la estructura del conocimiento de un área determinada. • Ventajas: • Búsqueda exhaustiva, uso de booleanos y delimitadores en la estrategia de búsqueda, ordenación por relevancia, clustering, etc. • Handicaps: • No se busca en tiempo real, no todas las páginas son indizadas, ignoran metadatos, y respetan ficheros de exclusión.
Índices y Motores 30% 25% 20% 15% 10% 5% Alltheweb Looksmart Altavista Google Wisenut Inktomi Galaxy Teoma Yahoo ODP Información complementaria procedente de I.F. Aguillo, CINDOC-CSIC (2003)
Multibuscadores - No tratan los resultados • Metabuscadores • Eliminan duplicidades • Clasifican resultados Multibuscadores y Metabuscadores • Características generales: • Permiten la búsqueda simultánea en varios buscadores
Segunda generación Segunda generación Volcadores Análisis de visitas Multibuscadores Extractores Mapeadores Vigilancia de sites Agentes Marcadores
Segunda generación • COPERNIC • Elimina páginas no enlazadas • Redefine las búsquedas • Permite editar los resultados • Permite el volcado de páginas • Permite la programación de tareas
Herramientas: Ejemplos de uso • Información sobre un tema poco conocido Recomendable: 1. Índice, yahoo, Open directory como índice (inglés): Google 2. Buscador, Google como buscador: Page Range Altavista como buscador: Ecuación búsqueda 3. Agente inteligente, Copernic como agente inteligente (mejores buscadores, recuperación información…)
Herramientas: Ejemplos de uso INFORMACÓN: Máquinas Herramientas Reconfigurables Open Directoy (indice) Altavista (metabuscador) Copernic (agente) Delphion (patentes) Scirus (publicaciones científicas) CORDIS (proyectos europeos)
Herramientas: Ejemplos de uso • Perfil de un competidor internacional/local: • Actividades que realiza • Resultados económicos-financieros • Cartera de patentes disponibles • Redes de cooperación: I+D, transferencia… • Últimas noticias
Herramientas: Ejemplos de uso • Fuentes en Internet: • Yahoo como índice/directorio: Económico • Vivísimo como metabuscador: Clustering • y varias fuentes adicionales • Sitio WEB del competidor …
Herramientas: Ejemplos de uso Otras fuentes: Información estructurada • Bases de datos de patentes: Delphion • Publicaciones científicas: Scirus COMPETIDOR: WATERCO LIMITED, AUSTRALIA YAHOO IALE