1 / 19

Análisis de la persistencia y del estado de páginas web en los resultados de Google

Análisis de la persistencia y del estado de páginas web en los resultados de Google. José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC) jortega@cindoc.csic.es. Introducción.

rance
Download Presentation

Análisis de la persistencia y del estado de páginas web en los resultados de Google

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC) jortega@cindoc.csic.es

  2. Introducción • Crecimiento exponencial del web en la década de los noventa. • Incorporación masiva de contenidos. • Medio de gran expectativa social y economica. • El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo 2001-2002, a un decrecimiento del 1% (O’Neill et al., 2003). • Crisis de las puntocom. • Estabilización en la incorporación de contenidos.

  3. Trabajos relacionados • Harter y Kim (1996): • citas electrónicas en revistas electrónicas. • 1/3 no disponibles. • Koehler (1999, 2002, 2004): • periodo 1999 – 2001. • páginas operativas sólo el 34,4% • Nelson y Allen (2002): • bibliotecas digitales a lo largo de un año. • 3% de objetos no disponibles (linkrot). • Medio más estable.

  4. Objetivos • Estabilidad de los índices del buscador Google. • Estado y disponibilidad de los resultados. • Estimación de la persistencia en las consultas.

  5. Metodología I • Tres consultas • “alhambra de granada” (500 resultados) • “mezquita de cordoba” (500 resultados) • “catedral de jaen” (230 resultados) • durante 15 semanas (frec. semanal) • del 29 de enero de 2004 al 6 de mayo de 2004

  6. Metodología II • Seguimiento de las páginas obtenidas a partir de la primera consulta. • Disponibilidad de los resultados a lo largo del tiempo.

  7. Metodología IIIHerramientas • Web Data Extractor 4.0 • Extracción de los resultados de las distintas consultas realizadas. • Xenu's Link Sleuth • Comprobación del estado en que se encuentran dichos resultados.

  8. Resultados El número de documentos que permanecen en cada consulta, originarios de la primera, desciende describiendo una curva logarítmica inversa. R2< 0,9

  9. Resultados • Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del tiempo. • Permite estimar el ritmo de decaimiento de la consulta.

  10. Consultas Vida Media alhambra de granada 0,048 mezquita de cordoba 0,058 catedral de jaen 0,227 Vida Media Tiempo transcurrido desde la observación original hasta el momento en que sólo recuperamos la mitad de resultados de la consulta original.

  11. Fórmula del Decaimiento Rt=R0e(- t) Donde = -0,693t/T (1/2) • Rt = Persistencia de resultados después del intervalo t • R0 = Resultados de la primera consulta. • e = base del logaritmo natural (2,718...). • t= tiempo transcurrido en años. • T(1/2)= Vida Media de la consulta.

  12. Resultados“alhambra de granada”

  13. Resultados“mezquita de cordoba”

  14. Resultados“catedral de jaen”

  15. Consultas Programación alhambra de granada 1,2% mezquita de cordoba 3,67% catedral de jaen 0,96% ResultadosFormatos Mayor permanencia para páginas estáticas frente a páginas dinámicas y ficheros de programación.

  16. Consultas Forbidden Request Not Found OK alhambra de granada 1,99% 12,24% 83,7% mezquita de cordoba 9,08% 18% 71,26% catedral de jaen 6,78% 15,77% 72,78% ResultadosEstado Alto porcentaje de páginas no operativas (linkrot). Entre 14,2% y 27%

  17. Discusión y Conclusiones I • Los índices de Google están diseñados para el posicionamiento pero no para detectar páginas desaparecidas. • Dificultad de detectar los soft 404. • Bar-Yossef et al. (2004): 25% de los 200 (OK) son soft 404. • Se estima que el 14% de las páginas indizadas en Google han desaparecido.

  18. Discusión y Conclusiones II • La Vida Media nos permite estimar la variabilidad en una consulta. • La formula del Decaimiento nos permite estimar los contenidos más duraderos. • Evaluación y mejora de los buscadores.

  19. Discusión y Conclusiones IIILimitaciones • No se puede generalizar con sólo tres consultas. • ¿Es esta realidad propia de Google o es extensible al resto de buscadores? • ¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?

More Related