capture de sites web en ligne n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Capture de sites Web en ligne PowerPoint Presentation
Download Presentation
Capture de sites Web en ligne

Loading in 2 Seconds...

  share
play fullscreen
1 / 33
brody-sanchez

Capture de sites Web en ligne - PowerPoint PPT Presentation

87 Views
Download Presentation
Capture de sites Web en ligne
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Capture de sites Web en ligne Conférence B.N.F, Avril 2004Xavier Roche(HTTrack) http://www.httrack.com

  2. Pourquoi copier des sites web? • Archivage pour conservation et/ou historisation • Archivage pour raisons légales • Miroirs de sites pour des raisons de redondance • Copies pour une mise à disposition non connectée • Copies par des particuliers (copie privée) • Agents intelligents, stress de réseaux, validation de liens cassés ou des liens externes, plan du site…

  3. Le « Web », qu’est-ce que c’est ? Internet Email mailto: HTTP HTTPS news: https: http: News ftp: FTP WWW file: Fichiers Ressources locales (fichiers)

  4. Un « serveur Web », qu’est-ce que c’est? Traitements Fichiers, archives Contenus Requêtes et contenus Éléments extérieurs (capteurs, etc.) Base de données Serveur Web Client

  5. Le serveur web: un « livreur » de contenus template.php Traitements Fichiers, archives table_001 Contenus Requêtes et contenus Éléments extérieurs (capteurs, etc.) Base de données Serveur Web Client « Page Web»

  6. Les documents hypertexte

  7. Les liens hypertexte

  8. Copie locale d’un « site Web» ?

  9. Copie locale d’un « site Web» template.php template2.php … table_001 table_002 … Serveur Web disque local Ressources locales (fichiers)

  10. Le « nommage » local des fichiers en ligne copiés

  11. Nommage des fichiers copiés • Exemple: fichier html Windows Linux/Unix

  12. Nommage : restrictions • Nommage des fichiers comportant des « caractères spéciaux »

  13. Nommage : duplications • Duplication de noms +

  14. Nommage : solutions • Résoudre les collisions + +

  15. Modification des liens hypertexte

  16. Les problèmes apparaissent!

  17. Les problèmes apparaissent! • Les liens: • <a href= 'page 2.html'> • <a href= "page%202.html"> • <a href= page%202.html> • <a href= "page 2 .html"> • <a href= "http:page 2.html"> • <a href= "//www.example.com/page 2.html"> • <a href= "page&nbsp;2.html"> • <a href<a href= "page2.html">>

  18. Les problèmes apparaissent! • Les formulaires:

  19. Les problèmes apparaissent! • Les formulaires (suite) :

  20. Les problèmes apparaissent! • Javascript :

  21. Les problèmes apparaissent! • Java :

  22. Les problèmes apparaissent! • Flash :

  23. Les problèmes apparaissent! • Fichiers hypertextes vs binaires (Java/Flash) : un fichier html un fichier « flash »

  24. Les problèmes apparaissent! • « Horodatage » intégré aux liens hypertexte http://www.example.com/page2.html?t=19993112235959999 • Liens multiples vers un seul document http://www.example.com/forum/article.php?id=1234 http://www.example.com/forum/article.php?id=1233&next http://www.example.com/forum/article.php?id=5678&previous http://www.example.com/forum/article.php?id=6548&previous10 http://www.example.com/forum/article.php?id=879&next10 ... • Etc etc etc

  25. Aperçu de quelques autres problèmes • Taille limite des fichiers • Gestion des erreurs, des liens cassés • Sites protégés par mot de passe • Sites utilisant des « cookies » / des sessions • Fichiers locaux « Intranet » (file://) • Sites sécurisés (HTTPS) • Sites ftp • Sites accessibles via Ipv6 uniquement (recherche, universités)

  26. Mise à jour ?

  27. Mise à jour ? • Économie de bande passante • Économie de temps • Économie d’espace de stockage Document capturé le 15/01/2004 à 17h32 Une version plus récente est-elle disponible aujourd’hui ?

  28. Mise à jour « incrémentale » (1) document mis à jour depuis le 15/01/2004 à 17h32? interrogation du système de fichiers oui, nouveau document disponible

  29. Mise à jour « incrémentale » (2) le document « 098f6bcd4621d373cade4e832627b4f6 » est il périmé ? interrogation de la base de donnée oui, je vous transmet le document « ad0234829205b9033196ba818f7a872b»

  30. Les précautions à prendre lors de la capture d’un site

  31. Les précautions à prendre : surcharge du site • Limiter la bande passante et le nombre de connexions simultanées!

  32. Les précautions à prendre : aspects légaux ? • Copie privée / publique ? • Protection du site ? (loi n°95-597 du 1er juillet 1992 , art l 353-3 du CPI) • Statut d’un aspirateur de sites Web ? Navigateur? Robot? Proxy-cache?

  33. Conclusion • …