WinHTTrack

Révision datée du 10 septembre 2018 à 16:56 par Fylip22 (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche
La version imprimable n’est plus prise en charge et peut comporter des erreurs de génération. Veuillez mettre à jour les signets de votre navigateur et utiliser à la place la fonction d’impression par défaut de celui-ci.

WinHTTrack est un outil permettant d'aspirer le contenu de site. Cela est pratique pour disposer du contenu d'un site hors ligne.

Site :

Fonction

Pour un site dont l'accès est sécurisé par un compte d'accès, il est possible de définir les identifiants :

Paramétrage

Il est possible de limiter le contenu aspiré aux seules pages du site, sans y intégrer le contenu des liens externes :

Limites

  • profondeur des liens intérieurs ; je laisse à blanc pour pas de limite ;
  • profondeur des liens extérieurs ; je paramètre 0 (zéro) ;

Exclure du contenu. Pour aspirer un site de type MediaWiki, il n'est pas nécessaire de récupérer les pages de modification (renommage, suppression...) ; en conséquence exclure les liens contenant :

  • ?title= : page d'action (modification [edit], suppression [delete], protection [protect], renommage, purge [purge] ...)
  • /Spécial:

Journal, index et cache

  • tout stocker en cache (stockage de tous les fichiers en cache et pas seulement les HTML) ;
  • constituer un index : cela permet une recherche par mot clé ;
  • faire une base sémantique (création d'une base sémantique des pages HTML ;