« WinHTTrack » : différence entre les versions
Aller à la navigation
Aller à la recherche
(Page créée avec « '''WinHTTrack''' est un outil permettant d'aspirer le contenu de site. Cela est pratique pour disposer du contenu d'un site hors ligne. Site : * https://www.httrack.com/... ») |
Aucun résumé des modifications |
||
(2 versions intermédiaires par le même utilisateur non affichées) | |||
Ligne 3 : | Ligne 3 : | ||
Site : | Site : | ||
* https://www.httrack.com/ | * https://www.httrack.com/ | ||
== Fonction == | |||
Pour un site dont l'accès est sécurisé par un compte d'accès, il est possible de définir les identifiants : | |||
* par le bouton "Ajouter" lors de la création d'un nouveau site à aspirer ; | |||
* par la syntaxe <code>http://compte:motdepasse@domaine/page/</code> | |||
== Paramétrage == | |||
Il est possible de limiter le contenu aspiré aux seules pages du site, sans y intégrer le contenu des liens externes : | |||
=== Limites === | |||
* profondeur des liens intérieurs ; je laisse à blanc pour pas de limite ; | |||
* profondeur des liens extérieurs ; je paramètre 0 (zéro) ; | |||
Exclure du contenu. Pour aspirer un site de type MediaWiki, il n'est pas nécessaire de récupérer les pages de modification (renommage, suppression...) ; en conséquence exclure les liens contenant : | |||
* <code>?title=</code> : page d'action (modification [edit], suppression [delete], protection [protect], renommage, purge [purge] ...) | |||
* <code>/Spécial:</code> | |||
=== Journal, index et cache === | |||
* tout stocker en cache (stockage de tous les fichiers en cache et pas seulement les HTML) ; | |||
* constituer un index : cela permet une recherche par mot clé ; | |||
* faire une base sémantique (création d'une base sémantique des pages HTML ; | |||
[[Catégorie:Logiciel]] | [[Catégorie:Logiciel]] |
Dernière version du 10 septembre 2018 à 17:56
WinHTTrack est un outil permettant d'aspirer le contenu de site. Cela est pratique pour disposer du contenu d'un site hors ligne.
Site :
Fonction
Pour un site dont l'accès est sécurisé par un compte d'accès, il est possible de définir les identifiants :
- par le bouton "Ajouter" lors de la création d'un nouveau site à aspirer ;
- par la syntaxe
http://compte:motdepasse@domaine/page/
Paramétrage
Il est possible de limiter le contenu aspiré aux seules pages du site, sans y intégrer le contenu des liens externes :
Limites
- profondeur des liens intérieurs ; je laisse à blanc pour pas de limite ;
- profondeur des liens extérieurs ; je paramètre 0 (zéro) ;
Exclure du contenu. Pour aspirer un site de type MediaWiki, il n'est pas nécessaire de récupérer les pages de modification (renommage, suppression...) ; en conséquence exclure les liens contenant :
?title=
: page d'action (modification [edit], suppression [delete], protection [protect], renommage, purge [purge] ...)/Spécial:
Journal, index et cache
- tout stocker en cache (stockage de tous les fichiers en cache et pas seulement les HTML) ;
- constituer un index : cela permet une recherche par mot clé ;
- faire une base sémantique (création d'une base sémantique des pages HTML ;