Question Comment puis-je télécharger un site Web entier?


Comment puis-je télécharger toutes les pages d'un site Web?

Toute plate-forme est bien.


314


origine


Check-out serverfault.com/questions/45096/website-backup-and-download sur erreur de serveur. - Marko Carter
@tnorthcutt, je suis surpris aussi. Si je ne me rappelle pas terriblement mal, ma réponse Wget était la réponse acceptée, et cela ressemblait à un problème résolu. Je ne me plains pas cependant - soudainement, l'attention renouvelée m'a donné plus que la valeur de la récompense. : P - Jonik
avez-vous essayé IDM? superuser.com/questions/14403/ mon poste est enterré. Qu'avez-vous trouvé manquant dans IDM? - Lazer
@joe: Cela pourrait vous aider si vous donniez des détails sur les caractéristiques manquantes ... - Ilari Kajaste
browse-offline.com pouvez télécharger l'arborescence complète du site Web pour pouvoir ... naviguer hors ligne - Menelaos Vergis


Réponses:


HTTRACK fonctionne comme un champion pour copier le contenu d'un site entier. Cet outil peut même récupérer les éléments nécessaires pour faire fonctionner un site Web avec un contenu de code actif hors ligne. Je suis étonné des choses qu'il peut répliquer hors ligne.

Ce programme fera tout ce dont vous avez besoin.

Bonne chasse!


302



Je l'utilise depuis des années - fortement recommandé. - Umber Ferrule
Vous pouvez également limiter la vitesse de téléchargement afin de ne pas utiliser trop de bande passante au détriment de tout le monde. - Umber Ferrule
Est-ce que cette copie le code ASP réel qui s'exécute sur le serveur si? - Taptronic
Solutions optimales: non, ce n'est pas possible. Vous devez avoir accès aux serveurs ou au code source pour cela. - Sasha Chedygov
Après avoir essayé httrack et wget pour les sites avec autorisation, je dois me pencher en faveur de wget. Impossible de faire fonctionner httrack dans ces cas-là. - Leo


Wget est un outil classique en ligne de commande pour ce type de tâche. Il est livré avec la plupart des systèmes Unix / Linux, et vous pouvez l'obtenir Pour les fenêtres aussi. Sur un Mac, Homebrew est le moyen le plus simple de l'installer (brew install wget).

Vous feriez quelque chose comme:

wget -r --no-parent http://site.com/songs/

Pour plus de détails, voir Wget Manual et son exemples, ou par ex. celles-ci:


240



Il n'y a pas de meilleure réponse que cela - wget peut tout faire: 3 - Phoshi
+1 pour inclure le --no-parent. certainement utiliser --mirror au lieu de -r. et vous voudrez peut-être inclure -L / - relatif pour ne pas suivre les liens vers d'autres serveurs. - quack quixote
Comme je l'ai également demandé pour httrack.com - cet outil de ligne de commande de cmd obtiendrait-il l'ASP? code ou serait-ce juste obtenir le rendu du HTML? Je dois essayer ça. Cela pourrait être un peu inquiétant pour les développeurs si cela se produit ... - Taptronic
@optimal, la sortie HTML bien sûr - il obtiendrait le code uniquement si le serveur était mal configuré - Jonik
malheureusement, cela ne fonctionne pas pour moi - il y a un problème avec les liens vers les fichiers css, ils ne sont pas modifiés en relatifs, c.-à-d., vous pouvez voir quelque chose comme ça dans les fichiers: <link rel = "stylesheet" = "/ static / css / reset.css" media = "screen" /> qui ne fonctionne pas bien localement, sauf s'il existe un waz pour tromper firefox qui pense que certains répertoires sont une racine. - gorn


Utilisez wget:

wget -m -p -E -k www.example.com

Les options expliquées:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

123



+1 pour fournir les explications des options suggérées. (Bien que je ne pense pas --mirror est très explicite. Voici de la page de manuel: "Cette option active la récursivité et l'horodatage, définit une profondeur de récursion infinie et conserve les listes de répertoires FTP. Elle est actuellement équivalente à -r -N -l inf --no-remove-listing") - Ilari Kajaste
Si vous ne voulez pas tout télécharger dans un dossier portant le nom du domaine que vous souhaitez mettre en miroir, créez votre propre dossier et utilisez l'option -nH (qui ignore la partie hôte). - Rafael Bugajewski
Qu'en est-il si l'authentification est requise? - Val
J'ai essayé d'utiliser votre wget --mirror -p --html-extension --convert-links www.example.com et il vient de télécharger l'index. Je pense que vous avez besoin de la -r télécharger l'intégralité du site. - Eric Brotto
pour ceux qui craignent de tuer un site en raison du trafic / trop de demandes, utilisez le -w seconds (attendre un certain nombre de secondes entre les demandes ou le --limit-rate=amount, pour spécifier la bande passante maximale à utiliser lors du téléchargement - vlad-ardelean


Vous devriez jeter un oeil à ScrapBook, une extension Firefox. Il a un mode de capture en profondeur.

enter image description here


8



N'est plus compatible avec Firefox après la version 57 (Quantum). - Yay295


Télécharger Internet Gestionnaire possède un utilitaire Site Grabber avec de nombreuses options - qui vous permet de télécharger complètement les sites Web de votre choix, comme vous le souhaitez.

  1. Vous pouvez définir la limite de taille des pages / fichiers à télécharger

  2. Vous pouvez définir le nombre de sites de branche à visiter

  3. Vous pouvez changer le comportement des scripts / popups / duplicates

  4. Vous pouvez spécifier un domaine, uniquement sous ce domaine, toutes les pages / fichiers répondant aux paramètres requis seront téléchargés.

  5. Les liens peuvent être convertis en liens hors ligne pour la navigation

  6. Vous avez des modèles qui vous permettent de choisir les paramètres ci-dessus pour vous

enter image description here

Le logiciel n'est cependant pas gratuit - vérifiez si cela correspond à vos besoins, utilisez la version d'évaluation.


8





itsucks - c'est le nom du programme!


7





J'aborderai la mise en mémoire tampon en ligne utilisée par les navigateurs ...

Généralement, la plupart des navigateurs utilisent un cache de navigation pour conserver les fichiers téléchargés à partir d'un site Web afin de ne pas avoir à télécharger des images statiques et du contenu encore et encore. Cela peut accélérer les choses dans certaines circonstances. De manière générale, la plupart des caches de navigateurs sont limités à une taille fixe et, lorsqu'ils atteignent cette limite, ils suppriment les fichiers les plus anciens du cache.

Les fournisseurs de services Internet ont tendance à disposer de serveurs de mise en cache qui conservent des copies des sites Web fréquemment utilisés, tels que ESPN et CNN. Cela leur évite d'avoir à toucher ces sites chaque fois que quelqu'un sur leur réseau s'y rend. Cela peut représenter une économie importante en termes de quantité de demandes dupliquées vers des sites externes vers le fournisseur de services Internet.


5





J'aime Explorateur hors ligne.
C'est un shareware, mais c'est très bon et facile à utiliser.


5





Je ne l'ai pas fait depuis de nombreuses années, mais il existe encore quelques utilitaires. Vous voudrez peut-être essayer Serpent web. Je crois que je l'ai utilisé il y a des années. Je me suis souvenu du nom tout de suite quand j'ai lu votre question.

Je suis d'accord avec Stecy. S'il vous plaît ne pas marteler leur site. Très mauvais.


5





WebZip est un bon produit aussi.


4





Essayer Navigateur BackStreet.

C'est un navigateur hors ligne puissant et gratuit. Un multi-thread à grande vitesse   programme de téléchargement et de visualisation de sites Web. En faisant plusieurs simultanés   les demandes du serveur, le navigateur BackStreet peut télécharger rapidement   site ou partie de site incluant HTML, graphiques, applets Java,   fichiers audio et autres fichiers définissables par l'utilisateur, et enregistre tous les fichiers de votre ordinateur.   disque dur, soit dans leur format natif, soit sous forme de fichier ZIP compressé   et voir hors ligne.

enter image description here


3