Question Comment télécharger un site web depuis archive.org Wayback Machine?


Je veux obtenir tous les fichiers pour un site Web donné sur archive.org. Les raisons peuvent inclure:

  • l'auteur original n'a pas archivé son propre site Web et il est maintenant hors ligne, je veux en faire un cache public
  • Je suis l'auteur original d'un site Web et j'ai perdu du contenu. Je veux le récupérer
  • ...

Comment je fais ça ?

Considérant que la machine à archiver de archive.org est très spéciale: les liens de pages Web ne pointent pas vers l’archive elle-même, mais vers une page Web qui pourrait ne plus exister. JavaScript est utilisé côté client pour mettre à jour les liens, mais une astuce comme un wget récursif ne fonctionnera pas.


67
2017-10-20 10:16


origine


Je suis tombé sur le même problème et j'ai codé une gemme. À installer: gem install wayback_machine_downloader. Exécutez wayback_machine_downloader avec l'URL de base du site Web que vous souhaitez récupérer en tant que paramètre: wayback_machine_downloader http://example.comPlus d'information: github.com/hartator/wayback_machine_downloader - Hartator
Une aide étape par étape pour les utilisateurs de Windows (win8.1 64bit pour moi) nouvelle à Ruby, voici ce que j'ai fait pour le faire fonctionner: 1) j'ai installé rubyinstaller.org/downloads puis exécutez le "rubyinstaller-2.2.3-x64.exe" 2) téléchargé le fichier zip github.com/hartator/wayback-machine-downloader/archive/...3) décompresser le fichier zip dans mon ordinateur 4) rechercher dans le menu de démarrage de Windows pour "Démarrer l'invite de commande avec Ruby" (à suivre) - Erb
5) suivez les instructions de github.com/hartator/wayback_machine_downloader (e; .g: copiez collez cette "gem install wayback_machine_downloader" dans l'invite. Appuyez sur Entrée pour installer le programme ... puis suivez les instructions "Utilisation"). 6) une fois votre site Web capturé, vous trouverez les fichiers dans C: \ Users \ YOURusername \ websites - Erb


Réponses:


J'ai essayé différentes manières de télécharger un site et finalement j'ai trouvé le téléchargeur de machine à remonter - qui a déjà été mentionné par Hartator (donc tous les crédits vont à lui, s'il vous plaît), mais je n'ai tout simplement pas remarqué son commentaire. Pour vous faire gagner du temps, j'ai décidé d'ajouter le joyau wayback_machine_downloader comme réponse séparée ici.

Le site à http://www.archiveteam.org/index.php?title=Restoring liste ces façons de télécharger depuis archive.org:

  • Wayback Machine Downloader, petit outil dans Ruby pour télécharger n'importe quel site Web à partir de Wayback Machine. Gratuit et open-source. Mon choix!
  • Warrick - Le site principal semble en panne.
  • Wayback Downloader , un service qui téléchargera votre site à partir de Wayback Machine et ajoutera même un plugin pour Wordpress. Pas libre.

48
2017-08-14 18:19



Septembre 2016: j'ai utilisé Wayback Machine Downloader et ça a bien marché! - itnAAnti
Octobre 2016 - J'ai également utilisé le Wayback Machine Downloader. Fait un excellent travail! - YaDa
Février 2017: backback-machine-downloader est toujours la meilleure option sur le marché. Fonctionne parfaitement. - Clément
lol, les commentaires ci-dessus sont tous des spams - zerohero
J'ai également écrit un "téléchargeur de retour", en php, en téléchargeant les ressources, en ajustant les liens, etc.: gist.github.com/divinity76/85c01de416c541578342580997fa6acf - hanshenrik


Cela peut être fait en utilisant un script shell bash combiné avec wget.

L'idée est d'utiliser une partie de la Fonctionnalités de l'URL de la machine de retour:

  • http://web.archive.org/web/*/http://domain/* listera toutes les pages sauvegardées de http://domain/ récursivement. Il peut être utilisé pour construire un index de pages à télécharger et éviter les heuristiques pour détecter les liens dans les pages Web. Pour chaque lien, il y a aussi la date de la première version et la dernière version.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page listera toutes les versions de http://domain/page pour l'année AAAA. Dans cette page, des liens spécifiques vers les versions peuvent être trouvés (avec horodatage exact)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page va retourner la page non modifiée http://domain/page à l'horodatage donné. Notez le id_ jeton.

Ce sont les bases pour construire un script pour tout télécharger à partir d'un domaine donné.


9
2017-10-20 10:16



Vous devriez vraiment utiliser l'API à la place archive.org/help/wayback_api.php Les pages d'aide de Wikipedia sont destinées aux éditeurs et non au grand public. Cette page se concentre donc sur l'interface graphique, qui est à la fois obsolète et inadaptée à cette tâche. - Nemo
Il serait probablement plus facile de dire simplement de prendre l’URL (comme http://web.archive.org/web/19981202230410/http://www.google.com/) et ajouter id_ à la fin des "numéros de date". Ensuite, vous obtiendrez quelque chose comme http://web.archive.org/web/19981202230410id_/http://www.google.com/. - haykam
Un script python peut également être trouvé ici: gist.github.com/ingamedeo/ - Amedeo Baragiola


Il existe un outil spécialement conçu à cet effet, Warrick: https://code.google.com/p/warrick/

C'est basé sur le protocole Memento.


3
2018-01-21 22:38



Pour autant que j'ai réussi à l'utiliser (en mai 2017), il ne fait que récupérer ce que archive.is retient, et ignore quasiment ce que contient archive.org; il essaie également d'obtenir des documents et des images à partir des caches Google / Yahoo, mais échoue complètement. Warrick a été cloné plusieurs fois sur GitHub depuis la fermeture de Google Code, peut-être y a-t-il de meilleures versions. - Gwyneth Llewelyn