[Tuto] Rapatrier un site web entier en UNE ligne de commande

Ph3nix_ · Le 07/03/2010, à 05:58

DecIRC a écrit :

Et si on aspirait Google ?
http://www.google.com/search?hl=en&lr=&q=www n'a jamais que 8.710.000.000 de réponses (à peu près hein)

(Je sais je suis HS etc..)

Mais désormais cette requète donne: 17,390,000,000 réponse
Plus du double en 3ans

MacFlemme · Le 09/03/2010, à 17:06

Bonjour,

est il possible de récupérer les adresses de tout un site dans un fichier texte ?? du style

http://www.monsite/pages1
http://www.monsite/pages2
......

Je vous remercie d'avance

Bonne fin de journée

cracolinux · Le 16/03/2010, à 16:03

De même que MacFlemme, j'aimerais enregistrer dans un fichier toute l'arborescence d'un site:

/toto/repertoire1/sousrep1
/toto/repertoire1/sousrep2
/toto/repertoire2
/toto/repertoire3

etc... (je vais pas écrire tous les toto...)

je pense que wget peut m'aider, mais j'ai pas trouvé comment. Si quelqu'un sait faire ça..:D

bece · Le 17/04/2010, à 18:21

Lynx (le navigateur par la console en est capable).
Ca doit donner un truc du genre :
lynx -traversal "nomdusite" > arborescence.txt

PS : je précise que ce n'est peut-être pas la forme exact. Mais ça donne une idée.

seneque · Le 29/07/2011, à 02:43

Excellent !
J'ai trouvé cela aussi qui dois revenir sensiblement au même.

wget -r -k -np -T 10 -w 3 -t 1 http://www.monsite.fr/

Définition des diverses options :

* -r : comme presque toujours, l’option -r (–recursive), téléchargera les sous dossiers du site et ainsi les liens annexes
* -k : modifie les liens pour pointer localement
* -np : empêche de remonter dans le répertoire supèrieur
* -w : fait patienter quelques secondes entre chaque requête, afin d’alléger le poids sur le serveur
* -T 10 : temps maximum pour aspirer un lien;
* -t 1 : le nombre de tentative de connection en cas d’erreur 404
* -i fichier : --input-file=fichier

Slystone · Le 29/07/2011, à 12:36

J'aime bien l'option -w, les robots laissent faire.

Compte anonymisé · Le 17/09/2011, à 20:19

Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?

Ayral · Le 17/09/2011, à 20:43

titou345 a écrit :

Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?

http://forum.ubuntu-fr.org/viewtopic.ph … 4#p2900134

Compte anonymisé · Le 17/09/2011, à 22:53

Merci, entre temps j'avais trouvé !

massire1 · Le 25/08/2012, à 18:30

C'est super les gars. Trop Top ! Merci

Compte anonymisé · Le 24/04/2013, à 16:12

Bonjour, bonjour,

déterrage de topic !

J'aimerais avoir votre expertise sur l’utilisation de la fonction -X.

Si ma commande originale est

wget -np -r -w 2 -l5 -k -E -t 1 "http://www.monsite.fr"

Si je veux exclure certains sous-répertoires, comment dois-je le formuler ? Parce qu'en suivant un manuel je lis

Spécifie une liste de répertoires séparés par des virgules que vous voulez exclure du téléchargement. Les éléments de liste peuvent contenir des caractères génériques.

Mais alors cette commande serait bonne ?

wget -np -r -w 2 -l5 -k -E -t 1 -X http://www.monsite.fr/sousrépertoire1/, http://www.monsite.fr/sousrépertoire2 "http://www.monsite.fr"

Merci à vous.

Dernière modification par titou345 (Le 26/04/2013, à 10:16)

Compte anonymisé · Le 26/04/2013, à 10:16

Personne ?

miniSeb · Le 26/04/2013, à 10:33

Bah... Tu as testé ?

Tu te fais un petit site vite fait avec des dossiers genre img/ et css/, tu le lances dans un mini-serveur web

cd dossier/avec/ton/site && python -m SimpleHTTPServer

et puis tu testes le rapatriement avec ta commande...

Par contre de ce que je vois dans le man, les chemins des dossiers à ignorer sont des chemins relatifs :

wget -X " -X /~nobody,/~somebody

Compte anonymisé · Le 26/04/2013, à 10:52

Mais tout le monde n'est pas capable de se créer son petit site vite fait.

J'ai testé la commande (d'abord sans l'exclusion) mais j'ai un souci. Malgré l'option -np wget revient vers la page d'accueil.

Edit : J'ai abandonné l'idée des exclusions mais j'ai un nouveau souci, c'est que le site demande une authentification et même avec la commande suivante quand je vais ouvrir le .html qui en résulte je tombe sur la page d'authentification.

wget -np -r -w 1 -l2 -k -E -t 1 --http-user=monidentifiant --http-password=monmotdepasse http://...

Dernière modification par titou345 (Le 26/04/2013, à 11:17)

miniSeb · Le 26/04/2013, à 11:57

C'est donc bien des chemins relatifs et ça fonctionne sans souci.

Je t'ai envoyé par mail le petit site que j'ai fait et ça donne

wget -r 0:8000                  # Rapatrie l'ensemble
wget -r -X /img,/subdir 0:8000  # Ne rapatrie que index.html

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#151 Le 07/03/2010, à 05:58

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#152 Le 09/03/2010, à 17:06

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#153 Le 16/03/2010, à 16:03

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#154 Le 17/04/2010, à 18:21

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#155 Le 29/07/2011, à 02:43

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#156 Le 29/07/2011, à 12:36

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#157 Le 17/09/2011, à 20:19

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#158 Le 17/09/2011, à 20:43

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#159 Le 17/09/2011, à 22:53

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#160 Le 25/08/2012, à 18:30

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#161 Le 24/04/2013, à 16:12

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#162 Le 26/04/2013, à 10:16

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#163 Le 26/04/2013, à 10:33

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#164 Le 26/04/2013, à 10:52

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

#165 Le 26/04/2013, à 11:57

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Pied de page des forums