#151 Le 07/03/2010, à 04:58
- Ph3nix_
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Et si on aspirait Google ?
http://www.google.com/search?hl=en&lr=&q=www n'a jamais que 8.710.000.000 de réponses (à peu près hein)
(Je sais je suis HS etc..)
Mais désormais cette requète donne: 17,390,000,000 réponse
Plus du double en 3ans
Hiroshima 45 / Chernobyl 86 / Windows '95
Hors ligne
#152 Le 09/03/2010, à 16:06
- MacFlemme
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Bonjour,
est il possible de récupérer les adresses de tout un site dans un fichier texte ?? du style
http://www.monsite/pages1
http://www.monsite/pages2
......
Je vous remercie d'avance
Bonne fin de journée
Hors ligne
#153 Le 16/03/2010, à 15:03
- cracolinux
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
De même que MacFlemme, j'aimerais enregistrer dans un fichier toute l'arborescence d'un site:
/toto/repertoire1/sousrep1
/toto/repertoire1/sousrep2
/toto/repertoire2
/toto/repertoire3
etc... (je vais pas écrire tous les toto...)
je pense que wget peut m'aider, mais j'ai pas trouvé comment. Si quelqu'un sait faire ça..:D
Hors ligne
#154 Le 17/04/2010, à 17:21
- bece
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Lynx (le navigateur par la console en est capable).
Ca doit donner un truc du genre :
lynx -traversal "nomdusite" > arborescence.txt
PS : je précise que ce n'est peut-être pas la forme exact. Mais ça donne une idée.
"L'informatique, c'est l'art de passer 15 jours à gagner 5 millisecondes"
Hors ligne
#155 Le 29/07/2011, à 01:43
- seneque
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Excellent !
J'ai trouvé cela aussi qui dois revenir sensiblement au même.
wget -r -k -np -T 10 -w 3 -t 1 http://www.monsite.fr/
Définition des diverses options :
* -r : comme presque toujours, l’option -r (–recursive), téléchargera les sous dossiers du site et ainsi les liens annexes
* -k : modifie les liens pour pointer localement
* -np : empêche de remonter dans le répertoire supèrieur
* -w : fait patienter quelques secondes entre chaque requête, afin d’alléger le poids sur le serveur
* -T 10 : temps maximum pour aspirer un lien;
* -t 1 : le nombre de tentative de connection en cas d’erreur 404
* -i fichier : --input-file=fichier
«Personne ne se soucie de bien vivre , mais de vivre longtemps, alors que tous peuvent se donner le bonheur de bien vivre, aucun de vivre longtemps.»
[ Sénèque ]
Hors ligne
#156 Le 29/07/2011, à 11:36
- Slystone
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
J'aime bien l'option -w, les robots laissent faire.
«Rigid, the skeleton of habit alone upholds the human frame.» - Virginia Woolf.
Hors ligne
#157 Le 17/09/2011, à 19:19
- Compte anonymisé
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?
#158 Le 17/09/2011, à 19:43
- Ayral
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?
Pour mettre les retours de commande entre deux balises code, les explications sont là : https://forum.ubuntu-fr.org/viewtopic.php?id=1614731
Blog d'un retraité
Site de graphisme du fiston Loïc
Ubuntu 22.04 LTS sur un Thinkpad W540
Hors ligne
#159 Le 17/09/2011, à 21:53
- Compte anonymisé
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Merci, entre temps j'avais trouvé !
#160 Le 25/08/2012, à 17:30
- massire1
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
C'est super les gars. Trop Top ! Merci
Hors ligne
#161 Le 24/04/2013, à 15:12
- Compte anonymisé
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Bonjour, bonjour,
déterrage de topic !
J'aimerais avoir votre expertise sur l’utilisation de la fonction -X.
Si ma commande originale est
wget -np -r -w 2 -l5 -k -E -t 1 "http://www.monsite.fr"
Si je veux exclure certains sous-répertoires, comment dois-je le formuler ? Parce qu'en suivant un manuel je lis
Spécifie une liste de répertoires séparés par des virgules que vous voulez exclure du téléchargement. Les éléments de liste peuvent contenir des caractères génériques.
Mais alors cette commande serait bonne ?
wget -np -r -w 2 -l5 -k -E -t 1 -X http://www.monsite.fr/sousrépertoire1/, http://www.monsite.fr/sousrépertoire2 "http://www.monsite.fr"
Merci à vous.
Dernière modification par titou345 (Le 26/04/2013, à 09:16)
#162 Le 26/04/2013, à 09:16
- Compte anonymisé
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Personne ?
#163 Le 26/04/2013, à 09:33
- miniSeb
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Bah... Tu as testé ?
Tu te fais un petit site vite fait avec des dossiers genre img/ et css/, tu le lances dans un mini-serveur web
cd dossier/avec/ton/site && python -m SimpleHTTPServer
et puis tu testes le rapatriement avec ta commande...
Par contre de ce que je vois dans le man, les chemins des dossiers à ignorer sont des chemins relatifs :
wget -X " -X /~nobody,/~somebody
Hors ligne
#164 Le 26/04/2013, à 09:52
- Compte anonymisé
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
Mais tout le monde n'est pas capable de se créer son petit site vite fait.
J'ai testé la commande (d'abord sans l'exclusion) mais j'ai un souci. Malgré l'option -np wget revient vers la page d'accueil.
Edit : J'ai abandonné l'idée des exclusions mais j'ai un nouveau souci, c'est que le site demande une authentification et même avec la commande suivante quand je vais ouvrir le .html qui en résulte je tombe sur la page d'authentification.
wget -np -r -w 1 -l2 -k -E -t 1 --http-user=monidentifiant --http-password=monmotdepasse http://...
Dernière modification par titou345 (Le 26/04/2013, à 10:17)
#165 Le 26/04/2013, à 10:57
- miniSeb
Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande
C'est donc bien des chemins relatifs et ça fonctionne sans souci.
Je t'ai envoyé par mail le petit site que j'ai fait et ça donne
wget -r 0:8000 # Rapatrie l'ensemble
wget -r -X /img,/subdir 0:8000 # Ne rapatrie que index.html
Hors ligne