télécharger un site complet

x@v · Le 02/01/2012, à 21:56

Bonjour,
j'aimerais télécharger un site, parceque souvent je n'ai pas internet :
wget ne fonctionne pas du moins il me télécharge que la page d'index ?

$ wget -r -k -np www.chefsimon.com
--2012-01-02 13:53:20--  http://www.chefsimon.com/
Résolution de www.chefsimon.com (www.chefsimon.com)... 213.186.33.4
Connexion vers www.chefsimon.com (www.chefsimon.com)|213.186.33.4|:80...connecté.
requête HTTP transmise, en attente de la réponse...301 Moved Permanently
Emplacement: http://chefsimon.com/ [suivant]
--2012-01-02 13:53:21--  http://chefsimon.com/
Résolution de chefsimon.com (chefsimon.com)... 213.186.33.4
Réutilisation de la connexion existante vers www.chefsimon.com:80.
requête HTTP transmise, en attente de la réponse...200 OK
Longueur: non spécifié [text/html]
Sauvegarde en : «www.chefsimon.com/index.html»

    [    <=>                                                                  ] 54.203      48,4K/s   ds 1,1s    

2012-01-02 13:53:23 (48,4 KB/s) - «www.chefsimon.com/index.html» sauvegardé [54203]

FINISHED --2012-01-02 13:53:23--
Total wall clock time: 2,5s
Downloaded: 1 files, 53K in 1,1s (48,4 KB/s)
Conversion de www.chefsimon.com/index.html...0-386
1 fichiers convertis en 0,007 secondes.

Merci

titoupath · Le 02/01/2012, à 22:13

Tu aurais pu faire un petit effort de recherche. Google me dit :

wget -r http://www.site.com/

pour aspirer un site entier.

x@v · Le 02/01/2012, à 22:19

J'ai justement écrit -r, et j'ai effectivement qu'un seul fichier de télécharger.
Tu aurrais pu lire au moins le début de ma commande

pode · Le 02/01/2012, à 22:24

Le problème doit venir du fait que le vrai site web est chefsimon.com et non pas www.chefsimon.com

Dernière modification par pode (Le 02/01/2012, à 22:25)

x@v · Le 02/01/2012, à 22:27

Merci Pode, peux tu me préciser comment as tu compris le problème ?
Merci

titoupath · Le 02/01/2012, à 22:39

x@v a écrit :

J'ai justement écrit -r, et j'ai effectivement qu'un seul fichier de télécharger.
Tu aurrais pu lire au moins le début de ma commande

Autant pour moi, pour revenir au problème résolu, le www est un sous domaine par défaut non ? Pourquoi wget refuserait-il de faire sa requête sur www.chefsimon.com ? D'autant plus que l'on voit bien dans le log qu'il se fait rediriger...

pode · Le 02/01/2012, à 22:50

Je l'ai vu dans le navigateur.

Dans les cas de sites web plus complexes avec multiples redirections HTTP, il faut regarder les en-têtes HTTP "Location" envoyés par le serveur.
Cela peut se faire dans Firefox à l'aide du plug-in LiveHTTPHeaders. Avec curl, ça peut se faire à l'aide des options -I (affichage des en-têtes HTTP) et -L (suivi des redirections).

$ curl -I -L http://www.chefsimon.com
HTTP/1.1 301 Moved Permanently
Set-Cookie: 240plan=R3498075672; path=/; expires=Thu, 05-Jan-2012 08:42:32 GMT
Date: Mon, 02 Jan 2012 20:42:07 GMT
Server: Apache/2.2.X (OVH)
Location: http://chefsimon.com/
Vary: Accept-Encoding
Content-Type: text/html; charset=iso-8859-1

HTTP/1.1 200 OK
Set-Cookie: 240plan=R130127336; path=/; expires=Thu, 05-Jan-2012 08:42:32 GMT
Date: Mon, 02 Jan 2012 20:42:07 GMT
Server: Apache/2.2.X (OVH)
Accept-Ranges: bytes
Vary: Accept-Encoding
Content-Type: text/html

Il y a aussi des cas où la redirection ne se fait pas au niveau de HTTP mais se fait programmatiquement, par exemple via javascript (exemple : http://www.transpac.fr/).
Là, il faut regarder le code javascript...

Pour répondre à la remarque de titoupath, il faut regarder la page wget - Spanning Hosts
Extrait :
Wget's recursive retrieval normally refuses to visit hosts different than the one you specified on the command line. This is a reasonable default; without it, every retrieval would have the potential to turn your Wget into a small version of google.

La page donne également les options permettant de télécharger des pages d'autres sites (options -H et -D).

f.x0 · Le 02/01/2012, à 22:56

C'était écrit dans le début du résultat de la commande :

--2012-01-02 13:53:20--  http://www.chefsimon.com/
Résolution de www.chefsimon.com (www.chefsimon.com)... 213.186.33.4
Connexion vers www.chefsimon.com (www.chefsimon.com)|213.186.33.4|:80...connecté.
requête HTTP transmise, en attente de la réponse...301 Moved Permanently
Emplacement: http://chefsimon.com/ [suivant]
--2012-01-02 13:53:21--  http://chefsimon.com/
Résolution de chefsimon.com (chefsimon.com)... 213.186.33.4
Réutilisation de la connexion existante vers www.chefsimon.com:80.

pem1664 · Le 02/01/2012, à 23:02

Salut, si tu veux tu peux utiliser scrapbook, c'est un applet firefox qui permet de d'enregistrer tout ou partie d'un site

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 02/01/2012, à 21:56

télécharger un site complet

#2 Le 02/01/2012, à 22:13

Re : télécharger un site complet

#3 Le 02/01/2012, à 22:19

Re : télécharger un site complet

#4 Le 02/01/2012, à 22:24

Re : télécharger un site complet

#5 Le 02/01/2012, à 22:27

Re : télécharger un site complet

#6 Le 02/01/2012, à 22:39

Re : télécharger un site complet

#7 Le 02/01/2012, à 22:50

Re : télécharger un site complet

#8 Le 02/01/2012, à 22:56

Re : télécharger un site complet

#9 Le 02/01/2012, à 23:02

Re : télécharger un site complet

Pied de page des forums