Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 23/11/2006, à 16:33

pabix

[Tuto] Rapatrier un site web entier en UNE ligne de commande

Mise en garde : ce forum ne doit PAS être aspiré automatiquement sous peine de mise de votre adresse IP en liste noire. NE TESTEZ PAS CE SCRIPT SUR LE FORUM UBUNTU-FR. L'aspiration de site doit respecter une certaine éthique et doit être utilisée uniquement lorsqu'il y a un besoin d'accéder à certains contenus hors lignes. À réserver à des sites légers.

Bonjour !

Le titre en disant suffisamment long :

wget -r -l5 -k -E "http://www.l_adresse_du_site.a_recuperer.com"

Explication :

-r : récursif sur le site
-l5 : cinq niveaux de récursion au maximum
-k : convertir les destinations des liens pour une lecture locale
-E : convertir les types de fichier au format HTML (pour éviter que la lecture de sites en PHP ne foire en lecture sous Firefox).

Limitations

Ce tutoriel ne marchera pas sur tous les sites (par exemple les sites dont une partie du contenu est générée par du Javascript ou en AJAX, ou grâce à Flash). wget suivra uniquement les liens <a href="…">…</a>dans les sources html des pages web.

---------

Pour aller plus loin.

Si vous voulez plus d’options, la page de manuel de wget est pleine d’infos utiles, voici des options très intéressantes :
-t : spécifier combien de fois que wget devrait essayer de télécharger chaque fichier.
-w : spécifier combien de temps attendre entre les essais
-c : demander à wget de continuer un téléchargement interrompu.
-T : spécifier au bout de combien de secondes sans réponse wget abandonne une connexion
--limit-rate : mettre une vitesse de connexion maximale pour ne pas monopoliser votre bande passante
-Q : limiter la place que prendront tous les fichiers téléchargés, pour ne pas trop remplir votre disque dur. Dès qu’à la fin d’un téléchargement le quota sera dépassé, wget s’arrêtera
--load-cookies : importer des cookies (pratique pour les sites où vous devriez être authentifié)
-X : exclure un répertoire

Amusez-vous bien !


---------
Je veux les sources des fichiers PHP
Ce n’est possible que si vous gérez le site web. Si vous avez un accès en FTP aux fichiers, utilisez curlftpfs ou alors lftp comme ceci : (exemple avec ftpperso.free.fr)
1. Créez un fichier .netrc dans votre répertoire personnel, contenant les informations suivantes :

machine ftpperso.free.fr
login votre_login_sur_le_serveur_ftp
password votre_mot_de_passe_sur_le_serveur_ftp

2. Tapez « chmod 400 ~/.netrc » pour que le fichier ne soit lisible que par vous.
3. Positionnez-vous dans le répertoire où rapatrier votre site, tapez « lftp ftpperso.free.fr » ; vous aurez un prompt du genre « lftp votre_login_sur_le_serveur_ftp@ftpperso.free.fr:~> » : tapez

mirror . .

C’est bon. Quand lftp aura tout fini, tapez « exit » ou Ctrl-D.

Benoit

Dernière modification par pabix (Le 27/11/2008, à 10:32)


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#2 Le 23/11/2006, à 17:33

eclipse

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

oh la vache ! cest géniale !!!! smile
je suis en train de gober le site d'apple lol

je me posais la kestion de savoir si on pouvait revenir d'un niveau ... par exemple
j'ai tapé la commande avec comme adresse : http://www.apple.com/fr
mais défois sur le site d'apple, béh y a besoin de revenir, www.apple.com avec des pages en anglais... apparemment on peut pas hmm
je vais pas télécharger TOUTES les pages des langues que je veux po !!!!


Merci à toi

#3 Le 23/11/2006, à 17:41

pabix

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

"man wget" est ton ami, mais c'est en anglais

regarde l'option -X

Benoit

PS. Tu risques de mettre du temps, pour le site d'Apple.


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#4 Le 23/11/2006, à 17:46

eclipse

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

pabix a écrit :

"man wget" est ton ami, mais c'est en anglais

regarde l'option -X

Benoit

PS. Tu risques de mettre du temps, pour le site d'Apple.

mdrrrrrrrrrrrrrrrr lol g vu que cest long !

#5 Le 23/11/2006, à 21:12

eclipse

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

juste pour dire que le rapatriment du site d'apple est tres long !!!!
j'ai commencé vers 17h30 et cest pas finis ! hmm j'en suis preske à 400 Mo

je sais po si je dois arreter ou continuer, mais juste par curiosité, je vais laisser faire, je verrais bien à koi ca ressemblera smile

#6 Le 23/11/2006, à 22:12

soupaloignon

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Génial comme ligne de commande, merci pour cette info big_smile


==> Libérez les huitres du bassin d'Arcachon <==

Hors ligne

#7 Le 24/11/2006, à 11:01

pabix

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

De rien !


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#8 Le 24/11/2006, à 11:05

Mathieu11

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Salut.
@pabix :
Coincidence marrante, hier soir je me suis intéressé à la même commande que toi.
Je voulais mettre en place un script nautilus pour le rappatriement de site dans le dossier où l'on se trouve.
Le script est en place mais j'ai besoin d'aide pour mettre en place une finition graphique.
Si toi ou quelqu'un d'autre s'y connait ce serait gentil de m'aider ICI
Merci d'avance


Vostro 1400

Hors ligne

#9 Le 24/11/2006, à 18:27

pabix

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

eclipse : ça a terminé, maintenant ?

Benoit


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#10 Le 24/11/2006, à 19:02

eclipse

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

mdrrrrr
g abandonné hmm
cest genre beaucoup de fichiers... pis je me demande si le truc, il repasse pas, écriture par dessus des fichiers quand il va sur des zones en-fr-it  si tu vois ce que je veux dire ... je dois avoir 500 Mo que je regarderais à l'ocasion.... il a est passé partout la vache !!! meme sur les zones "supports" des différentes sections

un truc de fou !!!

tiens si quelqu'un a envie de tenter avec micrisoft.fr... smile

Dernière modification par eclipse (Le 24/11/2006, à 19:03)

#11 Le 25/11/2006, à 19:10

matigol

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Simple question :

ça sert à quoi ??


big_smile

Hors ligne

#12 Le 25/11/2006, à 20:40

TizeN

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

À avoir un contenu hors-ligne, pour pouvoir par exemple garder de la documentation sur un wiki en mode hors-ligne quand t'as un problème en déplacement c'est bien pratique si t'as pas de wifi wink.

Hors ligne

#13 Le 25/11/2006, à 20:53

eclipse

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

matigol a écrit :

Simple question :

ça sert à quoi ??


big_smile

code source ... les layouts neutral

#14 Le 25/11/2006, à 20:57

gilir

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est génial pour faire tomber les serveurs aussi hmm Sur le site d'apple ça pose pas de problème mais sur des sites plus modestes, je suis par sur que le proprio apprécie hmm

Dernière modification par gilir (Le 25/11/2006, à 20:57)

Hors ligne

#15 Le 25/11/2006, à 21:23

thx_84

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

merci pour l'astuce...


ben, comme on fait pour signer sur l'ordi??? mince, je viens de ficher en l'air l'écran avec mon stylo...

Hors ligne

#16 Le 25/11/2006, à 22:04

AlexandreP

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

eclipse a écrit :
matigol a écrit :

Simple question :

ça sert à quoi ??


big_smile

code source ... les layouts neutral

Merci la propriété intellectuelle hmm

gilir a écrit :

C'est génial pour faire tomber les serveurs aussi hmm Sur le site d'apple ça pose pas de problème mais sur des sites plus modestes, je suis par sur que le proprio apprécie hmm

+1 hmm


«La capacité d'apprendre est un don; La faculté d'apprendre est un talent; La volonté d'apprendre est un choix.» -Frank Herbert
93,8% des gens sont capables d'inventer des statistiques sans fournir d'études à l'appui.

Hors ligne

#17 Le 26/11/2006, à 00:58

naholyr

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est dingue d'être aussi négatif les gars...

TizeN a écrit :

À avoir un contenu hors-ligne, pour pouvoir par exemple garder de la documentation sur un wiki en mode hors-ligne quand t'as un problème en déplacement c'est bien pratique si t'as pas de wifi wink.

Il y en a au moins un qui a compris l'intérêt de l'aspiration d'un site...

Hors ligne

#18 Le 26/11/2006, à 01:20

gilir

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

naholyr a écrit :

C'est dingue d'être aussi négatif les gars...

http://forum.ubuntu-fr.org/viewtopic.php?id=36588

Hors ligne

#19 Le 26/11/2006, à 08:43

Louis XVI with a gun

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

gilir a écrit :
naholyr a écrit :

C'est dingue d'être aussi négatif les gars...

http://forum.ubuntu-fr.org/viewtopic.php?id=36588

je pensais à la même chose hier en voyant ce sujet.

@ pabix ce serait approprié de mettre un message de mise en garde contre le fait d' aspirer le site ubuntu-fr dans ton premier message je crois

Hors ligne

#20 Le 28/11/2006, à 11:58

pabix

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Louis XVI with a gun a écrit :

@ pabix ce serait approprié de mettre un message de mise en garde contre le fait d' aspirer le site ubuntu-fr dans ton premier message je crois

Fait smile

Benoit


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#21 Le 28/11/2006, à 23:41

thx_84

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

et il y aurait moyen d'en faire un script indépendant, où il faudrait juste entrer l'adresse comme argument sans le charabia indigeste?

big_smile


ben, comme on fait pour signer sur l'ordi??? mince, je viens de ficher en l'air l'écran avec mon stylo...

Hors ligne

#22 Le 28/11/2006, à 23:49

Mathieu11

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Je suis entrain d'en faire un thx 84 si ca t'interesse. Ici


Vostro 1400

Hors ligne

#23 Le 29/11/2006, à 01:09

DecIRC

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Et si on aspirait Google ?

http://www.google.com/search?hl=en&lr=&q=www n'a jamais que 8.710.000.000 de réponses (à peu près hein)

Hors ligne

#24 Le 29/11/2006, à 16:07

pabix

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

DecIRC : ma commande ne remplit pas les formulaires avec des expressions au hasard : tu vas avoir les pages meta de Google, je pense.

Benoit


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#25 Le 03/12/2006, à 19:54

Maxouille

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

peut-on avoir seulement une partie d'un site ??
Comme un tuto ect.?
et
Les jeux en ligne je peux oublier ? lol


edit: sa peut servir http://www.infoprat.net/astuces/internet/astuces/internet_067.php

Dernière modification par Maxouille (Le 03/12/2006, à 20:16)

Hors ligne