#1 Le 10/06/2010, à 17:42
- Neldar
Comment aspirer un site en selectionnant ce que l'on veux?
Bonjour,
Voila, j'aimerais savoir comment aspirer un site sans prendre les forums.
J'ai voulu au début l'aspirer a la barbare (après avoir demandé la permission au propriétaire du site qui m'as dit que je pouvais essayer si je voulais... ) mais vu que wget a passé trois jours a pomper les forums, ben j'ai coupé et je me suis dit qu'il fallait que je prenne le site dans les forums. Donc, je m'en remets a vos dires J'ai cherché comment faire mais je n'ai trouvé nulle part.
Merci
Hors ligne
#2 Le 10/06/2010, à 18:17
- Sorkin
Re : Comment aspirer un site en selectionnant ce que l'on veux?
Je pense qu'avec http://doc.ubuntu-fr.org/httrack en bidouillant les options tu devrais pouvoir sans trop de problèmes.
Hors ligne
#3 Le 10/06/2010, à 18:20
- Neldar
Re : Comment aspirer un site en selectionnant ce que l'on veux?
Oui, j'ai essayé, j'ai bidoullé pendant longtemps, mais rien n'y fait Je ne dois pas être doué
Hors ligne
#4 Le 11/06/2010, à 19:13
- ElricX
Re : Comment aspirer un site en selectionnant ce que l'on veux?
Il y a moyen de télécharger un fichier spécifique qui change de nom? par exemple un nouveau fichier mis en ligne à chaque semaine pat exemple dont le nom varie que très peux? ex: podcast.
Hors ligne
#5 Le 11/06/2010, à 22:15
- alex2423
Re : Comment aspirer un site en selectionnant ce que l'on veux?
bien sur, il te suffit de recupérer la page qui contient le lien. La page html ne bouge pas. Tu l'aspire à coup de wget et après tu récupére en parsant à coup de grep ou sinon, tu fais du parsing en php
Hors ligne
#6 Le 11/06/2010, à 23:14
- josepe36
Re : Comment aspirer un site en selectionnant ce que l'on veux?
bonsoir
hum wget etc c est bien de dire ça mais ça reste de la théorie, ce que tu dis pas c'est quel type de site?, faut-il s'identifier avec mot de passe ?
dis en un peu plus s 'il te plait, il y a un an je m'etais amuser a faire un truc du style mais surtout pas de wget.
Il me fallait surveiller une page web regulierement, donc m y connecter regulierement, entrer mon pseudo et mon mdp, enregistrer la page, la parser et enfin executer les actions necessaires.
Un vraix BOT, la solution que j ai trouver c'est d'etudier un minimum PYTHON qui fait ça trés bien
#7 Le 11/06/2010, à 23:35
- alex2423
Re : Comment aspirer un site en selectionnant ce que l'on veux?
Bonsoir josepe,
J'avais la meme problématique que toi. Je récupérer de manière régulière le programme TV d'europort mais il fallait que je m'authentifie avec mon compte avant.
Wget accepte des options en rapport avec les cookies :
--load-cookies file => permet de charger un cookies au format texte.
J'avais essayé de me faire :
1/ me connecter au site d'Eurosport avec Firefox
2/les cookies étant généré en sqlite par Firefox, je les ai convertis au format texte à l'aide d'un addon Firefox
3/et enfin j'ai essayé de charger le fichier avec l'option --load-cookies
Malheureusement, cela n'a pas fonctionné pour moi. J'ai donc laché l'affaire parce que je ne trouvé plus de piste.
Sinon il est toujours possible d'envoyer le cookies de cette manière :
wget --no-cookies --header "Cookie: <name>=<value>"
A ma grande surprise le man de mon wget est en anglais mais les mots sont très simple, très facile à comprendre :
--load-cookies file
Load cookies from file before the first HTTP retrieval. file is a
textual file in the format originally used by Netscape's
cookies.txt file.You will typically use this option when mirroring sites that
require that you be logged in to access some or all of their
content. The login process typically works by the web server
issuing an HTTP cookie upon receiving and verifying your
credentials. The cookie is then resent by the browser when
accessing that part of the site, and so proves your identity.Mirroring such a site requires Wget to send the same cookies your
browser sends when communicating with the site. This is achieved
by --load-cookies---simply point Wget to the location of the
cookies.txt file, and it will send the same cookies your browser
would send in the same situation. Different browsers keep textual
cookie files in different locations:@asis<Netscape 4.x.>
The cookies are in ~/.netscape/cookies.txt.@asis<Mozilla and Netscape 6.x.>
Mozilla's cookie file is also named cookies.txt, located
somewhere under ~/.mozilla, in the directory of your profile.
The full path usually ends up looking somewhat like
~/.mozilla/default/some-weird-string/cookies.txt.@asis<Internet Explorer.>
You can produce a cookie file Wget can use by using the File
menu, Import and Export, Export Cookies. This has been tested
with Internet Explorer 5; it is not guaranteed to work with
earlier versions.@asis<Other browsers.>
If you are using a different browser to create your cookies,
--load-cookies will only work if you can locate or produce a
cookie file in the Netscape format that Wget expects.If you cannot use --load-cookies, there might still be an
alternative. If your browser supports a "cookie manager", you can
use it to view the cookies used when accessing the site you're
mirroring. Write down the name and value of the cookie, and
manually instruct Wget to send those cookies, bypassing the
"official" cookie support:wget --no-cookies --header "Cookie: <name>=<value>"
Hors ligne
#8 Le 12/06/2010, à 13:12
- josepe36
Re : Comment aspirer un site en selectionnant ce que l'on veux?
bonjour alex 2423
en fait y a plusieurs façon de faire, cela fait longtemp que j ai arreté de jouer avec ça
si ça t'interesse je peux te filer le code que j avais devellopper si cela peut t inspirerer
#9 Le 14/06/2010, à 02:36
- ElricX
Re : Comment aspirer un site en selectionnant ce que l'on veux?
Salut, il y a un flux rss sur le site sa peut aider? Pas besoin d'authentification non plus sur le site.
je peux donner l'url par MP également si c'est pour aider..
Donc si je pourrais "surveiller" le flux rss pour qu'il capture un nouvel éléments je serais comblé. Cependant je ne veux pas qu'il "attrape tout" car chaque semaine le même épisode est rendu disponible en version haute qualité et basse qualité. Dans le flux rss l'élément de haute qualité à le mot clé FQ dans le nom et l'autre à BQ pour la basse qualité par exemple.
Amicalement,
Hors ligne