#1 Le 31/08/2015, à 10:03
- master971
extrait lien selon expression regulière
Bonjour à tous,
Voila je cherche à faire un script me permettant de récupérer tous les liens contenu dans un page html selon une expression régulière et qui seront écrit après dans un fichier texte.
Le type de lien à récupérer:
http://www.multiup.org/fr/download/2899f1d761698e52ee95b312279ac5f9/_wakaRIP_Space_Dandy_01FR_720f.mp4
mon expression régulière:
http://(www\\.)?multiup\\.org/fr/download/[a-z0-9]/[a-zA-Z0-9-_.]
Mon script
#!/bin/bash
# Auteur donpadre
# Site http://www.donpadre.fr
#
# Type de lien à extraire dans la page html:
# http://www.multiup.org/fr/download/2899f1d761698e52ee95b312279ac5f9/_wakaRIP_Space_Dandy_01FR_720f.mp4
# Efface et recrée le fichier à chaque exécution du script.
rm url.html && touch url.html
# Télécharge la page dans le ficher url.html
curl http://www.planet-series.tv/space-dandy/ > url.html
# Lit le fichier url.html, extrait et liste les liens selon l'expression régulière dans le fichier parse.txt
cat url.html | grep 'http://(www\\.)?multiup\\.org/fr/download/[a-z0-9]/[a-zA-Z0-9-_.]' &> parse.txt
cat parse.txt
La page est bien téléchargé dans le fichier url.html, mais la recherche selon l'expression régulière ne se fait pas.
j'aimerais votre aide car je butte complètement.
merci d'avance de votre aide.
Hors ligne
#2 Le 31/08/2015, à 10:28
- pingouinux
Re : extrait lien selon expression regulière
Bonjour,
Essaye ceci
grep -E 'http://(www\.)?multiup\.org/fr/download/[a-z0-9]+/[a-zA-Z0-9_.-]'
Édité : Ce que j'ai modifié dans ta commande
grep 'http://(www\\.)?multiup\\.org/fr/download/[a-z0-9]/[a-zA-Z0-9-_.]'
grep -E 'http://(www\.)?multiup\.org/fr/download/[a-z0-9]+/[a-zA-Z0-9_.-]'
Dernière modification par pingouinux (Le 31/08/2015, à 10:36)
Hors ligne
#3 Le 31/08/2015, à 11:43
- master971
Re : extrait lien selon expression regulière
merci pour ton aide pingouinux
Bonjour,
Essaye cecigrep -E 'http://(www\.)?multiup\.org/fr/download/[a-z0-9]+/[a-zA-Z0-9_.-]'
Édité : Ce que j'ai modifié dans ta commande
grep 'http://(www\\.)?multiup\\.org/fr/download/[a-z0-9]/[a-zA-Z0-9-_.]'
grep -E 'http://(www\.)?multiup\.org/fr/download/[a-z0-9]+/[a-zA-Z0-9_.-]'
J'ai tester ta solution mais elle me donne rien dans le fichier de sorti
Hors ligne
#4 Le 31/08/2015, à 12:04
- pingouinux
Re : extrait lien selon expression regulière
J'ai tester ta solution mais elle me donne rien dans le fichier de sorti
Dans ce cas, peux-tu montrer quelques lignes significatives du fichier en question ?
Hors ligne
#5 Le 31/08/2015, à 12:20
- master971
Re : extrait lien selon expression regulière
Le fichier de sorti parse.txt doit normalement retourné que le liens les un après l'autre récupérer dans url.html.
http://www.multiup.org/fr/download/2899f1d761698e52ee95b312279ac5f9/_wakaRIP_Space_Dandy_01FR_720f.mp4
http://www.multiup.org/fr/download/281698e595b3122792e99f1d76ea1d47/_wakaRIP_Space_Dandy_02R_720f.mp4
http://www.multiup.org/fr/download/2899f1d76f1d76169882279acd76ef5f/_wakaRIP_Space_Dandy_03FR_720f.mp4
Pour l'instant l’exécution ne donne rien donc le fichier est vide. Je vois vraiment pas la ou est le problème, en script bash je suis un pur noob.
Hors ligne
#6 Le 31/08/2015, à 12:26
- nany
Re : extrait lien selon expression regulière
Bonjour,
curl http://www.planet-series.tv/space-dandy/ > url.html
Es-tu vraiment certain que la page http://www.planet-series.tv/space-dandy/ contient les url que tu recherches ?
Moi je n’en vois pas.
EDIT : a priori il faut être inscrit et connecté → http://stackoverflow.com/questions/12399087/curl-to-access-a-page-that-requires-a-login-from-a-different-page.
Dernière modification par nany (Le 31/08/2015, à 12:36)
Hors ligne
#7 Le 31/08/2015, à 12:37
- master971
Re : extrait lien selon expression regulière
Mince les liens que je recherche on changer .
Bonjour,
master971 a écrit :curl http://www.planet-series.tv/space-dandy/ > url.html
Es-tu vraiment certain que la page http://www.planet-series.tv/space-dandy/ contient les url que tu recherches ?
Moi je n’en vois pas.EDIT : a priori il faut être inscrit et connecté.
merci @nany de me l'avoir faire remarque, ce matin encore la page affichait les liens que je recherchais, flute
Hors ligne