#1 Le 29/12/2015, à 13:15
- NY152
[Résolu] Récupérer les lien d'une page
Bonjour,
J'utilise un petit serveur web perso en intranet et sur ce dernier j'ai pas mal de lien (cliquables ou non)
J'aurais aimé savoir si l'on pouvais récupérer une liste de ces lien par un script bash ?
D'avance, merci ^^
Dernière modification par NY152 (Le 05/01/2016, à 15:25)
.:NY152:.
Ma config de foufou ^^
Hors ligne
#2 Le 29/12/2015, à 20:47
- Hizoka
Re : [Résolu] Récupérer les lien d'une page
oui, mais il faudrait voir à uoi ressemble le fichier pour t'aider à recuperer les bonnes infos.
KDE Neon 64bits
Tous mes softs (MKVExtractorQt, HizoSelect, HizoProgress, Qtesseract, Keneric, Services menus...) sont sur github
Hors ligne
#3 Le 04/01/2016, à 18:18
- NY152
Re : [Résolu] Récupérer les lien d'une page
En fait, c'est ça le soucis, je ne peux pas trop le savoir à l'avance puisque la personne peut mettre juste un texte avec une succession de lien ou un truc plus élaboré avec liens "cliquable". La seule chose qu est certaine c'est que la page PHP génère du html tout à fait classique.
je pensais passer par wget puis par sed mais je n'ai jamais été bon avec sed (oui en faite je pige rien à la construction d'expression régulière avec lol)
Si on ajoute à ça que tout le monde ne mets pas le http:// en début d'url et on a un beau sac de nœuds ^^
Dernière modification par NY152 (Le 04/01/2016, à 19:43)
.:NY152:.
Ma config de foufou ^^
Hors ligne
#4 Le 04/01/2016, à 20:55
- pingouinux
Re : [Résolu] Récupérer les lien d'une page
Bonsoir,
C'est sans doute possible avec sed, mais comme Hizoka, je pense qu'il faudrait quelques exemples.
Hors ligne
#5 Le 04/01/2016, à 23:55
- NY152
Re : [Résolu] Récupérer les lien d'une page
Des exemples avec sed, je n'en ai pas. On m'avais filer ça par contre :
wget "http://www.site.com/workurls.php" --quiet -O - | grep -e '(((http|https|ftp|gopher|mailto)[.:][^ >"\t]*|www\.[-a-z0-9.]+)[^ .,;\t>">\):]'
Mais rien ne ressort avec ça ...
.:NY152:.
Ma config de foufou ^^
Hors ligne
#6 Le 05/01/2016, à 07:21
- pingouinux
Re : [Résolu] Récupérer les lien d'une page
Je n'ai pas épluché le grep en détail, mais remplace le déjà par celui-ci :
...| grep -Po '((http|https|ftp|gopher|mailto)[.:][^ >"\t]*|www\.[-a-z0-9.]+)[^ .,;\t>">\):]'
Édité :
Pour récupérer tout ce qui est précédé de href=" :
...| grep -Po '(?<=href=")[^/][^"]+'
Dernière modification par pingouinux (Le 05/01/2016, à 08:50)
Hors ligne
#7 Le 05/01/2016, à 11:51
- NY152
Hors ligne