#1 Le 14/03/2019, à 17:13
- gatzy
[Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Bonjour
Dans un gros pdf, je souhaiterais pouvoir compter rapidement le nombre d’occurrence d’un mot ou d’une chaîne de caractères.
J’avais pensé à un grep renvoyé sur un fichier mais le grep ne semble pas fonctionner sur un pdf…
J’ai lu que pdfgrep pouvait répondre au besoin, j'ai essayé de l'installer mais j'ai des messages d'erreurs
hintzy@hintzy-System-Product-Name:~/Bureau$ sudo apt install pdfgrep
[sudo] Mot de passe de hintzy :
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances
Lecture des informations d'état... Fait
Les paquets suivants ont été installés automatiquement et ne sont plus nécessaires :
libactivation-java libapache-pom-java libatinject-jsr330-api-java
libbcmail-java libbcpkix-java libbcprov-java libcommons-io-java
libcommons-lang3-java libcommons-parent-java libfontawesomefx-java
libfontbox2-java libgeronimo-validation-1.0-spec-java
libgettext-commons-java libhibernate-validator-java libimgscalr-java
libjackson2-core-java libjackson2-jr-java libjboss-logging-java
liblogback-java libmail-java libmetadata-extractor-java libopenjfx-java
libopenjfx-jni libsambox-java libsejda-eventstudio-java
libsejda-injector-java libsejda-io-java libsejda-java libslf4j-java
libtwelvemonkeys-java libxmpcore-java openjfx
Veuillez utiliser « sudo apt autoremove » pour les supprimer.
Les paquets supplémentaires suivants seront installés :
libpoppler-cpp0v5 libpoppler-glib8 libpoppler-qt5-1 libpoppler73
poppler-utils
Les NOUVEAUX paquets suivants seront installés :
libpoppler-cpp0v5 pdfgrep
Les paquets suivants seront mis à jour :
libpoppler-glib8 libpoppler-qt5-1 libpoppler73 poppler-utils
4 mis à jour, 2 nouvellement installés, 0 à enlever et 248 non mis à jour.
Il est nécessaire de prendre 1261 ko dans les archives.
Après cette opération, 212 ko d'espace disque supplémentaires seront utilisés.
Souhaitez-vous continuer ? [O/n] o
Err:1 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpoppler-glib8 amd64 0.62.0-2ubuntu2.7
404 Not Found [IP : 194.158.119.186 80]
Err:2 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe amd64 libpoppler-qt5-1 amd64 0.62.0-2ubuntu2.7
404 Not Found [IP : 194.158.119.186 80]
Err:3 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 poppler-utils amd64 0.62.0-2ubuntu2.7
404 Not Found [IP : 194.158.119.186 80]
Err:4 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpoppler73 amd64 0.62.0-2ubuntu2.7
404 Not Found [IP : 194.158.119.186 80]
Err:5 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpoppler-cpp0v5 amd64 0.62.0-2ubuntu2.7
404 Not Found [IP : 194.158.119.186 80]
Réception de:6 http://fr.archive.ubuntu.com/ubuntu bionic/universe amd64 pdfgrep amd64 2.0.1-1 [32,4 kB]
32,4 ko réceptionnés en 0s (121 ko/s)
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-glib8_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/universe/p/poppler/libpoppler-qt5-1_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/poppler-utils_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler73_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-cpp0v5_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer certaines archives, peut-être devrez-vous lancer apt-get update ou essayer avec --fix-missing ?
hintzy@hintzy-System-Product-Name:~/Bureau$ ls
J'ai lancé apt-get update comme suggéré
hintzy@hintzy-System-Product-Name:~/Bureau$ apt-get update
Lecture des listes de paquets... Fait
E: Impossible d'ouvrir le fichier verrou /var/lib/apt/lists/lock - open (13: Permission non accordée)
E: Impossible de verrouiller le répertoire /var/lib/apt/lists/
W: Problème de suppression du lien /var/cache/apt/pkgcache.bin - RemoveCaches (13: Permission non accordée)
W: Problème de suppression du lien /var/cache/apt/srcpkgcache.bin - RemoveCaches (13: Permission non accordée)
hintzy@hintzy-System-Product-Name:~/Bureau$
Vous avez des suggestions pour résoudre ces erreurs ou d'autres propositions ?
Je suis sous Xubuntu 18.04 LTS
D’avance merci
Dernière modification par gatzy (Le 15/03/2019, à 12:53)
Hors ligne
#2 Le 14/03/2019, à 17:20
- melixgaro
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Salut,
Redonne stp
sudo apt update
Linux depuis ~2007. Xubuntu seulement.
Hors ligne
#3 Le 14/03/2019, à 17:26
- Watael
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
donc, ta question porte sur ta difficulté à installer un logiciel, et pas "compter..."
tu veux bien modifier ton sujet, stp.
Connected \o/
Welcome to sHell. · eval is evil.
En ligne
#4 Le 14/03/2019, à 17:46
- gatzy
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Merci pour vos réponses
@ Watael : mon "besoin" est bien de compter le nombre d’occurrences d'un mot dans un pdf.
J'ai, cependant, essayé de trouver une solution par moi même et j'explique que je n'ai pas réussi à installer pdfgrep qui pourrait, peut être, être une solution, ceci histoire de faire gagner quelques échanges au cas où cela vous semble une piste à explorer... mais je ne cherche pas, à tout prix, à installer pdfgrep... d'ailleurs est-ce qu'il fonctionne sur ma distribution ????
@melixgaro : le résultat de la commande
hintzy@hintzy-System-Product-Name:~/Bureau$ sudo apt update
[sudo] Mot de passe de hintzy :
Atteint:1 http://fr.archive.ubuntu.com/ubuntu bionic InRelease
Réception de:2 http://fr.archive.ubuntu.com/ubuntu bionic-updates InRelease [88,7 kB]
Atteint:3 http://archive.canonical.com/ubuntu bionic InRelease
Réception de:4 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 Packages [552 kB]
Réception de:5 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main i386 Packages [472 kB]
Réception de:6 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main Translation-en [205 kB]
Réception de:7 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 DEP-11 Metadata [278 kB]
Réception de:8 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main DEP-11 48x48 Icons [66,7 kB]
Réception de:9 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main DEP-11 64x64 Icons [123 kB]
Réception de:10 http://fr.archive.ubuntu.com/ubuntu bionic-updates/multiverse amd64 Packages [6384 B]
Réception de:11 http://fr.archive.ubuntu.com/ubuntu bionic-updates/multiverse i386 Packages [6540 B]
Réception de:12 http://fr.archive.ubuntu.com/ubuntu bionic-updates/multiverse amd64 DEP-11 Metadata [2468 B]
Réception de:13 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe amd64 Packages [742 kB]
Réception de:14 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe i386 Packages [732 kB]
Réception de:15 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe Translation-en [193 kB]
Réception de:16 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe amd64 DEP-11 Metadata [203 kB]
Réception de:17 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe DEP-11 48x48 Icons [191 kB]
Réception de:18 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe DEP-11 64x64 Icons [361 kB]
Réception de:19 http://fr.archive.ubuntu.com/ubuntu bionic-updates/restricted amd64 Packages [6996 B]
Réception de:20 http://fr.archive.ubuntu.com/ubuntu bionic-updates/restricted i386 Packages [6960 B]
4237 ko réceptionnés en 12s (345 ko/s)
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances
Lecture des informations d'état... Fait
288 paquets peuvent être mis à jour. Exécutez « apt list --upgradable » pour les voir.
Hors ligne
#5 Le 14/03/2019, à 18:03
- melixgaro
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Tu peux relancer ça
sudo apt install pdfgrep
puis il faudra faire une grosse màj (288 paquets !!)
sudo apt upgrade
puis
sudo apt full-upgrade
PS : Watael a un peu raison sur le fait que le titre du sujet et le sujet ne vont pas bien ensemble mais passons…
Linux depuis ~2007. Xubuntu seulement.
Hors ligne
#6 Le 14/03/2019, à 19:09
- Watael
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
donc, là, on doit traiter deux problèmes :
que tu ne puisses pas installer un logiciel
ET
que tu veuilles compter les occurrences d'un motif dans un pdf.
tu aurais dû ouvrir deux sujets en y mettant un lien vers l'autre discussion; cela aurait été plus clair.
est-ce que pdftotext est disponible sur ton système ?
which pdftotext && pdftotext tonFichier.pdf - | grep 'tonpattern'
Connected \o/
Welcome to sHell. · eval is evil.
En ligne
#7 Le 14/03/2019, à 19:46
- Lo_pescofi
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Si ça peut t'aider j'ai un petit script qui me renvoie le nom du ou des fichier(s) pdf qui est contiennent une expression entrée en argument.
Si tu le modifies un poil tu dois pouvoir trouver ton bonheur.
#!/bin/sh
if [ -z "$1" ]; then
echo "Usage: $0 regexp" >> /dev/stderr
exit 1
fi
REGEXP=$1
PDFS=$(find . -name '*.pdf')
for pdf in $PDFS; do
result=$(pdftotext $pdf - | grep $REGEXP)
if [ ! -z "$result" ]; then
echo "$pdf: $result"
fi
done
i
Hors ligne
#8 Le 14/03/2019, à 20:50
- gigiair
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
avec pdftotext (qui vient avec poppler-utils) la commande
pdftotext mon_beau-fichier.pdf - | egrep -o \<mon_beau_mot_recherché\> | wc -l
doit afficher le nombre de mon_beau_mot_recherché dans mon_beau_fichier.pdf
Il ne faut pas oublier le tiret après le nom du fichier, pour que le texte soit envoyé dans la sortie standard et récupéré par le pipe.
Les symboles \< et \> sont là pour éviter que le mot recherché ne soit une partie d'un autre mot.
Il faut quand même regarder de près le fichier pdf, car si une partie du texte est incluse sous forme d'image, il faudra un OCR pour les convertir en texte...
La commande
pdfimages mon_beau-fichier.pdf image-de-mon-beau-fichier
va extraire les images de mon_beau-fichier en les numérotant au format ppm (autres formats possibles avec option appropriée)
pdfinfo mon_beau_fichier.pdf
fournit les renseignements sur la façon dont le pdf a été créé, ce qui peut avoir un certain intérêt.
pdfinfo et pdfimages sont également des utilitaires qui viennent avec popler-utils
Dernière modification par gigiair (Le 14/03/2019, à 20:55)
--
JJR.
Hors ligne
#9 Le 15/03/2019, à 01:34
- Coeur Noir
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Même si ton souci premier est de compter les occurrences d'une expression dans un fichier pdf, on voit avec le retour d'apt update que ton système n'est pas à jour :
288 paquets peuvent être mis à jour. Exécutez « apt list --upgradable » pour les voir.
…ce qui n'est pas prudent.
Pour les erreurs du type :
E: Impossible d'ouvrir le fichier verrou /var/lib/apt/lists/lock - open (13: Permission non accordée)
E: Impossible de verrouiller le répertoire /var/lib/apt/lists/
W: Problème de suppression du lien /var/cache/apt/pkgcache.bin - RemoveCaches (13: Permission non accordée)
W: Problème de suppression du lien /var/cache/apt/srcpkgcache.bin - RemoveCaches (13: Permission non accordée)
c'était simplement parce que tu avais lancé :
hintzy@hintzy-System-Product-Name:~/Bureau$ apt-get update
alors qu'il fallait un
sudo apt-get update
voire même plus court :
sudo apt update
Tu ne t'étais pas donné les super-pouvoirs pour « administrer » ton système.
Bref tu n'es peut-être pas à l'aise avec ces commandes de mises à jour système ou la maintenance « basique » de ton Ubuntu ( et c'est pas grave hein, il faut bien se jeter à l'eau un moment ou l'autre… )
alors songe à t'intéresser à la question : https://doc.ubuntu-fr.org/gestionnaire_de_mises_a_jour ou https://doc.ubuntu-fr.org/apt-cli voire https://doc.ubuntu-fr.org/sudo
pdfgrep existe bien sous Ubuntu 18.04 et là encore les divers retours suggèrent un problème sans rapport avec pdfgrep lui-même :
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-glib8_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/universe/p/poppler/libpoppler-qt5-1_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/poppler-utils_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler73_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-cpp0v5_0.62.0-2ubuntu2.7_amd64.deb 404 Not Found [IP : 194.158.119.186 80]
…des « sources » de logiciels mal configurées ?
Voilà pourquoi ton message cache en fait 2 sujets distincts qui mériterait chacun leur fil de discussion, ici pour le pdfgrep et un autre si tu ne parviens pas à mettre à jour correctement ton système.
Dernière modification par Coeur Noir (Le 15/03/2019, à 01:35)
Débuter ⋅ Doc ⋅ Bien rédiger ⋅ Retour commande ⋅ Insérer image | illustrations & captures d'écran < ⋅ >
En ligne
#10 Le 15/03/2019, à 01:42
- melixgaro
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
On attend toujours les retours demandés dans le message 5.
Coeur Noir, il est vraisemblable que les lignes « Impossible machintruc » sont dûes à une tentative d'installation sans un 'apt update' préalable qui aurait mis à jour les listes des paquets. Par conséquent, 'apt install' travaillait avec de vieilles définitions et voulait accéder à des paquets qui ont quitté les dépôts.
Linux depuis ~2007. Xubuntu seulement.
Hors ligne
#11 Le 15/03/2019, à 09:47
- diesel
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
J'aurais bien une méthode alternative qui fait un peu bricolage mais qui fonctionne.
- ouvrir gedit,
- ouvrir le fichier dans Evince (le visionneur de documents),
- sélectionner tout le texte (ctrl A),
- le copier dans gedit,
- enregistrer le texte avec gedit (toto.txt par exemple),
- puis dans un terminal
grep -w -c "le mot recherché" toto.txt
C'est pas plus simple ?
Amicalement.
Jean-Marie
Dernière modification par diesel (Le 15/03/2019, à 10:15)
Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.
Hors ligne
#12 Le 15/03/2019, à 09:55
- diesel
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
avec pdftotext (qui vient avec poppler-utils) la commande
pdftotext mon_beau-fichier.pdf - | egrep -o \<mon_beau_mot_recherché\> | wc -l
doit afficher le nombre de mon_beau_mot_recherché dans mon_beau_fichier.pdf
Il ne faut pas oublier le tiret après le nom du fichier, pour que le texte soit envoyé dans la sortie standard et récupéré par le pipe.
Les symboles \< et \> sont là pour éviter que le mot recherché ne soit une partie d'un autre mot.Il faut quand même regarder de près le fichier pdf, car si une partie du texte est incluse sous forme d'image, il faudra un OCR pour les convertir en texte...
La commandepdfimages mon_beau-fichier.pdf image-de-mon-beau-fichier
va extraire les images de mon_beau-fichier en les numérotant au format ppm (autres formats possibles avec option appropriée)
pdfinfo mon_beau_fichier.pdf
fournit les renseignements sur la façon dont le pdf a été créé, ce qui peut avoir un certain intérêt.
pdfinfo et pdfimages sont également des utilitaires qui viennent avec popler-utils
Bonjour Gigair,
Je vais jouer mon Watael.
egrep -o \<mon_beau_mot_recherché\> | wc -l
s'écrit beaucoup mieux en
grep -E -c \<mon_beau_mot_recherché\>
Et chez moi, la syntaxe \<texte recherché\> ne fonctionne pas (pas envie de chercher l'erreur).
Bon finalement, ça m'a turlupiné et j'ai recherché. La bonne syntaxe est tout simplement
grep -w -c "mon_beau_mot_recherché"
Amicalement.
Jean-Marie
Dernière modification par diesel (Le 15/03/2019, à 10:12)
Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.
Hors ligne
#13 Le 15/03/2019, à 09:59
- rogn...
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
J'aurais bien une méthode alternative qui fait un peu bricolage mais qui fonctionne.
- ouvrir gedit,
- ouvrir le fichier dans Evince (le visionneur de documents),
- sélectionner tout le texte (ctrl A),
- le copier dans gedit,
- enregistrer le texte avec gedit (toto.txt par exemple),
- puis dans un terminalgrep -c "le mot recherché" toto.txt
C'est pas plus simple ?
Amicalement.
Jean-Marie
Ce ne serait pas plus simple de faire un
cp fichier.pdf fichier_pdf.txt
puis de
grep -E -c \<mon_beau_mot_recherché\> fichier_pdf.txt
?
#14 Le 15/03/2019, à 10:15
- diesel
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Ce ne serait pas plus simple de faire un
cp fichier.pdf fichier_pdf.txt
puis de
grep -E -c \<mon_beau_mot_recherché\> fichier_pdf.txt
?
Surtout pas !
Par ce que dans le code d'un fichier pdf, les mots ne sont pas assemblés et que ton grep ne te donnera rien.
Amicalement.
Jean-Marie
P.S. et si tu avais essayé avant, tu le saurais.
Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.
Hors ligne
#15 Le 15/03/2019, à 11:43
- Watael
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Je vais jouer mon Watael.
et c'est bien fait, tu as raison.
Connected \o/
Welcome to sHell. · eval is evil.
En ligne
#16 Le 15/03/2019, à 12:52
- gatzy
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Bonjour
Je viens de prendre le temps de me pencher sur les solutions proposées : pdftotext étant disponible (sans avoir à faire d’installation... ), j’ai testé la commande :
hintzy@hintzy-System-Product-Name:~/Bureau$ pdftotext Sorties_ListesPlantes_2007-2018.pdf - | grep -w -c "Viola alba"
32
hintzy@hintzy-System-Product-Name:~/Bureau$
et c’est parfait !!, c’est ce que je recherchais
Un grand merci à vous pour votre aide.
Pour les pb soulevés suite à la tentative d’installation de pdfgrep : oui, mon système n’est pas à jour… je sais, ce n’est pas bien , je m’en occupe rapidement et je le ferai plus… enfin, j’essaierai
Je passe le sujet en résolu.
Bonne fin de journée.
Hors ligne
#17 Le 15/03/2019, à 13:14
- diesel
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
diesel83140 a écrit :Je vais jouer mon Watael.
et c'est bien fait, tu as raison.
T'as vu, à ton contact, j'apprends?
Amicalement.
Jean-Marie
Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.
Hors ligne
#18 Le 15/03/2019, à 14:53
- gigiair
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Bonjour
Je viens de prendre le temps de me pencher sur les solutions proposées : pdftotext étant disponible (sans avoir à faire d’installation... ), j’ai testé la commande :hintzy@hintzy-System-Product-Name:~/Bureau$ pdftotext Sorties_ListesPlantes_2007-2018.pdf - | grep -w -c "Viola alba" 32 hintzy@hintzy-System-Product-Name:~/Bureau$
et c’est parfait !!, c’est ce que je recherchais
Un grand merci à vous pour votre aide.Pour les pb soulevés suite à la tentative d’installation de pdfgrep : oui, mon système n’est pas à jour… je sais, ce n’est pas bien , je m’en occupe rapidement et je le ferai plus… enfin, j’essaierai
Je passe le sujet en résolu.
Bonne fin de journée.
La solution est juste un peu plus compliquée que ça.
Si tu envoie grep -w -c "viola alba" sur ce document test tu ne trouvera que deux occurrences alors qu'il y en a quatre.
Le motif de recherche doit être décrit par une expression rationnelle (regexp).
Dernière modification par gigiair (Le 15/03/2019, à 14:55)
--
JJR.
Hors ligne
#19 Le 15/03/2019, à 15:06
- Watael
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
j'étais tellement content de me débarrasser de wc.
grrr
OT: pourquoi un site externe pour 4 lignes de texte ?
Dernière modification par Watael (Le 15/03/2019, à 15:07)
Connected \o/
Welcome to sHell. · eval is evil.
En ligne
#20 Le 15/03/2019, à 15:16
- diesel
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
gatzy a écrit :Bonjour
Je viens de prendre le temps de me pencher sur les solutions proposées : pdftotext étant disponible (sans avoir à faire d’installation... ), j’ai testé la commande :hintzy@hintzy-System-Product-Name:~/Bureau$ pdftotext Sorties_ListesPlantes_2007-2018.pdf - | grep -w -c "Viola alba" 32 hintzy@hintzy-System-Product-Name:~/Bureau$
et c’est parfait !!, c’est ce que je recherchais
Un grand merci à vous pour votre aide.Pour les pb soulevés suite à la tentative d’installation de pdfgrep : oui, mon système n’est pas à jour… je sais, ce n’est pas bien , je m’en occupe rapidement et je le ferai plus… enfin, j’essaierai
Je passe le sujet en résolu.
Bonne fin de journée.La solution est juste un peu plus compliquée que ça.
Si tu envoie grep -w -c "viola alba" sur ce document test tu ne trouvera que deux occurrences alors qu'il y en a quatre.
Le motif de recherche doit être décrit par une expression rationnelle (regexp).
Certes...,
Cependant, je ferais quand-même un
grep -wo "viola alba" | wc -l
sans expression rationnelle (quoi que l'option -w en utilise implicitement), ce qui permettra d'éliminer les "viola albator" si d'aventure il y en avait.
Amicalement.
Jean-Marie
Dernière modification par diesel (Le 15/03/2019, à 15:16)
Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.
Hors ligne
#21 Le 15/03/2019, à 15:21
- melixgaro
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Je pense que gigiair voulait attirer (aussi) l'attention sur le cas où un saut de ligne se trouve entre les deux mots…
Linux depuis ~2007. Xubuntu seulement.
Hors ligne
#22 Le 15/03/2019, à 15:27
- gigiair
Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf
Il y a aussi le cas ou deux occurrences de "viola alba" se trouvent sur la même ligne. C'est improbable, j'en conviens mais ça tient à la rareté du motif de recherche. On ne peut pas en faire une méthode générale./
--
JJR.
Hors ligne