Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 14/03/2019, à 16:13

gatzy

[Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Bonjour
Dans un gros pdf, je souhaiterais pouvoir compter rapidement le nombre d’occurrence d’un mot ou d’une chaîne de caractères.
J’avais pensé à un grep renvoyé sur un fichier mais le grep ne semble pas fonctionner sur un pdf…
J’ai lu que pdfgrep pouvait répondre au besoin, j'ai essayé de l'installer mais j'ai des messages d'erreurs

hintzy@hintzy-System-Product-Name:~/Bureau$ sudo apt install pdfgrep
[sudo] Mot de passe de hintzy : 
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances       
Lecture des informations d'état... Fait
Les paquets suivants ont été installés automatiquement et ne sont plus nécessaires :
  libactivation-java libapache-pom-java libatinject-jsr330-api-java
  libbcmail-java libbcpkix-java libbcprov-java libcommons-io-java
  libcommons-lang3-java libcommons-parent-java libfontawesomefx-java
  libfontbox2-java libgeronimo-validation-1.0-spec-java
  libgettext-commons-java libhibernate-validator-java libimgscalr-java
  libjackson2-core-java libjackson2-jr-java libjboss-logging-java
  liblogback-java libmail-java libmetadata-extractor-java libopenjfx-java
  libopenjfx-jni libsambox-java libsejda-eventstudio-java
  libsejda-injector-java libsejda-io-java libsejda-java libslf4j-java
  libtwelvemonkeys-java libxmpcore-java openjfx
Veuillez utiliser « sudo apt autoremove » pour les supprimer.
Les paquets supplémentaires suivants seront installés : 
  libpoppler-cpp0v5 libpoppler-glib8 libpoppler-qt5-1 libpoppler73
  poppler-utils
Les NOUVEAUX paquets suivants seront installés :
  libpoppler-cpp0v5 pdfgrep
Les paquets suivants seront mis à jour :
  libpoppler-glib8 libpoppler-qt5-1 libpoppler73 poppler-utils
4 mis à jour, 2 nouvellement installés, 0 à enlever et 248 non mis à jour.
Il est nécessaire de prendre 1261 ko dans les archives.
Après cette opération, 212 ko d'espace disque supplémentaires seront utilisés.
Souhaitez-vous continuer ? [O/n] o
Err:1 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpoppler-glib8 amd64 0.62.0-2ubuntu2.7
  404  Not Found [IP : 194.158.119.186 80]
Err:2 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe amd64 libpoppler-qt5-1 amd64 0.62.0-2ubuntu2.7
  404  Not Found [IP : 194.158.119.186 80]
Err:3 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 poppler-utils amd64 0.62.0-2ubuntu2.7
  404  Not Found [IP : 194.158.119.186 80]
Err:4 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpoppler73 amd64 0.62.0-2ubuntu2.7
  404  Not Found [IP : 194.158.119.186 80]
Err:5 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 libpoppler-cpp0v5 amd64 0.62.0-2ubuntu2.7
  404  Not Found [IP : 194.158.119.186 80]
Réception de:6 http://fr.archive.ubuntu.com/ubuntu bionic/universe amd64 pdfgrep amd64 2.0.1-1 [32,4 kB]
32,4 ko réceptionnés en 0s (121 ko/s)
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-glib8_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/universe/p/poppler/libpoppler-qt5-1_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/poppler-utils_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler73_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-cpp0v5_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer certaines archives, peut-être devrez-vous lancer apt-get update ou essayer avec --fix-missing ?
hintzy@hintzy-System-Product-Name:~/Bureau$ ls

J'ai lancé apt-get update comme suggéré

hintzy@hintzy-System-Product-Name:~/Bureau$ apt-get update
Lecture des listes de paquets... Fait
E: Impossible d'ouvrir le fichier verrou /var/lib/apt/lists/lock - open (13: Permission non accordée)
E: Impossible de verrouiller le répertoire /var/lib/apt/lists/
W: Problème de suppression du lien /var/cache/apt/pkgcache.bin - RemoveCaches (13: Permission non accordée)
W: Problème de suppression du lien /var/cache/apt/srcpkgcache.bin - RemoveCaches (13: Permission non accordée)
hintzy@hintzy-System-Product-Name:~/Bureau$ 

Vous avez des suggestions pour résoudre ces erreurs ou d'autres propositions ?
Je suis sous Xubuntu 18.04 LTS
D’avance merci

Dernière modification par gatzy (Le 15/03/2019, à 11:53)

Hors ligne

#2 Le 14/03/2019, à 16:20

melixgaro

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Salut,

Redonne stp

sudo apt update

Linux depuis ~2007. Xubuntu seulement.

Hors ligne

#3 Le 14/03/2019, à 16:26

Watael

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

donc, ta question porte sur ta difficulté à installer un logiciel, et pas "compter..."

tu veux bien modifier ton sujet, stp.


Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne

#4 Le 14/03/2019, à 16:46

gatzy

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Merci pour vos réponses
@ Watael : mon "besoin" est bien de compter le nombre d’occurrences d'un mot dans un pdf.
J'ai, cependant, essayé de trouver une solution par moi même et j'explique que je n'ai pas réussi à installer pdfgrep qui pourrait, peut être, être une solution, ceci histoire de faire gagner quelques échanges au cas où cela vous semble une piste à explorer... mais je ne cherche pas, à tout prix, à installer pdfgrep... d'ailleurs est-ce qu'il fonctionne sur ma distribution ????

@melixgaro : le résultat de la commande

hintzy@hintzy-System-Product-Name:~/Bureau$ sudo apt update
[sudo] Mot de passe de hintzy : 
Atteint:1 http://fr.archive.ubuntu.com/ubuntu bionic InRelease
Réception de:2 http://fr.archive.ubuntu.com/ubuntu bionic-updates InRelease [88,7 kB]
Atteint:3 http://archive.canonical.com/ubuntu bionic InRelease
Réception de:4 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 Packages [552 kB]
Réception de:5 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main i386 Packages [472 kB]
Réception de:6 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main Translation-en [205 kB]
Réception de:7 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main amd64 DEP-11 Metadata [278 kB]
Réception de:8 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main DEP-11 48x48 Icons [66,7 kB]
Réception de:9 http://fr.archive.ubuntu.com/ubuntu bionic-updates/main DEP-11 64x64 Icons [123 kB]
Réception de:10 http://fr.archive.ubuntu.com/ubuntu bionic-updates/multiverse amd64 Packages [6384 B]
Réception de:11 http://fr.archive.ubuntu.com/ubuntu bionic-updates/multiverse i386 Packages [6540 B]                                                                                                             
Réception de:12 http://fr.archive.ubuntu.com/ubuntu bionic-updates/multiverse amd64 DEP-11 Metadata [2468 B]                                                                                                     
Réception de:13 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe amd64 Packages [742 kB]                                                                                                               
Réception de:14 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe i386 Packages [732 kB]                                                                                                                
Réception de:15 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe Translation-en [193 kB]                                                                                                               
Réception de:16 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe amd64 DEP-11 Metadata [203 kB]                                                                                                        
Réception de:17 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe DEP-11 48x48 Icons [191 kB]                                                                                                           
Réception de:18 http://fr.archive.ubuntu.com/ubuntu bionic-updates/universe DEP-11 64x64 Icons [361 kB]                                                                                                           
Réception de:19 http://fr.archive.ubuntu.com/ubuntu bionic-updates/restricted amd64 Packages [6996 B]                                                                                                            
Réception de:20 http://fr.archive.ubuntu.com/ubuntu bionic-updates/restricted i386 Packages [6960 B]                                                                                                             
4237 ko réceptionnés en 12s (345 ko/s)                                                                                                                                                                           
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances       
Lecture des informations d'état... Fait
288 paquets peuvent être mis à jour. Exécutez « apt list --upgradable » pour les voir.

Hors ligne

#5 Le 14/03/2019, à 17:03

melixgaro

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Tu peux relancer ça

sudo apt install pdfgrep

puis il faudra faire une grosse màj (288 paquets !!)

sudo apt upgrade

puis

sudo apt full-upgrade

PS : Watael a un peu raison sur le fait que le titre du sujet et le sujet ne vont pas bien ensemble mais passons…


Linux depuis ~2007. Xubuntu seulement.

Hors ligne

#6 Le 14/03/2019, à 18:09

Watael

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

donc, là, on doit traiter deux problèmes :
que tu ne puisses pas installer un logiciel
ET
que tu veuilles compter les occurrences d'un motif dans un pdf.
sad

tu aurais dû ouvrir deux sujets en y mettant un lien vers l'autre discussion; cela aurait été plus clair.

est-ce que pdftotext est disponible sur ton système ?

which pdftotext && pdftotext tonFichier.pdf - | grep 'tonpattern'

Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne

#7 Le 14/03/2019, à 18:46

Lo_pescofi

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Si ça peut t'aider j'ai un petit script qui me renvoie le nom du ou des fichier(s) pdf qui est contiennent une expression entrée en argument.
Si tu le modifies un poil tu dois pouvoir trouver ton bonheur.

#!/bin/sh

if [ -z "$1" ]; then
echo "Usage: $0 regexp" >> /dev/stderr
exit 1
fi
REGEXP=$1

PDFS=$(find . -name '*.pdf')

for pdf in $PDFS; do
result=$(pdftotext $pdf - | grep $REGEXP)
if [ ! -z "$result" ]; then
echo "$pdf: $result"
fi
done

i

Hors ligne

#8 Le 14/03/2019, à 19:50

gigiair

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

avec pdftotext (qui vient avec poppler-utils) la commande

pdftotext mon_beau-fichier.pdf - | egrep -o \<mon_beau_mot_recherché\> | wc -l 

doit afficher le nombre de mon_beau_mot_recherché dans mon_beau_fichier.pdf
Il ne faut pas oublier le tiret après le nom du fichier, pour que le texte soit envoyé dans la sortie standard et récupéré par le pipe.
Les symboles \< et \> sont là pour éviter que le mot recherché ne soit une partie d'un autre mot.

Il faut quand même regarder de près le fichier pdf, car si une partie du texte est incluse sous forme d'image, il faudra un OCR pour les convertir en texte...
La commande

pdfimages mon_beau-fichier.pdf image-de-mon-beau-fichier 

va extraire les images de mon_beau-fichier en les numérotant au format ppm (autres formats possibles avec option appropriée)

pdfinfo mon_beau_fichier.pdf

fournit les renseignements sur la façon dont le pdf a été créé, ce qui peut avoir un certain intérêt.

pdfinfo et pdfimages sont également des utilitaires qui viennent avec popler-utils

Dernière modification par gigiair (Le 14/03/2019, à 19:55)


--
JJR.

Hors ligne

#9 Le 15/03/2019, à 00:34

Coeur Noir

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Même si ton souci premier est de compter les occurrences d'une expression dans un fichier pdf, on voit avec le retour d'apt update que ton système n'est pas à jour :

288 paquets peuvent être mis à jour. Exécutez « apt list --upgradable » pour les voir.

ce qui n'est pas prudent.

Pour les erreurs du type :

E: Impossible d'ouvrir le fichier verrou /var/lib/apt/lists/lock - open (13: Permission non accordée)
E: Impossible de verrouiller le répertoire /var/lib/apt/lists/
W: Problème de suppression du lien /var/cache/apt/pkgcache.bin - RemoveCaches (13: Permission non accordée)
W: Problème de suppression du lien /var/cache/apt/srcpkgcache.bin - RemoveCaches (13: Permission non accordée)

c'était simplement parce que tu avais lancé :

hintzy@hintzy-System-Product-Name:~/Bureau$ apt-get update

alors qu'il fallait un

sudo apt-get update

voire même plus court :

sudo apt update

Tu ne t'étais pas donné les super-pouvoirs pour « administrer » ton système.

Bref tu n'es peut-être pas à l'aise avec ces commandes de mises à jour système ou la maintenance « basique » de ton Ubuntu ( et c'est pas grave hein, il faut bien se jeter à l'eau un moment ou l'autre… )
alors songe à t'intéresser à la question : https://doc.ubuntu-fr.org/gestionnaire_de_mises_a_jour ou https://doc.ubuntu-fr.org/apt-cli voire https://doc.ubuntu-fr.org/sudo

pdfgrep existe bien sous Ubuntu 18.04 et là encore les divers retours suggèrent un problème sans rapport avec pdfgrep lui-même :

E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-glib8_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/universe/p/poppler/libpoppler-qt5-1_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/poppler-utils_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler73_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]
E: Impossible de récupérer http://fr.archive.ubuntu.com/ubuntu/pool/main/p/poppler/libpoppler-cpp0v5_0.62.0-2ubuntu2.7_amd64.deb  404  Not Found [IP : 194.158.119.186 80]

…des « sources » de logiciels mal configurées ?

Voilà pourquoi ton message cache en fait 2 sujets distincts qui mériterait chacun leur fil de discussion, ici pour le pdfgrep et un autre si tu ne parviens pas à mettre à jour correctement ton système.

Dernière modification par Coeur Noir (Le 15/03/2019, à 00:35)


DébuterDocBien rédigerRetour commandeInsérer image | illustrations & captures d'écran <>

En ligne

#10 Le 15/03/2019, à 00:42

melixgaro

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

On attend toujours les retours demandés dans le message 5.

Coeur Noir, il est vraisemblable que les lignes « Impossible machintruc » sont dûes à une tentative d'installation sans un 'apt update' préalable qui aurait mis à jour les listes des paquets. Par conséquent, 'apt install' travaillait avec de vieilles définitions et voulait accéder à des paquets qui ont quitté les dépôts.


Linux depuis ~2007. Xubuntu seulement.

Hors ligne

#11 Le 15/03/2019, à 08:47

diesel

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

J'aurais bien une méthode alternative qui fait un peu bricolage mais qui fonctionne.

- ouvrir gedit,
- ouvrir le fichier dans Evince (le visionneur de documents),
- sélectionner tout le texte (ctrl A),
- le copier dans gedit,
- enregistrer le texte avec gedit (toto.txt par exemple),
- puis dans un terminal

grep -w -c "le mot recherché" toto.txt

C'est pas plus simple ?

Amicalement.

Jean-Marie

Dernière modification par diesel (Le 15/03/2019, à 09:15)


Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.

Hors ligne

#12 Le 15/03/2019, à 08:55

diesel

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

gigiair a écrit :

avec pdftotext (qui vient avec poppler-utils) la commande

pdftotext mon_beau-fichier.pdf - | egrep -o \<mon_beau_mot_recherché\> | wc -l

doit afficher le nombre de mon_beau_mot_recherché dans mon_beau_fichier.pdf
Il ne faut pas oublier le tiret après le nom du fichier, pour que le texte soit envoyé dans la sortie standard et récupéré par le pipe.
Les symboles \< et \> sont là pour éviter que le mot recherché ne soit une partie d'un autre mot.

Il faut quand même regarder de près le fichier pdf, car si une partie du texte est incluse sous forme d'image, il faudra un OCR pour les convertir en texte...
La commande

pdfimages mon_beau-fichier.pdf image-de-mon-beau-fichier 

va extraire les images de mon_beau-fichier en les numérotant au format ppm (autres formats possibles avec option appropriée)

pdfinfo mon_beau_fichier.pdf

fournit les renseignements sur la façon dont le pdf a été créé, ce qui peut avoir un certain intérêt.

pdfinfo et pdfimages sont également des utilitaires qui viennent avec popler-utils

Bonjour Gigair,

Je vais jouer mon Watael.

egrep -o \<mon_beau_mot_recherché\> | wc -l

s'écrit beaucoup mieux en

grep -E -c \<mon_beau_mot_recherché\>

Et chez moi, la syntaxe \<texte recherché\> ne fonctionne pas (pas envie de chercher l'erreur).

Bon finalement, ça m'a turlupiné et j'ai recherché. La bonne syntaxe est tout simplement

grep -w -c "mon_beau_mot_recherché"

Amicalement.

Jean-Marie

Dernière modification par diesel (Le 15/03/2019, à 09:12)


Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.

Hors ligne

#13 Le 15/03/2019, à 08:59

rogn...

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

diesel83140 a écrit :

J'aurais bien une méthode alternative qui fait un peu bricolage mais qui fonctionne.

- ouvrir gedit,
- ouvrir le fichier dans Evince (le visionneur de documents),
- sélectionner tout le texte (ctrl A),
- le copier dans gedit,
- enregistrer le texte avec gedit (toto.txt par exemple),
- puis dans un terminal

grep -c "le mot recherché" toto.txt

C'est pas plus simple ?

Amicalement.

Jean-Marie

Ce ne serait pas plus simple de faire un

cp fichier.pdf fichier_pdf.txt

puis de

grep -E -c \<mon_beau_mot_recherché\> fichier_pdf.txt

?

#14 Le 15/03/2019, à 09:15

diesel

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

rogn... a écrit :

Ce ne serait pas plus simple de faire un

cp fichier.pdf fichier_pdf.txt

puis de

grep -E -c \<mon_beau_mot_recherché\> fichier_pdf.txt

?

Surtout pas !

Par ce que dans le code d'un fichier pdf, les mots ne sont pas assemblés et que ton grep ne te donnera rien.

Amicalement.

Jean-Marie

P.S. et si tu avais essayé avant, tu le saurais. wink smile smile smile


Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.

Hors ligne

#15 Le 15/03/2019, à 10:43

Watael

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

diesel83140 a écrit :

Je vais jouer mon Watael.

et c'est bien fait, tu as raison. smile


Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne

#16 Le 15/03/2019, à 11:52

gatzy

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Bonjour
Je viens de prendre le temps de me pencher sur les solutions proposées : pdftotext étant disponible (sans avoir à faire d’installation... ), j’ai testé la commande :

hintzy@hintzy-System-Product-Name:~/Bureau$ pdftotext Sorties_ListesPlantes_2007-2018.pdf - | grep -w -c "Viola alba"
32
hintzy@hintzy-System-Product-Name:~/Bureau$ 

et c’est parfait !!, c’est ce que je recherchais smile
Un grand merci à vous pour votre aide.

Pour les pb soulevés suite à la tentative d’installation de pdfgrep : oui, mon système n’est pas à jour… je sais, ce n’est pas bien  sad sad , je m’en occupe rapidement et je le ferai plus… enfin, j’essaierai wink

Je passe le sujet en résolu.
Bonne fin de journée.

Hors ligne

#17 Le 15/03/2019, à 12:14

diesel

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Watael a écrit :
diesel83140 a écrit :

Je vais jouer mon Watael.

et c'est bien fait, tu as raison. smile

T'as vu, à ton contact, j'apprends? wink big_smile big_smile big_smile

Amicalement.

Jean-Marie


Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.

Hors ligne

#18 Le 15/03/2019, à 13:53

gigiair

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

gatzy a écrit :

Bonjour
Je viens de prendre le temps de me pencher sur les solutions proposées : pdftotext étant disponible (sans avoir à faire d’installation... ), j’ai testé la commande :

hintzy@hintzy-System-Product-Name:~/Bureau$ pdftotext Sorties_ListesPlantes_2007-2018.pdf - | grep -w -c "Viola alba"
32
hintzy@hintzy-System-Product-Name:~/Bureau$ 

et c’est parfait !!, c’est ce que je recherchais smile
Un grand merci à vous pour votre aide.

Pour les pb soulevés suite à la tentative d’installation de pdfgrep : oui, mon système n’est pas à jour… je sais, ce n’est pas bien  sad sad , je m’en occupe rapidement et je le ferai plus… enfin, j’essaierai wink

Je passe le sujet en résolu.
Bonne fin de journée.

La solution est juste un peu plus compliquée que ça.
Si tu envoie grep -w -c "viola alba" sur ce document test tu ne trouvera que deux occurrences alors qu'il y en a quatre.
Le motif de recherche doit être décrit par une expression rationnelle (regexp).

Dernière modification par gigiair (Le 15/03/2019, à 13:55)


--
JJR.

Hors ligne

#19 Le 15/03/2019, à 14:06

Watael

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

hmm
j'étais tellement content de me débarrasser de wc.
grrr

OT: pourquoi un site externe pour 4 lignes de texte ?

Dernière modification par Watael (Le 15/03/2019, à 14:07)


Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne

#20 Le 15/03/2019, à 14:16

diesel

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

gigiair a écrit :
gatzy a écrit :

Bonjour
Je viens de prendre le temps de me pencher sur les solutions proposées : pdftotext étant disponible (sans avoir à faire d’installation... ), j’ai testé la commande :

hintzy@hintzy-System-Product-Name:~/Bureau$ pdftotext Sorties_ListesPlantes_2007-2018.pdf - | grep -w -c "Viola alba"
32
hintzy@hintzy-System-Product-Name:~/Bureau$ 

et c’est parfait !!, c’est ce que je recherchais smile
Un grand merci à vous pour votre aide.

Pour les pb soulevés suite à la tentative d’installation de pdfgrep : oui, mon système n’est pas à jour… je sais, ce n’est pas bien  sad sad , je m’en occupe rapidement et je le ferai plus… enfin, j’essaierai wink

Je passe le sujet en résolu.
Bonne fin de journée.

La solution est juste un peu plus compliquée que ça.
Si tu envoie grep -w -c "viola alba" sur ce document test tu ne trouvera que deux occurrences alors qu'il y en a quatre.
Le motif de recherche doit être décrit par une expression rationnelle (regexp).

Certes...,

Cependant, je ferais quand-même un

grep -wo "viola alba" | wc -l

sans expression rationnelle (quoi que l'option -w en utilise implicitement), ce qui permettra d'éliminer les "viola albator" si d'aventure il y en avait.

Amicalement.

Jean-Marie

Dernière modification par diesel (Le 15/03/2019, à 14:16)


Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.

Hors ligne

#21 Le 15/03/2019, à 14:21

melixgaro

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Je pense que gigiair voulait attirer (aussi) l'attention sur le cas où un saut de ligne se trouve entre les deux mots…


Linux depuis ~2007. Xubuntu seulement.

Hors ligne

#22 Le 15/03/2019, à 14:27

gigiair

Re : [Résolu] Compter le nombre d’occurrence d’un mot dans un pdf

Il y a aussi le cas ou deux occurrences de "viola alba" se trouvent sur la même ligne. C'est improbable, j'en conviens mais ça tient à la rareté du motif de recherche. On ne peut pas en faire une méthode générale./


--
JJR.

Hors ligne