Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 04/03/2021, à 01:17

franzala

OCR pdftotext produit un fichier quasi vide

Bonjour,

j'ai installé pdftotext avec la commande sudo apt install poppler-utils qui a fonctionné sans problème apparent.
J'ai ensuite essayé de convertir différents fichiers sans succès d'abord avec l'option layout, puis sans aucune option, et j'obtiens invariablement un fichier de 1 octet contenant ceci
la commande que j'utilise est   pdftotext -layout input.pdf output.txt

Je tiens à cette option car les fichiers que je souhaite convertir sont des textes sur 5 colonnes.

J'utilise la version 18-04 LTS sur un PC 64bits avec un processeur récent (environ18mois).

Quelqu'un aurait-il une idée sur ce que j'ai dû faire d'incorrect soit dans l'installation soit dans l'utilisation?

Hors ligne

#2 Le 04/03/2021, à 08:48

serged

Re : OCR pdftotext produit un fichier quasi vide

C'est quoi tes PDF ?
- Si c'est des PDF issus d'un traitement de texte ou d'une PAO, pas de problème tu récupéreras le texte.
- Si c'est des scans ou des images, il te faut un OCR et non pdftotext.


LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)

Hors ligne

#3 Le 04/03/2021, à 12:55

franzala

Re : OCR pdftotext produit un fichier quasi vide

Les pdf dont je cherche à récupérer le texte sont des scans de documents papiers qui proviennent d'un petit nombre d'envoyeurs.

Si j'ai bien lu les docs que j'ai trouvé sur pdftotext, ce logiciel doit permettre d'extraire le texte d'un fichier pdf sous forme d'un fichier .txt; je considère donc que c'est un logiciel du type OCR spécialisé dans le traitement des pdf à l'exclusion d'autres formats d'images. Voir par exemple   http://manpages.ubuntu.com/manpages/tru … ext.1.html.

J'ai lu plusieurs conversations sur ce forum de personnes indiquant que cela fonctionnait bien, mais malheureusement ce n'est pas mon cas et je ne sais pas dans quelle direction orienter mes recherches pour identifier la cause de mon problème.

Je suis donc preneur de toute piste qui pourrait éventuellement me permettre de le faire fonctionner correctement; je présume qu'il doit exister une condition que mon système ne respecte pas mais qui est indispensable pour le bon fonctionnement de pdftotext.

Hors ligne

#4 Le 04/03/2021, à 13:56

franzala

Re : OCR pdftotext produit un fichier quasi vide

@serged

J’ai trouvé dans une conversation assez ancienne intitulée
« Accueil » Forum » Autres logiciels et problèmes généraux » ouvrir pdf en ligne de commande «  à laquelle tu avais participé
le message suivant :
#15 Le 10/02/2017, à 11:03        enidan
gigiair a écrit :
pdftotext -enc UTF-8 <ficher pdf> - |less
Ni less, ni pdftotext  n'afficheront rien si le pdf est un scan de document texte...
Merci giglair, la méthode pdftotext que tu proposes marche parfaitement ; j'en avais besoin pour lire mes pdf via ssh.
À noter que cet outil se trouve dans le paquet poppler-utils

Ce qui m’intéresse est l’indication que  pdftotext  n'affiche rien si le pdf est un scan de document texte.
Cela correspond bien à mon cas ; mais j’aimerai savoir ce qui distingue un pdf provenant d’un scan de document texte, d’un autre pdf par exemple produit par export en pdf d’un traitement de texte.
Je pensais sans doute naïvement que tous les pdf étaient de la même nature.
De plus comment puis-je savoir par quelle méthode a été produit un pdf que je n’ai pas créé moi-même ?

Hors ligne

#5 Le 05/03/2021, à 08:27

serged

Re : OCR pdftotext produit un fichier quasi vide

franzala a écrit :

@serged

Je pensais sans doute naïvement que tous les pdf étaient de la même nature.
De plus comment puis-je savoir par quelle méthode a été produit un pdf que je n’ai pas créé moi-même ?

Tu essayes de sélectionner du texte (dans la visionneuse). Si ça ne marche pas, il y a des chances que ce soit un scan... Mais :
- Il existe des PDF protégés en copié-collé (ça protège avec Acrobat Reader, mais je ne sais pas pour les visionneuses Linux)
- Les PDF issus de documents mixtes qui ont du texte et des images (par exemple,des documents officiels avec le logo "République Française").


LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)

Hors ligne