#1 Le 04/03/2021, à 00:17
- franzala
OCR pdftotext produit un fichier quasi vide
Bonjour,
j'ai installé pdftotext avec la commande sudo apt install poppler-utils qui a fonctionné sans problème apparent.
J'ai ensuite essayé de convertir différents fichiers sans succès d'abord avec l'option layout, puis sans aucune option, et j'obtiens invariablement un fichier de 1 octet contenant ceci
la commande que j'utilise est pdftotext -layout input.pdf output.txt
Je tiens à cette option car les fichiers que je souhaite convertir sont des textes sur 5 colonnes.
J'utilise la version 18-04 LTS sur un PC 64bits avec un processeur récent (environ18mois).
Quelqu'un aurait-il une idée sur ce que j'ai dû faire d'incorrect soit dans l'installation soit dans l'utilisation?
Hors ligne
#2 Le 04/03/2021, à 07:48
- serged
Re : OCR pdftotext produit un fichier quasi vide
C'est quoi tes PDF ?
- Si c'est des PDF issus d'un traitement de texte ou d'une PAO, pas de problème tu récupéreras le texte.
- Si c'est des scans ou des images, il te faut un OCR et non pdftotext.
LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)
Hors ligne
#3 Le 04/03/2021, à 11:55
- franzala
Re : OCR pdftotext produit un fichier quasi vide
Les pdf dont je cherche à récupérer le texte sont des scans de documents papiers qui proviennent d'un petit nombre d'envoyeurs.
Si j'ai bien lu les docs que j'ai trouvé sur pdftotext, ce logiciel doit permettre d'extraire le texte d'un fichier pdf sous forme d'un fichier .txt; je considère donc que c'est un logiciel du type OCR spécialisé dans le traitement des pdf à l'exclusion d'autres formats d'images. Voir par exemple http://manpages.ubuntu.com/manpages/tru … ext.1.html.
J'ai lu plusieurs conversations sur ce forum de personnes indiquant que cela fonctionnait bien, mais malheureusement ce n'est pas mon cas et je ne sais pas dans quelle direction orienter mes recherches pour identifier la cause de mon problème.
Je suis donc preneur de toute piste qui pourrait éventuellement me permettre de le faire fonctionner correctement; je présume qu'il doit exister une condition que mon système ne respecte pas mais qui est indispensable pour le bon fonctionnement de pdftotext.
Hors ligne
#4 Le 04/03/2021, à 12:56
- franzala
Re : OCR pdftotext produit un fichier quasi vide
@serged
J’ai trouvé dans une conversation assez ancienne intitulée
« Accueil » Forum » Autres logiciels et problèmes généraux » ouvrir pdf en ligne de commande « à laquelle tu avais participé
le message suivant :
#15 Le 10/02/2017, à 11:03 enidan
gigiair a écrit :
pdftotext -enc UTF-8 <ficher pdf> - |less
Ni less, ni pdftotext n'afficheront rien si le pdf est un scan de document texte...
Merci giglair, la méthode pdftotext que tu proposes marche parfaitement ; j'en avais besoin pour lire mes pdf via ssh.
À noter que cet outil se trouve dans le paquet poppler-utils
Ce qui m’intéresse est l’indication que pdftotext n'affiche rien si le pdf est un scan de document texte.
Cela correspond bien à mon cas ; mais j’aimerai savoir ce qui distingue un pdf provenant d’un scan de document texte, d’un autre pdf par exemple produit par export en pdf d’un traitement de texte.
Je pensais sans doute naïvement que tous les pdf étaient de la même nature.
De plus comment puis-je savoir par quelle méthode a été produit un pdf que je n’ai pas créé moi-même ?
Hors ligne
#5 Le 05/03/2021, à 07:27
- serged
Re : OCR pdftotext produit un fichier quasi vide
@serged
Je pensais sans doute naïvement que tous les pdf étaient de la même nature.
De plus comment puis-je savoir par quelle méthode a été produit un pdf que je n’ai pas créé moi-même ?
Tu essayes de sélectionner du texte (dans la visionneuse). Si ça ne marche pas, il y a des chances que ce soit un scan... Mais :
- Il existe des PDF protégés en copié-collé (ça protège avec Acrobat Reader, mais je ne sais pas pour les visionneuses Linux)
- Les PDF issus de documents mixtes qui ont du texte et des images (par exemple,des documents officiels avec le logo "République Française").
LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)
Hors ligne