OCR pdftotext produit un fichier quasi vide

franzala · Le 04/03/2021, à 00:17

Bonjour,

j'ai installé pdftotext avec la commande sudo apt install poppler-utils qui a fonctionné sans problème apparent.
J'ai ensuite essayé de convertir différents fichiers sans succès d'abord avec l'option layout, puis sans aucune option, et j'obtiens invariablement un fichier de 1 octet contenant ceci
la commande que j'utilise est pdftotext -layout input.pdf output.txt

Je tiens à cette option car les fichiers que je souhaite convertir sont des textes sur 5 colonnes.

J'utilise la version 18-04 LTS sur un PC 64bits avec un processeur récent (environ18mois).

Quelqu'un aurait-il une idée sur ce que j'ai dû faire d'incorrect soit dans l'installation soit dans l'utilisation?

serged · Le 04/03/2021, à 07:48

C'est quoi tes PDF ?
- Si c'est des PDF issus d'un traitement de texte ou d'une PAO, pas de problème tu récupéreras le texte.
- Si c'est des scans ou des images, il te faut un OCR et non pdftotext.

franzala · Le 04/03/2021, à 11:55

Les pdf dont je cherche à récupérer le texte sont des scans de documents papiers qui proviennent d'un petit nombre d'envoyeurs.

Si j'ai bien lu les docs que j'ai trouvé sur pdftotext, ce logiciel doit permettre d'extraire le texte d'un fichier pdf sous forme d'un fichier .txt; je considère donc que c'est un logiciel du type OCR spécialisé dans le traitement des pdf à l'exclusion d'autres formats d'images. Voir par exemple http://manpages.ubuntu.com/manpages/tru … ext.1.html.

J'ai lu plusieurs conversations sur ce forum de personnes indiquant que cela fonctionnait bien, mais malheureusement ce n'est pas mon cas et je ne sais pas dans quelle direction orienter mes recherches pour identifier la cause de mon problème.

Je suis donc preneur de toute piste qui pourrait éventuellement me permettre de le faire fonctionner correctement; je présume qu'il doit exister une condition que mon système ne respecte pas mais qui est indispensable pour le bon fonctionnement de pdftotext.

franzala · Le 04/03/2021, à 12:56

@serged

J’ai trouvé dans une conversation assez ancienne intitulée
« Accueil » Forum » Autres logiciels et problèmes généraux » ouvrir pdf en ligne de commande « à laquelle tu avais participé
le message suivant :
#15 Le 10/02/2017, à 11:03 enidan
gigiair a écrit :
pdftotext -enc UTF-8 <ficher pdf> - |less
Ni less, ni pdftotext n'afficheront rien si le pdf est un scan de document texte...
Merci giglair, la méthode pdftotext que tu proposes marche parfaitement ; j'en avais besoin pour lire mes pdf via ssh.
À noter que cet outil se trouve dans le paquet poppler-utils

Ce qui m’intéresse est l’indication que pdftotext n'affiche rien si le pdf est un scan de document texte.
Cela correspond bien à mon cas ; mais j’aimerai savoir ce qui distingue un pdf provenant d’un scan de document texte, d’un autre pdf par exemple produit par export en pdf d’un traitement de texte.
Je pensais sans doute naïvement que tous les pdf étaient de la même nature.
De plus comment puis-je savoir par quelle méthode a été produit un pdf que je n’ai pas créé moi-même ?

serged · Le 05/03/2021, à 07:27

franzala a écrit :

@serged
Je pensais sans doute naïvement que tous les pdf étaient de la même nature.
De plus comment puis-je savoir par quelle méthode a été produit un pdf que je n’ai pas créé moi-même ?

Tu essayes de sélectionner du texte (dans la visionneuse). Si ça ne marche pas, il y a des chances que ce soit un scan... Mais :
- Il existe des PDF protégés en copié-collé (ça protège avec Acrobat Reader, mais je ne sais pas pour les visionneuses Linux)
- Les PDF issus de documents mixtes qui ont du texte et des images (par exemple,des documents officiels avec le logo "République Française").

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 04/03/2021, à 00:17

OCR pdftotext produit un fichier quasi vide

#2 Le 04/03/2021, à 07:48

Re : OCR pdftotext produit un fichier quasi vide

#3 Le 04/03/2021, à 11:55

Re : OCR pdftotext produit un fichier quasi vide

#4 Le 04/03/2021, à 12:56

Re : OCR pdftotext produit un fichier quasi vide

#5 Le 05/03/2021, à 07:27

Re : OCR pdftotext produit un fichier quasi vide

Pied de page des forums