#1 Le 18/01/2022, à 09:01
- GuyAntonin
OCR tableau sous PDF vers tableur
Bonjour,
Pb : lire des tableaux (par ex. facture, relevé de compte, ...) pour les copier dans un tableur à fins d'exploitation.
Mes recherches sur le forum, la documentation, internet, n'ont rien donné de réellement satisfaisant. Je n'ai trouvé que des informations relativement vieilles et consacrées à l' "OCRisation" de textes vers Writer ou Word (cuneiform, ... ). Ma référence sous Windows était ABBY FineReader. J'ai bien vu l'existence de Wine pour faire tourner les logiciels Windows sous Ubuntu, mais j'ai cru comprendre que cette solution n'est pas très efficace.
Dans l'attente de vos conseils, avec mes remerciements,
Cordialement - Antonin
Patience et longueur de temps font plus que force ni que rage. (Jean de la Fontaine - Le Lion et le Rat)
Asus X705UAR - Intel® Core™ i3-8130U - CPU @ 2.20GHz × 4 - Mesa Intel® UHD Graphics 620 (KBL GT2) - mem : 3,7 GiB - DD 1,1 TB
Ubuntu 20.04.3 LTS - 64 bits - Gnome 3.36.8
Antonin des Cévennes d'Ardèche
Hors ligne
#2 Le 18/01/2022, à 10:26
- lann
Re : OCR tableau sous PDF vers tableur
Il y a Libre OCR comme extension. Je ne sais pas ce que ça vaut : https://extensions.libreoffice.org/en/e … /libre-ocr
<Modéré>
Hors ligne
#3 Le 18/01/2022, à 10:44
- Compte supprimé
Re : OCR tableau sous PDF vers tableur
Bonjour,
Une autre solution pour exploiter ces données serait d'aller les chercher chez l'émetteur.
C'est possible pour de nombreuses banques. Pour les factures ça va dépendre des fournisseurs mais assez simple pour l'eau et l'électricité.
#4 Le 18/01/2022, à 11:55
- Nasman
Re : OCR tableau sous PDF vers tableur
Reste à savoir si le fichier de départ est une image scannée ou un export en pdf.
PC fixe sous Bionic 64 bits et portable avec Focal 64 bits
Hors ligne
#5 Le 18/01/2022, à 12:12
- Compte supprimé
Re : OCR tableau sous PDF vers tableur
ou un export en pdf.
Oui, là c'est plus facile.
#6 Le 18/01/2022, à 12:27
- erresse
Re : OCR tableau sous PDF vers tableur
Bonjour,
Tu devrais essayer "gimagereader", disponible dans le dépôt universe, qui traite aussi bien les fichiers images que les fichiers pdf.
C'est une autre application de traitement OCR qui peut travailler sur des documents existants ou faire de l'acquisition. Je l'utilise sans problème avec différentes sources, le résultat est rarement parfait selon la netteté de l'original, il faut retoucher le texte produit, mais pour mon usage ponctuel, j'aprécie ce logiciel.
Plus de 50 ans d'informatique, ça en fait des lignes de commandes en console, mais on n'avait pas le choix...
Excellente raison pour, aujourd'hui qu'on le peut, utiliser au maximum les INTERFACES GRAPHIQUES !
Important : Une fois le problème solutionné, pensez à clore votre sujet en ajoutant [Résolu] devant le titre du 1er message, et un bref récapitulatif de la solution à la fin de celui-ci. Merci.
Hors ligne
#7 Le 22/01/2022, à 17:48
- GuyAntonin
Re : OCR tableau sous PDF vers tableur
Bonjour,
En premier lieu, je vous présente mes excuses pour le délai avec lequel je vous réponds. La gestion du temps n'est pas toujours facile.
Il y a Libre OCR comme extension. Je ne sais pas ce que ça vaut : https://extensions.libreoffice.org/en/e … /libre-ocr
J'ai suivi ton lien. Les 10 commentaires donnent une note de 1/5 à cette extension. Je n'ai pas insisté.
ou un export en pdf.
Justement, mon problème est de transporter les données d'un PDF vers un ODS.
Tu devrais essayer "gimagereader"
Essai réalisé. Résultat négatif. Les caractères sont bien reconnus, mais l'export en ODT a totalement perdu la mise en page tableau.
J'ai peur que mon problème ne trouve pas de solution sous Ubuntu.
Avec mes remerciements pour vos suggestions. Cordialement - Antonin
Patience et longueur de temps font plus que force ni que rage. (Jean de la Fontaine - Le Lion et le Rat)
Asus X705UAR - Intel® Core™ i3-8130U - CPU @ 2.20GHz × 4 - Mesa Intel® UHD Graphics 620 (KBL GT2) - mem : 3,7 GiB - DD 1,1 TB
Ubuntu 20.04.3 LTS - 64 bits - Gnome 3.36.8
Antonin des Cévennes d'Ardèche
Hors ligne
#8 Le 22/01/2022, à 18:28
- inbox
Re : OCR tableau sous PDF vers tableur
Salut,
À ma connaissance, l'OCR (Optical Character Recognition) reconnaît les caractères. Les tableaux ne sont pas des caractères.
Tu devrais donc essayer d'enregistrer ton texte océrisé dans un fichier texte. Ensuite, il faut, dans ce fichier vérifier qu'il y a bien des séparateurs (espaces, tirets, virgules, etc) entre les différents champs. Ceci fait, tu peux importer ton fichier dans Calc.
A+
Un problème résolu ? Indiquez le en modifiant le titre du sujet.
Hors ligne
#9 Le 22/01/2022, à 21:04
- Compte supprimé
Re : OCR tableau sous PDF vers tableur
Une autre solution pour exploiter ces données serait d'aller les chercher chez l'émetteur.
C'est possible pour de nombreuses banques. Pour les factures ça va dépendre des fournisseurs mais assez simple pour l'eau et l'électricité.
Cela fait un peu "dis-moi de quoi tu as besoin et je te dirai comment t'en passer"
Mais selon de quelles sources il s'agit, c'est une solution souvent plus simple. Tu as un exemple anonymisé de document que tu veux exploiter ?