Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#51 Le 01/11/2007, à 22:51

JP03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

SimpleOCR n'était déjà pas un cadeau sous Windows neutral


Jean-Pierre - 50 ans - Ubuntu 8.04 - Hardy - après 7.04 et 7.10

Hors ligne

#52 Le 02/11/2007, à 12:19

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

A propos de tesseract. Dans le Wiki, on à ça :

Tesseract n'accepte pour le moment que des fichiers au format bmp. Après avoir converti votre fichier grâce à un logiciel ad-hoc, entrez la commande suivante:

./tesseract ~/nomdelimage.bmp nomdufichierdesortiesanslextension

J'ai installé tesseract par Synaptic, mais je n'ai pas réussi à m'en servir...

sinon dans le wiki, pour tesseract,  il est mentionné que les images doivent être au format bmp: chez moi c'est du tiff ou mdi qu'il réclame...

@hector,

Comment as-tu fait pour tirer quelque chose de tesseract ?

Hors ligne

#53 Le 02/11/2007, à 12:24

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

j'ai fait comme c'est écrit: quelle est ton erreur? (avec une image tiff (converti par gimp), car bmp il me faisait l'erreur susmentionnée: tiff & mdi blabla)

Dernière modification par hector (Le 02/11/2007, à 12:32)

Hors ligne

#54 Le 02/11/2007, à 12:49

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

en fait non , encore une erreur dans le wiki:

tesseract ~/nomdelimage.tiff nomdufichierdesortiesanslextension

pas de ./ avant tesseract, bien sûr (il est dans le path lorqu'il est téléchargé par synaptic)

nb: j'ai modifié le wiki.

Dernière modification par hector (Le 02/11/2007, à 14:21)

Hors ligne

#55 Le 02/11/2007, à 14:15

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'avais bien mis "tesseract" et non "./tesseract"... mais mon erreur était une erreur bête dans la ligne de commande.

Par ailleurs, j'avais aussi testé sur un fichier .bmp en premier - pour voir - mais n'avais donc pu voir le résultat. Maintenant, c'est fait, et j'ai vu comme toi.

mon_user@mon_user-desktop:~$ tesseract ~/TestOCr.bmp Essaitesseract
Tesseract Open Source OCR Engine
/home/mon_user/TestOCr.bmp: Not a TIFF or MDI file, bad magic number 19778 (0x4d42).
tesseract:Error:Read of file failed:/home/sorbus/TestOCr.bmp
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3

J'ai donc scanné mon texte de test OCR au format TIFF, par Xsane, en gris, 300 dpi.
J'avais essayé d'abord avec Kooka, mais le format TIFF n'est pas proposé dans les format d'enregistrement de Kooka.

Ceci fait, j'ai lancé tesseract sur ce fichier.

Voici le résultat. Je mets juste la première police du test :

Arial 12 : Ce texte a ete ecrit pour tester differents logiciels d'OCR sous Linux. Peut-etre
aurons-nous un resultat interessant. Ou bien tout sera du pareil au meme. 1 & 2 ou 3 + 4, oa
fait 3 ou 7. C'est o dire que quelques chiffres places on ne sait ou, oe n'est pas tres facile.
Voile en gras. Cette derniere phrase est en italique : 9 e e g; 0 ! ? < > @ % , ; /

Visiblement, ce n'est pas le top. Il y a sans doute quelques réglages à  faire pour les accents. A suivre...

N.B. : test fait avec la version 1.02.3 disponible sous Gutsy. La dernière version de Tesseract étant le 2.01 (août 2007)

Dernière modification par Sorbus (Le 19/01/2008, à 14:15)

Hors ligne

#56 Le 02/11/2007, à 14:42

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

j'ai regardé un peu les liens donnés sur le wiki:
pour moins s'embêter avec les formats d'image, des scripts existent (qui convertissent l'image en tiff et appelllent tesseract)  ==> cf ocube ici

Sinon il parait que la dernière version - 2.01 - gère les accents : à tester ....

édition: oui, d'après le "readme" des sources, on peut même choisir sa langue parmi 6:

tesseract <image.tif> <output> [-l langid]

avec

langid may be one of the codes defined in ISO 639-2, and you must download
the corresponding data files into your tessdata directory.

Cette dernière phrase est un peu mystérieuse pour moi ...

Dernière modification par hector (Le 02/11/2007, à 15:02)

Hors ligne

#57 Le 02/11/2007, à 14:47

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'ai désinstallé la version Gutsy de tesseract, et tenté d'installer en suivant le tuto la version 2.01 disponible (fichier tar.gz) à cette adresse :
http://code.google.com/p/tesseract-ocr/

Mais je bloque à cette étape :

Mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$ ./configure
checking build system type... i686-pc-linux-gnulibc1
checking host system type... i686-pc-linux-gnulibc1
checking for cl.exe... no
checking for g++... no
checking for C++ compiler default output file name... configure: error: C++ compiler cannot create executables
See `config.log' for more details.
mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$

puis j'ai vu ton message.

Je m'arrête là pour l'instant. J'y reviendrai plus tard.
@+

Dernière modification par Sorbus (Le 02/11/2007, à 14:48)

Hors ligne

#58 Le 02/11/2007, à 15:23

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

es-tu sûr d'avoir installé le paquet build-essential ? (+ libtiff4-dev)? il réclame g++, compilateur de C++ (forcément tout le programme est en C++, il en a besoin! wink ): sinon il est dans synaptic, mais normalement c'est une dépendance de build-essential.
chez moi le ./configure a marché
la suite toute à l'heure ...

J'ai bien trouvé le code du français (fra), donc la commande serait:

hector@LaBeteMigratrice:~/aspiro$ tesseract titi.tiff test -l fra
Unable to load unicharset file /usr/local/share/tessdata/fra.unicharset

mais apparement il faut mettre le "jeu de données" correspondant dans le répertoire ....

note: intéressant , on peut entrainer tesseract:
http://code.google.com/p/tesseract-ocr/ … gTesseract

note2: pour le français, il faut télécharger d'autres fichiers ici: http://code.google.com/p/tesseract-ocr/downloads/list
(langue + entrainement)

note3: ça donne quelquechose en copiant les fichiers de tesseract-2.00.fra.tar.gz dans /usr/local/share/tesserdata

hector@LaBeteMigratrice:~/aspiro$ tesseract Leb-0002.tif test -l fra
Tesseract Open Source OCR Engine
Image has 24 bits per pixel and size (736,1131)
Resolution=72

et le résultat semble bien meilleur!!J'attends ton verdict pour ton fichier-test avec impatience...

Dernière modification par hector (Le 02/11/2007, à 16:39)

Hors ligne

#59 Le 02/11/2007, à 17:06

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

neutral
Je n'y suis pas encore.
J'avais installé libtiff4-dev et gs-common comme indiqué dans le wiki,
mais pas build-essential.

J'ai donc installé ce dernier et recommencé l'installation de tesseract.

Cette fois-ci, j'ai passé l'étape ./configure
... pour make, ça semble s'être à peu près correctement déroulé, mais j'ai cependant eu des messages "rien à faire pour all"

... j'ai quand même poursuivi, avec

sudo make install

La encore, ça semble s'être à peu près bien déroulé, mais avec cependant ces lignes :

make[2]: Rien à faire pour « install-exec-am ».
make[2]: Rien à faire pour « install-data-am ».

J'ai quand même continué avec

mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$ sudo cp -r /tessdata /usr/local/bin/
cp: ne peut évaluer `/tessdata': Aucun fichier ou répertoire de ce type
mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$

et là, je cale.

Dernière modification par Sorbus (Le 02/11/2007, à 17:07)

Hors ligne

#60 Le 02/11/2007, à 17:19

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

pas de panique, tu y es presque:
pour moi cette ligne dans le wiki , je ne vois pas à quoi elle sert: tente maintenant un tesseract sur un fichier, ça devrait aller...
nb: J'ai mis à jour le wiki pour l'installation de la 2.01 ...

Dernière modification par hector (Le 02/11/2007, à 19:25)

Hors ligne

#61 Le 02/11/2007, à 20:55

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

mon_user@mon_user-desktop:~/Desktop$ tesseract EssaipourTesseract.tiff Essaitesseract
Unable to load unicharset file /usr/local/share/tessdata/eng.unicharset
mon_user@mon_user-desktop:~/Desktop$

Hors ligne

#62 Le 02/11/2007, à 22:00

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

ok donc l'installation s'est bien passée.
regarde le wiki maintenant... wink
il faut télécharger (au même endroit que tu as pris la 2.01) les fichiers pour la langue française et les copier dans /usr/local/share/tessdata

Dernière modification par hector (Le 02/11/2007, à 22:05)

Hors ligne

#63 Le 03/11/2007, à 00:04

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci pour le coup de main hector wink ,
cette fois-ci, c'est bon smile


Voici le résultat de la reconnaissance optique de caractères effectuée par la version 2.01 de Tesseract, avec -l fra

J'ai mis en caractères gras dans le texte du test ci-dessous les principales erreurs...

Arial 12 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-être
aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça
fait 3 ou 7. C'est à  dire que quelques chiffres placés on ne sait oà¹, ce n'est pas très facile.
Voilà  en gras. Cette dernière phrase est en italique .· à  é e ç ๠! ? < > @ % , ;/
Arial 10 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-être aurons-nous un
résultat intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça fait 3 ou 7. C'est à  dire que
quelques chiffres placés on ne sait oà¹, ce n'est pas très facile. Voilà  en gras. Cette demière phrase est en
italique:à éèçà¹!?<>@%,;/
Times New Roman 12 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-
être aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça fait 3
ou 7. C'est à  dire que quelques chiffres placés on ne sait oà¹, ce n'est pas très facile. Voilà  en gras.
Cette dernière phrase est en italique .· à  é è ç ๠! ? < > @ % , ,· /
Times New Roman 10 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-être aurons-nous un
résultat intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça fait 3 ou 7. C'est à  dire que quelques chiffres
placés on ne sait oà¹, ce n'est pas très facile. Voilà  en gras. Cette dernière phrase est en italique .· à  é è ç ๠! ? < > @ % , ;
/
Courier 10 Pitch 12 : Ce texte a été écrit pour tester différents
logiciels d'OCR sous Linux. Peut-être aurons-nous un résultat
intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça
fait 3 ou 7. C'est à  dire que quelques chiffres placés on ne sait
oà¹, ce n ' est pas très facile . Voilà  en gras . Cette dernière phrase
estenita1ique:à éèçà¹!?<>@%, ;/
Courier 10 Pitch 10 : Ce texte a été écrit pour tester différents logiciels d'OCR
sous Linux. Peut-être aurons—nous un résultat intéressant. Ou bien tout sera du
pareil au même. 1 & 2 ou 3 + 4 , ça fait 3 ou 7 : C ' est à  dire que quelques
chiffres placés on ne sait oà¹, ce n'est pas très facile. Voilà  en gras. Cette
dernière phrase est en italique : à  é ê ç ๠! ? < > @ % , ; / `

J'avais pour l'instant obtenu les meilleurs résultats avec Kooka configuré Ocrad, sur un fichier scanné en "Binary" 300 dpi enregistré au format .png (message 30 de ce fil).

A part l'absence de la ligne séparant les différents paragraphes (correspondant aux différentes polices), le résultat obtenu avec tesseract 2.01 est meilleur. Pour le reste, les caractères sont presque tous bien reconnus. Les principales difficultés concernent les espaces (ajoutés ou enlevés selon les endroits).

Pour que la comparaison soit fiable, il faudrait être certain qu'il n'existe pas une version plus récente de Kooka/ocrad que celle que nous avons dans les dépôts Ubuntu actuellement. Il faudrait aussi vérifier s'il n'y a pas moyen d'activer une vérification du texte en français avec Kooka...

Conclusions pour l'instant : entre Kooka/ocrad et Tesseract, on commence à  avoir des résultats de ROC/OCR corrects sous Linux... même s'il reste encore beaucoup à  améliorer (conservation de la mise en forme du texte, reconnaissance des colonnes... etc.)

Dernière modification par Sorbus (Le 28/04/2008, à 06:46)

Hors ligne

#64 Le 03/11/2007, à 00:26

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je viens de comparer de façon précise les deux essais les meilleurs pour ce texte de test OCR :

Kooka/Ocrad :
- 77 erreurs de reconnaissance de caractères
- 27 erreurs de reconnaissance des espaces
- aucune erreur de reconnaissance des interlignes

Tesseract 2.01 "- fra"
- 8 erreurs de reconnaissance de caractères
- 40 erreurs de reconnaissance des espaces
- 5 erreurs de reconnaissance des interlignes

Ce dernier est donc bien meilleur dans la reconnaissance des caractères eux-mêmes, mais un peu moins bon dans le repérage et le report des espaces et des interlignes.

J'oubliais : Kooka/ocrad permet la reconnaissance dans un texte avec des colonnes. Pas tesseract me semble-t-il (sauf si la version 2.01 a progressé sur ce point ?).

Dernière modification par Sorbus (Le 03/11/2007, à 14:44)

Hors ligne

#65 Le 03/11/2007, à 07:59

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

De Jemmy64 :

J'ai suivit la documentation ubuntu afin de configurer OCR pour XSANE mais je n'arrive pas a obtenir un résultat proche du document à scanner. Je voudrais donc savoir si quelqu'un peut m'aider.

Par exemple, j'obtiens :

I__I0,I_ -_, P,éri 0héri0ues _en_ées.
3.1 _ Écrire la fonction de chaque axe de la souris (image 7/2O3.
3,2 - Écrire la fonction _un scanner,

au lieu de :

III - Périphériques d'entrées.
3.1 - Écrire la fonction de chaque axe de la souris (image 7/20).
3.2 - Écrire la fonction d'un scanner

SVP aidez moi !

Actuellement, Xsane/gocr ne semble pas être la meilleure solution pour la reconnaissance optique de caractères sous Linux. Essaye Xsane (pour scanner) + tesseract (pour la reconnaissance optique de caractères). Tu devrais avoir de meilleurs résultats.

Dans l'exemple du texte de ton message, cela provient peut-être de la police utilisée dans ton document d'origine, ou bien de la résolution que tu as utilisée pour scanner (300 dpi ou plus ?). Si tu utilises une résolution trop forte, Xsane confond des défauts de la trame du papier avec des caractères. L'idéal semble se situer autour de 300 dpi, mais tu peux essayer avec des résolutions voisines, un peu plus... ou un peu moins...

Dernière modification par Sorbus (Le 03/11/2007, à 07:59)

Hors ligne

#66 Le 03/11/2007, à 11:40

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci pour ce comparatif!
Maintenant il faut voir un peu comment marche "l'apprentissage" et ces boxtiff (à télécharger)

Hors ligne

#67 Le 03/11/2007, à 14:08

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@hector
Occupé à installer correctement tesseract, je n'ai pas encore eu le temps de regarder tous les "tuyaux" mentionnés dans tes messages.

1°) les scripts de conversion en tiff

pour moins s'embêter avec les formats d'image, des scripts existent (qui convertissent l'image en tiff et appelllent tesseract)  ==> cf ocube ici

En fait, tout dépend de quoi on part pour réaliser la ROC :
    - soit on part d'un document papier à numériser. Dans ce cas, il est simple d'utiliser XSane, et d'enregistrer au format tiff le document numérisé.
    - soit on part d'un document déjà numérisé, qu'il faut convertir en tiff avant de pouvoir utiliser tesseract. Là, ocube pourrait servir... mais je n'ai pas repéré si ce script est adapté à la version 2.01 de tesseract...

2°) "l'apprentissage" et les boxtiff

note: intéressant , on peut entrainer tesseract:
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

note2: pour le français, il faut télécharger d'autres fichiers ici: http://code.google.com/p/tesseract-ocr/downloads/list
(langue + entrainement)

Le premier lien semble donner des informations générales sur tesseract, très intéressantes par ailleurs (et beaucoup plus complètes que ce que fournit actuellement un "man tesseract")... puis une méthode précise pour effectuer cet "entrainement".

Dans le second lien, je suppose qu'il s'agit de télécharger et d'installer maintenant le fichier
"boxtiff-2.01.fra.tar.gz       Source training data for French"

puisque nous avons déjà effectué l'installation de
"tesseract-2.00.fra.tar.gz       French language data for Tesseract (2.00 and up)"

(il n'y a pas d'autre fichier "fra").

Mais étant toujours handicapé par l'anglais, je ne pige pas parfaitement en quoi consiste cet "entrainement" de tesseract, comment il fonctionne et ce qu'il pourrait permettre... ni le mode d'emploi...
Si tu avais le temps de compléter encore un peu le wiki, ce serait parfait tongue

3°) Des scripts pour faciliter l'utilisation de tesseract en graphique.
Ceci n'est pas dans tes messages, mais dans la documentation francophone d'Ubuntu, sous la "plume" de teolemon http://doc.ubuntu-fr.org/ocr#tesseract

n'accepte pas beaucoup de formats images (il existe un script de conversion, voir plus bas);
pas d'interface graphique officielle pour le moment (il en existe cependant, voir plus bas);

Quand on regarde "plus bas" dans le wiki, on ne voit pas grand chose sur le sujet. Pour le script de conversion, teolemon voulait sans doute parler de ocube. Pour l'interface graphique, qui "existe cependant", je ne sais pas. Si on pouvait dénicher ça, ou "fabriquer" un petit outil simple, ce serait bien.

Dernière modification par Sorbus (Le 03/11/2007, à 14:20)

Hors ligne

#68 Le 03/11/2007, à 14:46

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Il y a aussi une information ici concernant un logiciel propriétaire :

http://france.abbyy.com/sdk/?param=62703
et
http://france.abbyy.com/sdk/?param=62704

Mais son usage sous Linux semble peu documenté.

P.S. : tiens, justement @hector, c'est finereader...

pour l'instant chez moi, rien n'arrive à la cheville de finereader sous windows

Dernière modification par Sorbus (Le 03/11/2007, à 14:52)

Hors ligne

#69 Le 03/11/2007, à 18:20

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

oui avant tesseract, je n'avais que testé finereader (version d'essai gratuite de 15 jours) sous windows , vraiment impressionnant: si jamais on pouvait faire un comparatif sur ton texte de test, ce serait super tongue
Pour mon utilisation immédiate, j'ai repéré sur le net un vieux dico que je teste à ROCiser, mais il a des colonnes, ce que ne gère pas pour l'instant  tesseract hmm .
sinon sur le pdf de présentation qu'on peut télécharger au même endroit que les sources, il ressort que les 3 prochaines améliorations prévues sont:
1/interface graphique
2/ gestion de pages (colonnes, etc... smile )
3/ gestion du style (italique, etc...)

Bien , ça!

j'essaie dès que j'ai un peu de temps de comprendre quelquechose à l'apprentissage et de traduire sur le wiki... wink

Hors ligne

#70 Le 03/11/2007, à 18:29

teolemon

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Point de vue GUI, il y a :
1/La solution web
http://groups.google.com/group/tesseract-ocr/browse_thread/thread/4676c8ca905949a1/8e40cdffc12b039d?lnk=gst&q=gui#8e40cdffc12b039d
Mais le codeur n'a pas encore relaché le code source, il faudrait le contacter. On pourrait l'utiliser en local, à la manière des serveurs d'impression.

Il y en a un autre, avec le code source qui a l'air mieux, mait en MIT-X
http://weocr.ocrgrid.org

2/La solution Windows
Des guis ont été écrit pour Windows, voir si on peut les porter sous Linux
http://groups.google.com/group/tesseract-ocr/browse_thread/thread/a8193824b0fa6313/eb683b550ffd1d13?lnk=gst&q=GUI+windows#eb683b550ffd1d13
Il faut en plus le convaincre d'ouvrir son code source, mais c'est écrit en .net (donc portable)

3/La solution Linux
Ca reste à coder, mais ça doit être faisable assez simplement avec Glade


I'm a bun, but you bun too!
Aidez-nous à traduire Ubuntu Trusty Tahr (doc, applis, descriptions d'applis, pages web) en français  >> http://doc.ubuntu-fr.org/ubuntu-l10n-fr

Hors ligne

#71 Le 04/11/2007, à 00:02

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

finereader : si jamais on pouvait faire un comparatif sur ton texte de test, ce serait super

On a pu. Voici le résultat.

J'ai refait les essais des deux meilleures solutions d'OCR Linux, comparées à trois applications Windows (tant qu'à aller faire un tour sous Windows, j'en est profité pour tester SimpleOCR et TextBridge en plus de FineReader...).

Sous Linux (nouveaux essais)

Kooka/Ocrad :
- 89 erreurs de reconnaissance de caractères
- 14 erreurs de reconnaissance des espaces
- 5 erreurs de reconnaissance des interlignes

Tesseract 2.01 "- fra"
- 11 erreurs de reconnaissance de caractères
- 43 erreurs de reconnaissance des espaces
- 5 erreurs de reconnaissance des interlignes


et sous Windows

(les deux premiers sont au bas de l'échelle des logiciels d'OCR disponibles sous Windows. Le 3ème est une version récente d'un logiciel pro...)

SimpleOCR :
- 50 erreurs de reconnaissance de caractères
- 2 erreurs de reconnaissance des espaces
- 7 erreurs de reconnaissance des interlignes

TextBridge Classic 2.0
- 29 erreurs de reconnaissance de caractères
- 12 erreurs de reconnaissance des espaces
- 2 erreurs de reconnaissance des interlignes

Finereader 9 Pro
- aucune erreur de reconnaissance de caractères
- 48 erreurs de reconnaissance des espaces
- aucune erreur de reconnaissance des interlignes.

Les erreurs de reconnaissance des espaces de Finereader portent uniquement sur les signes situés en fin de fichier de texte... mais aucune erreur sur les espaces séparant les mots; ces erreurs sont donc sans grande conséquence. Il en est de même pour la plupart des erreurs de reconnaissance des espaces par Tesseract. Sur les cinq logiciels testés, ce sont les deux meilleurs.

Mais dans l'ordre
1°) Finereader 9 Pro
2°) Tesseract 2.01

Reste à voir si l'entrainement pourrait améliorer les performances de Tesseract...

Dernière modification par Sorbus (Le 04/11/2007, à 15:40)

Hors ligne

#72 Le 04/11/2007, à 10:53

teolemon

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour améliorer les performances de tesseract point de vue layout, pourquoi ne pas l'utiliser via ocropus ?
Il viennent de sortir une nouvelle version.


I'm a bun, but you bun too!
Aidez-nous à traduire Ubuntu Trusty Tahr (doc, applis, descriptions d'applis, pages web) en français  >> http://doc.ubuntu-fr.org/ubuntu-l10n-fr

Hors ligne

#73 Le 04/11/2007, à 11:38

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

je ne connaissais pas: très intéressant! cf ici par exemple...
l'as tu installé?

Dernière modification par hector (Le 04/11/2007, à 11:40)

Hors ligne

#74 Le 04/11/2007, à 15:35

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour comparer ces applications de ROC/OCR,  il faudrait compléter le test effectué sur mon texte, qui contient des polices récentes, à partir d'un document papier numérisé, par un autre test portant par exemple sur "un vieux dico à ROCiser repéré sur le net." (tu as un lien @hector ?)

Visiblement, ça bouge du côté de tesseract et de l'OCR libre... Merci pour ce repérage teolemon. Et puisque tu repères les bonnes infos avec toujours un temps d'avance, tiens-nous au courant si tu vois du nouveau wink

Reste à voir quelle est pour nous la meilleure piste à suivre dans l'immédiat...

tesseract apprentissage/entrainement... via ocropus... http://code.google.com/p/ocropus/ ?

Les "anglophones" de cette liste en diront surement plus sur le wiki d'ici peu tongue

@+

Dernière modification par Sorbus (Le 04/11/2007, à 15:42)

Hors ligne

#75 Le 04/11/2007, à 18:37

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,
pour l'exemple de vieux dico, le lebaigue:(latin-français)http://perso.orange.fr/dico.quicherat/Leb-0010.html (même finereader a du mal, car la résolution est faible)
cf aussi les google-books et gallica qui ont numérisé un certain nombre d'autres dictionnaires.
pour l'apprentissage de tesseract, j'ai commencé à regarder , mais ça n'a vraiment pas l'air simple: je ne garantis rien! (rien à voir avec l'apprentissage sous finereader -éditeur de gabarit- .
Sinon je suis en train d'essayer de compiler ocropus, suivant http://code.google.com/p/ocropus/wiki/G … dWithAlpha
si je réussis, promis: wiki! tongue

Dernière modification par hector (Le 04/11/2007, à 18:50)

Hors ligne