linux for ever
la liberté s’accroit lorsqu’on la partage

Categories

Accueil > bureautique > ocr sous linux > OCR sous linux avec gimagereader

OCR sous linux avec gimagereader

samedi 2 juin 2012, par alain

Les logiciels de reconnaissance de caractères (OCR) sous licence libre utilisables sous linux sont plutôt rares.

Il a quelques années j’avais déjà expérimenté kooka + ocrad avec d’assez bon résultat mais il manquait une interface graphique conçue pour gnome
Jusqu’à ce mette la main sur gimagereader

Le projet à bien progressé. La version actuelle est la 9.1 (le paquet deb est utilisable sur une 64bit) avec même une version windows

L’interface est simple avec suffisamment d’options pour améliorer la reconnaissance (contraste, résolution, luminosité) de l’image
et corriger le résultat de la reconnaissance du texte
Il peut aussi extraire le texte d’un pdf.

La récupération du texte est facilitée pas la fonction de suppression des sauts de lignes (et pour les tableaux ont peut conserver la mise en colonnes avec un copier coller dans calc en choisissant de délimiter des colonnes de façon fixe)

C’est le parfait complément de simple-scan sous gnome

Une petite astuce si vos chiffre ou vos dates sont reconnus avec une apostrophe dans un tableau elle ne seront pas prise pour des valeurs numérique sous Calc : il suffit alors de sélectionner la ou les colonnes et d’utiliser le menu Donnée > texte en colonne. Plus d’infos sur l’astuce

PS Si vous n’avez pas peur de montrer vos données à google - il existe un service de conversion ocr gratuit ( pas vraiment gratuit puisqu’il faut vendre son âme à cet entreprise qui connait déjà presque tout de ce qui vous intéresse grâce à son moteur de recherche) dans la suite google document - Pour l’avoir tester la reconnaissance des tableaux n’est pas performante.