TesseractOCR – Une Reconnaissance de Caractère !

Non, le Tesseract n’est pas juste le truc bleu que tu as vu dans Avengers ou Thor ! Son nom, dans le monde de l’informatique signifie un moteur de reconnaissance optique de caractères libre et remarquablement diffusés.

Avant l’avènement des IA et du Kloud, la reconnaissance des textes sur une image se faisait localement, avec nos petites applications tel que Readiris, MS Office Imaging, Adobe PDF Pro …

Un logiciel OCR (Optical Character Recognition) est une application permettant de lire le texte sur une image en texte éditable et lisible par un ordinateur.

Plus d’infos à ce propos … go Wikipédia !

De ce besoin était né un petit logiciel : TesseractOCR !

Conçu à l’origine par les ingénieurs de HP, il fut rapidement abandonné et offert à la communauté du libre. De base ne pouvant reconnaitre QUE les caractères ASCII, il lit aujourd’hui plus de 100 langues différentes !

Le moteur du logiciel, peut rebuter les adeptes de la souris car il nécessite une connaissance des méandres de la ligne de commande !!!!

Heureusement, de son coté libre et open-source, différents développeurs proposent une belle interface graphique adjoint de différentes améliorations permettant d’user de la puissance de ce logiciel !

gImageReader est l’un d’eux !

Logiciel libre basé sur le moteur Qt (prononcez Cute), il permet à tous d’exploiter la puissance de TesseractOCR !

Capture d’écran du logiciel, reconnaissant l’article !

Ce logiciel disponible gratuitement sur sa page GitHub est compatible Windows, Linux et Mac OS !

Sites Officiels

TesseractOCR
https://github.com/tesseract-ocr/tesseract

gImageReader (Page de Téléchargements)
https://github.com/manisandro/gImageReader/releases

Aller plus loin !

J’ai découvert durant mes recherches que ce logiciel a été porté en JavaScript pour fonctionner directement depuis le navigateur !

Une démo « en anglais » est possible sur le site, j’ai déposé un fichier en Français … reconnaissance quasi-parfaite !

Site du projet :
https://tesseract.projectnaptha.com/