Reconnaissance de texte ou de lettre – définition de la reconnaissance optique de caractères
La reconnaissance optique de caractères, généralement appelée OCR pour Optical Character Recognition, consiste en la reconnaissance et la traduction mécaniques ou électroniques d’images de texte manuscrit, dactylographié ou imprimé (généralement numérisé) en texte éditable par une machine.
Comment fonctionne la reconnaissance optique de caractères ?
La reconnaissance optique de caractères (qui exploite des techniques optiques comme les miroirs et lentilles) et la reconnaissance numérique de caractères (qui exploite des scanners et algorithmes informatiques) sont au départ deux choses différentes. Toutefois, du fait de la rareté des applications exploitant de véritables techniques optiques, le terme OCR englobe désormais également le traitement d’images numériques. La numérisation et la reconnaissance des lettres incrustées dans l’image, puis archivées au format numérique, permettent de convertir des images de documents texte en documents électroniques.
Logiciel d’OCR
Si les premiers programmes d’OCR exigeaient en quelque sorte un « rodage » (le chargement d’échantillons connus de chaque caractère) avant de pouvoir reconnaître une police spécifique, les logiciels d’OCR actuels sont capables de reconnaître avec une grande précision la plupart des polices communément utilisées. Le logiciel d’OCR OmniPage 17 de Nuance, par exemple, est capable de reproduire des documents formatés en restituant de manière extrêmement fidèle l’original numérisé, y compris les images, colonnes et autres composants non textuels.