23/11/2024
Veuillez ajouter cette page à vos favoris.
Reconnaissance optique caractères (OCR)
est la conversion électronique ou mécanique d'images de texte dactylographié, manuscrit ou imprimé en texte codé par machine, qu'il s'agisse d'un document numérisé, d'une photo d'un document, d'une photo de scène (par exemple, le texte sur des panneaux et des panneaux d'affichage dans un paysage photographie), ou à partir d'un texte de sous-titre superposé à une image (par exemple : d'une émission télévisée).
Largement utilisé pour saisir des données à partir de documents papier imprimés - qu'il s'agisse de passeports, de factures, de relevés bancaires, de reçus informatisés, de cartes de visite, de courrier, d'impressions de données statiques ou de tout autre document approprié - il s'agit d'une méthode courante de numérisation des textes imprimés afin qu'ils puissent être édité électroniquement, recherché, stocké de manière plus compacte, affiché en ligne et utilisé dans des processus automatiques tels que l'informatique cognitive, la traduction automatique et l'OCR texte-à-sp (extrait) est un sous-domaine de l'étude de la reconnaissance des formes qui englobe l'intelligence artificielle et vision par ordinateur.
Les versions antérieures nécessitaient une formation avec des photographies de personnages individuels et travaillaient sur une seule police à la fois. Des systèmes avancés capables de fournir un degré élevé de précision d'identification pour la majorité des polices de caractères sont désormais largement disponibles, tout comme les systèmes qui acceptent un certain nombre de formats de fichiers d'images numériques en entrée. Certains systèmes sont capables de reproduire une sortie formatée aussi proche que possible de la page d'origine, y compris des graphiques, des colonnes et d'autres composants non textuels.