Optische tekenherkenning voor de Nederlandse taal







21-12-2024

Maak een bladwijzer voor deze pagina.



Optische tekenherkenning (OCR) is de elektronische of mechanische conversie van afbeeldingen van getypte, handgeschreven of gedrukte tekst naar machinaal gecodeerde tekst, of het nu gaat om een ​​gescand document, een foto van een document, een scènefoto (bijvoorbeeld de tekst op borden en billboards in een landschap foto), of van ondertiteltekst die op een afbeelding is geplaatst (bijvoorbeeld: van een televisie-uitzending).

Op grote schaal gebruikt om gegevens in te voeren uit gedrukte papieren documenten - of het nu gaat om paspoorten, facturen, bankafschriften, geautomatiseerde ontvangstbewijzen, visitekaartjes, post, afdrukken van statische gegevens of andere geschikte documentatie - het is een veelgebruikte methode om gedrukte teksten te digitaliseren zodat ze kunnen elektronisch worden bewerkt, doorzocht, compacter opgeslagen, online weergegeven en gebruikt in machineprocessen zoals cognitieve informatica, machinevertaling en (geëxtraheerde) tekst-naar-sp OCR is een deelgebied van patroonherkenningsonderzoek dat kunstmatige intelligentie en computervisie.

Eerdere versies vereisten training met foto's van individuele karakters en werkten aan een enkel lettertype tegelijk. Geavanceerde systemen die een hoge mate van identificatienauwkeurigheid kunnen leveren voor de meeste lettertypen zijn nu algemeen verkrijgbaar, evenals systemen die een aantal digitale beeldbestandsformaten als invoer accepteren. Bepaalde systemen zijn in staat om geformatteerde uitvoer te repliceren die zoveel mogelijk lijkt op de originele pagina, inclusief afbeeldingen, kolommen en andere niet-tekstuele componenten.