זיהוי תווים אופטי לעברית







21/12/2024

נא לסמן דף זה



זיהוי תווים אופטי (OCR) היא המרה אלקטרונית או מכנית של תמונות של טקסט מודפס, בכתב יד או מודפס לטקסט מקודד במכונה, בין אם ממסמך סרוק, תמונה של מסמך, תמונה של סצנה (לדוגמה, הטקסט על שלטים ושלטי חוצות בנוף תמונה), או מטקסט כתוביות המוצב על גבי תמונה (לדוגמה: משידור טלוויזיה).

בשימוש נרחב להזנת נתונים מרישומי נייר מודפסים - בין אם דרכונים, חשבוניות, דפי בנק, קבלות ממוחשבות, כרטיסי ביקור, דואר, תדפיסי נתונים סטטיים, או כל תיעוד מתאים אחר - זוהי שיטה נפוצה של דיגיטציה של טקסטים מודפסים כך שהם יכולים להיות ערוך אלקטרוני, חיפוש, מאוחסן בצורה קומפקטית יותר, מוצג מקוון, ומשמש בתהליכי מכונה כגון מחשוב קוגניטיבי, תרגום מכונה ו-(חולץ) טקסט-ל-sp OCR הוא תת-תחום של חקר זיהוי תבניות המקיף בינה מלאכותית ראיית מחשב.

גרסאות קודמות דרשו הכשרה עם צילומים של דמויות בודדות ועבדו על גופן בודד בכל פעם. מערכות מתקדמות המסוגלות לספק רמה גבוהה של דיוק זיהוי עבור רוב הגופנים זמינות כעת באופן נרחב, וכך גם מערכות המקבלות מספר פורמטים של קבצי תמונה דיגיטליים כקלט. מערכות מסוימות מסוגלות לשכפל פלט מעוצב הדומה ככל האפשר לעמוד המקורי, כולל גרפיקה, עמודות ורכיבים אחרים שאינם טקסטואליים.