Kui täpsed on OCR-i tuvastamise tulemused? Millised tegurid mõjutavad tuvastamise täpsust?
OCR (Optical Character Recognition) tehnoloogia võib teisendada pildi teksti redigeeritavaks tekstivorminguks. Selle tuvastamise tulemuste täpsus on OCR-tehnoloogia toimivuse oluline näitaja. Üldiselt võib öelda, et tänapäevasel OCR-tehnoloogial on tavaliste prinditud dokumentide puhul väga kõrge tuvastamise täpsus, mis ulatub peaaegu üle 99%. Keeruliste piltide, käsitsi kirjutatud teksti või konkreetsete fontide töötlemisel võib aga täpsus väheneda.
1: pildikvaliteet
Selgus, valgustingimused, müra jne mõjutavad OCR-i äratundmisvõimet.
2: font ja fondi suurus
Mõnda spetsiaalset või liiga väikest fonti võib OCR-süsteemil olla raske täpselt ära tunda. Oluline tegur on ka fondi keerukus ja keeruline fondi struktuur suurendab äratundmisraskust.
3: teksti paigutus
Kui tekst on korrastatult, kattuv, kallutatud või palju segavaid elemente, mõjutab see OCR-süsteemi tuvastamise täpsust.
4: mitme keele ja mitme tähestiku süsteem
OCR-süsteem peab toetama mitut keelt ja märgikomplekti. Erinevatel keeltel ja märgikomplektidel on erinevad äratundmisraskused, mis mõjutavad ka üldist tuvastamise täpsust.