21.11.2024
Uložte si prosím tuto stránku do záložek.
Optické rozpoznávání znaků (OCR)
je elektronická nebo mechanická konverze obrázků psaného, ručně psaného nebo tištěného textu na strojově kódovaný text, ať už z naskenovaného dokumentu, fotografie dokumentu, fotografie scény (například text na cedulích a billboardech v krajině fotografie) nebo z textu titulků překrývajícího obrázek (například: z televizního vysílání).
Široce používané pro zadávání dat z tištěných papírových záznamů – ať už pasů, faktur, bankovních výpisů, počítačových účtenek, vizitek, pošty, tiskových výstupů statických dat nebo jakékoli jiné vhodné dokumentace – jde o běžnou metodu digitalizace tištěných textů tak, aby mohly být elektronicky upravován, prohledáván, skladován kompaktněji, zobrazován on-line a používán ve strojových procesech, jako jsou kognitivní výpočty, strojový překlad a (extrahovaný) text-to-sp OCR je podoblastí studia rozpoznávání vzorů, která zahrnuje umělou inteligenci a počítačové vidění.
Dřívější verze vyžadovaly trénink s fotografiemi jednotlivých postav a pracovaly na jednom typu písma najednou. Pokročilé systémy schopné poskytovat vysoký stupeň přesnosti identifikace pro většinu písem jsou nyní široce dostupné, stejně jako systémy, které akceptují řadu formátů digitálních obrazových souborů jako vstupy. Některé systémy jsou schopny replikovat formátovaný výstup, který je co nejpodobnější původní stránce, včetně grafiky, sloupců a dalších netextových komponent.