Archívált honlap. Utolsó frissítés 2011. november 29.
A digitalizálás fő kérdései 8/6.
Milyen karakterfelismerési problémák adódhatnak?

Szöveges digitalizáció esetén meg kell birkóznunk a szkenneléskor és a dokumentum beolvasásakor keletkező olyan karakterfelismerési problémákkal, mint például az alábbiak:

  • Ékezethibák
         (Eger/Egér/Éger vagy Alma/Álma)
  • Írásjelek tévesztése
         (— – - , . ; :)
  • Betűcserék
         (M m, D O, R P, a á)
  • Felismerési problémák például az (i) betűnél
         (í, i, I, 1, !, j, l, t)
  • Számok és betűk keverése
         (g 9, J 3, O 0, S 8)
  • Az o, ó, ö, ő ü, ű betűk felismerési hibái stb.

A karakterfelismeréshez (OCR) manapság már többfajta program áll rendelkezésre, azonban a különböző papírhibák (régi megfakult/megsárgult papír, elkoszosodott íráskép, papírgyűrődés) miatt a szövegek nehézkes és fárasztó ellenőrzése szükséges. Az ellenőrzés történhet szoftveresen, de a gyakorlat azt mutatja, hogy a végeredmény pontossága csak az átolvasással növelhető. Azért csak a „növelhető” szót alkalmaztuk az imént, mert többszöri átolvasás után is ott maradnak azok a bizonyos „sajtóhibák”, melyek annyi bosszúságot tudnak okozni. Néhány külföldi dokumentumszolgáltató „nyereményjátékkal” arra buzdítja olvasóközönségét, hogy a felfedezett digitalizálási hibákat jelezzék számukra. Ez mutatja, hogy karakterfelismerés terén van még hová fejlődnie a technikának.


1. ábra — Az eredeti szöveg képfájlként


2. ábra — Az OCR-program ejtette karakterfelismerési hibák


3. ábra — Word-ben kézzel javított szöveg


  • Forrás: Ambrus Attila József: A Gutenberg- és a Neumann-galaxis: Könyvek és könyvtárak, olvasók és könyvtárosok a harmadik évezredben (kézirat) PTE, FEEK, Könyvtártudományi Intézet, 2010