Archívált honlap. Utolsó frissítés 2011. november 29.
A digitalizálás fő kérdései 8/5.
Digitalizáljunk, de hogyan? A digitalizációs munka fázisai

A digitalizálásnál a munkánkat két fázisra oszthatjuk: az első fázisban magának a digitalizációnak a menete zajlik, míg a második fázisban az eredmény megjelenítése történhet meg.

Egy papír alapú dokumentumot kétféleképpen digitalizálhatunk: képként és szövegként. Amennyiben képként szkenneljük1, fontos a megfelelő bitmélység kiválasztása. Ez azért fontos, mert a megjelenítéskor egy 1 bites (fekete és fehér színű) kép inkább egy faxmásolatra hasonlít, míg egy 24 bites (16 millió színárnyalatú) kép az eredeti „tökéletes” másolatának hat. A képek fizikai képmérete (byte) természetesen a bitmélység növekedésének arányában növekszik, hiszen adott pixelnek több információt kell tartalmaznia egy színes kép esetén, mint egy fekete-fehér kép esetén. Képként szkennelni fotókat, képi ábrázolásokat és régi írásképű dokumentumokat célszerű.


1-2. ábra — 1 és 24 bites verzió

Minden más szöveges forrást szövegként érdemes digitalizálni, ugyanis míg a képformátumban nem, vagy csak körülményesen lehetséges a „szövegkeresés”, a szöveges digitalizáció esetében (pl. egy lexikonnál) fontos, hogy a képoldalak ne csak nézhetőek/olvashatóak legyenek, hanem adott esetben tetszőleges karaktercsoportokra – szövegre – kereshetővé váljon a digitalizált dokumentum.2 A képként való digitalizálás gyors és hatékony abban az esetben, amikor az eredeti forma megtartása a cél, pl. egy kézírásos napló esetén. Ha a tartalom fontossága szempontjából szövegként digitalizálunk, akkor a szöveges végeredmény elérése a hatékonyabb.

A következő munkafázisnál legszükségesebb a megjelenő fájlformátum kiválasztása. Amennyiben képként digitalizáltuk be a forrást, célszerű valamelyik – interneten is – elterjedt fájlformátumba mentenünk a képet. A legcélszerűbb a nagy tömöríthetőségű .JPG3 vagy a veszteségmentes tömörítésű .PNG4 fájlformát választanunk. Mindkét formátum igen elterjedt a webes alkalmazások körében. Míg az előbbi kis mérete miatt népszerű, a másik a viszonylag pontos színmegjelenítésének köszönhetően hiteles másolati-képet ad vissza a digitalizált anyagról.

Szöveges digitalizáció esetében szintén célszerű egy elterjedt fájlformátum kiválasztása. Ezek lehetnek: .DOC .RTF .PDF .PHP .HTML. Fontos megjegyeznünk, hogy a kiadói formátumok (QuarkXPress, PageMaker, Corel Ventura, Corel Draw, különböző e-book típusok) rendszerint zárt formátumok, ezeknek a konverziója mindenképpen ajánlott, amennyiben a dokumentumot szélesebb olvasói rétegnek történő megjelenítésre szánjuk.

Interneten való megjelenítéshez a két legjobban elterjedt formátum ajánlható: a .PDF5 és a .HTML6. A PDF közkedvelt formátum, mert egyszerűen – és akár ingyenesen használható szoftverrel is – létrehozható; tartalma jelszóval védhető; a tartalom megjelenése ugyanaz, mint a szerző gépén; kis fájlmérete miatt gyorsan letölthető. Beolvasásához az ingyenesen letölthető Adobe PDF Reader7 vagy valamely más gyártó által kifejlesztett PDF olvasó szükséges.

A másik elterjedt fájlformátum az interneten a HTML. Jellemzői, hogy csupán alapvető programozási ismeret szükséges hozzá; a digitális tartalom gyorsan megjeleníthető; kicsi a fájlméret; gyors keresési lehetőség van a szövegben. Beolvasásához az operációs rendszerrel8 együtt a számítógépre telepített ingyenes webböngésző9 program szükséges. Természetesen alternatív böngészők használata is lehetséges. Az interneten a szöveges fájlformátumként megjelenített dokumentumok 95 százaléka valamelyik .HTML verzióban íródott, így a legelterjedtebb formátum az interneten.


3. ábra — Egy HTML programkód részlete


  • Forrás: Ambrus Attila József: A Gutenberg- és a Neumann-galaxis: Könyvek és könyvtárak, olvasók és könyvtárosok a harmadik évezredben (kézirat) PTE, FEEK, Könyvtártudományi Intézet, 2010
  1. A szkenner (más néven lapolvasó) a számítógép olyan perifériája, mely szövegek, képek digitalizálására, számítógépbe való bevitelére szolgál, ezt a munkafolyamatot nevezzük szkennelésnek.
  2. Erre a kép digitalizálási és szövegkeresési lehetőségre lásd Hajnal-Ward Judit: Digitalizálás DjVu-val magyarul = Könyvtári Figyelő, 52. évf., 2006/1. sz., 129-137. o. http://epa.oszk.hu/00100/00143/00058/hajnal-ward.html (2010.08.17.) cikkét. A cikkben a szerző ajánlást tesz a DjVu képformátumra, kiemelve a formátumnak a kis méretét és full textes kereshetőségét. Ezenkívül lásd még az alábbi weboldalt, melynek beazonosíthatatlan készítője lépésről lépésre leírja a DjVu készítés rejtelmeit. http://oldradio.tesla.hu/hogyan/hogyan.htm (2010.08.17.) Jelenleg sok helyen próbálkoznak ezzel a formátummal, azonban a kezelése a leírtakhoz képest néha nehézkes. Erősebb gépigényt és átviteli sebességet kíván. Nagyobb oldalszámú dokumentumok esetében akadozik a lapozás. Azonban jpg és a png kiterjesztésre a böngészők teljes mértékben felkészültek, a megjelenítésnél nem szükséges a weboldalba ágyazni szkripteket, tehát amennyiben a forráskód helyesen lett megírva a megjelenítő oldalban, nagy valószínűséggel zökkenőmentes lesz az oldalkép betöltése. A lapozómenü elkészítése, vagy sablonszerű beágyazása is csak perceket vesz igénybe. Cserébe viszont egy univerzálisan platformfüggetlen megjelenítési lehetőséget kapunk. A képoldalak OCR-ezése után a képoldalak szöveges (txt) mentése után, a lapozófelületbe ágyazott kereső rutinnal (akár adatbázisból) rákereshetünk az adott szövegrészre, és találatként a képoldalt automatikusan meg is jelentethetjük.
  3. A Joint Photographic Experts Group (JPEG) képek tárolására alkalmas fájlformátum. Kiterjesztéseként a .jpeg, .jpg, ritkábban a .jpe használt. A képen lévő információt veszteségesen tömöríti ez a formátum. Bár a tömörítés információveszteséggel jár, akár 10-100-szor kisebb fájlméret mellett is élvezhető a tömörített kép. Elsősorban fényképek, rajzok tárolására való.
  4. Portable Network Graphics (PNG) képek tárolására, veszteségmentes tömörítésére alkalmas fájlformátum. Kiterjesztésként a .png írásmóddal használják. Grafikonok és egyéb hirtelen színátmenetű ábrák tárolására veszteségmentes tömörítésű formátum való, erre kiválóan alkalmas a .PNG.
  5. A Portable Document Format (PDF) az Adobe Systems által kifejlesztett bináris fájlformátum, mely formátumban dokumentumok tárolhatók, melyek különböző szoftverrel, különböző hardver és operációs rendszer alatt olvashatók és létrehozhatók. A PDF alkalmas szöveget, ábrát és képeket tartalmazó dokumentum leírására, eszközfüggetlen és felbontásfüggetlen formában. A dokumentum lehet egyoldalas vagy több ezer oldalas, egyszerű vagy összetett: sokféle betűtípussal, ábrával, színnel és képpel, továbbá tartalmazhat interaktív beviteli mezőket, nyomógombokat stb., lehetőséget teremtve arra, hogy üres űrlapokat hozzunk létre, amit a felhasználók később elektronikus formában is ki tudnak tölteni. A PDF egy nyílt szabvány, emiatt bárki jogdíjmentesen írhat olyan alkalmazásokat, amelyek olvasnak vagy írnak PDF formátumot.
  6. HyperText Markup Language [hiperszöveges jelölőnyelv] (HTML) egy leíró nyelv, melyet weboldalak készítéséhez fejlesztettek ki. Az SGML leegyszerűsített változata, amely ma már internetes szabvánnyá vált, a W3C (World Wide Web Consortium) támogatásával. Az aktuális változata a 4.01, amelyet lassan kiszorít az XHTML.
  7. Az Adobe Reader PDF dokumentumok on- és offline megnyitására alkalmas ingyenes szoftver. Ingyenesen letölthető a http://www.szoftverbazis.hu/szoftver/adobe-reader-v9--magyar.html (2010.08.17.) magyar címről vagy a gyártó oldaláról: http://www.adobe.com/products/acrobat/readstep2.html (2010.08.17.)
  8. Operációs rendszernek (rövidítése gyakran OS, az angol operating system forma alapján) nevezzük a számítástechnikában a számítógépeknek azt az alapprogramját, mely közvetlenül kezeli a hardvert, és egy egységes környezetet biztosít a számítógépen futtatandó alkalmazásoknak (például szövegszerkesztők, játékok stb.). A kezelt hardvererőforrásoknak része többek között a memória, a processzor, a merevlemez és a perifériális eszközök használata. Adalékként idézzük az ISO nemzetközi szabványosítási szervezet definícióját, mely szerint az operációs rendszer „Olyan programrendszer, amely a számítógépes rendszerben a programok végrehajtását vezérli: így például ütemezi a programok végrehajtását, elosztja az erőforrásokat, biztosítja a felhasználó és a számítógépes rendszer közötti kommunikációt.”
  9. Webböngészőnek vagy böngészőnek nevezzük azon programokat, melyekkel az interneten található tartalmakat – legtöbbször weblapokat – lehet megtekinteni, illetve az interneten át elérhető szolgáltatásokat használni.