A XIX. századi magyar irodalom és művelődéstörténet elfeledett forrásai (Digitális szöveggyűjtemény)
Simon Melinda Klára <msimon@sol.cc.u-szeged-hu>
Szegedi Tudományegyetem
Beszámolóm három szegedi intézmény (a Klasszikus Magyar Irodalmi Tanszék, a könyvtáros-informatikus képzés, valamint az Egyetemi Könyvtár) közös munkájáról szól.
A fenti munkacímet viselő digitális szöveggyűjteményben a XIX. század második felében megszaporodott hírlapokban és folyóiratokban lappangó írásokat tervezzük összegyűjteni és a kutatások számára hozzáférhetővé tenni.
A korszak kiválasztásánál döntő szerepet játszottak a Klasszikus Magyar Irodalmi Tanszéken már megkezdett kutatások. A Tanszéken folyó kutatási programokkal összhangban a projekt nem elsősorban a XIX. század kanonizált életműveinek digitális kiadásához kíván hozzájárulni, hanem a kánonon eddig kívül maradt, de figyelemre érdemes, mindenekelőtt elméleti-kritikai jellegű szövegek felkutatásával és digitális úton való közzétételével.
Ezek kiválasztásához a rendszeres kutatómunkát a Klasszikus Magyar Irodalmi Tanszék hallgatói és PhD-hallgatói végzik a Tudományegyetem Központi Könyvtára munkatársainak hathatós segítségével. A munkamenet módszertanának kidolgozására egy kurzus is indult a Bölcsészettudományi karon, amelynek keretében meghatározzuk a gyűjtőkört és a feldolgozás milyenségét. (Pontosan meg kell határoznunk pl. a megírandó tartalmi kivonatok terjedelmét, a személynevek egységesített alakját stb.)
Nem egész folyóiratok, hanem az azokban megjelent cikkek, tanulmányok digitalizálásáról van szó. Ez nem is lenne lehetséges a jelenlegi munkatársi gárda korlátozott létszáma és a folyóiratok nagy terjedelme miatt.
Az anyagok kiválasztása a tanszék oktatóival közösen kialakított elvek szerint történik: a célba vett korszak a XIX. század második fele, a későbbi korszaktágítás lehetőségét fenntartva. A keresés úgy történik, hogy az egyes hallgatók elvállalják egy-egy folyóirat összes évfolyamának átnézését, és kiválogatják a digitalizálásra szánt írásokat.
Az 1850-es korszakhatárhoz nem ragaszkodunk mereven; ha egy folyóirat a negyvenes évek végén már megindult, ezeket az évfolyamokat is belevonjuk a keresésbe. A célunk az, hogy a kiválasztott irodalomtörténeti dolgozatok, kritikák, műelemzések stb. segítségével a XIX. század irodalomszemléletének változásait, az irodalomról való gondolkodás rétegeit a lehető legszélesebb spektrumban megmutassuk. Reméljük, hogy a digitális szöveggyűjtemény elkészültével az úgynevezett "másodvonalbeli" szerzők színvonalas írásai méltó helyükre kerülnek a magyar irodalomtörténetben, illetve az ismert szerzők kevésbé emlegetett, olvasott cikkei is előtérbe kerülnek.
Néhány a "célba vett" szaklapok, irodalmi lapok, napilapok közül: Pesti Hírlap, Fővárosi Lapok, Vasárnapi Újság, Magyar Szalon, Budapesti Szemle, Századok, Keresztény Magvető, Koszorú, Szépirodalmi Figyelő, Nemzet, Hon stb.
A szöveggyűjtemény létrehozásának fontosságát igazolja, hogy többnyire nehezen elérhető folyóiratokról és önálló kötetben nem megjelent cikkekről lévén szó, ezek az írások eddig teljesen kimaradtak a "kanonizált" XIX. századi szövegek korpuszából, tanulmányozásuk viszont nélkülözhetetlen a korszak irodalomtörténetének alapos megismeréséhez.
Az összegyűjtött anyag virtuális szöveggyűjteményként oktatási segédanyagként fog szolgálni, nem csekély segítséget nyújtva egyúttal a Tanszék PhD-hallgatóinak saját kutatási témájuk feldolgozásában.
A szöveggyűjtemény nem szerveződik teljes szövegű adatbázisba, ezt a lehetőséget a munka esetleges későbbi folytatásaként azonban el tudjuk képzelni: a képként tárolt oldalak szövegének felismertetésével és szöveges formátumban való tárolásával a felhasználás sokkal szélesebb lehetőségei nyílnak majd meg az érdeklődők előtt: a szövegek böngészhetővé, más szöveges formátumokba konvertálhatóvá, idézhetővé, másolhatóvá, esetleg nyomtatott kiadványba illeszthetővé válnak.
Mivel azonban a jelenlegi elképzelésben is létfontosságú a kereshetőség biztosítása, ezt a tanulmányokban foglalt információk szerinti tárgyszavazás fogja lehetővé tenni. A tartalmi feltárás szakszerűségére és sokoldalúságára a munkának ezt a részét végzők tapasztalata és képzettsége a biztosíték: a Tanszék PhD-hallgatói figyelmesen elolvassák a cikkeket és a bennük foglalt információk függvényében tárgyszavakat adnak. A használt tárgyszavakból egy "házi" tezauruszt szeretnénk felépíteni, amely (a sok közreműködő ellenére) lehetővé tenné az egységességet és elkerülhetővé a redundanciát.
A munkafolyamatot a következőképpen tervezzük: a cikkek kiválasztását követően el kell dönteni, hogy az illető folyóirat állapota, papírja és a nyomtatás minősége megengedi-e a szkennelést, vagy a digitális fényképezőgépet kell használnunk. A szkennelést a hallgatók maguk végzik, a digitális fényképezőgépet az Egyetemi Könyvtár szakképzett es tapasztalt munkatársai kezelik. A fotókat az Egyetemi Könyvtár egy e célra kialakított, megfelelő megvilágítású helységében készítjük. A közreműködés előnye többek között, hogy így a fényképezni kívánt folyóiratokat nem kell nagy távolságra elmozgatni, s ezzel az esetleges sérülések veszélyét is a minimálisra csökkenthetjük.
Az általunk használt digitális fényképezőgép maximálisan 1240 x 1024-es felbontást tud elérni. A cikkek oldalairól készült képeket három méretben tároljuk: egy nagy felbontású változatban (a nyomtathatóság lehetőségét biztosítandó), egy 800 x 600-as felbontású változatban (a hálózaton való hozzáférés biztosítására), és egy bélyeg-formátumban azért, hogy a gyűjteményben esetleg csak böngészni kívánók dolgát se nehezítsük meg. A gyűjteményben való navigálás során ezekre kattintva lesznek előhívhatók a képernyőről való olvasásra alkalmas képek.
A szakirodalom adatai szerint az ilyen jellegű dokumentumokat a legjobb két byte-os kódolással (fekete-fehéren) tárolni, mert így a legolvashatóbb a lefényképezett szöveg, illetve az esetleges későbbi szövegfelismertetéskor az OCR-programok is sokkal könnyebben boldogulnak vele. Természetesen a munka folyamán rendszeresen ellenőrizzük az elkészült képeken, hogy a fentebbiek teljesülnek-e és ha kell, módosítjuk elképzeléseinket.
A fotózás után - vagyis inkább ezzel párhuzamosan - rögzítjük a folyóirat, valamint a folyóiratban megjelent tanulmány bibliográfiai adatait és elvégezzük a tartalmi feltárást (abstract elkészítése, a tartalmi deszkriptorok meghatározása). Mivel általában sokoldalas, nagy terjedelmű írásokról van szó, a tárgyszavazás során előforduló neveket nem csak a dokumentumhoz, hanem magához az előfordulási oldalhoz is hozzákötjük, hogy a visszakeresés során könnyebben azonosítható legyen az előfordulási hely. A nevekről természetesen egységesített névalakú mutató is készül.
Az összegyűjtött anyagot az Egyetemi Könyvtár egyik Linux-os szerverén futó relációs adatbázisban és egy vele párhuzamosan működő képszerveren fogjuk tárolni. A relációs adatbázis tartalmazni fogja a képek adatait, a bibliográfiai leírásokat és a tartalmi feltárás adatait. Az adatbázis elé egy webes alkalmazói felület kerül, amelyen keresztül ez egyszerre lekérdezhetővé és feltölthetővé válik. A képszerveren - értelemszerűen - az elkészített képek különböző változatait fogjuk tárolni.
Fontos, hogy az adatbázisunk más könyvtári adatbázisokkal összekapcsolható legyen, így az adatok hozzáférhetővé válhatnak más rendszerek lekérdezései számára is.
Az adatokat XML-technológiával kezeljük, amely - legalábbis viszonylagos - biztosíték arra, hogy a tárolt adatok belátható időn belül nem avulhatnak vagy veszhetnek el.
Az adatokkal való feltöltést különválasztva is lehet majd végezni: a képek készítését, a bibliográfiai leírásokat és a tartalmi feltárást párhuzamosan végzők jelszóval férhetnek majd hozzá az adatbázishoz és egymástól függetlenül végezhetik munkájukat. Ez nagy rnértékben megkönnyíti a hallgatók időbeosztását: míg egy részük a folyóiratok átnézésével van elfoglalva, egyikük szkennelheti az erre alkalmas cikkeket, és azokat, amelyeket digitális fotózásra előkészítenek, alkalmanként lefényképezzük.
A jelszóval rendelkező hallgató bármely napszakban -- és bárhonnan - láthatja a már archivált anyagot, így tudja az elkészült leírásokat kiegészíteni, hozzárendelni az általa elkészített tartalmi adatokat.
Az adatbázishoz való szélesebb hozzáférhetőséget intraneten vagy CD-n tartjuk elképzelhetőnek.