Folyóirat indexelése Zebrával

Hegyi Ádám <dombi@pollux.bibl.u-szeged.hu>

SZTE Egyetemi Könyvtár

Folyóiratok tartalmi feltárása a hagyományos könyvtári munkafolyamat egyik nehéz feladata. A számítástechnika elterjedésével olyan lehetőségek is előtérbe kerültek, amelyek az egyes munkafolyamatok automatizálásán túl lehetővé tették a bonyolultabb tartalmi összefüggéseken alapuló visszakereséseket. Gondoljunk csak arra, hogy egyes nyomdai szövegformázások gyakran szemantikai jelentéssel bírnak, amelyek feltárása igen nehéz munka volt. Most viszont lehetőségünk nyílt arra, hogy akár tipográfiai megjelenítésre való visszakeresést is megvalósítsunk. Közismert, hogy nagy mennyiségű szöveg tartalmi feltárása cédulázással igen hosszú és bonyolult munka. Periodikák esetében ezért a tartalmi feltárás szintje egy-egy tanulmány, cikk leírására korlátozódik. Digitalizált formában viszont lehetőség adódik arra, hogy összetettebb tartalmi szempontoknak megfelelő keresést hajtsunk végre. Ennek alapját teljes szövegű adatbáziskezelő adhatja.

A Szegedi Egyetemi Könyvtárban elkészült a Széphalom című folyóirat 1927-1929 között megjelent számainak digitalizált változata. A megvalósítás keretét a Nemzeti Kulturális Alaptól nyert pályázat biztosította. A kivitelezés több lépésből állt, amelyről Bakonyi Géza részben már beszámolt az előző évi konferencián.

Az elmúlt egy év alatt elkészült a folyóirat teljes szövegű adatbázisa. A célunk a kivitelezés során az volt, hogy weben keresztül legyen elérhető a Széphalom című folyóirat teljes szövege és az ebben való keresését is tegyük lehetővé. Rendelkezésünkre álltak már az 1927-1929 közötti számok XML-ben elkészített változatai, illletve minden egyes oldal PDF-ben tárolt formában.

Több problémát kellett a megvalósítás során megoldanunk. Első lépésben az XML szövegek adatbázisba való építését kellett megoldani. Ezután a visszakereshetőséget kellett biztosítani. Miután ez elkészült, azután a weben való megjelenítés problémája merült fel.

Adatbázis építéséhez szükségünk volt egy fulltextes adatbáziskezelő szoftverre. A választásunk az Index Data cég Zebra nevű szoftverére esett. Ez a szoftver nonprofit szervezetek számára, -mint amilyen az Egyetemi Könyvtár-, ingyenes. A választás azért esett rá, mert képes XML tagek felindexelésére. Ezenkívül, mivel eredendően könyvtári használatra készült, képes a Z39.50 szabványt, valamint a GILS metaadat-készletet is kezelni. Egyik hátránya viszont, hogy csak egy adatbázist lehetv vele kezelni. Amennyiben szükségessé válik több folyóirat szöveges adatbázisba tétele, úgy meg kell vásárolni a Zebra üzleti változatát.

A Zebra nevű adatbáziskezelőhöz tartozik az úgynevezett YAZ-kliens, amelyre a Zebra telepítésekor és az adatbázisban való keresésekor van szükség.

Az XML-ben készült szövegfile-ok csak szemantikai szempontok alapján készült tageket tartalmaztak, amelyekre való visszakeresést a Zebrával oldottuk meg. A Zebrában megtalálható egyik attribútumhalmazt kibővítettük azokkal az XML elemekkel, amelyekre az indexelést meg akartuk valósítani:

szerző
cím
kiemelt szöveg
vers
versszak
verssor
jegyzet
lábjegyzet
dátum
főszöveg

HTML űrlapon kereshető mezők

<?xm1 version="1.0" encoding="UTF-8"?>

<!ELEMENT cim (#PCDATA)>

<!ATLIST cim

type CDATA #REQUIRED

<!ELEMENT csillag (#PCDATA)>

<!ELEMENT foszoveg (italic)>

<!ELEMENT italic (#PCDATA)>

<!ELEMENT szephalom (cim, szoveg)>

<!ELEMENT szoveg (foszoveg) | csillag)+>

A "Széphalom" XML részlete

A Zebrában ezáltal kereshetővé váltak az XML elemekkel tárolt szövegrészek, de ezek a weben nem megjeleníthetőek. A megjelenítéshez szükséges a YAZ-kilens és egy PERL script, amelyek a webes keresést lehetővé tették.

A legfontosabb annak a problémának a megoldása volt, hogyan lehet XML file-okat az elterjedt böngészők által egyszerűen és gyorsan megjeleníteni. A Zebra adatbáziskezelő ugyan képes arra, hogy az XML tageket felindexelje, és keressen is bennük, de a találatokat bonyolult, nehezen átlátható eredménylistában jeleníti meg, ugyanis az XML elemek közötti találatot úgy mutatja meg, hogy a teljes XML struktúrát is kiteszi a találatok közé. Az élvezhetőbbé tétel érdekében ezért kellett egy PERL scriptet írni, amely a HTML-be való átalakítást végzi el. Az adatbázisban való keresés tehát több összetett lépésből áll.

Az adatbázisban való keresés egy HTML űrlap kitöltésével történik. Itt lehetőség van Boole - operátorok használatára. Azokra az XML elemekre lehet keresni, amelyeket a Zebrában felindexeltünk. (cím, verssor, verscím, stb.) és a keresés operátorok által egyszerre több mezőre is megvalósítható. A keresőkérdés lekérdezése eleve csonkolva történik. A találatok megjelenítésekor az adott szöveg teljes egészében betőltődik, amelyben egy fejlécben a kiadási, terjedelmi adatokat kiemeltük. Innen elérhető az adott folyóiratoldal PDF formátumú verziója is. Maguk a találatok élénk színű kiemeléssel vannak jelölve. Több találat esetén egyszerűen görgetni lehet az adott szöveget. A különböző szemantikai jelentéssel rendelkező találatokat eltérő HTML formázási elemekkel jelenítjük meg. Így például a szerzőt 14 pontos, félkövér, dőlt karakterekkel.

A találati oldal szerkezete layerekkel van megoldva. Ennek megfelelően a megjelenítendő szövegek közötti görgetés úgy valósul meg, hogy a láthatóvá tett layer rész folyamatosan csúszik a szöveg felett. Ezáltal a szöveg görgethető. Az élvezhető bönhészéshez ezért ajánlott minél magasabb verziószámú böngészőt használni. A keresést példákkal illusztrált Help oldal segíti.

Az űrlapon elküldött kérdéseket a webszerver kapja meg, amelyen egy PERL Script értelmezi azt. Az átalakított kérdéseket Z39.50 szabványnak megfelelő keresőkérdés formájában kapja meg a YAZ- kliens, amely továbbítja azt a Zebra számára. A Zebra elvégzi a keresést és visszaküldi azt Z39.50-es szabvány szerinti eredményhalmazban a YAZ számára. Ezen műveletek során a Zebra Z-szerverként a YAZ Z-kliensként működik. A találathalmazban a teljes XML file benne van. Ennek élvezhető olvasását a PERL script valósítja meg azzal, hogy stíluslapokon definiált formázásokat adott HTML elemekkel helyettesít. A találati halmaz ezzel böngészőprogramokkal megjeleníthetővé vált.

Az adatbázis működését a könyvtár webszervere biztosítja, amelyen a Zebra és a Széphalom adatbázis található.

A kivitelezés során több apró problémával is találkoztunk. Egyik ilyen volt, hogy az XML file-ok szerkesztésük során UNICODE karakterkészletben készültek. Amikor ezeket Linux alatt néztük, több értelmezhetetlen karaktert is láttunk egy-egy file-ban. Ezek eltüntetésére szükséges volt az XML dokumentumok átkonvertálása sima szöveges file-ba (.xml.txt). Így csak olyan karakterek maradtak, amelyek kezelhetővé váltak Linux számára is. Egy másik problémát jelentett az, hogy hogyan lehet definiálni a Zebra adott attribútumhalmazában olyan XML elemeket, amelyeket mi akarunk felvenni. Ennek a megoldása lett a Zebrában található egyik attribútumhalmaz kibővítése.

Jelenleg a Széphalom című folyóirat 1927-1929 közötti példányainak teljes szövege elérhtő az interneten és abba megadott szempontok alapján lehet keresni. Ezzel lehetővé vált több irodalomtörténet szempontjából érdekes kérdés egyszerű megválaszolása is, mint például az, hogy hányszor, milyen szövegkörnyezetben, milyen értelemben használta egy-egy költő például a forradalom kifejezést, hiszen akár egy mű, akár egy évfolyamban lehetővé váltak az ilyen típusú kérdések.