Forrás alapú kereső rendszer az Interneten

BME, Automatizálási és Alk. Informatikai Tanszék

A jelenleg elterjedten használt, indexelt adatbázis alapú Internetes keresőknek számos hiányosságuk van. Pontatlanok, nem elég naprakészek, nem képesek lépést tartani a web fejlődésével. A problémák legfontosabb oka, hogy a keresést végző alkalmazás (a web robot) nincs közvetlen kapcsolatban a kereső emberrel, ezért nem valamely pontosan meghatározott, specifikus dolgot keres, hanem megpróbálja a weben fellelhető összes információt egy adatbázisba zsúfolni.

Az általam elképzelt új kereső rendszer központi eleme az információ források címét tároló adatbázis. Az információ forrás egy web oldal. Egy olyan web oldal, amelyen keresztül egy adott típusú információt gyorsabban, hamarabb talál meg egy web robot, mint egy más web oldal közvetítésével. Az indexelt adatbázis alapú keresők például tekinthetők információ forrásnak, mégpedig általános információ forrásnak, hiszen a legtöbb információ esetén valószínűleg közelebb visznek az információ megtalálásához, mint általában egy másik oldal. Ugyanakkor vannak speciális tudások, amelyekhez bizonyos oldalakon keresztül hamarabb eljutni, mint a keresőkön keresztül mert esetleg a keresők is ezeket az oldalakat adják meg az adott téma keresése esetén. A cél egy olyan adatbázis fölállítása és folyamatos tovább építése, ahol nem az indexelt adatok találhatók, hanem azoknak az oldalaknak a címei, amelyek információ forrásként felhasználhatók. Az adatbázis találatai nem pontos eredmények, csak bemenetek egy web robot számára, amely így nem tetszőleges oldalakon, hanem célzottan indul el, és próbálja a kérdéses információt megtalálni. Természetesen a forrás adatbázis is folyamatosan változik, hiszen a megtalált vagy érintett oldalak is potenciális források.