Magyar nyelvű internetes keresők vizsgálata a relatív teljesség és pontosság szempontjából



Szerző: TÓTH Erzsébet
kategória: 54. évfolyam > 2008. 4. szám
Hozzászólás: 0

Előljáróban

A html-dokumentumok gyors elérését a szerveroldali keresőszolgáltatások biztosítják. E szolgáltatások lehetnek globálisak, ha gyűjtőkörük a web egészére terjed ki, lehetnek nemzetiek, ill. regionálisak, vagy speciális tartalmú, esetleg speciális típusú html-dokumentumot szolgáltatók. Az információkereső rendszerek hatékonysága több szempont szerint vizsgálható, így például a keresési eszközök gazdagsága, az átvizsgált adatbázisok nagysága, a keresési eredmények relevanciája stb. szerint.
Egy keresőszolgáltatás hatékonyságának jellemzésére jómagam a keresés pontosságát és a keresés teljességét kifejező mutatókat tartom leginkább jellemzőnek, ezért e két szempont megvalósulását elemeztem öt magyar nyelvű keresőszolgáltatásban.1
Pontosság alatt a releváns dokumentumoknak a visszakeresett dokumentumok összességén belüli arányát, teljesség alatt pedig a megtalált releváns dokumentumoknak az összes (akár talált, akár nem) releváns dokumentumhoz viszonyított arányát értettem (Ungváry, 2001.196–197. p.).

Mit és hogyan?

Az indexelő-szolgáltatások (keresőgépek, katalógusok) úgy dolgoznak, hogy meghatározott időközönként szisztematikusan átnézik a hálózaton lévő dokumentumok jellemző adatait és az indexkifejezéseket. "Többségük nem a teljes szöveget nézi át, hanem csak a dokumentum elején meghatározott számú (pl. 20–30) sort, és egy részük figyelembe veszi a címfejben szereplő metaadatokat is, ha léteznek. A szolgáltatások általában arra törekszenek, hogy a teljesség legyen nagy, ezért a pontosságról eleve nincsen szó" (Ungváry – Vajda, 2002. 111. p.).
A pontosság és a teljesség között fennálló összefüggésről elmondható, hogy a pontosság a teljesség hátrányára  érvényesül (Brin – Page, 1998. 3. p.), és mivel e két fogalom fordított arányban áll egymással, ezért az ideális keresési állapot lényegében sosem érhető el. Minél teljesebb egy keresés, annál pontatlanabb,  mert a teljesség növelésével csökken a pontosság és viszont: a pontosság növelése a teljesség csökkenését vonja maga után (Horváth – Sütheő, 2003. 180. p.).
Elemzéseim a következő öt magyar nyelvű keresőszolgáltatásra irányultak: az AltaVizslára, a Heurékára, az Origo-Vizslára, a Kurzorra és a Góliátra. (Nem vizsgáltam viszont a több nyelvű, ill. a magyar nyelven is használható egyetemes keresőszolgáltatásokat.)
A pontosságot a használat és a hatékonyság összefüggéseiben elemeztem négy keresőkérdés feltételével és az első hatvan találatban. Azért csak az első hatvan találatig, mert a Google fejlesztőinek adatai meggyőztek arról, hogy a használók csak az első tíz-húsz találatot veszik figyelembe. Nem véletlenül törekednek a fejlesztők arra, hogy a keresőkérdésekre a leginkább releváns találatok a találati lista legelején jelenjenek meg.
A használat szerinti elemzés megmutatja, hogy a vizsgált keresők hány releváns találatot tudnak visszakeresni az első, a második és a harmadik húszas találati blokkban. Ez fontos jelzés a használók számára, mert ennek alapján eldönthetik, melyik keresőt érdemes használniuk a releváns információk felkutatására.
A találatok relevanciáját a közölt találati lista sorrendje alapján állapítottam meg. A találati pontosságra kiszámítottam egy százalékértéket, ami megmutatta, hogy hány százalékban kaptam releváns találatokat az adott keresőkérdésekre a vizsgált első, második és harmadik húsz találatból. Megnéztem, hogy ezekből milyen következtetést lehet levonni a releváns találatok számára a találati halmaz hátralévő részére.
A teljesség vizsgálatát a szakirodalomból ismert relatív teljesség alapján végeztem el, ami a következőképpen számolható ki: az adott kereső által visszakeresett releváns dokumentumok száma osztva az összes vizsgált keresők valamelyike által megtalált releváns dokumentumok számával (Clarke – Willett, 1997. 185–187. p.).
Lefuttatott keresésem a teljesség mérésére a csiperkegombával foglalkozó forrásokra irányult. A "csiperkegomba" témakörre irányuló kereséskor a releváns találatok halmaza huszonegy releváns dokumentumból állt. A 21-es halmazt a vizsgált keresők összes visszakeresett találatából nyertem. Ezután nyomon követtem a témára vonatkozó hiperhivatkozásokat, valamint a kapcsolódó szinonimákat is. A kiválasztott releváns weboldalak referenciaként kerültek bele a halmazba és bárhonnan felkutathatók voltak a weben. Ezt követően megnéztem, hogy az egyes keresők mennyire voltak képesek megtalálni a halmaz releváns dokumentumait a saját találati halmazukban. Ezek alapján kiszámoltam egy százalékértéket a relatív teljességre vonatkozóan, ami kifejezte, hogy az egyes keresők a vizsgált halmaz releváns dokumentumainak hány százalékát találták meg.
Egy weboldalt akkor minősítettem relevánsnak, ha tartalmazta a megadott keresőkérdést és/vagy annak más egyéb szinonimáit; ha technikailag bármikor elérhető volt; ha magyar nyelven jelent meg; és ha tartalmában és teljes terjedelmében szorosan kapcsolódott a megjelölt témához.
Az utóbbi feltétel teljesülése érdekében a weboldalak tartalmát minden esetben külön is ellenőriztem, és formai szempontok szerint is meggyőződtem megbízhatóságukról és hitelességükről. Ha a definiált feltételek együttesen nem álltak fenn, akkor a weboldal vizsgálatom számára nem minősülhetett relevánsnak.
A keresőkérdések szinonimáival kapcsolatban megjegyzem, hogy a szemantikus keresők elméletileg megtalálják egy téma szűkebb vagy tágabb értelemben vett szinonimáit, de az eldöntendő kérdés lett számomra, hogy mikor tekinthetek egy szinonimát a téma szempontjából is relevánsnak. A relevancia értelmezése nagy körültekintést igényelt.

A vizsgálatban szereplő keresőeszközök

Vizsgálatomhoz azért választottam a már említett öt magyar nyelvű keresőt (Heuréka, Origo-Vizsla, Kurzor, Góliát és az AltaVizsla), mert azon túl, hogy ezek a leggyakrabban használt keresőgépek a magyar használók körében, elmondható, hogy találatszolgáltatásuk megbízható, rövid válaszidőn belül képesek megfelelő mennyiségű találatot adni a lefuttatott keresésekre. Kritikaként annyit jegyeznék meg, hogy nem szűrik ki az ismétlődő találatokat a találathalmazokban, ezért a felbukkanó duplum oldalak növelik a zajos találatok számát, (ezeket irreleváns dokumentumoknak tekintettem).
Keresőkulcs vagy keresőkulcs érték alatt azokat a használók által megadott releváns kulcsszavakat értem, amelyekre a keresőgépek a weboldalak visszakeresését végezték. Használom még a témakör kifejezést is. Egy adott témakört egy speciális keresőkulcs érték jelölt (például a "szökőár" keresőkulcs érték fejezi ki a "szökőár" témakört). A továbbiakban a témaköröket, a keresőkulcsokat, illetve a keresőkulcs értékeket relációs jelek között dőlt betűvel jelölöm.

A vizsgálat során használt keresôkulcsok

Vizsgálatomat 2006 januárja és júniusa között végeztem el manuális úton, hogy kiküszöböljem az automatizálásból eredő téves értelmezéseket és hibákat, összesen öt témakörben. Választott témáim a következők voltak: , , , , .
Az öt téma közül csak egy irányult a teljesség vizsgálatára (), a fennmaradó négy téma (, , , ) a pontosság tanulmányozására szolgált.
A teljesség vizsgálatára olyan összetett keresőkérdést fogalmaztam meg, amely teljes mértékben figyelembe vette a megadott témakör sajátosságait, míg a pontosság vizsgálatakor először rögzítettem az egyes keresőkérdésekre kapott összes találat számát, melyre azért volt szükség, mert az összes találati szám alapesetben befolyásolja a releváns találatok számát a találathalmaz további (hátralévő) részében.
A lekérdezett dokumentumokat teljes weboldalként saját gépemre mentettem az Explorer böngészőn keresztül. Tekintve, hogy a pontosságot csak az első hatvan találatig tanulmányoztam, ezért értelemszerűen csak ezt a találatmennyiséget mentettem el. A mentéseket logikus felépítésű könyvtár struktúrába rendeztem, melyben a könyvtárak elnevezései a vizsgált keresőknek, az alkönyvtárak nevei pedig a keresőkérdéseknek feleltek meg. A találatok tartalmát a kérdések lefuttatása után egyenként is átnéztem, mert a relevancia megállapítása megkövetelte az alapos ellenőrzést. A relevancia megállapítására nem hoztam létre külön kategóriákat, de a találatok teljes szövegéből kiemeltem azt a részt, aminek alapján az adott találatot relevánsnak minősítettem. Az 1. függelékben közlöm az általam relevánsnak tekintett találatokat témakörben, ahol feltüntetem, hogy melyik kereső kereste vissza az adott találatot a vizsgálat során. Továbbá jelölöm, hogy melyek azok a releváns, bárhonnan felkutatott hiperhivatkozások, amelyeket egyik vizsgált kereső sem talált meg. A 2. függelékben összefoglalom az egyes keresőkulcsokra lekérdezett releváns és összes találatok számát.

A keresőkulcsok kiválasztása

A vizsgálat megtervezésekor arra törekedtem, hogy megtaláljam azokat a kere¬ső¬ki¬fe¬jezéseket, amelyek kielégítik a vizsgálat cél¬kitűzéseit. Először próbakereséseket futtattam le, majd az ekkor szerzett tapasztalatokra támaszkodva a későbbiekben pontosítottam szempontjaimat. A próbakeresések egyértelművé tették, hogy olyan keresőkérdéseket célszerű használni a vizsgálathoz, amelyek minél pontosan behatárolják a témát. Például  a keresőkulcs sok használható találatot hozott. Egy túl általános kifejezés fölöslegesen sok irreleváns találatot eredményez. (Ezért hagytam ki pl. a keresőkulcsot, mert túl sok zajos találatot kaptam.)
Ezután próbakereséseket végeztem többszavas keresőkérdésekre is keresési operátorok ("..." jel, ÉS, + jel) segítségével. Kiválasztottam a keresőkérdést, amely ugyanabban az értelemben használatos a pszichológiában, mint az . Erre a kifejezésre keresve túl sok irreleváns találatot kaptam (pl. sok olyan oldalt szolgáltattak a keresők, amelyek általában az egészséges életmóddal és az étrenddel foglalkoztak). Ezért elvetettem a többszavas keresőkulcs használatát és helyette az keresőkérdést alkalmaztam, amellyel lényegesen több használható találatot kaptam. Kipróbáltam még a keresőkulcsot is, amely ugyanabban az értelemben használatos kifejezés a pszichológiában, mint az előző két keresőkérdés. Az így feltett keresés témába vágó találatokat eredményezett ugyan, de a találatok kis száma miatt mégsem vettem figyelembe ezeket. Kis találatszámúnak a hatvan találat alatti halmazokat tekintettem. Mivel e találatmennyiségnek a megléte a pontosság tanulmányozásának alapkritériuma volt, ezért ehhez ragaszkodnom kellett a vizsgálat során.
A másik kifejezés: a keresőkulcs érték egyértelműen meghatározott egy magyar történelmi eseményt, ezért nem volt meglepő, hogy sok releváns dokumentumot kaptam. Összetett alakja ellenére egzakt keresőkérdésnek minősült.
A pontosság vizsgálatakor alapkövetelménynek tekintettem, hogy csak olyan témákat vegyek figyelembe, amelyekre elegendő számú releváns találatot kapok. Ezért pl. az keresőkulcs nem felelt meg a célkitűzéseimnek, mert kevés releváns weboldalt eredményezett. Ezzel szemben  a keresőkulcs értékre gazdag és releváns dokumentumanyagot kaptam, ezért ezt megfelelő keresőkérdésnek tekintettem.
A teljesség vizsgálatakor nehezebb dolgom volt, mert utána kellett néznem az adott téma specifikus jellemzőinek. A témakörhöz kapcsolódóan a következő keresőkulcs értékeket határoztam meg: , , , . Igyekeztem olyan keresőkérdéseket választani, amelyek pontosan körülírták a fogalmat. A keresőkulcsokból végül – egy kivételével – kizártam a csiperkegomba különböző fajait és latin nyelvű megnevezéseit. Elektronikus növény- és állatrendszertani tezauruszban, valamint egy gombákkal foglalkozó szakkönyvben jártam utána, milyen egyéb szinonimákat szoktak használni a szakértők a csiperkegombára. (Albert–Locsmándi–Vasas, 1995. 20. p.; Taxaurusz, 2000). Ekkor találtam rá a "sampinyon" szinonimára, de észrevettem, hogy ezt a megnevezést csak a kétspórás csiperkére és a termesztett csiperkére használják. (Megjegyzem, hogy a csiperkegomba legismertebb termesztett fajának a kétspórás csiperkét tekintik általában.) Ezért a , a és a keresőkulcsokat is releváns keresőkérdésként kezeltem. Megtaláltam a kétspórás csiperkének az latin nyelvű megnevezését is, amit szintén releváns keresőkulcsnak értékeltem. Mindegyik keresőkulcsot külön-külön lefuttattam az egyes keresőkön. A kapott találatokból – tartalmi ellenőrzés után – kiválasztottam azokat a relevánsakat, amelyeket még egyszer külön is ellenőriztem a keresőkben.

A pontosság vizsgálata

A "Rákóczi-szabadságharc" témakör
Ebben a témában túl sok releváns forrást találtam az interneten, melynek az a magyarázata, hogy akkoriban (2006) emlékeztünk meg a szabadságharc elindulásának 300. évfordulójáról. Az évfordulóval foglalkozó weboldalak közül azokat tekintettem relevánsnak, amelyekben részletes leírást is találtam a szabadságharc eseményeiről, illetve vezéralakjairól. Relevánsnak vettem a szabadságharc különböző aspektusait bemutató tudományos igényességgel készült szakcikkeket, tanulmányokat, konferencia-előadásokat. Voltak relevánsnak minősíthető érettségi tételek is a témáról, és találtam olyan írásokat is, amelyek a szabadságharc egy adott településhez kapcsolódó eseményeit mutatták be.  Ezeket az oldalakat a helyismereti kutatásra tekintettel minősítettem relevánsnak. Nem vettem fel viszont olyan weboldalakat, ahol csak néhány mondatban hivatkoztak a Rákóczi-szabadságharcra mint a település életében lezajlott eseményre. Relevánsnak ítéltem meg a Magyar Elektronikus Könyvtárban található digitalizált kézikönyvek vonatkozó fejezeteit, valamint az elektronikus lexikonok (például Magyar Virtuális Enciklopédia, Wikipédia) szócikkeit is.

A "szökőár" témakör
Ezzel a témával kapcsolatban ugyancsak sok hírt, cikket, ismeretterjesztő szintű írást találtam. Nem minősítettem relevánsnak azokat az oldalakat, amelyek egyes országok és neves cégek jótékonysági célú adományozásairól számoltak be a katasztrófától sújtott területeken. Relevánsnak vettem viszont azokat az oldalakat, amelyek a katasztrófák következményeiről, valamint a nemzetközi humanitárius szervezetek különböző segélyezési akcióiról számoltak be. Relevánsnak fogadtam el azokat az oldalakat is, amelyek ismeretterjesztő szinten tárgyalták pl. egy szökőár jellegzetességeit, kialakulásának okait, előrejelzésének lehetőségeit. Itt is mellőztem a témáról szóló rövid terjedelmű híranyagokat.

Az "evészavar" témakör
Az fogalma alatt elsősorban az "anorexia nervosa"-t és "bulemia nervosa"-t szokták érteni. Mindkét típusú táplálkozási probléma leggyakrabban fiatalkorú lányoknál fordul elő. A téma szempontjából relevánsnak számítottak azok a dokumentumok, amelyek a két betegség tüneteit együttesen vagy külön-külön ismertették. Ebből adódóan egyértelműen megállapítható volt, hogy a dokumentum a megadott témáról szól-e vagy sem. Számos orvostudományi szakfolyóiratban megjelent cikket, továbbá néhány ismeretterjesztő szintű weboldalt találtam a témáról, amelyek bemutatták a betegség tüneteit, és leírták terápiás kezelését. A források másik köre azokra a társadalmi, kulturális, biológiai és pszichológiai tényezőkre hívta fel a figyelmet, amelyek az evészavarok kialakulásához vezetnek.

A "kegyhely" témakör
Ezzel a témával kapcsolatban ugyancsak sok, többnyire ismeretterjesztő dokumentumot találtam az interneten. Több központi gyűjtőoldalt találtam, de ezeket általában nem tekintettem relevánsnak, csak akkor ha egy adott kegyhely történetét, illetve az ott meghonosodott búcsújárás történetét tekintették át. A keresők találtak olyan oldalakat is, amelyek a "búcsújáróhely" szinonimát tartalmazták a kegyhely keresőkérdésre. Nem fogadtam el relevánsnak a híreket és a témát csak érintőlegesen tárgyaló helyeket.

A teljesség vizsgálata

A teljesség vizsgálatakor először a releváns találatok halmazát kellett létrehoznom a lekeresett összes találatból a már említett témakörben. Ezután megnéztem, hogy az egyes keresők milyen arányban tartalmazták a releváns halmaz dokumentumait.

"Csiperkegomba" témakör
A halmazba kerülő releváns dokumentumok kiválasztásakor releváns dokumentumnak tekintettem minden olyan tudományos kutatásról szóló szakmai beszámolót, amely valamilyen speciális szempontból vizsgálta a csiperkegomba termesztését. Doktori tézisek, disszertációk, szakdolgozatok, valamint szakmai jellegű pályázati anyagok reprezentálták ezt a kört. Nem tettem különbséget a különböző tudományterületek megközelítései között, mindegyiket egyenrangúnak tekintettem. Relevánsnak vettem továbbá minden olyan írást, amely ismeretterjesztő szinten mutatta be a csiperkegomba-termesztést, vagy tartalmazta a csiperkegombának mint növényfajnak az ismertetőjegyeit. Figyelmen kívül hagytam viszont a csiperkegomba egyes fajaira vonatkozó weboldalakat, mert azokra külön nem kerestem a keresőkérdésekben. Kivételt képezett a kétspórás csiperke gombafaj, valamint latin nyelvű megnevezése, amelyekre indokoltnak tartottam a keresést. Nem tekintettem relevánsnak azokat a weboldalakat, amelyek csak 1-2 mondatban tárgyalták a témát. Ha egy dokumentumban több gombafaj szerepelt és csak röviden utalt a csiperkegombára, akkor azt is kizártam, (pl. a gombaszagokról vagy a gombamérgezésről szóló dokumentumokat). Ha a dokumentum átfogó képet nyújtott a gombatermesztés helyzetéről a magyar mezőgazdaságban, azt sem tekintettem relevánsnak, mert nem csak a csiperkegomba termesztésével foglalkozott. Kihagytam még az angol nyelvű weboldalakat és a nem létező oldalra történő hivatkozásokat (Berners-Lee – Fielding – Frystyk, 1996, RFC1945) is.
Amikor azt elemeztem, hogy az egyes keresők hány találatot adtak vissza a releváns dokumentumok halmazából, a következő esetekkel találkoztam: ha a halmazban lévő weboldal ugyanazon az URL-en volt lekérdezhető, mint ahol azt korábban a kereső felkutatta, akkor ezt megtalált dokumentumnak minősítettem (természetesen ez az eset fordult elő a leggyakrabban); ha az oldal párhuzamosan több URL-en volt elérhető, a kereső pedig ezek közül csak az egyik helyen találta meg a dokumentumot, akkor azt is felkutatott releváns találatnak vettem; ha a kereső a dokumentumnak egy olyan korábbi URL-jét indexelte, ahol már ténylegesen nem volt elérhető és csupán a "cache"-ben tárolt változatát szolgáltatta, akkor azt kizártam (mert a releváns dokumentumok halmazát létező, elérhető dokumentumokra mutató halmaznak vettem).

A teljességre kapott eredmények

A témakör esetében rögzítettem, hogy összesen hány találatot adtak az egyes keresők a megadott keresőkulcsokra. A keresőkérdésekre kapott összes találatszámot összeadtam, ezáltal jó gyakorlati mérőszámot kaptam a keresők által szolgáltatott összes találat számára. A közösen előforduló duplum weboldalak számát az egyes keresőkulcsokra  nagyjából azonosnak vettem. Ezt követően az öt kereső összes találatainak a számát és az általam ténylegesen relevánsnak minősített találatok számát elemeztem (ld. 1. diagram).

A releváns találatok száma és az összes találatok száma
Az 1-es diagramon megfigyelhető, hogy az összes találatszámnak milyen elhanyagolhatóan kis töredéke minősült relevánsnak a téma szempontjából. Megfigyelhető még egy összefüggés is: egy nagyobb, az összes találatból álló halmaz nem feltétlenül eredményez több releváns dokumentumot a kereső számára. Ez a megállapítás a Heuréka keresőre vonatkozik, mert a többi keresőszolgáltatás több releváns találatot nyújtott.

0804toth1.png
1. diagram
A releváns találatok száma és az összes találatok száma a "csiperkegomba" keresőkérdésre


A következő lépésben megvizsgáltam, hogy az egyes keresők pontosan hány dokumentumot kerestek vissza az általam létrehozott releváns találatok halmazából, ami huszonegy weboldalt tartalmazott (1. táblázat).

A relatív teljesség

Keresők Megtalált releváns találatok
 
Heuréka 4
Origo-Vizsla 9
Kurzor 5
Góliát 5
Altavizsla 5,6
Átlaga: 

1. táblázat
A keresők által visszakeresett releváns találatok száma és azok kiszámított átlagértéke


A táblázat azt mutatja, hogy a legtöbb dokumentumot az Origo-Vizsla kereső találta meg a releváns találatok halmazából. A többi kereső közel azonos módon teljesített. Tehát a keresők átlagosan 5,6 releváns dokumentumot kutattak fel a weben a témában, ami a vizsgált halmazban lévő huszonegy találat 26,66%-ának felelt meg. Megjegyzem, hogy a bárhonnan felkutatott releváns hiperhivatkozásokat – melyeknek száma összesen 8 volt a vizsgált halmazban – egyik magyar nyelvű kereső sem kereste vissza. Ezután kiszámoltam egy százalékértéket a relatív teljességre, ami megmutatta, hogy az egyes keresők a releváns találathalmazból a releváns dokumentumok hány százalékát keresték vissza. A 2. diagram ezt az értéket mutatja be az egyes keresőkre lebontva.
A 2-es diagramon látható, hogy az Origo-Vizsla kereső volt a legeredményesebb: a vizsgált találathalmaz releváns dokumentumainak 42,85%-át kutatta fel a weben. A rangsorban ezután a Kurzor, a Góliát és az Altavizsla következtek 23,80%-kal, az utolsó helyre a Heuréka került 19,04%-kal.

A pontosságra kapott eredmények

A pontosság vizsgálatához a négy különböző keresőkulcsot futtattam le, és a kapott találati listákban az első hatvan találat relevanciáját vizsgáltam, majd kiszámítottam egy százalékértéket, ami azt mutatta, hogy hány releváns találatot kaptam az első, a második és a harmadik húsz visszakeresett találatból.
A továbbiakban bemutatom, hogyan alakultak az egyes keresőkulcsokra kalkulált találati pontosság értékei keresőnként az első, a második és a harmadik húszas találati blokkban.

0804toth2.png
2. diagram
A keresők relatív teljesség szerinti százalékos megoszlása


A találati pontosság változása keresőkulcsonként

A 3-as diagram megmutatja, hogy a keresőkulcsra mind az öt kereső az első húsz találatban szolgáltatta a legtöbb témába vágó találatot. A Kurzornál volt a legnagyobb a releváns találatok száma, a második az Origo-Vizsla lett. A Góliát és az Altavizsla azonos mennyiségű releváns találatot adott az első húszban, míg a legkevesebb releváns találatot a Heuréka produkálta. A Heuréka és a Kurzor keresők szigorúan monoton csökkenő tendenciával hozták a releváns találataikat az első hatvan találatban; ezzel szemben az Origo-Vizslánál és a Góliátnál a nem monoton tendencia figyelhető meg. A Góliát és az Altavizsla között minimális különbség volt a releváns találatok számában, ami a második húsz találat esetében volt tapasztalható. Az Altavizsla azonos számú releváns találatot adott vissza a második és a harmadik húszas találatban. A Góliát nem szolgáltatott releváns találatot a második húsz találatban, azonban a harmadik húsz találatában megegyezett az Altavizsla ugyanezen a helyen lévő releváns találatainak a számával, de az Altavizsla monoton csökkenő tendenciát mutatott a releváns találatok lekérdezésében az első hatvan találatban.

0804toth4.png
3. diagram
A "Rákóczi-szabadságharc" keresőkulcs találati pontossága

2008 őszén végeztem egy kontroll-tesztet ugyanerre a keresőkulcsra vonatkozóan azzal a céllal, hogy tanulmányozzam a keresőknek milyen eltérő visszakeresési tendenciáik vannak a korábbi állapothoz képest. A tesztelés során kapott eredmények megtekinthetők a 4. diagramon. Megjegyzem, hogy a vizsgált keresők közül az Origo-Vizsla kereső 2006 decemberében megszűnt, ezért annak jelenlegi utódját, az OK.hu keresőt elemeztem, amely 2007 májusától áttért a Google keresőtechnológiára a korábban használt Yahoo helyett.
A 4-es diagramról elmondható, hogy a vizsgált keresők többsége az első húsz találatban kereste vissza a legtöbb releváns találatot, kivéve a Heuréka keresőt. Az OK.hu kereső releváns találatainak a száma kiemelkedően magas volt a többi vizsgált keresőéhez képest az első húsz találatban. A Góliát kereső második helyre került sokkal kevesebb releváns találatszámmal az első húsz találatban, majd pedig utána következtek a Kurzor, az Altavizsla és a Heuréka keresők egymástól kisebb releváns találat különbségekkel lemaradva. Az OK.hu, a Góliát és az Altavizsla keresők azonos monoton csökkenő tendenciával adták a releváns találatokat az első hatvan találatban. Mindhárom kereső a legtöbb releváns találatot hozta az első húsz találatban, továbbá ugyanannyi releváns találatot szolgáltatott a második és a harmadik húsz találatban. A Góliát és az Altavizsla keresők között csupán az első húsz találatra kapott releváns találatok számában volt eltérés. A Heuréka kereső nem monoton tendenciát nyújtott az első hatvan találatban, amely kisebb növekedést mutatott a harmadik húsz találatban. Ez a tendencia a Heuréka kereső nem kielégítő működését jelzi, mert alapesetben a keresőktől a releváns találatok csökkenését várjuk a találati listában előrehaladva. A Kurzor kereső szigorúan monoton csökkenő tendenciával szolgáltatta az első hatvanból kapott releváns találatokat. Annak tendenciájában nem jelentkezett változás a 2006-os állapothoz képest.

0804toth4.png
4. diagram
A "Rákóczi-szabadságharc" keresőkulcs - találati pontossága a kontroll-teszt során

Azonban az első húsz találatban hozott releváns találatainak a száma erőteljesen visszaesett a korábbi állapothoz viszonyítva. Az Altavizsla kereső szintén ugyanazzal a monoton csökkenő tendenciával kereste vissza a releváns találatokat az első hatvan találatban, mint korábban. Továbbá megállapítható, hogy a többi vizsgált kereső tendenciája megváltozott az első hatvan találatban a korábbi állapothoz képest. Érdekes adat lehet számunkra, hogy a tesztelés során összesen 25 új releváns dokumentumot kutattak fel a keresők a megadott keresőkérdésre, ami adatbázisaik tartalmának változását tükrözi.
Az 5. diagram alapján megállapítható, hogy az evészavar témájában a keresők első húsz találatában volt a legtöbb releváns találat. Ez alól az Origo-Vizsla volt kivétel, mert  ugyanannyi releváns találatot adott az első húszban, mint a harmadikban. A Kurzor nyújtotta a legtöbb releváns találatot az első húsz találatban, a többi pedig azonos számú releváns oldalt hozott. Az Origo-Vizsla kivételével az összes többi keresőnél ugyanaz a szigorúan monoton csökkenő tendencia volt jellemző a releváns találatok lekérdezésében az első hatvan találatban.  Ezen keresők közül egyik sem keresett vissza egyetlenegy releváns találatot sem a harmadik húsz találatban. Az Origo-Vizslánál viszont nem monoton tendencia volt megfigyelhető az első hatvanból származó releváns találatban.

0804toth5.png

5. diagram
Az "evészavar" keresőkulcs - találati pontossága

0804toth6.png

6. diagram
A "kegyhely" keresőkulcs találati pontossága

A 6-os diagramról leolvasható, hogy az első húsz találatban erre a keresőkulcsra adták a keresők a legtöbb releváns találatot. A Heuréka  eltérően viselkedett a többihez képest, mert ugyanannyi releváns találatot adott az első húsz találatban, mint a harmadik húszban. Az Origo-Vizsla és a Kurzor esetében magas és azonos számú a releváns találatok száma az első húsz találatban. A Góliát és az Altavizsla azonos számú releváns találatot szolgáltatott az első húsz találatban, ezért együtt kerültek a rangsor második helyére. A Heuréka kereső kevéssel ugyan, de lemaradt az előző két kereső releváns találataitól az első húsz találatban. A Heurékát leszámítva a többinél megfigyelhető egy szigorúan monoton csökkenő tendencia a releváns találatok lekérdezésében az első hatvan találat között. Azonban a Heuréka nem monoton tendenciát valósított meg az első hatvanból származó releváns találatban.

0804toth7.png

7. diagram
A "szökőár" keresőkulcs találati pontossága


A 7-es diagramból látható, hogy erre a keresőkulcsra szinte mindegyik a legtöbb releváns találatot kereste vissza az első húsz találatban. A Heuréka kivétel, mert ott több releváns találatot szolgáltatott a harmadik húsz között, mint az első húsz találatban. Az Origo-Vizsla kutatta fel a legtöbb releváns találatot az első húsz találatban. A Kurzor kereső alacsonyabb releváns találatszámmal követte ugyanezen a helyen. A Heuréka került a harmadik helyre a releváns találatok száma alapján az első húsz találatban. A Góliát és az Altavizsla lettek az utolsók és ezek adtak le azonos számú releváns találatot is az első húszban. A Góliát és az Altavizsla keresőknél szigorúan monoton csökkenő tendencia jelentkezett a releváns találatok lekérdezésében az első hatvan találatban, ráadásul azonos számú releváns találatot nyújtottak az első hatvan találatban erre a keresőkulcsra. Az Origo-Vizsla monoton csökkenő tendenciát mutatott a releváns találatok lekérdezésében az első hatvan találatban, míg a Heuréka és a Kurzor keresők  nem monoton tendenciával jellemezhetők.

Mi következik az adatokból?

A diagramok azt mutatják, hogy a vizsgált magyar nyelvű keresők többsége arra törekedett, hogy a legtöbb releváns találat az első húsz találatban jelenjen meg mind a négy keresőkulcs esetében. A Kurzor az első két keresőkulcs értékre a legtöbb releváns dokumentumot adta az első húsz találatban, míg a harmadik () keresőkulcsra kapott találatszámmal holtversenybe került az Origo-Vizslával, mivel mindketten azonos számú releváns találatot szolgáltattak ugyanazon a vizsgált helyen. A negyedik () keresőkulcs esetében azonban a Kurzor már elveszítette az első helyét, mert megelőzte az Origo-Vizsla a visszakeresett releváns dokumentumok száma terén az első húsz találatban. Amennyiben ezeket az eredményeket a felhasználó szempontjából közelítjük meg, akkor megállapíthatjuk, hogy a Kurzor és az Origo-Vizsla bizonyult a legjobbnak a használat során, hiszen ezeknél volt a legtöbb releváns oldal az első húsz találatban. (Megjegyzem, hogy a Góliát és az Altavizsla keresők minimális eltéréssel ugyan, de közel azonos releváns találatmennyiséget kerestek vissza az első hatvan találatban mind a négy keresőkulcsra, továbbá azok többnyire – egy keresőkérdés kivételével – megegyező tendenciával hozták a releváns dokumentumokat az első hatvan találatban mind a négy keresőkulcs értékre. E két keresőnek a keresőkulcsokra visszakeresett összes találatainak száma viszont különböző volt, ezért komolyabb következtetés nem vonható le az adatbázisaik egyezésére vonatkozóan.)

A találatok pontossága

A következő lépésben az első, a második, valamint a harmadik húsz találatban kapott releváns találatokat hasonlítottam össze a négy kérdést tekintve. Figyelembe vettem, hogy a keresők külön-külön összesen hány találatot keresnek vissza az egyes keresőkulcsokra. A 2. táblázatban összefoglalom az első, a második, és a harmadik húsz találatban lévő releváns találatok számát, valamint az összes találat számát, amit a keresők külön-külön az egyes keresőkérdésekre adtak.

0804toth14.jpg
0804toth15.jpg
2. táblázat
 A keresőkulcsokra lekérdezett összes találatszámok és a releváns találatszámok

Az adatok alapján nincs konkrét összefüggés a releváns találatok száma és az összes találat száma között. Ez többek között abban is megnyilvánul, hogyha például közel azonos nagyságrendű összes találatszámokat veszek alapul, akkor nem kapok egymáshoz hasonló nagyságrendű releváns találatszámokat, csupán a releváns találatszámoknak különféle variációit nyerem. A táblázatról leolvasható, hogy a keresők összesen hat esetben egyetlenegy releváns találatot sem adtak a harmadik húsz találatban a megadott keresőkulcsokra. Ezért ezekben az esetekben nem határozható meg meggyőző következtetés a releváns találatok számára vonatkozóan a találathalmaz további részére.

A szórás és a várható érték
A szórást és a várható értéket különböző megközelítésekből mutatom be, és diagramokkal illusztrálom. Az oszlopdiagramok felett közlöm a várható értéket, függőleges vonallal jelölve a tapasztalati szórást és a mintaátlag szórását a pozitív és negatív értéktartományban. A diagramok elemzésével kapcsolatos megjegyzések a minta nagysága miatt természetesen nem tekinthetők statisztikai következtetéseknek, azonban határozottan kijelölhetik egy jövőbeli statisztikai elemzés célkitűzéseit.

0804toth8.png
8. diagram
Az első, a második és a harmadik húsz találatban lévő releváns találatok átlaga és tapasztalati szórása a keresőkulcsokra és a keresőkre összesítve

A 8. diagram adatai szerint a vizsgált keresők releváns találatainak átlagértéke mind a négy keresőkulcsra nézve szigorúan monoton csökkenő. A releváns találatok tapasztalati szórása az első húsz találatban azt jelzi, hogy a valószínűségi változó értéke nagyobb valószínűséggel tér el az elméleti várható értéktől, mint a második és a harmadik húsz találatban jelentkező tapasztalati szórás esetében. A vizsgált keresők hatékonysága az első húsz találatban mind a négy keresőkulcsra a legnagyobbnak tekinthető, mivel releváns találataik átlagértéke itt bizonyult a legmagasabbnak. Alacsony a keresők hatékonysága a második és a harmadik húsz találatban mind a négy vizsgált keresőkérdésre, amit a releváns találatok alacsony átlagértékei tükröznek. Minimális különbség figyelhető meg a keresők hatékonyságában a második és a harmadik húsz találatban is, mert ezeken a helyeken csekély eltérés mutatkozott a releváns találatok átlagértékei között.

0804toth9.png
9. diagram
Az első, a második és a harmadik húsz találatban lévő releváns találatok átlaga és mintaátlag szórása a keresőkulcsokra és a keresőkre összesítve

A 9-es diagramról leolvasható, hogy egy véletlenszerűen választott minta átlagértéke csekély mértékben tér el a populáció elméleti várható értékétől az első, a második és a harmadik húsz találatban a négy keresőkulcsra és az összes keresőre vonatkozóan. Amennyiben a mintaválasztást, a mérést és az átlagszámítást többször is elvégezzük, akkor a kiszámított mintaátlagok csak minimális mértékben fognak eltérni a populáció elméleti várható értékétől, tehát ez a diagram a mintaátlag hibáját mutatja számunkra.
A 10-es diagram alapján elmondható az, hogy a Kurzor esetében a legnagyobb a valószínűsége, hogy a valószínűségi változó értéke eltér az elméleti várható értéktől az első hatvan találatban mind a négy keresőkulcsra, de a valószínűség nagy mértékben csökken a Góliát és az Altavizsla keresőnél az első hatvan találatban a négy keresőkérdésre, az pedig kisebb mértékben ugyan, de tovább csökken a Heuréka keresőnél az első hatvan találatban mind a négy keresőkulcsra. Az Origo-Vizslánál a legkisebb a valószínűsége annak, hogy a valószínűségi változó értéke nagy mértékben eltérjen az elméleti várható értéktől. Ez a kereső tűnik a leghatékonyabbnak az első hatvan találatban mind a négy keresőkulcsra, hiszen releváns találatainak átlagértéke a legmagasabb a többi keresőéhez viszonyítva. Ugyanebből a szempontból a Heuréka a második helyen szerepel, bár releváns találatainak az átlagértéke kisebb az Origo-Vizslánál. A hatékonyságot illetően a Kurzor lett a harmadik, hiszen a releváns találatainak az átlagértéke alacsony az első hatvan találatban a négy keresőkulcsra, amit az itt található rendkívül magas tapasztalati szórás érték eredményez.

0804toth10.png
10. diagram
Az első hatvan találatban mért releváns találatok átlaga és tapasztalati szórása a négy keresőkulcsra összesítve keresőnként

A keresés hatékonysága szempontjából az utolsó helyre a Góliát és az Altavizsla került. (Meg kell jegyeznem, hogy nincs eltérés e két kereső hatékonysága között, mivel azok tapasztalati szórása közel azonos nagyságrendű, valamint minimális különbség jelentkezett releváns találataik átlagértékei között az első hatvan találatban mind a négy keresőkulcsra.)
Feltételezésem szerint a diagramon látható számottevő szórás értékek abból adódhatnak, hogy a keresőknél az új weboldalak indexelésének az átfutási ideje meglehetősen lassú, ez pedig kihat a keresők hatékonyságára. Tudomásom szerint a Heuréka és az Origo-Vizsla keresőknél a keresőrobot átlagosan 2–3 hetente gyűjti be az új oldalakat, míg a Kurzornál néhány hét után frissül az adatbázis (Zádori, 2007). A Heuréka és a Kurzor a híranyagokat napi rendszerességgel követik nyomon. Hiteles információk (Hódi, 2007) szerint a jelenleg publikusan elérhető Góliát egyáltalán nem frissíti adatbázisát.

0804toth11.png
11. diagram
Az első hatvan találatban mért releváns találatok átlaga és mintaátlag szórása a négy keresőkulcsra összesítve keresőnként

Az Altavizsla (Bocsán 2007) a Góliát keresőt használja a háttérben, saját indexet külön nem hoz létre. Ez utóbbi értesülést támasztják alá a vizsgálat eredményei is, mert a Góliát és az Altavizsla kereső egyetlen weboldal kivételével ugyanazokat a releváns dokumentumokat keresték vissza mind az öt témakörre vonatkozóan.
A 11-es diagram azt tükrözi, hogy a Kurzornál egy tetszőlegesen választott minta átlagértéke jelentős mértékben eltér a populációban lévő elméleti várható értéktől. Tehát a mintaátlag hibája ennél a keresőnél a legnagyobb a többi keresőhöz viszonyítva az első hatvan találatban a négy vizsgált keresőkulcsra. Ez után következnek a Góliát és az Altavizsla kicsit kisebb, de közel azonos nagyságrendű mintaátlag hibával az első hatvan találatban a négy keresőkérdésre. A Heuréka és az Origo-Vizsla keresőknél a mintaátlag-hibája tovább csökken ugyanezen a vizsgált helyen a négy keresőkulcsra.
A 12. diagramról elmondható, hogy a Heuréka kereső kivételével az összes többi keresőnél a releváns találatok átlagértékei szigorúan monoton csökkenő tendenciát követnek az első, a második és a harmadik húsz találatban a négy keresőkulcsra.

0804toth12.png
12. diagram
A keresők első, második és harmadik húsz találatában lévő releváns találatok átlaga és tapasztalati szórása a négy vizsgált keresőkulcsra

0804toth13.png
13. diagram
A keresők első, második és harmadik húsz találatában lévő releváns találatok átlaga és mintaátlag szórása a négy keresőkulcsra

A Heuréka keresőnél a releváns találatok átlagértékei nem monoton tendenciát mutatnak az első, a második és a harmadik húsz találatban a négy vizsgált keresőkérdésre, továbbá a Heuréka és az Origo-Vizsla keresőknél a harmadik húsz találatban a legnagyobb a valószínűsége annak, hogy a valószínűségi változó értéke eltér az elméleti várható értéktől e keresők első és a második húszas találatához képest. Míg a Kurzor, a Góliát és az Altavizsla keresőknél ez a nagy valószínűség az első húsz találatban fordul elő ugyanezen keresőknek a második és a harmadik húsz találatához képest. Mindez a releváns találatok tapasztalati szórás értékei alapján állapítható meg az első, a második és a harmadik húsz találatban mind a négy keresőkulcsra. Jól látható a diagramon az is, hogy a keresők az első húsz találatban arra törekszenek, hogy a leghatékonyabbak legyenek a négy keresőkulcsra. Ez azzal magyarázható, hogy mindegyikőjük releváns találatainak az átlagértéke sokkal magasabb az első húsz találatban, mint a második és a harmadik húsz találatban. A Góliát és az Altavizsla között nincs eltérés a hatékonyság tekintetében, hiszen a releváns találataik közel azonos átlagértéket és tapasztalati szórás értéket tükröznek az első, a második és a harmadik húsz találatban mind a négy keresőkérdésre.
A diagram azt mutatja, hogy a Heuréka és az Origo-Vizsla keresőknél a harmadik húsz találatban egy tetszőlegesen választott minta átlagértéke nagyobb mértékben tér el a populáció elméleti várható értékétől ugyanezen keresőknek az első és a második húsz találatához képest. Ez a jelentősebb mértékű eltérés figyelhető meg a Kurzor, a Góliát és az Altavizsla keresők esetében az első húsz találatban ugyanezen keresőknek a második és a harmadik húsz találatához képest. Ezenkívül a Góliát és az Altavizsla keresőknél nagyon hasonló mértékű eltérésről beszélhetünk egy tetszőlegesen választott minta átlagértéke és a populáció elméleti várható értéke között az első, a második és a harmadik húsz találatban, tehát a mintaátlag hibája közel azonos nagyságrendűnek tekinthető ennél a két keresőnél.

Összefoglalás

Az adatokból megállapítható, hogy a pontosság megváltozik valamelyest az egyes vizsgált keresők esetében, tehát levonható valamilyen következtetés a pontosság alakulására vonatkozóan, ami érvényes a találathalmaz egészére is.  A pontosság csak minimális mértékben változott a Góliát és az Altavizsla keresőknél, mert azok közel azonos számú releváns találatot kerestek vissza az első, a második és a harmadik húsz találatban mind a négy keresőkérdésre. (Ld. 3., 4., 5., 6., 7. diagramokat.)
A vizsgálat során nyert adatokból kiderült, hogy nincs evidencia szintű összefüggés az első hatvan találatban lévő releváns találatok száma és a keresőkulcsokra kapott összes találat száma között. Ebből adódóan nem határozható meg meggyőző következtetés a releváns találatok számára vonatkozóan a találathalmaz hátralévő részében. Tehát ezt a hipotézist el kellett vetnünk. (Ld. a 2. táblázatot.)
A találati lista elején lévő találatok pon¬tosak, ezután fokozatos csökkenő értéket mutatnak.
A vizsgált keresők többsége arra törekedett, hogy a legnagyobb mennyiségű releváns találatot az első húsz találatban a négy keresőkulcsra szolgáltassa.
Az első hatvan találatban háromféle tendenciában keresték vissza a releváns találatokat, amelyek a következők voltak: szigorúan monoton csökkenő, monoton csökkenő és nem monoton. Ebben az esetben a keresőket a használat szempontjából vizsgáltam, ahol kizárólag az első, a második és a harmadik húsz találatban visszakeresett releváns találatok mennyiségét vettem figyelembe. (Ld. a 3., 4., 5., 6., 7. diagramokat.)
A hatékonyság szempontjából mind a négy keresőkérdés esetében az első húsz találatban bizonyultak a keresők a legjobbnak, mivel releváns találataik átlagértéke ekkor volt a legmagasabb.
A keresők hatékonysága erőteljesen csökkent a második és a harmadik húsz találatban (mind a négy keresőkulcs esetében), mert a releváns találataik átlagértéke ugyanezeken a helyeken nagyon alacsonynak bizonyult. Minimális eltérés volt megfigyelhető a keresők hatékonyságában a második és a harmadik húsz találatban (mind a négy keresőkulcsra), mert csekély különbség volt a releváns találataik átlagértékei között ezeken a vizsgált helyeken. (Ld. a 8. diagramot.)
A vizsgálat eredményeként kiderül, melyek azok a magyar nyelvű keresők, amelyek a legpontosabb találatokat szolgáltatják.
Használat szempontjából a Kurzor és az Origo-Vizsla minősült a legjobbnak, mert mindkét kereső arra törekedett, hogy a lefuttatott keresésekre a lehető legtöbb releváns találatot kutassa fel az első húsz találatban (ld. a 3., 5., 6., 7. diagramot.). Amennyiben a keresők találatszolgáltatásának az egyenletes minőségére helyezzük a hangsúlyt az első hatvan találatban (és nem csupán a visszakeresett releváns találataik mennyiségére fókuszálva), akkor ez utóbbitól eltérő eredményeket kapunk. (Megjegyzem, hogy egy kereső találatszolgáltatásának az egyenletes minőségét a hatékonyság aspektusa fejezi ki számunkra, amit a visszakeresett releváns találatok átlagértékei és tapasztalati szórás értékei figyelembevételével kapunk.)
Az Origo-Vizsla kereső bizonyult a leghatékonyabbnak az első hatvan találatban mind a négy keresőkulcsra, mert a többi vizsgált keresőhöz képest a releváns találatainak az átlagértéke a legnagyobb volt. A hatékonyságot tekintve a Heuréka került a második helyre, bár releváns találatainak az átlagértéke sokkal kisebb volt az Origo-Vizsláéhoz képest az első hatvan találatban a vizsgált négy keresőkérdésre. Ugyanebből a szempontból a Kurzor került a harmadik helyre, mert releváns találatainak átlagértéke alacsonynak bizonyult – a tapasztalati szórás figyelembevételével – az első hatvan találatban a vizsgált négy keresőkulcsra.
A Góliát és az AltaVizsla lettek az utolsók. Hatékonyságuk nem különbözött egymástól, mert a releváns találataik átlagértékei és a tapasztalati szórás értékeik közel azonosak voltak az első hatvan találatban a négy keresőkérdésre. (Ld. a 10. diagramot.)
A vizsgálat eredményeként értékelhető, hogy a magyar nyelvű keresők milyen mértékben képesek megtalálni a releváns találatok halmazát, azaz találathalmazaik milyen arányban tartalmazzák azokat.
A relatív teljességre kapott százalékértékek alapján a következő rangsort állítottam fel: az Origo-Vizsla találta meg a vizsgált releváns találathalmaz legtöbb dokumentumát, mert azok 42,85%-át fedezte fel a weben. A második helyre a Kurzor, a Góliát és az Altavizsla kerültek 23,80%-kal, hiszen azonos mennyiségű releváns dokumentumot kerestek vissza. A Heuréka kissé lemaradt az előző három kereső visszakeresési teljesítményétől, mert az a találathalmazban lévő releváns dokumentumoknak csak 19,04%-át találta meg a weben. (Ld. a 2. diagramot.) Ehhez kapcsolódóan még egy fontos mutatószámra hívnám fel a figyelmet, mely szerint a magyar nyelvű keresők átlagosan 5,6 releváns dokumentumot találtak meg a weben témakörrel kapcsolatban, ami a vizsgált halmazban lévő huszonegy találat 26,66%-ának felelt meg. Tehát a magyar nyelvű keresők a releváns találatok halmazának alig több mint egynegyedét keresték vissza átlagosan a témakörben, ami meglehetősen szerény teljesítménynek számít.
Megállapítható, hogy további vizsgálatoknak kell alátámasztaniuk ezt a kapott eredményt annak érdekében, hogy megalapozottabb következtetésre jussunk a magyar nyelvű keresők hatékonyságával kapcsolatban. Azt jegyzem csak meg, hogy demonstráláson kívül a szándékom az volt, hogy ezek a kérdések elemezhetők. Vizsgálatomban elsősorban egy tesztkulcssor összeállítására törekedtem, amely óvatosan bővíthető egy részletesebb statisztikai vizsgálat számára. További kutatási feladat lehet számunkra a hatékonyságkutatási esetek gazdag és komplex gyűjteményének létrehozása az általunk kialakított modellbe illeszkedve, amely alapját képezhetné egy mélyebb szintű statisztikai vizsgálatnak.

Irodalom

ALBERT L.– LOCSMÁNDI  Cs. – VASAS G.: Ismerjük fel a gombákat! Gabó, 1995. 191 p.
BERNERS-LEE, T. – FIELDING, R. – FRYSTYK, H.: Hypertext Transfer Protocol–HTTP/1.0. May 1996.
http://www.rfc-editor.org (2007.08.10.)
BOCSÁN Róbert [Személyes közlés] (2007.szept. 4.)
BRIN, S.– PAGE, L.: The anatomy of a large-scale hypertextual web search engine. = Computer Networks and ISDN Systems, 30. vol.  1998. 1–7. no.  107–117. p.  
http://infolab.stanford.edu/pub/papers/google.pdf   
(2007. márc. 2.)
A Heuréka tájékoztató segédlete 
http://www.heureka.hu/heureka/tippek.html  (2007. márc. 9.)
HÓDI Imre [Személyes közlés] (2007. aug. 13.)
HORVÁTH T.– SÜTHEŐ P.: A tartalmi feltárás. In: Könyvtárosok kézikönyve. 2. köt. Feltárás és visszakeresés. Szerk. Horváth T.–Papp I. Bp.: Osiris, 2001. 35–186. p.
OPPENHEIM, C.– MORRIS, A.– MCKNIGHT, C.– LOWLEY, S.: The evaluation of WWW search engines. = Journal of Documentation, 56. vol.  2000. 2. no.   190–211. p.
Az Origo-Vizsla tájékoztató segédlete 
http://www.vizsla24.hu/pages/sugo_tartalomjegyzek.html  
(2005. aug. 11.)
UNGVÁRY R.: Az információkeresés értékelése. In.: Osztá­lyo¬zás és információkeresés: kommentált szöveggyűjte¬mény. 2. köt. Az információkeresés és elmélete. Szerk. Ung¬váry R., Orbán É. Bp.: OSZK, 2001. 535 p.  
https://mek.oszk.hu/01600/01683/pdf/01683-2.pdf  (2007.11.17.)
UNGVÁRY R. – VAJDA E.: Könyvtári információkeresés. Bp. Typotex, 2002. 169 p.
Taxaurusz: Növény- és állatrendszertani fogalmak makro¬te¬zauru¬sza: 3.0 változat. [össze¬áll.] Ungváry R.; [közr. az] Országos Széchényi Köny¬vtár. Bp.: OSZK, 2000. XVII, 4, 16, 98 p.  
https://mek.oszk.hu/00000/00077  (2007. ápr. 30.)
ZÁDORI  Janka [Személyes közlés] (2007. aug. 10.)



1. függelék

Csiperkegomba – releváns találatok

1.  Mellékletek I.: melléklet. FFV-24 számú ENSZ/EGB szabvány. (UN/ECE STANDARD FFV-24) Ter-mesztett csiperkegomba. (Ajánlott nemzetközi kereskedelmi szabvány) 1. ENSZ/EGB szabványok friss gyümölcsre és zöldségre
 ... Ez a szabvány a friss állapotban forgalomba kerülő fogyasztásra szánt Agaricus bisporus termesztett fajtáinak termőtestére vonatkozik, és azokat a követelményeket határozza meg, amelyek az értékesítés-re előkészített és csomagolt csiperkegombára vonatkoznak. Nem tárgya e szabványnak az ipari felhasz-nálásra szánt csiperkegomba. ...
 http://www.omgk.hu/MGUT6/mel1.html (Origo-Vizsla, Kurzor, Góliát, Altavizsla)2.  Dr. Rácz László: Talaj és termesztett csiperkegomba fő- és nyomelemmigrációjának vizsgálata. Doktori értekezés összefoglalója. Debreceni Egyetem Kémiai Tudományok Doktori Iskolája, Debrecen 1998.
 ... Vizsgáltam a zárt térben termesztett csiperkegomba fejlődését, illetve a termésidőszak alatt annak nyomelemtartalom-változását, amikor a termőtalajba, illetve az azt fedő felső rétegbe (ún. takarótalaj-ba) ismert és változó mennyiségben juttattuk be a gomba fő elemeit (K, Na, Mg, Ca), az esszenciális nyomelemeket (Mn, Zn, Cu, Co, Ni), valamint a toxikus nyomelemeket (Cd, Cr, Hg, Pb). Az analitikai vizsgálatokat elsősorban azért tartjuk fontosnak, mert a környezetből (levegőből, vízből és talajból) egyre gyakrabban juthatnak mérgező nyomelemek ezen élelmiszerekkel szervezetünkbe …
 http://www.doktorijegyzek.hu/jeg.php?subid=1 &pid=228&back=3 (Heuréka, Góliát, Altavizsla)3.  Dr. Rácz László: Makro- és mikroelemek felszívódása a talajból és azok hatása néhány termesztett gombafajtára. Doktori (Ph.D.) értekezés tézisei.
 … A kontroll- és fémsóoldatokkal kezelt táptalajon termett csiperkegomba mintavétele nagyrészt a négy terméshullámban történt. Általában 3-3, illetve 5-5, egyes esetekben 6-6 párhuzamos termesztőzsákból megfelelő számú 2, 3, illetve 5 gombamintát szedtünk. Műanyag késsel szűrőpapíron negyedelve, esetleg nyolcadolva átlagmintavétel alapján 20 g körüli mennyiséget mértünk be analitikai mérlegen …
 http://kemia.ektf.hu/racz.htm (Heuréka, Kurzor)4.  Csiperkegomba: környezeti igénye, a termesztés feltételei, a termesztés módszerei. In: Zöldségtermesz-tők kézikönyve/ szerk. Balázs Sándor. Bp.: Mezőgazda Kiadó, 2004.
 ... Hő. A csiperkegomba hőigénye az egyes termesztési ciklusokban eltérő: más az átszövetési (1) idő-szakban, más a lappangás (2) idején és ismét más a termesztési (3) időszakban. Az átszövetési idősza-kában 22–25°C-ot igényel optimális fejlődéséhez. ...
 http://www.hik.hu/index.asp?a=r&r=90%2C26 1&oid=57 (Kempelen Farkas Hallgatói Információs Központ, Kempelen Farkas Digitális Tankönyvtár honlapja) (Origo-Vizsla)5.  Kétspórás csiperke – Agaricus bisporus
 … Kalap: 5-10 cm átmérőjű; fiatalon félgömb alakú, domború, majd ellaposodik, végül benyomottá válhat; fehéres, piszkos-, sötétbarna, széle világosabb; felületét barnás, lenyomott, sugarasan szálas pikkelyek díszítik; széle sokáig begöngyölt, gyapjas szálak, pelyhek lóghatnak le róla. Lemezek: sűrűn és szabadon állók, először rózsaszínűek, majd feketésbarnára sötétednek; éle fehéresen csipkézett. …
 http://www.gombanet.hu/gomba.php?gid=186 (GombaNET.hu – a Magyar Mikológiai Társaság hon-lapja) (Heuréka, Origo-Vizsla)6.  Szarvas József: A bazídiumos gombák szaporodása, életciklusa II.: a kétspórás csiperke (Agaricus bisporus) = Magyar Gombahíradó, (2003)
 … A kétspórás csiperke fejlődésmenetének ismerete nélkülözhetetlen a nemesítői munkához. A fejlő-dési ciklusa a legtöbb “bazídiumos nagygombához” képest eltérő. Szaporodásukat korábban heterotallikusnak vélték, azonban ma tudjuk, hogy másodlagosan homotallikus fajról van szó (Fritsche, 1991). A sejtjei sokmagvúak, nincs egyértelmű különbség a monospórás és a multispórás eredetű micé-lium között és mind a monospórás mind a multispór micélium képes termőtestképzésre anélkül, hogy más hifával anasztomizálnának. …
 http://free.x3.hu/korona/other/bazid02.pdf (Heuréka, Origo-Vizsla)7.  Kocsner Nóra: A gombaszúnyogok elleni védekezés entomopatogén nematodákkal. TDK dolgozat összefoglalója. Veszprémi Egyetem, Georgicon Mezőgazdaságtudományi Kar Növényvédelmi Állatta-ni Tanszék, Keszthely 2004.
 … A termesztett csiperke védelme nehézkes, mivel termesztéséhez sok szerves anyagot tartalmazó és megfelelően érlelt komposzt szükséges, amely nemcsak a csiperkegombának, hanem más patogén mik-roszervezetnek is táptalaja, illetve életciklusát tekintve gyors lefutású szervezet, emiatt a vegyszeres védekezés a termesztés idején korlátozott. ...
 http://www.vein.hu/tdk/ITDK2004/AT/AT-Kocs nerN.doc (Origo-Vizsla, Kurzor)8.  Rovarpatogén fonálféreg fermentatív termelése, alkalmazása. Szerződésszám: OMFB-01766/00 (BIO-012/00).
 ... Elsősorban a csiperkegomba (Agaricus bis¬porus) termesztésében a Diptera, Sciaridae taxonokba tartozó Lycoriella solani, L. melii fajok lárvái a termőtestek megrágásával, elpusztításával főként a ta-vaszi, nyári és őszi időszakokban nagy terméskiesést okoznak. Magyarországon a gombalegyek ellen leggyakrabban használt szer a Dimilin 25WP (Diflubenzuron). Korlátozott azoknak a vegyszereknek a száma, melyeket a Sciarid-lárvák ellen használhatunk, mivel a legyek egy része rezisztenssé válik az aktív hatóanyaggal szemben …
 http://www.nkth.gov.hu/letolt/k+f/Biotech2000.doc (Releváns hiperhivatkozás, amit egyik magyar nyelvű kereső sem keresett vissza.)9.  Rózsai Gábor: A blokkos csiperkegomba termesztéstechnológiája. Kecskeméti Főiskola Kertészeti Kar. Oktatási segédanyag (MSPPT prezentáció)
 … Csiperkegomba termesztés története Magyarországon: az 1800-as évek második felétől már nagyobb mennyiségben termesztünk. 1926-ban dr. Makó László: első magyar szinttenyészetű gombacsíra. 1930-tól mind a csíragyártás, mind a gombatermesztés gyorsan fejlődik. 1930-ban 200.000 m2-en évi 600 tonna terem. A világon a harmadik helyen, Európában a második helyen áll Magyarország. …
 http://iatt.ttk.pte.hu/ (Releváns hiperhivatkozás, amit egyik magyar nyelvű kereső sem keresett vissza.)10. Kétspórás csiperke. Familia: agaricaceae. Család: csiperkefélék
 … Kalap: 4-10-(12) cm, gömb vagy félgömb alakúból domború, ritkán kiterülő; széle sokáig begön-gyölt, túlnő a lemezeken; felszíne változatos: fiatalon sima, később vagy sima, vagy kisebb-nagyobb koncentrikus pikkelyekkel; színe változatos, a fehértől a világosbarnáig vagy kakaóbarnáig. Lemezek: keskenyek, sűrűk, rózsaszínek, öregen bíborbarnák, szabadok. …
 http://www.terra.hu/gomba/html/agaricus_bi sporus.html (Origo-Vizsla, Kurzor, Góliát, Altavizsla)11. Mészáros Gábor Sándor: Csiperkegomba zsákos termesztés-technológiájának értékelése, különös tekin-tettel a minőségbiztosításra. Szakdolgozat. Veszprémi Egyetem, Georgicon Mezőgazdaságtudományi Kar Növénytani és Növényélettani Tanszék, Keszthely 2001.
 … A kétspórás csiperke a természetben leginkább trágyás, bolygatott talajon, korhadó növényi marad-ványokon, komposzton található meg. A lebontó szervezetek könnyen kiszorítják, és ezért nem kap életteret. Viszont ha valamilyen környezeti hatás folytán ezek a szervezetek visszaszorulnak vagy el-pusztulnak, és életképes micélium kerül az adott táptalajba és a környezeti feltételek is adottak, akkor elindul a micélium-fejlődés benne. …
 http://www.georgikon.pate.hu/lib/diploma.htm (Origo-Vizsla)
12. Horváth Balázs: A CO2 koncentráció és a hőmérséklet termésmennyiségre gyakorolt hatásai a lappan-gási szakaszban, a csiperketermesztésben. Szakdolgozat. Veszprémi Egyetem, Georgicon Mezőgazdaságtudományi Kar Növénytani és Növényélettani Tanszék, Keszthely 2002.
 … A túl korán megkezdett szellőztetés hatására kis gombák mélyen képződnek, és szinte feltúrják a takaróanyagot. A borsónagyság elérésekor a szellőztetés mértéke az addigi kb. harmadára csökkenthető. Ebben a szakaszban adódik utoljára lehetőség a takaróanyag megöntözésére, mivel a szedés előtti na-pokban kiadott víz hatására a gomba megnyúlik, és érzékenyebbé válik a mechanikai hatásokra, így szedés közben könnyen elszíneződik. …
 http://www.georgikon.pate.hu/lib/diploma.htm (Origo-Vizsla)13. Gömöri Zsolt: Pótlólagosan adagolt dúsítóanyag szerepe a csiperketermesztésben. Szakdolgozat. Veszprémi Egyetem, Georgicon Mezőgazdaságtudományi Kar Növénytani és Növényélettani Tanszék, Keszthely 2003.
 … A komposzthoz adagolt dúsítót, vagy a csírázással egy menetben, vagy a csírázástól számított 10-12. napon adagolják. Általában 0,3%-os formalinnal kezelt, granulált szójalisztet alkalmaznak 1 kg/100kg mennyiségben. Ilyen dúsítóanyag például a Millichamp 6000, amelynek külföldi és magyar kutatóinté-zetek vizsgálata alapján – mint a Horsti Gombatermesztési Kutatóintézet, vagy a Budapesti Növényegészségügyi Állomás – termésnövelő hatása van. …
 http://www.georgikon.pate.hu/lib/diploma.htm (Origo-Vizsla)14. Gombatermesztés az ókori Európában
 … A termesztéssel foglalatoskodók némelyike valószínűleg felfigyelt a “termeszthető csiperke” tulaj-donságára: emberi segédlet nélkül megkapaszkodó képességére a lótrágyán. Athénaiosz a Nikandroszt követő „gondolkodó” embereket említ. Közöttük minden bizonnyal akadtak olyanok, akik például a sa-ját trágyagyűjtőhelyükön a spontán megjelent csiperkék gombafonalaktól „penészes” lótrágyáját fáik lombsátra alá telepítették át. Lehettek, akik az utak mellett talált csiperketelepekből kapartak vagy ástak ki részeket, és vitték azokat haza. …
 http://www.hhrf.org/uh/2002/uh13079.htm (Releváns hiperhivatkozás, amit egyik magyar nyelvű kere-ső sem keresett vissza.)15. Geml József: Molekuláris filogenetikai vizsgálatok és termesztési kísérletek vadon termő csiperke (Agaricus) taxonokkal. Doktori disszertáció. Budapesti Corvinus Egyetem Kertészettudományi Doktori Iskolája, Budapest 2005.
 … A kétspórás csiperke életciklusát széleskörűen tanulmányozták már az 1970-es években is (RAPER et al. 1972, ELLIOTT 1972). A legtöbb csiperkénél, mint a bazídiumos gombák nagy részénél általá-ban, a termőtest bazídiumain képződő négy bazidiospórába, a kariogámia és a meiózis után, egy-egy sejtmag kerül, így ezekből a spórákból kihajtó homokarionok csak az egyik párosodási típus genetikai hátterét hordozzák. …
 www.lib.uni-corvinus.hu/phd/geml_jozsef.pdf (Releváns hiperhivatkozás, amit egyik magyar nyelvű kereső sem keresett viszsza.)16. Pallas Nagy Lexikona
 … Csiperke vagy cseperke, csöpörke-gomba, pecserke, csiperke-galóca (Agaricus campestris L., vagy Psalliota c. Pers.; franc. champignon, l. a gombák képén), valamennyi ehető, kalapos azaz igazi gomba közt a leghasználatosabb. Földünk északi mérsékelt égövének nyirkos legelőin, kertekben, réten, erdő-ben és megtrágyázott gyepen májustól októberig igen közönséges. Tönkje a kalap középpontjával függ össze, 1,3-5 cm. hosszú, 0,6-2,5 cm. vastag, tömött. Spórája a kalap alsó szinén levő, sugaras helyzetű lemezeken képződik. …
 https://mek.oszk.hu/00000/00060/html/023/pc00 2380.html (Releváns hiperhivatkozás, amit egyik ma-gyar nyelvű kereső sem keresett vissza.)17. Vízhányó Tünde: Colour Analysis for Mushroom Desease Assessment. Doktori értekezés összefoglaló-ja. Szent István Egyetem Élelmiszertudományok Doktori Iskolája, Gödöllő 2000.
 … A csiperkegombát számos mikróbás támadás érheti, melyek hatására a gomba felületén a betegség barnás foltok, illetve szöveti elváltozások formájában jelentkezik és teszi a gombát értékesítésre alkal-matlanná. A kétféle eredetű barnulás (természetes és betegség okozta) megkülönböztetése volt a doktori munkám feladata. Az elkülönítéshez csak a színinformációt használtam, alapul véve a barnulások spektrális jellemzőit, illetve a képfeldolgozás kínálta lehetőségeket. …
 http://www.doktorijegyzek.hu/jeg.php?subid =1&pid=383&back=3 (Góliát, Altavizsla)18.  A gombatermesztés fejlesztése a molekuláris biológia módszereivel. Szerződésszám: OMFB-00352/02 (BIO-00046/01)
 ... Vadon termő Agaricus bisporus törzseket gyűjtünk be hazai, ill. külföldi génbankokból és hazai természeti környezetből. Ezekből szövettenyészeteket, ill. szaporítóanyagokat készítünk termesztési, nemesítési és molekuláris genetikai kísérletek céljából. Többek között az USA-ban (Agaricus Resource Program) és Franciaországban (INRA) begyűjtött törzsek igen értékes tulajdonságokat hordoznak. Ma-gyarországon is célszerű egy ilyen génbank létrehozása a már meglévő (gén-)gyűjtemény kibővítésével. ...
 http://www.nkth.gov.hu/letolt/k+f/fitotechnolo gia2001.doc (Releváns hiperhivatkozás, amit egyik magyar nyelvű kereső sem keresett vissza.)
19. Szabó G., Rajkó R., Hodur C.: Csiperkegomba konvekciós és mikrohullámú szárításának összehasonlí-tó vizsgálata. Szegedi Tudományegyetem, Szegedi Élelmiszeripari Főiskolai Kar Élelmiszeripari Mű-veletek és Környezettechnika Tanszék. Konferencia előadás. 4. Magyar Szárítási Szimpózium, Mo-sonmagyaróvár, 2001. október 18-19.
 … Kutatásunk célkitűzése volt olyan kíméletes eljárás kidolgozása, amelynek eredménye új típusú élvezeti (gyorsan oldódó - instant és/vagy könnyű - snack-szerű) tulajdonságokkal rendelkező termék előállítása, ún. váltakozó rendszerű, konvektív és mikrohullámú szárítás kombinálását magába foglaló technológiával. Kritériumként tekintettük, hogy a termék a visszanedvesítés után az eredeti friss gom-bához – annak fogyaszthatósági tulajdonságait tekintve – a lehető legteljesebb mértékben hasonlítson. …
 http://www.szef.u-szeged.hu/~rajko/pdfs/SzaboRajkoHodur4MSzSz.pdf (Releváns hiperhivatkozás, amit egyik magyar nyelvű kereső sem keresett vissza.)20.  Zárójelentés. OTKA nyilvántartási szám:
F 030634.
 … A kutatás elsődleges célja módszer kidolgozása volt csiperkegomba (A. bisporus) látható minőségi jellemzőinek számítógépes látórendszerrel történő mérésére, a módszert alkalmazva a jellemzők méré-sére az egyes minőségi osztályokkal összerendelve. A feltárt összefüggések alapján a csiperkegomba minőségének becslése. A számítógépes képfeldolgozás segítségével automata ellenőrző robotok építhe-tőek, amelyek minimális felügyelettel és beavatkozással képesek a betegségeket korán azonosítani, va-lamint az automatizált betakarítás során a minőségi osztályokba sorolást elvégezni. …
 www.uni-corvinus.hu/~blaszlo/data/pdf/kutatas_otka_f030634.pdf (Releváns hiperhivatkozás, amit egyik magyar nyelvű kereső sem keresett vissza.)21. Viczián Zsolt: Kertészeti-élelmiszeripari minőségbiztosítási rendszerek informatikai támogatása. Dok-tori értekezés összefoglalója. Budapesti Műszaki és Gazdaságtudományi Egyetem, Budapest 2000.
 ... A gombanövekedés folyamatának nyomon követésére olyan méréstechnikát határoztam meg, mely-nek kivitelezése olcsó, ugyanakkor a növekedési folyamatra gyakorolt hatása elhanyagolható. A mérés-technikát, méréskiértékelést támogató szoftverek megtervezésével és elkészítésével egészítettem ki. A készített szoftverek alkalmasak a zsákon termesztett csiperkegomba felülnézeti fényképei alapján a ka-lapátmérő eloszlás automatikus, illetve félautomatikus meghatározására. ...
 http://www.chemonet.hu/hun/food/phd/bme/viczian.html (Góliát, Altavizsla, Kurzor)


2. függelék

Az egyes keresőkulcsokra visszakeresett releváns és összes találatok száma

0804toth16.jpg
0804toth17.jpg
0804toth18.jpg



Hozzászólás küldéséhez be kell jelentkeznie. Jelentkezzen be, vagy kattintson ide a regisztrációhoz