A földrajzi nevek és szerepük az információkeresésben.
Nemzetközi fejlődés, problémák és tapasztalatok a Köztauruszban és Geotauruszban
Szerző: UNGVÁRY Rudolf – PÁSZTI László kategória: 54. évfolyam > 2008. 3. szám Hozzászólás: 0
Bevezető
A
dokumentum tárgyát, témáját jellemezhetik a földrajzi helyek is. A
helyeket megnevező földrajzi neveknek két típusa van: az általános
földrajzi név (vagy más szóval a földrajzi köznév, mint pl. hegység,
tengerpart, gleccser), és a földrajzi tulajdonnév (pl. Pilis-hegység,
Horvát tengerpart, Aletsch-gleccser). Az általános földrajzi nevek nem
konkrét helyeket, hanem helyek típusait, fajtáit, osztályait nevezik
meg, információkereső célú használatuk azonos a többi, köznévből
alkotott tárgyi kifejezésével (mint pl. közlekedés, kikötő, olvadás). A
földrajzi tulajdonnevek ezzel szemben meghatározott helyeket
azonosítanak. Mint ilyenek, az egyértelmű azonosításhoz – akárcsak az
egységesített besorolási nevek többi fajtái esetén (mint a személy- és
testületi nevek) – névformájuk pontos szabályozást igényel, melyeket a
bibliográfiai leírás besorolási adatainak formájában szabványosítottak
[17]. A földrajzi nevekkel végzett tartalmi feltárás és keresés
helyzetét alapvetően két fejlemény változtatta meg az elmúlt
évtizedben: egyrészt az internet lehetőségei, másrészt pedig – részben
az internet, s vele a laikus keresők megjelenése miatt – a nemzeti
nyelvhasználat általánossá válása a helynevek megnevezésében. E két
fejlemény alapvetően felértékelte a földrajzi tulajdonnevek keresőcélú
használatát: az internet a speciális földrajzi helyek millióihoz való
hozzáférést biztosította, és ez a hozzáférés azt is lehetővé tette,
hogy a helyeket a legkülönfélébb nemzeti nyelveken kereshessék. Ez
utóbbi lehetőségnek különösen nagy jelentősége van a magyar kultúrában,
mivel ennek a kultúrkörnek a nemzeti nyelvű földrajzi névállománya
jóval túlnyúlik a mai Magyarország határain. Ezzel a helyzettel a
könyvtári információkeresés területén is fontos lépést tartani. Szükség
van olyan strukturált, a földrajzi helyek közötti igazgatási–területi
(mi minek a része), történeti (minek mire változott a neve),
szomszédsági (mi mi mellett fekszik) stb. összefüggésekről a keresőt
tájékoztató névterek és szógyűjtemények (tezauruszok, ontológiák)
kialakítására, melyek a laikus felhasználó rendelkezésére állnak mind a
könyvtári adatbázisokban, mind a weben való kereséshez. A
tanulmányban részletesen beszámolunk a földrajzi célú keresés
lehetőségeinek eme megváltozásáról, és egy, a mai technikai lehetőségek
kiaknázására alkalmas információkereső tezaurusz (a Geotaurusz)
kialakításáról. A Geotaurusz a számos hazai könyvtárban használt magyar
egyetemes tezaurusz (a Köztaurusz) mellett párhuzamosan használható,
vele kompatibilis egyetemes igényű földrajzi tezaurusz, mely
strukturáltan, azaz a helyek összefüggéseit feltüntetve tartalmazza a
magyar nyelvű földrajzi tulajdonneveket a mai Magyarország, a
történelmi Magyarország és a világ egyéb tájain [12]. A maga jelenleg
már közel 70 000 nevet tartalmazó és folyamatosan bővülő állományával
ez a tezaurusz nemzetközi összehasonlításban is a legnagyobbak közé
tartozik. 1. A földrajzi nevek az adatcsere-formátumokban
A
bibliográfiai rekord, illetve a besorolási adatok
adatcsere-formátumában [9] az általános fölrajzi neveknek és a
földrajzi tulajdonneveknek önálló és egymástól eltérő adatmezője van. Az
általános földrajzi neveket a tárgyi kifejezések mezőjébe kell
rögzíteni. A bibliográfiai rekordban ez a 650-es, a besorolási
rekordban ez a 150-es mező. A földrajzi tulajdonnevek ezzel
szemben a bibliográfiai rekord 651-es, ill. a besorolási rekord 151-es
mezőjébe kerülnek. A földrajzi nevek névformáját (különös
tekintettel az összetett nevekre) az adatcsere-formátumok [9]
mező-almező szerkezete rögzíti. – az a almezőben a rendszó
szerepel; – a c almező kiegészítő elemével különböztethetők meg az azonos nevű (homonim) földrajzi nevek; – a
b almező egyéb névelemébe olyan földrajzi hely neve kerül, melyet
önálló rendszóként nem, hanem az átfogóbb földrajzi hely nevéhez
kapcsoltan veszünk csak fel.Például (a $ jel jelzi, hogy utána
almező-azonosító következik, a # jelek az indikátorokat jelölik,
melyekkel például megadható, milyen forrásból származik a tárgyi
kifejezés, ha például a második indikátor értéke 4, akkor nincs forrás
megadva): Esztergom 151## $a Esztergom Gellért-hegy (Zalaszentmárton) 151##$a Gellért-hegy $c Zalaszentmárton A c almező kiegészítő elemével különböztethető meg a többi "Gellért-hegy" nevű rendszótól. Szeged. Tisza Lajos körút 150## $a Szeged $b Tisza Lajos körút
A "Tisza Lajos körút" mint "Szeged" része jelenik meg.
A földrajzi nevekre vonatkozó adatmezőket az 1. táblázatban foglaltuk össze.
1. táblázat A tárgyi kifejezések és földrajzi nevek adatmezői a bibliográfiai és a besorolásiadat-rekordban
Az
adatcsere-formátum fent látható része nem tökéletes. A $c almező
ismételhetőségének hiányában az ismétlődő elemeket már a bevitelkor el
kell látni a ’vesszőköz’ központozással, ami alapvetően ellentmond az
adatcsere-formátumok ama elvének, hogy benne minden elemet központozási
jelek nélkül, azaz almezőkkel (adott esetben indikátorokkal) kell
elkülöníteni. Ilyen eset a Pilisszántó határában fekvő Pilis hegy:
mivel a Pilis nem csak hegynév, ezért szükség van a "hegy" kiegészítő
elemre, de mert nem csak Pilisszántó határában található ilyen hegy,
szükség van a "Pilisszántó" kiegészítő elemre. Mivel az
adatcsere-formátumban nemzetközileg úgy szabályozták a $c almezőben,
hogy az nem ismételhető, az ismételt értékek között a "köz vessző"
központozást kézzel kell bevinni. A földrajzi nevek formális
követelményeit az információkeresésben és a könyvtári világban mára
szabványok határozzák meg [13][17][35]. Az információkereső
rendszerekben ezek a nevek az adatbázis-rekordok egyik legfontosabb
hozzáférési pontjaivá váltak: egyrészt jellemzik magukat a rekordokat
(ebben az esetben ún. besorolási adatok), másrészt a felhasználók
ezeknek a neveknek az alapján keresnek (ebben az esetben ún.
információkereső-nyelvi szavak) (1. ábra).
1. ábra Az információkereső-nyelvi szavak típusai címkézett irányított gráf formájában
2. Fordulat a földrajzi helyek kereshetőségében 2.1 Az internet szerepe
Hogy
a földrajzi helyek ma a világhálón a keresés kitüntetett szereplői,
történetileg szorosan összefügg a második világháború utáni
fegyverkezéssel. A helynevek programozott elhelyezését a
műholdfelvételeken az 1947-ben az Egyesült Államok légiereje által
kialakított UTM-koordinátarendszer3 tette lehetővé. Annak érdekében,
hogy az interkontinentális ballisztikus rakéták célra irányítását a
megcélzott földrajzi hely nevének puszta megadásával lehessen
elvégezni, a földfelületet felosztották apró, néhány
négyzetkilométeres, hosszúsági és szélességi koordinátákkal azonosított
négyzetekre (UTM-cellákra), melyekhez hozzákapcsolták az e területen
található helyneveket. Ily módon például kb. 30 000 magyarországi
természetföldrajzi és lakott helyet is nyilvántartanak az UTM-cellák
alapján, a dűlőnevektől a nagyvárosokig, a domboktól a hegyekig, a
patakoktól a folyókig. A hidegháború végével ezeket az adatokat
nemzetközileg hozzáférhetővé tették. Az adatbázist az Earth Info
(Földi információk) projekt keretében az Egyesült Államok Haderejének
ügynöksége, a National Geospatial-Intelligence Agency (NGA, Állami
geokoordináta-információszolgálat) tartja fenn [18]. Az adatbázis
adatai szabadon felhasználhatók, beleértve a katonai és polgári
célokat. A CIA által a föld államairól a weben közzétett és bárki
számára hozzáférhető statisztikai adatokhoz az NGA koordinátait
hozzárendelve a felhasználók elektronikus térképein ezek az adatok
automatikusan megjeleníthetők. A letöltött állomány tabulátorokkal
tagolt szöveg, az egyes tabulátorpozíciók határozzák meg a szóban forgó
adat típusát (lakott hely, hegy stb.). Az adatbázis 5.517.082
földrajzinév-tételt tartalmaz (2005. március 5-i állapot) az Egyesült
Államokon kívüli földterületről, beleértve az igazgatási típust, az
UTM–koordinátákat és méretadatokat. Ennek nyomán alakultak ki a
földrajzi információs rendszerek (térinformatikai rendszerek), melyek
integráltan tartalmazzák a térbeli és a leíró információkat. A
legismertebb webes kereső a virtuális földgömb szerepét játszó Google
Earth. A Föld háromdimenziós modelljére mértékhelyes műholdképeket,
légi felvételeket és térinformatikai adatokat vetítettek. A kereső nem
csak azt biztosítja, hogy a Föld minden részéről leolvashatók legyenek
a földrajzi koordináták, és az adott pont magassága, hanem az egyes
földrajzi helyeket név szerint is feltüntetik, és ezek a helyek
kereshetők is. A Google Earth nyomában számos specializáltabb webes
földrajzi szolgáltatás is megjelent, melyek részletesen tájékoztatnak a
keresett földrajzi hely környezetében található többi helyről (nemcsak
a településekről, hanem a természetföldrajzi objektumokról is), és
információkat nyújtanak a megközelítéshez. A GeoNames teljes
szövegben kereső rendszer [4] például a ’János-hegy’ keresőkérdésre
kilistázza az ilyen nevű hegyeket (2. ábra).
2. ábra A GeoNames keresővel a ’János-hegy’ keresőkifejezésre megjelenített találatok a hozzájuk tartozó UTM-koordinátákkal<http://www.geonames.org/>
A
Budai-hegységben levő hegyre kattintva megjelenik a hegy környékének
térképe (3. ábra). A térképen különféle színű jelölők mutatják a
különféle típusú kapcsolódási pontokat, melyeket a térkép alatt
szövegesen is felsorolnak, megadva a keresett helytől a távolságot.
3. ábra A budai János-hegy és környéke a GeoNames keresőben. A legközelebbi helyek, szállodák és vasútállomások jegyzék formájában is megjelennek
A
Rumbletum [20] kereső is megadja a térképet, de a közeli helyeket
típusonként csoportosítva sorolja fel (4. ábra). A vezérszóhoz a
típusonként csoportosított kapcsolódó helyek struktúrája lényegében
megfelel annak, ahogy a tezauruszokban strukturálják relációtípusok
szerint a kapcsolatokat.
4. ábra A János-hegy közelében fekvő helyek felsorolása a Rumbletum-keresőben <http://rumbletum.org/>.
A kapcsolódó helyek linkek, bármelyikére kattintva az lesz a vezérszó, és annak a kapcsolódó helyei jelennek meg csoportosítva. (A 3.2 fejezetben látható a János-hegy deszkriptorcikke tezauruszformában.)
A Global Gazetteer helységnévtár [6] településkeresőjét a légiutas-tájékoztatásra hegyezték ki.
5. ábra A
Global Gazetteer keresőjében a Zugliget közeli helyek alatt a
legközelebbi repülőterek is láthatók a típusjelzésükkel együtt <http://www.fallingrain.com/world/>.
2.2 A földrajzi nevek és a nemzeti nyelv
A
pártállami időszakot a nyelvi elzárkózás jellemezte: a nemzeti nyelven
csak a nemzetállamon belüli településeket nevezték meg, de azokat
kizárólag a hivatalos nyelven, tekintet nélkül az ezeken a helyekén
élők nemzeti hovatartozására. Magyarországon ez többek között
kulturális elszegényedést eredményezett, a Kárpát-medencei magyar
névállomány kifejezései jelentős mértékben kikoptak a köznyelvből.4 A
határon túli természetföldrajzi neveket olykor magyar nyelven tüntették
föl, de abban sem volt mindig köszönet, mert az utódállamok
névhasználatát követték (a hagyományosan használt
"Gömör–Szepesi-érchegység" helyett például a szlovákból fordított
"Szlovák-érc-hegység" szerepelt). A helyneveket viszont mindig
szigorúan a hivatalos formában közölték. Nagyobb lélekszámú települések
esetében idővel ugyan fel-fel tűntek a magyar nevek, de akkor is csak
zárójelben, második névként. És ebben alig-alig van változás. Ez
magyarázható az autóstérképek esetében, hiszen a hivatalos név
kiemelésének praktikus okai vannak egy gyorsan haladó autóvezető
számára. A magyar felhasználónak készült földrajzi atlaszban azonban a
köznyelvben használt magyar helynevek könnyebben eligazítanak, és az
idegen nevek szerepeltetése sokszor kifejezetten zavaró. A
nyugat-európai névhasználatot ezzel szemben a második világháború után
az jellemezte, hogy a külföldi helyneveket is nemzeti nyelven nevezték
meg, ha volt rá kifejezés. Jellegzetes példája ennek, hogy még az olyan
igazgatási egységek nevét is, mint Varsinais Suomi (magyarul:
Tulajdonképpeni Finnország), az angol és a német térképeken Finland
Proper, ill. Eigentliches Finnland formában adták meg. A magyar
térképeken ezzel szemben még a szlovákiai Komárom is csak a hivatalos
Komarno formában jelent meg. A rendszerváltással fordulat játszódott
le Magyarországon a külföldi földrajzi helyek térképészeti és köznapi
névhasználatában. Mára bevett gyakorlat, hogy nemcsak a tágabb külföldi
névanyag esetében (Boroszló, Vezúv, Möll-völgyi gleccser, Szent
Ilona-sziget) jelennek meg a térképeken, és olykor már az
autópálya-táblákon és a vasúti kijelzőkön is (Bécs, Kairó, Muraköz)
magyarul a helynevek, hanem a történelmi Magyarország esetében is.5 A
történelmi Magyarország természetföldrajzi neveivel korábban is és ma
is az a probléma, hogy számos esetben az egyoldalú államnemzeti eszme
szempontjai szerint alakították ki és használják ezeknek a neveknek egy
részét. A magyarországi, de valójában Szlovákiában Eperjesig átnyúló
Északi-középhegység például szlovák szempontból eleve nem északi, az
ottani neve Mátra-Szalánci hegység. A Gömör-Szepesi-érchegységet
Szlovákiában Szlovák-érchegységnek (az 1945 előtti Magyarországon
Magyar-érchegységnek) hívják, a Kárpátoktól valójában geológiailag
teljesen független Erdélyi-középhegységet (közkeletűen a Bihart)
Romániában annak érdekében, hogy a mai román állam természetföldrajzi
egységét sugallják, Nyugati-Kárpátoknak nevezik. Ezek az ellentétek
egyelőre áthidalhatatlanok, de a mai magyar térképészet európai
szellemiségére utal [8], hogy olyan elnevezések használatára
törekszenek, melyek nem sértik a szomszéd népek kulturális érzéseit (a
javasolt semleges elnevezések egy része egyelőre nem nagyon megy át a
magyar köztudatba: például az Északi-középhegység helyett a Mátraerdő,
az Erdélyi-középhegység helyett a Biharerdő), a határon túli
nemzetállami fogadtatásról nem is beszélve. A történelmi
Magyarország igazgatási nevei (lakott helyek, járások, megyék,
országrészek) esetén csak az egyik probléma, hogy az emberi jogokkal
összefüggésben szorgalmazni kell a határon túli magyar települések, és
igazgatási egységek esetében a hivatalos nyelv mellett a magyar
névhasználat törvényesítését is. Ezt már azzal is jelentős mértékben
támogatni lehet, ha a Magyarországon kiadott külföldi autó- és
turistatérképek teljességre törekvően feltüntetik a magyar
neveket is. Ebből a szempontból születtek már nagyon szép eredmények.
Egyik példája ennek a Délvidék (Vajdaság) autótérképe (6. ábra).
6. ábra A
Délvidék (Vajdaság) autótérképe. A hivatalos nevek mellett szerepel a
mai és a koraközépkori magyar név is. Például Vrdnik (hivatalos név),
Verdnik (mai magyar név) és Udvarnok (történelmi név).
A
másik probléma a történelmi Magyarország igazgatási neveivel, hogy ezek
állandóan változtak, és ezért meg kellett állapodni abban, hogy melyik
időszak névhasználatát lehet a leginkább alapul venni. Mivel 1913-ra
Árva és Hunyad vármegye kivételével egységesítették és törzskönyvezték
a településneveket, általában ez a névkataszter a kiindulási alap a
térképészetben. Ennek nyomán a földrajzi nevekkel foglalkozó legújabb
könyvtári szabályzat [13] ezeknek a névformáknak a használatát írja elő
deszkriptorként (nem zárva ki megfelelő, a többi névforma feltüntetését
is megadó utalókat).
3. Követelmények a tezaurusz iránt6
3.1 Terjedelem, homonimitás, történelmi változások, szinonimák
A
könyvtári rendszerekben a földrajzi nevek alapján végezhető keresésben
lépést kell tudni tartani a vázolt fejleményekkel. Ez korántsem kis
feladat, aminek négy oka van.
A terjedelem
Egyrészt
ehhez a névtípushoz a szaktárgyszavakhoz képest is rendkívül sok
névelőfordulás tartozik. Mint említettük, csak az UTM-cellákhoz
kapcsolt magyar nevek száma 30 000 körül van; egy részletesebb
világatlasz névmutatójában kb. 200 000 név szerepel, és ebben például
az előbb említett harmincezres magyar névanyagnak csak a töredéke
fordul elő. Ugyanakkor nem megoldás, ha földrajzi helyekre vonatkozó
dokumentumtartalmak esetében közelítően osztályoznak: ha például a
Budai-hegyekben fekvő Julianna-majoról szól a dokumentum, nem lehet a
Budai-hegység vagy a Buda kifejezést, vagy például a Georgia állambeli
Budapest kistelepülésről szól a dokumentum, nem lehet a Georgia
kifejezést használni a tartalom jellemzésére, mert a dokumentum
megtalálhatatlan lesz. Mindebből következik, hogy az egyetemes magyar földrajzi tezaurusz esetében rendkívül sok lexikai egységre kell számítani
A homonimák7
Másrészt
a homonimák a szaktárgyszavakhoz képest sokkal nagyobb számban
fordulnak elő, ezeket tehát megfelelően választott kiegészítő adatokkal
el kell különíteni. A 2. ábrán látható, hogy 11 János-hegy van
Magyarországon; Berlin nevű település pedig ötvenszer fordul elő a
világon. A megkülönböztetésükre az adatcsere-formátum $c almezője
használandó, amelynek értéke kerek zárójelek között jelenik meg.
Ugyanakkor egy tezauruszban el kell dönteni, hogy egységesen mit
válasszunk a kiegészítő adat értékéül? Mivel nem minden hegy esetében
adható meg, hogy melyik hegységhez tartozik, nem minden kistáj neve
értelmezhető köznyelvi szinten, viszont minden hegyről megállapítható,
hogy melyik település határában fekszik (és a településneveket a laikus
használó is könnyen értelmezni tudja), ezért a tezauruszokban a
legcélszerűbb a település nevével megkülönböztetni a homonim
helyneveket. A János-hegy esetében ez a következőképpen fest:
Ez egyben azt is jelenti, hogy ezek a hegyek a megadott település határában fekszenek, azok részei.
Ide
tartozik, hogy léteznek olyan földrajzi megjelölések, melyek nem csupán
vagy nem teljesen a földfelszín részleteinek azonosítására szolgálnak,
és nem is igazgatási területegységek vagy elkülönült lakott helyek.
Ilyenek a városok ligetei, parkjai, lakótelepei, a közlekedési
létesítmények (út, utca, tér, vasútvonal, autópálya stb.), épületek és
egyéb létesítmények (ház, kastély, állomás, gát stb.) valamint egyéb,
nem meggyökeresedett, véletlenszerű helynevek (homokgödör, kertek alja,
telek, országhatár stb.). Ezek száma végtelen, és mert nagyon szorosan
összetartoznak az adott településsel, nevük az adott település nevét
követi. Például:
Ajka. Jubileumi park Budapest. 2. kerület Budapest. Karolina út Budapest. Istvánmező Budapest. Wekerle-telep Budapest. 3. kerület, Széchenyi-telep Budapest. 15. kerület, Széchenyi telep Eger. Érsek-kert Horvátország. Karolina út Székesfehérvár. Bory-vár Veszprém. Jeruzsálemváros
A
magyar vármegyék és megyék, és a külföldi államok velük azonos szintű
igazgatási egységeinek változásai szintén a fenti módon oldhatók meg,
de esetükben a tezauruszban összefoglalóan is át kell tudni tekinteni
az egyes időszakok igazgatási rendszerét, hogy a kereső és az
osztályozó megfelelő támogatást kapjon. Ennek érdekében korszakhoz
kötötten is fölvesszük az adott ország nevét, és ezeket a
deszkriptorokat alárendeljük a közigazgatási rendszernek. Például
Magyarország esetén:
E deszkriptorok alatt összekerülnek az adott korszak hivatalos igazgatási egységei. Például:
Mindebből
az következik, hogy egy olyan egyetemes tezaurusznak, mint a Geotaurusz
[12], a teljesség igényével tartalmaznia kell nemcsak magukat a
földrajzi neveket, hanem a kapcsolataikat is, hasonlóan, ahogy a
térinformatikai webszolgáltatások ma felkínálják a keresett földrajzi
hely kapcsolódásait a közeli helyekkel (lásd például a 4. ábrát).
A névváltozatok
Negyedrészt,
a földrajzi tulajdonnevekre az összes szótípus között a leginkább
jellemző a névváltozatok nagy száma. Egyrészt szinte minden névnek van
szinonimája, másrészt gyakori, hogy a szinonimák száma rendkívül nagy.
Például (a Geotauruszban szereplő változatokat dőlten, a
deszkriptorokat félkövéren írtuk):
Még
a terminológiailag teljességre törekvő források [8] [14], melyek
igyekeznek a helyesírási változatokat is közölni, sem tartalmaznak
minden változatot egységesen. Az információkereső nyelv szempontjából a
névváltozatok ilyen mérvű teljességére a lexikai egységek szintjén
törekedni a szókincs áttekinthetőségét veszélyezteti. Az
információkereső tezaurusz ugyanis se nem terminológiai szótár, se nem
nyelvészeti gyűjtemény. Különösen nem szabad elavult névalakkal,
ráadásul elavult idegen nyelvű névalakokkal megterhelni. Az újkorban a
szabályozatlan helyesírás miatt szinte minden településnek léteztek
pusztán helyesírási jellegű névváltozatai. Azért sem szükséges a
lexikai egységek szintjén fölvenni minden névváltozatot, mert többségük
betűrendileg ugyanazon a helyen csoportosul, ezért ha közülük egy
nemdeszkriptorként szerepel, akkor megfelelő ugrópont annak a
keresőnek, aki adott névváltozatból indul ki. Érsekújvár esetében
például a magyar Érsekújvár mellett a hivatalos szlovák Nové Zámky (és
esetleg az újkorban a leggyakoribb Neuhäusel) elég kell hogy legyen, az
utóbbi kettő nemdeszkriptorként. Az alaktani és egyéb, jelentéktelen névváltozatokat a lexikai egységek megjegyzéseként lehet megadni. Például:
3.2 A kapcsolatok fajtái és gazdagságuk10
A
Geotaurusz relációtípusainak és feladatának köszönhetően az egyes
földrajzi helyek közötti kapcsolatokat nem horizontálisan (puszta
közelség–távolság viszonyként) jeleníti meg, ahogy ezt a webes
keresőkben megvalósítják (lásd például a 4. ábrán), hanem a kapcsolat
típusa szerint. A földrajzi helyek egyik kitüntetett
jellegzetessége, hogy rész–egész relációkban kapcsolódnak egymáshoz.
Más szóval, a kisebb földrajzi objektum, igazgatási egység mindig
kapcsolódik valamilyen nagyobbhoz. A János-hegy a következő, egyre
nagyobb egységek része: Budai-hegység, Budai–Pilisi-hegység, a
Dunazug-hegyvidék, Dunántúli-középhegység, Dunántúl, Kárpát-medence,
Közép-Európa, Európa. Sáripuszta a Zombori járás, Bács-Bodrog vármegye
része, a mai Hadikkisfalu pedig Zombor község (obcsina, nem azonos
Zombor városával), rajta keresztül Nyugat-Bácska, a Vajdaság, Szerbia,
a Balkán, Dél-Európa, Európa része. Például:
A
partitív összefüggések mellett a generikus összefüggéseknek is fontos
szerepük van a kereshetőségben: minden földrajzi objektum valamilyen
fogalom fajtájának terjedelmébe esik: a János-hegy budai hegy, a budai
hegy Pest megyei hegy, a Pest megyei hegy magyarországi hegy, a
magyarországi hegy európai hegy. Ez első látásra teoretikusnak tűnik,
de számos esetben hasznos, átfogó tájékoztatást kaphatunk az
összetartozó földrajzi egységekről. Például:
Ha
egy földrajzi helynek nagyon sok részét vesszük fel a tezauruszba, az
egyes részeket célszerű összevonni közös fölérendelttel, és csak ezt a
közös fölérendeltet kapcsoljuk rész–egész relációban az átfogóbb
helyhez. Például:
A
fenti eljárás indoka a praktikus szempontok mellett az a
fogalomelméleti tény, hogy a generikus fölérendelt fogalom
tulajdonságait az alárendelt fajfogalmak öröklik [33]. Ha a János-hegy
a budai hegy fajtája, és a budai hegy része a Budai-hegységnek, akkor a
János-hegy is része a Budai-hegységnek. Ez a szabály nem azonos a
partitív reláció tranzitivitásával, tehát azzal, hogy ha egy egésznek
valami része, és ez utóbbinak is van része, akkor ez a rész is része az
egésznek. Például a budai hegy része a Budai-hegységnek, az pedig része
a Budai–Pilisi hegységnek, akkor a budai hegy is része a Budai–Pilisi
hegységnek. A tezauruszok E–R (kiindulása–következése) oksági
relációtípusa az előzőkben tárgyalt névváltozások kifejezése mellett
(előzménye–folytatása) további fontos földrajzi jellegű összefüggés,
mégpedig a földrajzi objektumok átalakulásának
(eredete–eredménye/folytatása) feltüntetésére alkalmas. Például Galga
R Zagyva R Tisza R
Középső-Duna R Alsó-Duna R
Fekete-tenger A tezauruszok X (egyéb összefüggés) relációtípusa a helybeli közelség feltüntetésére alkalmas. Például:
A
természetföldrajzi képződmények egyszerre tartoznak nagyobb
természetföldrajzi képződményekhez és egyszerre fekszenek adott
település határában. Mindkét irányból biztosítani kell, hogy a kereső
rájuk találjon. Például a Tétényi-fennsík a Budai-hegység része, és
Nagytétény határában fekszik. Hogy megkülönböztessük a két
összefüggést, egyezményesen az első esetben a partitív relációt
használjuk ("része"), a második esetben a helybeli közelség ("helye")
relációt:
Számos
olyan eset van, amikor a természetföldrajzi hely (hegy, kisebb tó stb.)
egyszerre több település határába esik. Kékes (a hegy) dél felől
Gyöngyös, észak felől a Parád határán fekszik. Például botanikai
szempontból nem mindegy, hogy a gyöngyösi déli, vagy a parádi északi
oldaláról van szó. Ilyenkor mindegyik településnevet hozzákapcsoljuk a
hegy nevéhez:
A tezaurusz és a benne feltüntetett kapcsolatok hasznát az alábbi példával szemléltetjük. Akinek
a János-hegyről kell a lehető legtöbb adatot beszereznie, a tezauruszt
nem tartalmazó hagyományos rendszerben két helyen fogja keresni: a
János-hegynél és Budapestnél. Az első helyen alig talál valamit
(ráadásul közte nemcsak a budapesti, hanem más János-hegyről szóló
találatok is lehetnek), vagy semmit, a másodikon pedig a rendkívül sok
találat között csak nagyon sok idő ráfordításával találja meg a számára
relevánsakat. A Geotaurusszal támogatott keresőrendszerben a János-hegy deszkriptorcikke a következőket tartalmazza:
A
kereső elsőször a János-hegy (Budapest) alapján megtalálja azt a pár
dokumentumot, amely a területről szól, majd a János-hegy (Budapest)
kapcsolatain továbbkeresve megtalálja a Budai-hegység térképeit,
Budapest térképeit és Pest megye térképeit is, esetleg a János-hegy
kapcsolódó helyein további dokumentumokat a kilátóra vonatkozóan, és az
egyéb kapcsolatokat olyan nevesebb, a közeli területen található
helyekhez, melyeket a munkájához jól fel tud használni: például
Zugliget, a János-hegyi vasútállomáson keresztül a Széchenyi-hegyi
Gyermekvasút), Normafa, Széchenyi-hegy (a Széchenyi-hegyen keresztül a
Fogaskerekű vasút) stb. A Johannisberg nemdeszkriptor ismerete
alapján pedig akár a weben, akár címek szerint, akár más, például német
nyelvű adatbázisban folytathatja a keresést. Könnyen belátható, hogy
a János-hegy deszkrip-torcikkében szereplő minden egyes kapcsolatra
emlékezetből keresni meglehetősen bizonytalan és időigényes, még ha
olyan helytörténészről lenne is szó, aki az általa kutatott terület
névanyagát messzemenően ismeri, a laikus keresőről nem beszélve. A
János-hegy fenti deszkriptorcikke lényegében a 4. ábrán látható webes
keresőszolgáltatás által felkínált struktúra megfelelője
tezauruszformában. Hasonló helyzetbe kerülhet a magyar kutató, aki
például a berlini Staatsbibliothek online katalógusában a magyarországi
térképeket szeretné megtalálni a Dunántúli-középhegységről. Ha nincs
tezaurusz, amely támogatja a kereséskor, nagyon kell ismernie a
Dunántúli-középhegység szerkezetét, hogy megtalálja a fellelhető kevés
dokumentumot. A mai könyvtári rendszerek online katalógusaiban
legfeljebb egyszerű mutatókat talál, ezek a kapcsolatok
megjelenítésének hiányában valójában rosszabbul használhatók, mint akár
az ETO, vagy az ehhez hasonló hierarchikusan felépített rendszerek. A
Staatsbibliothek régi hierarchikus katalógusában olyan, teljesen
eldugott helyeken találhatók térképek a fenti tárgykörben, melyek
pusztán az online mutatóra támaszkodva megtalálhatatlanok maradnának.
3.3 A magyarázatok
A
földrajzi helyek közötti összefüggések adott esetben meglehetősen
bonyolultak lehetnek, különösen, ami az igazgatási egységek
változásait, az összevonásokat és a szétválásokat illeti. A tezauruszok
relációtípusaival nem lehet mindig egyértelműen, még kevésbé
részletesen leírni ezeket. Erre a feladatra a lexikai egységekhez
fűzhető magyarázatok alkalmasak. Ezt a lehetőség egy egyetemes
földrajzi tezauruszban különösen fontos kihasználni. A magyarázatokat a besorolási adatok adatcsere-formátuma is tartalmazza [9] (2. táblázat).
2. táblázat A tezaurusz megjegyzései
A meghatározások általában akkor szerepelnek, ha a földrajzi hely értelmezése nem teljesen magától értetődő. Például:
A megjegyzések leggyakrabban történetiek, az adott igazgatási egységgel összefüggő változásokat írják le. Például:
A használati megjegyzések biztosítják a lexikai egység egyértelmű alkalmazását az osztályozáskor. Például:
Az
alkalmazás történetéről szóló megjegyzésekkel lehet emlékeztetni arra,
hogy a lexikai egység névalakján már változtattak. Ezzel meg lehet
akadályozni, hogy a későbbiekben a kifejezést a korábbi változások
ismeretének hiányában ne változtassák folyton ide-oda. Például:
A
deszkriptorcikkek részletessége a gyakorlati igények függvénye.
Nagyobb vagy népszerűbb települések esetében, melyekről sok dokumentum
szól, törekedni kell a földrajzi kapcsolatok minél részletesebb
feltüntetésére. Ilyen eset például Eger, amelyen belül csak a várról
is több száz dokumentum létezik. Ezzel szemben a Füzéri várról és
Füzér településről nincs annyi dokumentum, ami szükségessé tenné
mind Füzér, mind a Füzéri vár deszkriptorként való felvételét.
Később, a dokumentumok gyarapodása indokolhatja a szétválasztás
elvégzését. Ugyanakkor speciális vagy helyi gyűjtemények, anyaguk
összetételénél fogva dönthetnek úgy, hogy ott mindkét tárgyi
kifejezést felveszik. A Geotauruszban a teljes magyarországi
névválaszték kínálatára törekszünk. Belőle például az egyetemes célú
Köztauruszba csak azokat a lexikai egységeket vesszük föl, melyek a
Köztauruszt használó könyvtárakban lehet fontos. Az Országos Széchényi
Könyvtár Térképtárában viszont magát a Geotauruszt használják, mert a
Térképtár gyűjtőkörében mind magyarországi, mind külföldi vonatkozásban
nagyon speciális igényeket kell kielégíteni. Előfordulhatnak olyan
értelmezési esetek, melyek ellentmondóak. Ilyenkor belső megjegyzés
szerepel, többnyire a forrásra vonatkozó megjegyzéssel együtt.
Különösen gyakoriak az ilyen megjegyzések azokban az esetekben, amikor
a nemzet- vagy pártállami elkülönülés szellemében nyilvánítottak önálló
tájnak természetföldrajzilag nem indokolt területeket. Az utolsó ilyen
kataszter 1990-ben jelent meg [16]. Időközben napvilágot láttak olyan
tájrendszerek is, melyek az állami kereteken túllépve, a Kárpát–Pannon
térség egészét, s így a természetföldrajzi jellemzőket inkább
figyelembe vették [8]. Azáltal, hogy a térség államainak többsége már
csatlakozott az Európai Unióhoz, az utóbbi szemlélet fokozatosan az
előtérbe kerülhet. Egy földrajzi tezauruszban mindegyik szemlélet
által létrehozott kifejezésnek szerepelnie kell, mivel mindegyik
szemlélet jegyében születhetnek dokumentumok, és az ezekben tárgyalt
tájegységek egymással nem helyettesíthetők, lévén áthidalhatatlan a
szakadék a szemléletek között. A tezauruszban ezekre az ellentétekre a
belső megjegyzésekben hívható fel a figyelem. Például:
A
forrásadat biztosíthatja, hogy a lexikai egységgel kapcsolatos
jelentésnek pontosabban utána lehessen nézni. Példákat az előzőkben
láthattunk. Egy tezauruszban kezdetben nem tartozik minden lexikai
egységhez megjegyzés, és nem is kell, hogy tartozzék. A megjegyzéseknek
nincs terminológiai érvényük, mert az információkereső tezaurusz nem
terminológiai szótár. Arra valók, hogy a használót az osztályozás és a
keresés érdekében tájékoztassák. Az információkereső tezauruszban
számos terminológiai probléma egyszerűen áthidalható azzal, hogy a
vitás kifejezések között "lásd" kapcsolatokat hozunk létre. Más szóval
kijelölünk a vitatott kifejezések között deszkriptort vagy
deszkriptorokat, és a többi helyett ezeket kell az osztályozásra
használni. Így egyértelműen szabályozhatók az eltérő terminológiát
használó szerzők művei. Mivel tezauruszkészítéskor nemcsak
tezauruszszerkesztő szakemberre, hanem az egyes kifejezések
használatában jártas szakemberekre is szükség van, sok felesleges
erőfeszítés takarítható meg, ha a tezauruszszerkesztő érvényesíteni
tudja a fenti módszertani elvet. Végső soron ugyanis a tezaurusz
interdiszciplináris munka eredménye, amelyben mind a
tezauruszszerkesztés, mind a szakterületek ismereteit össze kell tudni
hangolni [19]. A jó tezaurusz a használat során alakul ki. Az egyre bővülő megjegyzések következtében lesz egyre használhatóbb a tezaurusz.
3.4 A tezaurusz polihierarchikus jellege
A polihierarchia fogalma
A
tezauruszok polihierarchikus szerkezetűek, azaz a fogalmaknak egynél
több fölérendeltjük lehet (több dolog fajtái lehetnek), a földrajzi
helyek és igazgatási egységek pedig egynél több átfogóbb, nagyobb
helyhez, egységhez tartozhatnak. A szokásos, Magyarországon
kialakított tájrendszerek ezzel szemben monohierarchikusak, azaz a
résztáj csak egyetlen átfogóbb, nagyobb tájhoz tartozhat, többhöz nem.
Ez azonban nem azért van így, mert elvileg lehetetlen, hogy egy
tájrendszer polihierarchikus legyen, hanem egyrészt azért, mert a
földrajzi szakemberek ezt többnyire elképzelhetetlennek tartják,
másrészt a nemzetállami szemlélettel a polihierarchia szöges
ellentétben áll; a kettő összefügg. A tezaurusz polihierarchikus
jellege teszi lehetővé, hogy benne egyszerre több tájrendszer
összefüggései is rögzíthetők. Többnyire elég hozzá, hogy adott
földrajzi helyet több más tájhoz is hozzákapcsoljuk rész–egész
(partitív) relációban.
Különböző tájrendszerek egybeolvasztása a polihierarchia és a tezaurusz megjegyzései alapján
Magyarországon
az utolsó hivatalos tájrendszer 1990-ben készült el [16], lényegében
még a Kádár-rendszerben érvényes szűk államterületi szemlélet alapján.
Hajdú-Moharos József és munkatársai a 90-es években kidolgozták a
Kárpát-Pannon térség politikai határoktól és szempontoktól független
természetföldrajzi tájrendszerét, mely azonban (egyelőre) nem számít
hivatalosnak. A dokumentumok szerzői (demokráciában) maguk döntik el,
miről és mit publikálnak, más szóval mindkét tájrendszer hívei
lehetnek szerzők. Következésképp mindkét tájrendszer fogalmai szerint
kell tudni a dokumentumokat osztályozni, és arra is számítani kell,
hogy a felhasználó is bármelyik tájrendszer megnevezései alapján kíván
tájékozódni. A Geotauruszba tehát beépítettük mindkét tájrendszer
egységeit és a közöttük fennálló rész-egész viszonyokat. Ahol ez nem
volt lehetséges, ott megjegyzésekkel igazítjuk el a felhasználót. Az
alábbiakban a hivatalos és a Hajdú-Moharos-féle tájrendszer egy
részletét hasonlítjuk össze. A félkövér kifejezések deszkriptorként, a
kerek zárójelek közötti sovány kifejezések H (helyett) relációjellel
nemdeszkriptorként szerepelnek a Geotauruszban. Szögletes zárójelek
közé tettünk néhány megjegyzést az eltérésekről, T (egésze)
relációjellel jelölve, ha az adott rendszerben a másikhoz képest más
nagyobb tájhoz lett a táj besorolva. Ha a két táj lényegében azonos, =
jel jelöli. Ha tágabb vagy szűkebb, a <, ill. > jelek jelölik. Ha
egyébként azonos tájak nem egymással szemben helyezkednek el, de
azonosak, azt kétirányú nyíl jelzi.
A
két tájrendszer fenti tájai a Geotauruszban a következőképpen olvadnak
össze, azaz kapcsolódnak egymáshoz rész–egész (partitív) relációban:
Látható,
hogy egyes tájak egyszerre több nagyobb táj részei (az ilyen tájakat
aláhúzás jelöli). A tezauruszcikkben ez a következőképpen fest:
A Vendvidéki-dombság a Vendvidék természetföldrajzi neve. Mivel a Vendvidék köznyelvibb változat, ez lett a deszkriptor. Ha valamelyik táj csak az egyik tájrendszerben szerepel, a forrásmegjegyzés tájékoztat róla. Például:
Ha eltérés van a táj köznapi és adott tájrendszerbeli értelmezése között, megjegyzés tájékoztat róla. Például:
Ha a tájnevet a két rendszerben eltérő értelemben használják, erről megjegyzés tájékoztat. Például:
Ha
ugyanazt a tájat a két rendszerben eltérően nevezik, akkor mindig a
Hajdú-Moharos-féle névváltozat a deszkriptor és forrásmegjegyzés
tájékoztat. Például:
A
fentiekből az is következik, hogy a tezauruszban nem kell ismerni
meghatározott rendszert, mert mindig a kereső által választott szóval
lehet belépni, és a lexikai egységek közötti kapcsolatok lehetővé
teszik a böngészést (akárcsak az ugrópontok a weben a "szörfölést").
Ezzel szemben a monohierarchikus tájrendszerek, vagy akár az ETO
segítségével végzett kereséshez ismerni kell az adott rendszer
szerkezetét és elveit. Az ETO-esetében még segítségül lehet hívni a
könyvtárost, de egy tájrendszerben csak a tájrendszert ismerő földrajzi
vagy térképész szakember igazodik el, aki általában nem áll
könyvtárakban rendelkezésre. Ha tezaurusz áll rendelkezésre, a kereső
különösebb nehézség nélkül eligazodik a kapcsolatok között, és
ugyanakkor – a tezaurusz generikus és partitív relációnak
polihierarchikus jellege következében – egyszerre több, eltérő
nézőpontú tájbeosztás között lehet bögészni.
3.5 A földrajzi nevek kapcsolatai a besorolási adatok adatcsere-formátumában
A
földrajzi nevek közötti kapcsolatokat a besorolási nevek
adatcsere-formátumának erre a célra kialakított, ún. utalói mezőiben és
almezőben kell rögzíteni [9] (a 3. táblázatban a HUNMARC szerinti
szerkezet látható).
3. táblázat A földrajzi nevek kapcsolatai a besorolási adatok adatcsere-formátumában
Az
adatcsere-formátum kapcsolatokat kezelő része ugyancsak nem tökéletes.
A $b és $c almezők (lásd az 1. táblázatot) helyzete ugyanis
ellentmondásos. A vezérszó 151-es mezőjében ugyanis az almezőnek is
szerepelnie kell, a kapcsolatok 450-es és 550-es almezőiben azonban nem
szerepelhetnek hívójeles formában, csak olyan formában, ahogy meg kell
jeleníteni őket. Jól látszik ez a János-hegy esetében (aláhúzással
jeleztük az ellentmondás helyét).
4. Önálló egyetemes földrajzi tezaurusz: a Geotaurusz
A
földrajzi tulajdonnevek nagy száma, a sok homonima, a történelmi
változások okozta névváltozások 3.1 fejezetben ismertetett problémái
miatt célszerűbb volt külön egyetemes tezauruszban összefogni a
földrajzi neveket, mint beolvasztani őket az ugyancsak egyetemes
Köztauruszba [12][26]. Egyszerre nem minden földrajz név használatára
kerül sor a Köztauruszt alkalmazó könyvtári és egyéb rendszerekben.
Azokat, amelyek szükségesek, az egyes felhasználók visszajelzései
alapján vesszük át a Geotaruszból a Köztauruszba, amely csak
fokozatosan bővül a ténylegesen használatba vett kifejezésekkel. A
Geotaurusz alapja Cserbák András emberföldrajzi történeti földrajzi
tezaurusza volt [3] a maga néhány ezres szóállományával. Az
alábbiakban azokat a fontosabb forrásokat ismertetjük, melyekből a
Geotaurusz névállományát kialakítottuk.A 19–20. századi magyarországi
GNS-adatok átvétele A 90-es évek második felében került sor arra, hogy
a letöltsük a GEOnet Names Server (GNS, Földrajzi nevek hálózati
szervere) [15] által kezelt adatbázisból a 2.1 fejezetben már említett,
mai Magyarországra vonatkozó kb. 30 000 névből álló állományt (7. ábra).
7. ábra A GNS-szerverről letölthető magyarorsági adatok. A DESIGN oszlopban a névtípus (pl. PPL = hivatalosan nyilvántartott település, RSTN = állomás, PPLX = külterületi lakott hely, MT = hegy), az AREA oszlopban a megye szerepel.
Az
adatbázis adatai csak korlátozottan pontosak, az NGA vonatkozó leírása
is felhívja rá a figyelmet. A pontatlanságok a tezauruszkészítés
szempontjából abból erednek, hogy a magyar névanyag alapjául szolgáló,
1947–1950 körül hozzáférhető kartográfiai források a kistelepülések,
dűlőnevek és részben kisebb természetföldrajzi objektumok
vonatkozásában számos régies írásmódú névalakot tartalmaznak. A
letöltést követő években ennek az állománynak az újraszerkesztésére
volt szükség. A munka teljesen még ma sincs befejezve, mivel még nem
sikerült minden nevet pontosan beazonosítani (csak a névtípus volt
egyértelműen megállapítható a forrásadatbázis alapján). Ezek a lexikai
egységek nagyrészt homonimák, és onnan ismerhetők fel a Geotauruszban,
hogy a végükön számozottak. Például:
A
jobb oldalon egy azonosított és egy azonosítatlan kistelepülés
deszkriptorcikke látható. A letöltéskor átvettük az UTM-cellákat
meghatározó koordinátaértékeket is, melyek a Q1 és Q2 relációjelekkel
kapcsolódnak. A Geotaurusz jelenleg 26 782 lexikai egység esetében
tartalmazza ezeket a koordinátákat. Azért nem minden átvett földrajzi
név esetén, mivel a nemdeszkriptoroknak minősített esetekben a
koordinátákat töröltük.
A 19–20. századi történelmi Magyarországra vonatkozó GNS-adatok átvétele
Elvileg
a szomszéd államok, s ezeken belül a történelmi Magyarországra
vonatkozó GNS-adatok is átvehetők, de a szerkesztésük sokkal nagyobb
munkával járna, mivel ezek a földrajzi nevek nem magyarul szerepelnek.
Kétségtelen azonban, hogy egy ilyen munka elvégzése jelentős mértékben
bővíthetné azt a kulturális örökséget, melyet – főleg a Kárpát-medencén
belül – a magyar vonatkozású földrajzi nevek jelentenek.
A moldvai magyar településnevek
Ugyancsak
bedolgoztuk a Geotauruszba a történelmi Magyarország hivatalos
településnév-állományát,12 beleértve a járásokat és a vármegyéket
[14], 13 valamint lényegében az összes magyar vonatkozású moldvai
településnevet. Akkora a moldvai magyar névállomány, hogy
csoportosítani kellett a magyar településneveket. A hagyományosan
használt tájakat néhány esetben ki kellett egészítenünk, hogy a
csoportosítás áttekinthető maradjon. Az alábbi deszkriptorcikk ezeket a
tájakat tartalmazza. Mivel még e területeken kívül is léteznek magyar
vonatkozású moldvai települések, ezeket a mai megyék részeként
tüntettük fel (a romániai járási beosztást ugyanis egyelőre nem
építettük be a Geotauruszba).
A magyarországi várak
A
Geotaurusz már nagyon sok történelmi és mai várnevet is tartalmaz. Volt
olyan forrás, melyet a teljesség igényével dolgozunk fel [14], más
forrásokat az adatok pontosításához használtunk fel. Részletes és
átfogó munka Szabó Tibor régész adattára14. Az alábbiakban a várak
területi beosztását megadó deszkriptorcikk, és egy Fogaras vármegyei
vár deszkriptorcikke látható.
Egyéb földrajzi névtárak
Létezik
ugyan hivatalos magyar földrajzinév-tár [15], de ennek nyomtatott
formája adatbevitelre nem használható, a digitalizált állományához
pedig nem lehet szabadon hozzáférni. Ugyancsak hozzáférhető, de nem
letölthető a weben a Statisztikai Hivatal által kezelt "A Magyar
Köztársaság helységnévkönyve"15. Ez a letölthetetlenség ennyire
közhasznú adatok esetében, és a hasonló Egyesült Államokbeli,
eredetileg katonai rendszerekben használt adatok mai szabad
hozzáférhetőségének fényében több, mint nevetséges. Tény, hogy
alapvetően emiatt kényszerültünk arra, hogy a kevésbé pontos, de
hozzáférhető külföldi forrásokat használjuk föl a mai magyarországi
kistelepülések és mikronevek összegyűjtésére, többek között a nemzeti
könyvtár számára. Az Árpád-kori Magyarország névanyagának
adattára16 (főleg) olyan koraközépkori mikroneveket tartalmaz, melyek
egy, a Geotaurusznál speciálisabb tezauruszba valók. Ezt érdemes volna
elkészíteni, hogy a névanyagon belüli keresést korszerűvé tegyük, de az
állomány nem tölthető le, legfeljebb körülményesen kimásolható Word
állományba. A lehetőségek szemléltetéséül bemutatunk két, egymással
a szöveg alapján összefüggő, de az Árpád-kori adattárban relációsan nem
összekapcsolt szócikket az Ápád-kori Fejér vármegyei állományból (mely
akkoriban átnyúlt a Duna keleti oldalára), és azt, hogy egy jövőbeni
átvétel esetén milyen tezauruszcikkben jelenhetne meg egy ilyen
szócikk, ezúttal felhasználóbarát relációnevekkel. A Névarchívumban ez
a két szócikk így szerepel:
A
fenti két hely megszerkeszthető tezauruszcikke alább látható,
összekapcsolva a már a Geotauruszban szereplő adatokkal. A harmadik és
a negyedik, a Halom és a Halom-hegy tezauruszcikke meglévő, csak ki
lett egészítve. A Magyar Névarchívumból származó két nevet aláhúzással
jelöltük. A példákban a relációkat nem a tezaurusz szabvány rövid
jeleivel, hanem felhasználóbarát nevekkel adtuk meg annak
szemléltetéséül, hogy a tezauruszt a mindenkori kívánalmaknak
megfelelően lehet megjeleníteni.
Az ETO neveinek átvétele és az általános földrajzi nevek forrásai
• Az ETO földrajzi neveinek átvétele
A
Geotaurusz, s vele a Köztaurusz általános földrajzinév-állományába
egyrészt beépítettük az ETO földrajzi névanyagát is. Mivel az ETO
igazgatási egységeinek nevei részben a fordítás, részben egyéb okok
miatt nem teljesen azonosak az egyes államokban hivatalosan
nyilvántartott nevekkel, az egyeztetés jelentős szerkesztési munkával
járt. Lényegében az összes általános földrajznevet (földrajzi köznevet)
átvettük a ETO-ból. Tulajdonnevek dolgában jelenlegi állapotában a
Geotaurusz helyenként részletesebb, mint az ETO, helyenként pedig a
speciálisabb hegységek és hegyek hiányzanak. Ennek oka, hogy kezdetben
a felhasználó könyvtárak gyakorlati igényeihez igazodtak az ETO-ból
származó átvételek, és ahol az átvétel a maga idejében nem történt meg,
ott a jövőben kell ezt pótolni. Az alábbiakban rövid összehasonlítás
látható a bal oldali ETO-jelzetek és a Geotauruszban szerepelő
deszkriptorok között. Az ETO-ban csak egyetlen hierarchikus reláció
létezik, a generikus és a partitív összefüggések össze vannak mosva. A
"pireneusi-félsziget hegységei" például fajtái az európai hegység
fogalmának (generikus reláció, A relációjellel jelölve a jobb oldali
oszlopban), a Pireneusok viszont elemei, részei a pireneusi-félszigeti
hegységnek (partitív reláció, P relációjellel jelölve). A Geotauruszban
e két relációt megkülönböztetjük. Az összehasonlításban jól látható,
hogy például a pireneusi-félsziget hegységei részletesebben szerepelnek
a Geotauruszban, a franciaországi hegységek viszont kevésbé részletesen.
• A CAD tezauruszának átvétele
A
Geotaurusz általános földrajzi névi állományát a Californiai Alexandria
Digitális Könyvtár tezauruszának [1] vezérszavaival is gyarapítottuk. A
két tezaurusz filozófiája azonban alapvetően különbözött, ezért csak a
lexikai egységek szintjén áll fenn kompatibilitás, a kapcsolatok
szintjén nem. A Geotaurusz egyetemes tezaurusz, részletesebben
tartalmazza az általános földrajzi neveket, és relációszerekezete is
finomabb annak érdekében, hogy áttekinthetőbben legyenek
csoportosíthatók a kapcsolódó lexikai egységek. Az alábbiakban a bal
oldalon látható néhány deszkriptor esetében a CAD tezauruszának, a jobb
oldalon a Geotaurusznak szócikkei szerepelnek.
A
külföldi tezauruszok adaptálása a nyelvi különbségek mellett azért is
okoz nagy munkát, mert a természetföldrajzi felosztások dolgában az
államigazgatás és az állami térképészet területén az egyes országokban
többnyire a korlátolt nemzeti érdekek szempontjából járnak el.
Magyarországi példa erre a már tárgyalt, 1990-ben tető alá hozott
magyarországi kistájak katasztere [16] a maga számos,
természetföldrajzi szempontból nehezen indokolható tájegységeivel. Nem
minden államban tárják fel azonos természetföldrajzi részletességgel az
államterületet, másrészt gyakran érvényesültek politikai szempontok. Az
elsőre példa az 1990-es tájkataszterben a "Nyugat-magyarországi
peremvidék" és annak torz helye a tájhierarchiában (magában foglalja az
Alpokalját, a Rábántúli kavicstakarót, a Kemeneshátat és a
Zalai-dombvidéket). A másodikra példa, hogy Magyarországon
megszüntették a történelmi vármegyék kataszteri kódjait. Ide sorolható
az egyik legdurvább megoldás is: Romániában a Keleti- és a
Déli-Kárpátokat a Balkán hegységeihez sorolják.
A Geotaurusz (és a Köztaurusz) számokban
A Köztaurusz állománya 2001 óta több mint kétszeresére nőtt (207 %). A Geotaurusz állománya 2001 óta több mint nyolcsorosára nőtt (833 %). A Köztaurusz és a Geotaurusz együttes szókészlete jelenleg: 125 686 lexikai egység. A
számszerű fejlődést a 3. táblázat foglalja össze. Összehasonlításul
megadtuk az ETO és a Kongresszusi Könyvtár (LC) vonatkozó adatait.
3. táblázat A Köztaurusz és a Geotaurusz fejlődése számokban
A
Geotaurusz további fejlesztésekor az elsődleges cél, hogy a még
azonosítatlan kistelepülések és természetföldrajzi objektumok (hegyek,
dombok, patakok, mikrotájak stb.) azonosítását elvégezzük. Erre a
legalkalmasabbak a megyei közművelődési könyvtárak. Osztályozó
szakembereik Magyarország legképzettebb könyvtárosai, és a
helytörténeti gyűjtemény kezelésében is tapasztaltak. Többségük ismeri
az országosan használt Relex tezauruszkezelő programot [19], amellyel
ez az azonosító munka konkrétan elvégezhető. A Relex segítségével
megyénként kigyűjthetők az azonosítatlan nevek (melyek tipizálása
készen van). A rendelkezésre álló koordináták alapján a weben pontosan
megkereshető a kérdéses földrajzi hely, és ennek alapján
megállapítható az a tágabb földrajzi objektum, ill. település vagy
igazgatási egység, amelynek része (ahová tartozik). Ennek a
munkának a elvégzése, akárcsak a Kárpát-medencén belüli földrajzi nevek
letöltése és beépítése a Geotauruszba, még a jövő feladata. Ahhoz, hogy
az ilyen nagyságrendű fejlesztés lehetővé váljék, szükség volna arra,
hogy a könyvtári pályázatok kiírói erre tekintettel fogalmazzanak meg
pályázati feltételeket.
Bibliográfia
[1] Alexandria Digital Library Gazetteer <http://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsp>Alexandria Digital Library Feature Type Thesaurus. University of California, Santa Barbara. Version of July 3, 2002. <http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm [2] FARAGÓ Imre: A magyar földrajzinév-használat. = Könyv¬tári Figyelő, 51. évfolyam, 2005. 4. szám. <http://www.ki.oszk.hu/kf/kfarchiv/2005/4/farago.html> [3]
Geohistaurusz : a Kárpát–medence humángeográfiai tézaurusza : 1723–1983
/ Cserbák András. Budapest: 1994. – 68 p. – KMK: 4–10607 [4] GeoNames geographical database <http://www.geonames.org/> [5] GEOnet Names Server (GNS) lásd National Geospatial-Intelligence Agency’s (NGA) [6] Global Gazetter Version 2.1 – Falling Rain Genomics, Inc., 1996–2006. <http://www.fallingrain.com/world/> [7] HAJDÚ-MOHAROS József: Magyar településtár. – Bu-dapest: Kárpát-Pannon K., cop. 2000. – XXVIII, 788 p. [8]
HAJDÚ-MOHAROS József – HEVESI Attila: A Kárpát-Pannon térség
tájtagolódása. In: Magyarország földje : kitekintéssel a
Kárpát-medencére. Szerk. Karátson Dávid. Budapest: M. Kvklub, 2002. pp.
274–285. (Pannon enciklopédia, 6.) [9] HUNMARC, a bibliográfiai
rekordok adatcsere for¬mátuma. Összeáll. Sipos Márta; kész. az
Orszá¬gos Széchényi Könyvtár Fejlesztési Osztályán. Bu¬dapest : OSZK,
1993. 129 p. ISBN 963 200 344 6.A MARC 21 Format for authority data.
1999 ed. Update No. 1 (October 2001) through Update No. 8 (October
2007). – Washington, Library of Congress, Network Development and MARC
Standards Office. <http://www.loc.gov/marc/authority/ecadhome.html>HUNMARC, a besorolási rekordok adatcsere formátuma. Összeáll. Sipos Márta. 1998 március. 61 p. Tervezet [10]
ISO/DP 5954–1985 Guidelines for the establishment and development of
multilingual scientific and technical thesauri for information retrieval. [11]
ISO/IS 2788–1986 Guidelines for the establishment and development of
monolingual scientific and technical thesauri for information retrieval. [12] Köztaurusz. 2008. július 1. <http://www.oszk.hu — Útmutató/Tezaurusz> és <https://mek.oszk.hu/adatbazis/thes.htm> <https://mek.oszk.hu/adat-bazis/thes.htm> Geotaurusz. 2008. július 1. [13]
KSZ/5. Földrajzi nevek mint adatbázisrekordok tárgyi hoz¬záférési
pontjai. Közreadja a Könyvtári és Szakirodalmi Tájékoztatási
Szabványosítási Bizottság. Kiadja az Or¬szágos Széchényi Könyvtár,
Budapest. A jóváhagyás idő¬pontja 2005. június. <http://www.ki.oszk.hu/szabalyzatok/foldrajzinevek_ksz5.pdf> [14]
LELKES György: Magyar helységnév-azonosító szótár. Második, bőv. és
jav. kiad. Baja : Talma Könyvkiadó, 1998. 930 lap, 4 tábla, 64 térkép. [15] Magyarország földrajzinév-tára. Budapest : Kartográfiai V., 1985. 1. és 2. kötet. [16]
Magyarország kistájainak katasztere [szerk. Marosi Sán¬dor, Somogyi
Sándor] [kész. az MTA Földrajztudomá¬nyi Kutató Intézetben] [... írták
Ambrózy Pál et al.] [... közrem. Balogh Imre et al.]. Budapest : MTA
FKI, 1990. 2 köt. 1023 p. [17] MSZ 3418H–87 Magyar nyelvű információkereső tezau¬ruszok. Szerkezete, részei és formái. MSZ 3440/5–79 A bibilográfiai leírás besorolási adatai. Földrajzi nevek. [18]
National Geospatial-Intelligence Agency’s (NGA) and the U.S. Board on
Geographic Names. GEOnet Names Server (GNS). S search. <http://gnswww.nga.mil/geonames/GNS/index.jsp> [19]
RELEX. Tezauruszok, szótárak, mutatók készítését tá¬mogató program
lexikai egységek formájának és relációinak ellenőrzésére. Felhasználói
kézikönyv. 3.0 változat. (Borland C++ nyelven WINDOWS számára.)
Készítette Ungváry András és Ungváry Rudolf. Bp. Ariel Studió Bt.,
2000. 47 p. [1. változat: 1992.] – KMK: 4–10864 [20] Rumbletum <http://rumbletum.org/> [21]
UNGVÁRY Rudolf: Tezaurusz-technológia. Az információ Könyvtári Figyelő
2008/3 427 a fö ld raj zine vek é ssze re pük a zinfo rm ác ióke sé sbe
n kereső tezauruszok készítésének folyamata. Közr. az Or¬szágos
Széchényi Könyvtár Könyvtártudományi és Mód¬szertani Központ. Budapest
: NPI, 1979. 277 p. [22] UNGVÁRY Rudolf: Application of the
thesaurus method to the communication of knowledge. = International
Classification, 1983. 2. sz. p. 63–68 <http://ontologia.hu/document/paper/> [23]
Gegenstän¬de. – Anwendung der Klassifikation. Proc. der 8.
Jahresta¬gung der Ges. für Klassifikation, Hofgeismar, 10–13. April
1984. Frankfurt/Main, Indeks Verlag (1985) – (Studien zur
Klassifikation ; Bd. 15) pp. 19–41. [24] UNGVÁRY Rudolf: A fogalmi
szint megközelítése. A strukturált szótárak — tezauruszok — használata
a fordításhoz. – In: Előadások a műfordításról / szerk. Hans-Henning
Paetzke. – Budapest : Collegium Budapest, 1996. – (Workshop Series) –
p. 30-48. [25] UNGVÁRY Rudolf – ORBÁN Éva: Osztályozás és
infor¬mációkeresés. Kommentált szöveggyűjtemény. A bevezetőt és a
kommentárokat írta Ungváry Rudolf. Budapest : OSZK, 2001. 1. köt. Az
osztályozás elmélete. 450 p. 2. köt. Az információkeresés elmélete. 580
p. <https://mek.oszk.hu/01600/01683/pdf/> [26] UNGVÁRY Rudolf: Az OSZK tezaurusza és a Köztaurusz. = Könyvtári Figyelő, Új folyam 11. (47.) évf. 1. sz. 2001. p. 11–40. <http://www.oszk.hu/kiadvany/kf/2001/1/ungvary.html> [27] UNGVÁRY Rudolf: Tezauruszkezelő programok és a RELEX. = Tudományos és Műszaki Tájékoztatás, 48. köt. 1. sz. 2001. p. 3–16. http://tmt.omikk.bme.hu/show_news.html?id=1620&issue_id=26 [28]
UNGVÁRY Rudolf: Tezaurusz a felhasználói felületen. = Tudományos és
Műszaki Tájékoztatás, 48. köt. 3. sz. 2001. p. 99–108. <http://tmt.omikk.bme.hu/archiv.html> [29] UNGVÁRY Rudolf; Vajda Erik: Könyvtári információkere¬sés. 2. jav. kiad. Budapest : Typotex, 2002. 170 p. [30]
UNGVÁRY Rudolf; Vajda Erik: Az információkeresés sza¬vai. = Tudományos
és Műszaki Tájékoztatás, 50. köt. 12. sz. 2003. p. 1–27. <http://tmt.omikk.bme.hu/archiv.html> [32] UNGVÁRY Rudolf: A kategóriák rendszere (2004) <http://ontologia.hu/document/paper/> [33]
UNGVÁRY Rudolf: Tezaurusz és ontológia, avagy a fogal¬mi
ismertetőjegyek generikus öröklődésének formalizálá¬sa. = Tudományos és
Műszaki Tájékoztatás (2004) 5. sz. 175–191. <http://tmt.omikk.bme.hu/show_news.html?id= 3615&issue_id=450> [34]
UNGVÁRY Rudolf; Radnai Tamás: Thesaurus in user interface. Optimum
presentation of thesauri. In: IEEE 3rd International Conference on
Compu-tational Cybernetics, 2005. april 13–16. Proceedings. Mauritius,
2005. p. 175–180. [35] UNGVÁRY Rudolf – PÁSZTI László: A földrajzi
nevek mint az adatbázisrekordok hozzáférési pontjai. Egy könyvtári
szabályzat elvei és megoldásai. = Könyvtári Figyelő, 51. évfolyam,
2005. 4. szám. <http://www.ki.oszk.hu/kf/kfarchiv/2005/4/ungvary.html> [36] UNGVÁRY Rudolf: A tezaurusz mint „kisvilág”. 2006. <http://ontologia.hu/document/paper/> [37]
UNGVÁRY Rudolf: Az ontológia fogalma, avagy az eltűnt tezaurusz. In:
Ontosz. Előadássorozat a formális ontoló¬giákról. Az ontológia
fogalmának, felépítésének, alkalma¬zási lehetőségeinek különböző
megközelítései. Budapest, W3C, 2007. április 25. http://ontologia.hu/ontosz/, http://www.w3c.hu/ rendezvenyek/2007/ontologia/index.html [38]
USMARC format for classification data, including guidelines for content
designation. 1991 Edition. Prep. by the Network Development and MARC
Standards Offi¬ce; Cataloging Distribution Service, Library of
Congress, Washington, Update No. 1. July 1995. <http://www.tlcdelivers.com/tlc/crs/clas0001.htm>
Jegyzetek
1. Földrajzi név saját névvel (más megjelöléssel) megkülönböztetett része. 2. A földrajzi nevet azonosító földrajzi név neve, rövidítése, kódja, vagy földrajzi hely típusának neve. 3. Univerzális Transzverzális Merkátor (Universal Transverse Mercator) koordinátarendszer. 4. A folyamat következményeit részletesen tárgyalja Faragó Imre [2]. 5.
A folyamat megváltoztatásában kiemelkedő szerepe volt Hajdú-Moharos
Józsefnek és munkatársainak. Munkásságuk eredményeként készült el
Magyarországnak és közvetlen környékének nem politikai határoktól és
szempontoktól függő természetföldrajzi tájrendszere [8], és a
történelmi Magyarország részletes településtára [7]. 6. A földrajzi tezauruszok strukturális kérdéseit részletesen tárgyalja [35]. 7. Az ebben a fejezetben tárgyalt névformákat a KSZ/5 [13] és a tezauruszszabvány [17] szabályozza. 8.
Az ebben a fejezetben és a továbbiakban a tezauruszstruktúrákat a
magyar és nemzetközi tezauruszszabványok szabályozzák [10][11][17]. 9.
A deszkriptor neve elvileg ’Magyarország közigazgatási rendszere
1723–1860 között’ lenne, de a rövidség kedvéért a ’közigazgatási
rendszere’ rész elhagyható, mivel értelemszerűen következik. 10. A relációtípusok és a fogalmak tárgyalása a következő forrásokon alapul [24][32][33][36][37]. 11.
A megjegyzések jelölését a tezaurusz-szabvány írja elő. A korabeli MARC
adatcsere-formátum ismeretének hiányában csak egy megjegyzést
szabványosítottak [10][11][17]. 12. Ez a hivatalos névállomány ma
már több webes keresőszolgáltatással is hozzáférhető, meglehetősen
egyszerű, alig strukturált táblázatos formákban. Ilyen például az
Agárdi Norbert által készített "Kárpát-medencei településkereső" < http://mercator.elte.hu/~norbi/. Hasonló termékek a Sebők László korábban készítette könyv és webes kereső, a "Határon túli magyar helységnévtár" < http://sebok2.adatbank.transindex.ro/> és a Szabó M. Attila készítette "Erdélyi és moldvai helységnévtár" < http://szabo.adatbank.transindex.ro/>
is. A Magyar földrajzi névi program honlapjának "Letöltés" menüpontján
keresztül további, letölthető adattárak érhetők el < http://geo.organic.hu/>, melyek egy része a Geotauruszban is szereplő adatokat tartalmaz. 13.
Ebben az esetben jobb lett volna, ha Hajdú-Moharos József névállományát
[7] használhattuk volna föl, de ez csak nyomtatott formában áll
rendelkezésre. 14. Magyarországi várak < http://www.varak.hu/>. 15. http://www.nepszamlalas.hu/hun/egyeb/hnk2006/tartalom.html 16.
A Magyar Névarchívum Kiadványai címen megjelent adattárnak (szerk.
Hoffmann Iatván, KLTE Magyar Nyelvtudományi Tanszék, [1998]) és
digitális változatának célja Györffy György "Az Árpád-kori Magyarország
történeti földrajza" c. művének névanyagának vármegyék szerinti
betűrendezett feldolgozása. Egyelőre csak közel egy tucat vármegye neve
került fel az internetre. < http://nevarchivum.klte.hu/nevarchivum/> 17.
A lexikai egységek átlagos hossza: 14 karakter; legkisebb hossz: 1
karakter; legnagyobb hossz: 80 karakter, átlagos kapcsolatszám kb. 10. 18.
A Köztaurusz lexikai egységeinek nagy részéhez kapcsolódik ETO-jelzet
is, azaz a deszkriptorok és nemdeszkriptorok egyben ETO-mutatószóként
is használhatók. Az ETO-jelzeteket a magyarázatokkal együtt a Relex a
lexikai egységektől elkülönítetten tudja kezelni, továbbá exportálni
meg importálni. A HUNMARC-export alapértelmezésben ETO-jelzet nélküli,
de kérhető ETO-jelzetet is tartalmazó változat. 19. Ezek olyan, az
ETO-ból származó mutatószavak, melyek ugyan szerepelnek a Relex által
kezelt rendszerben, de esetükben még nem volt szükség arra, hogy
lexikai egységként (deszkriptorként vagy nemdeszkriptorként) fölvegyük
őket a Köztauruszba. 20. Ezek olyan, az ETO-ból származó és
ugyancsak a Relexben kezelt ETO-mutatószavak, melyek jelzetéhez (egy
jövőbeli retrospektív tartalmi konverzió érdekében) hozzákapcsoltuk a
jelzetet helyettesítő deszkriptorokat, de maguk a belépőszótári szavak
(többnyire hosszú összetett kifejezések) nem lexikai egységei a
Köztaurusznak. Az OSZK dokmentumrekord-állományát 2000-ig csak
ETO-jelzetekkel osztályozták; készült egy program, mely a Köztaurusz
lexikai egység–ETO-jelzet kapcsolatait felhasználva a retrospektív
állomány rekordjainak 080-as adatmezőjében szereplő jelzetértékek
alapján ellátja e rekordokat tárgyi kifejezésekkel (belépőszótár =
entry vocabulary).
Hozzászólás küldéséhez be kell jelentkeznie. Jelentkezzen be, vagy kattintson ide a regisztrációhoz