Nemzeti névterek


A körülöttünk levő dolgokat gyakran valamilyen névvel illetjük. A világban való eligazodásunk fontos része a nevek használata. Nevén szólítjuk az ismerőseinket, nevet adunk a háziállatainknak, a szervezeteinknek, elnevezzük (megcímezzük) a földrajzi tér számunkra fontos elemeit, részeit, de nevet (címet) adunk a nekünk fontos dokumentumoknak (filmeknek, könyveknek, zeneműveknek stb.), sőt, olykor a használati tárgyaink közül is meg-megnevezünk párat (az autónknak kötelező módon adunk speciális nevet, rendszámot, de az is előfordul, hogy valaki "emberszerű" névvel illeti saját kocsiját). A nevek használatának értelme az, hogy a nevekkel dolgokra tudunk hivatkozni, "rámutatni". Ez a nagyon általános körbeírás megengedi, hogy a névhasználat két – egymástól jelentős mértékben különböző – módját is megragadhassuk vele. Amennyiben a nevek használatával valamely dologra (vagy dolgok egy halmazára) mutathatunk rá, akkor fogalmilag érdmes elkülöníteni egymástól ennek a relációnak a két oldalát (relátumát). A név önmagában nem létezik, csak akkor tudjuk értelmesen megragadni, ha figyelembe vesszük az(oka)t a dolgo(ka)t, ami(k)re a név hivatkozik. Ez utóbbiakat hívhatjuk névhordozóknak.

A nevek, a névhasználat jelenségét a névhordozókkal együtt lehet csak jól megérteni, pontosan leírni.

Amikor nevekről beszélünk, akkor mindig valamilyen entitás(típus) mint névhordozó(típus) megnevezési és névhasználati gyakorlatáról beszélünk.

A névtér (namespace) nevek valamilyen strukturába rendezett halmaza vagyis nevek adatbázisa, valamint a nevek beazonosítását, a névadatbázis javítását, bővítését lehetővé tevő alkalmazás. A logikai minőségét tekintve a névtérnek két típusát,

a köznévteret és tulajdonnévteret különöníthetjük el egymástól.

A köznévtér elemei nyelvtani státusukat tekintve köznevek, amelyekkel valamilyen általános (típus vagy osztály) fogalomra (univerzáléra) hivatkozunk, ami által ezek terjedelmébe mindig egyedi előfordulások valamilyen halmaza tartozik. Az általános fogalmak fontos tulajdonsága, hogy – elvileg – bármelyikük alá mindig rendelhető, képezhető valamilyen – szűkebb terjedelmű – fogalom a generikus alárendeltje reláció segítségével. Az általános fogalmaink (közneveink) a világról való tudásunk kifejezői, ezért valamilyen elv szerinti rendszerbe szervezésüket szokás tudásszervezési rendszer (KOS – Knowledge Organization System) névvel is illetni. A tudásszervezési rendszerek legfontosabb (és egyben legismertebb) típusai az osztályozási rendszerek (pl. ETO), tezauruszok (pl. Köztaurusz), ontológiák (pl. DOLCE).

A névterek másik nagy típusát a tulajdonnévterek jelentik. Ebben az esetben a névtér elemei nyelvtani státusukat tekintve tulajdonnevek, amelyekkel mindig valamilyen egyedtípus konkrét egyedeinek előfordulásaira vagyis partikulárékra hivatkozunk. A tulajdonnevek használatának lényegi célja egyedi módon hivatkozni valamilyen konkrét egyedre valamely kontextuson belül. Jól ismert az a tény, hogy ezt a célt a gyakorlatban sokszor nem érik el (legtöbbször a kontextusok nem megfelelő kezelése miatt), de ez a sikertelenség nem változtatja meg sem a névhasználati szándék eredeti tartalmát, sem a tulajdonnevek logikai minőségét. A tulajdonnevek lényegük szerint nem bonthatók fel, nem rendelhető alájuk szűkebb terjedelmű fogalom, a legfontosabb reláció számukra az a típusmeghatározás, amely alapján tudjuk, hogy milyen típusú egyed (tulajdon)neveként (merev jelölőjeként) használjuk őket.

Nagyon gondosan el kell választani a kétfajta névtértípust egymástól, mert a kezelésük, rendszerbe szervezésük sok szempontból eltérő logikát, megoldásokat, technológiákat, szabályzatokat kíván meg. A tulajdonnévterek további felosztását aszerint végezhetjük el, hogy milyen névhordozó entitástípusba tartozó egyedek megnevezéséréről van szó. A közgyűjtemények világában három plusz egy általános egyedtípust határolhatunk el, amelyek közül kettőt további altípusokra bonthatunk, eggyel pedig – praktikus szempontok miatt – nem igazán érdemes foglalkoznunk.

A földrajzi helyek, földrajzi entitások alá sorolhatunk poligon, vagy vonal- vagy pontszerű dolgokat (a földrajzi térben megfelelő határokkal, vonalakkal, illetve pontokkal jelölve őket) úgy mint: országok, megyék, települések vagy utcák, folyók, vezetékek vagy boltok, bankautomaták, templomok, házak. Ezek mindegyikéhez rendelhetünk nevet és ilyenkor beszélünk földrajzi nevekről.

A közgyújtemnyi gyakorlatban az ágensek azok a szereplők, akik a dokumentumok megalkotásávan, létrehozásában, sokszorosításában, gyártásában, terjesztésében, finanszírozásában részt vesznek. Az ágensek két nagy típusa a személy és a testület. A közgyűjteményi – és azon belül elsősorban a könyvtári – gyakorlatban az ágensek egyértelmű nyilvántartására, kezelésére jöttek először létre azok az authority rendszerek, amelyek a névterek első – még nem teljes funkcionalitású – használatának tekinthetők. A fontosabb szerep, az ebből következő nagyobb érdek, valamint a könnyebb megvalósíthatóság miatt a személynévterek építésében érték el eddig a legnagyobb eredményeket. A testületi névterek emberek valamilyen csoportját, szervezeteket, cégeket, csoportosulásokat egyként meghivatkozó testületi nevek rendezett és kontrollált rendszere, amelyek építésében kevesebb előrehaladás történt eddig.

A közgyűjtemények számára legfontosabb entitás a dokumentum, igaz, ebből a különféle altípusok más és más közgyűjtemény számára lehetnek fontosak. Többféle módon is csoportosíthatjuk a dokumentum fogalmát, és ez a kérdés most nem pusztán elméleti, de gyakorlati szempontok miatt is különösen fontos. A hagyományos felosztás a hosszú évtizedek, évszázadok alatt kialakult intézményi elkülönültség mentén csoportosította a dokumentumokat. Ez az intézményi felosztás részben az információ, részben az információt hordozó médium típusa szerint végezte el a rendszerezést, amikor tévéműsorszámokról, filmről, VHS-kazettáról, dvd-ről, online videóról, könyvről, periodikáról, cikkről, weboldalról, e-bookról, bakelitlemezről, cd-lemezről, cd-rom lemezről, plakátról, kottáról stb. mint önálló dokumentumtípusról beszélt. Ebben a kevert elvű felosztásban külön dokumentumtípusnak számított, tehát külön kellett leírni, ha ugyanaz a mozgókép mozifilmként, DVD-n, tévében, VHS-kazettán, online videótékán keresztül volt megnézhető, de ebben a logikában a papír alapú könyv és ez elektronikus könyv is kétféle dokumentumtípusnak számít(ott). A különböző médiumok, illetve az ezekhez kapcsolódó különböző intézmények szerinti elkülönítés logikája természetesnek látszott a legtöbb érintett szereplő számára, és az effajta magátólértetődéseket mindig messzemenően tiszteletben kell tartani, mert az intézményesült szervezeti gyakorlatok, rutinok hihetetlen erővel képesek fenntartani önmagukat. A nagy veszély azonban az, hogy a digitális univerzum kiteljesedésével, a teljes digitalizálódás folyamatával érvényüket veszthetik a korábban megingathatatlannak vélt hitek, gyakorlatok, kiürülnek a korábbbi logikák, praxisok, amikor a korábbi – jó – intézményi gyakorlatok diszfunkcionálisakká vál(hat)nak. információtípusok szerint szöveg, kép, mozgókép, hang típusairól kell beszélnünk. A leglátványosabban, legszemléletesebben a mozgókép példáján lehet érzékeltetni ezt a jelenséget a korábban már említett felsorolásra utalva, hogy ti. ugyanazt a filmet nézhetjük meg a moziban, a tévében, a számítógép képernyőjén dvd-lemezről vagy egy okostelefonon a hálózaton keresztül letöltve. A nagy kérdés persze az, hogy kell-e, szabad-e ezzel a váltással foglalkoznunk, figyelembe kell-e venni a váltásból eredő következményeket. Az archívumi, könyvtári szakma már régóta kidolgozta azt a fogalmi modellt (az FRBR-t), ami elvileg alkalmas lenne arra, hogy ezt a jelenséget megfelelő módon meg lehessen ragadni, de mindeddig csak nagyon kevés sikeres és nagy adattartalommal rendelkező projektről lehetett eddig hallani, ami a megvalósítás nyilvánvaló nehézségeire (és veszélyeire) utal. Ezt a kérdéskört nagyon megfontoltan végig kell vitatni, mert bármilyen döntést is hozunk, mindegyiknek nagyon komoly következményei lesznek.

Kell-e, lehet-e, szabad-e használni az FRBR-modellt?

Van még egy olyan entitástípus, amely esetében beszélhetnénk névterekről, de egy ilyen névtér felépítése útjában komoly akadályok lennének. A dolgok időbeliségét eseményszerű fogalmak segítségével fejezzük ki, és a konkrét eseményeket elég gyakran meg is nevezzük, ezért felvethető lene, hogy a partikuláris események számára is fel lehetne építeni egy eseménynévteret. Ez az elvi lehetőség azonban nagyon nehezen lenne megvalósítható a gyakorlatban egyszerűen azért, mert nem vagy csak nagyon nehezen tehetnék teljessé, konzosztenssé az ilyen névteret. Mivel fontos eseményeket valóban gyakran megnevezünk (első világháború kirobbanása, 1948-as magyar szabadságharc kezdete, a pákozdi csata stb.), könnyen az a csalóka kép alakulhat ki bennünk, hogy az individuális eseményeket mindig meg lehet nevezni. Ez elvileg igaz is, gyakorlatilag nem. Egy teljesség igényére tartó eseménynévtér könnyen és villámgyorsan beláthatatlan méretűvé dagadhatna, hiszen gyakorlatilag minden más entitást és az entitások egymáshoz való viszonyát is mindig az időben kellene/lehetne kifejezni, ami megfoghatatlan méretű, kontrollálhatatlan feladattá terebélyesedhetne pillanatok alatt. Az természetesen megfontolható, hogy előre rögzített elvek mentén valamilyen nagyon korlátozott "hatókörű" eseménynévteret el lehet kezdeni felépíteni, de csak a szükségszerű korlátoltság, behatároltság tudatában szabad egy ilyen munkába belekezdeni.

Mielőtt a névterek építésébe belevágnánk, fontos figyelmeztetni magunkat, hogy a hálózat világában van egy – már elég régóta működő – névtérkezelő rendszer, amelytől sokat lehet és kell tanulni. Az internetes domainnevek regisztrálását, nyilvántartását, felismerését végző DNS-rendszer (domain name system) egy olyan szolgálatás, amely egyedi domainneveket regisztrálását (kiosztását) és az egyedi IP-címekhez való rendelését biztosítja. Mind az IP-címek, mind a domainnevek egyediek, individuálisak, tehát technikai értelemben tulajdonneveknek tekinthetőek. A domainnevek mint tulajdonnevek kiosztása, felismerése, feloldása a web kezdeteitől fogva működik mégpedig úgy, hogy ezt a feladatot nem egyetlen, hanem sok szervezet végzi egyszerre, osztott módon. A névterek közt meglevő nyilvánvaló különbségek ellenére

a lehető legtöbb jó megoldást át kell venni a DNS-praxisból,

hiszen ez már évtizedek óta sikeresen bizonyítja a saját létét megalapozó elvek hatékonyságát, működőképességét. A domainnevek kezelésének praxisából már előzetesen is ki lehet ragadni egy olyan elvet, amely az osztott adatkezelés működőképességét biztosítja. Ez a nyitottság, a névtér működéséhez szükséges bármiféle adat szabad, mindenféle korlátozástól mentes megismerhetőségének és használatának az elve. Ezt az elvet legalább négyféle területre, adat- és tudástípusra érdemes kiterjeszteni úgymint:

Miért van szükség nemzeti (és globális) névterekre? A különböző tartalmú gyűjtemények saját gyűjteményi körüknek megfelelő dokumentumokat gyűjtenek és teszenek elérhetővé. A hálózati elérés megszabadította a felhasználókat, látogatókat attól a térbeli és időbeli kényszerektől, vagyis a hálózati gyűjteményeket bárhonnan, bármikor meglátogathatjuk. Ez nyilvánvalóan hatalmas előrelépés a hagyományos gyűjteményi szolgáltatások kínálatához képest. A hálózat ebben az értelemben valóban eltörli a térbeli és időbeli korlátokat, vagyis nyitottabbá teszi világunkat. Ebben a konstrukcióban azonban egyfajta zártság továbbra is megmarad, noha a hálózati technológiák ugyanúgy lehetővé tennék meghaladni, eltüntetni ezt a fajta zártságot is. Amikor már bármely gyűjteményt, bármely dokumentumot, bármikor elérhetünk a hálózaton keresztül, akkor még mindig szembesülnünk kell az intézményi elkülönültség tényével – és bizonyos esetekben – hátrányaival. Arra vagyunk kényszerítve ugyanis, hogy egymás után bejárjuk mindazokat a hálózati helyeket, ahol a minket érdeklő adatokat reméljük megtalálni. Ez az hálózati elkülönültség tükrözi a hagyományos intézményi elkülönültséget, ennyiben természetesnek mondható, de a felhasználói élmény, a látogatók szempontjából tekintve ez fölösleges és értelmelen elkülönültség. A látogatókank az lenne kívánatos, hogy egyetlen keresés alapján megtalálják az összes olyan dokumetumot, adatot, ami őket érdekli, és amely dokumentumok és adatok esetleg szét vannak szórva a különböző gyűjtemények között. A felhasználói igény a gyűjtemények közti teljes átjárhatóság, interoperabilitás, őket nem érdekli az intézményi elkülönültség, hiszen az esetek döntő többségében nem intézményeket, hanem az intézménynek által kezelt dokumentumokat, adatokat keresik. A feladat tehát az, hogy biztostani tudjuk valahogyan ezt a fajta – szemantikai alapú – átjárhatóságot vagyis az adatszintű interoperabilitást. A kérdés már csak az, hogy mindezt hogy lehet elérni. A válasz egyszerű: az intézmények közti névterek felépítésével és közös használatával.

A gyűjtemények közötti átjárhatóságot a közös névterek segítségével lehet biztosítani.

Azért az intézményközi adatátjárhatóság a kulcs, mert az (online) gyűjtemények más gyűjtőkörrel rendelkeznek ugyan, tehát az általuk szolgáltatott dokumentumok között nincs átfedés (vagy kevés van), viszont a dokumentumokkal kapcsolatba hozható névhordozó entitások, személyek, testületek, földrajzi helyek, illetve a dokumentumok leírásához használt fogalomkészletek - legalább részben – közösek. És ha ezeket közös névterek segítségével írjuk le, akkor ezek a közös pontok természetes ugrópontokat, bejárási útvonaljelzőket jelentenek a tartalmukat tekintve nagyon különböző gyűjtemények között.

A névterek szintjei és azok egymásra épülése

A névterek használatának technikai értelme abban van, hogy egyértelműsítjük, illetve normalizáljuk mind magukat a névhordozó entitások, mind az adott névtípusba tartozó nevek halmazát. Az egyértelműsítés azt jelenti, hogy egyfelől elkülönítjük egymástól az azonos névvel rendelkező entitásokat (névhomonimitás feloldása), másfelől összekapcsoljuk egymással az ugyanazon névhordozókhoz tartozó különböző neveket (névszinonimitás beazonosítása). A normalizálás lényege az, hogy egy információt (itt: minden névvel kapcsolatos információt) egyetlen helyen tárolunk, és a nevek minden más használatát azonosító számokkal helyettesítjük. Ez megszünteti a redundáns és inkonzisztens adatkezelés lehetőségét. Másodlagos előny származik ebből amiatt, hogy az így tárolt adatokat folyamatosan és könnyen újrahasznosíthatjuk. A névterek építésének azonban van egy komoly bekerülési költsége, és a névterek használatának előnyei csak a kezdeti munkák, a kezdeti költségek befektetése után (annak eredményeként) jelentkeznek. Amíg a névterek építése az egyik oldalon kezdetköltséges, addig a másik oldalon erőteljes networkhatás érvényesül, vagyis minél többen használják az adott névteret (akár intézményi, akár intézményközi kooperációban, annál jobban tapasztalhatóvá, érzékelhetővé válnak a közös használat előnyei. A normalizáláshoz szükséges felderítési, egyértelműsítési munkákat minél többen végzik, annál előbb és annál kiterjedtebb módon végzi el a közösség egésze a szükséges munkákat, és annál többen és annál gyorsabban élvezik a közös névtérhasználat előnyeit. A névterek különböző szintű adatrendszerben használhatók, és a névteret használó intézményi kört tekintve lehet lokális, nemzeti, illetve globális névterekről beszélni. A névterek használatának elemi színtereit az egyes adatrendszereket, a lokális névtereket építő intézmények jelentik. Ekkor az intézményen belüli kommunikációt lehet támogatni, javítani (akár az adatokat kezelő emberek között, akár az azonos entitástípust használó adatrendszrek közötti). Ha minden egyes intézmény kiépítené a saját lokális névterét, a közös névtérhasználathoz még normalizálni kellene az egyes – addig különálló – névterek adatbázisait, és a későbbiekben is minden egyes névtérgazda belépése során el kéne végezni ezt az egységesítési munkát. A névterek bekerülési költségei tehát mind a nemzeti névterek, mind a globális névterekhez való csatlakozás esetében jelentkeznek. Ez egy további akadálya a névtérépítési munkáknak, de ezt azonnal ellenpontozni lehet azzal, ha utalunk arra, hogy az előnyök minősége és nagyságrendje is együtt változik a névtérhasználó közösség körének bővülésével, és miatt érdemes ebbe a munkába belevágni. A nemzeti névtér egy adott ország, esetleg egy adott nyelvi közösség lokális névtereit integráló közös névtér, míg a globális névtér valamely névtértípus esetén egy nemzetközi kooperációban működő, több nemzeti és/vagy lokális névtérgazda által fenntartott névteret jelent. Jelen írás a magyar nemzeti névterek lehetőségeit, a megoldandó feladatokat próbálja meg egy stratégiai anyagban összefoglalni. Mind a nemzeti, mind a globális névterek használatát úgy képzelhetjük csak el, hogy a névtérhasználat feltétele a lokális névtér létezése. Elvileg el lehetne képzelni olyan konstrukciót is, amelyben egy adatrendszer közvetlen és folyamatos kapcsolatban állva a nemzeti vagy globális névtérszolgáltatóval és a névadatokat folyamatosan a távoli rendszerből szedi ki, de legalább produkciós (és még más egyéb) okok miatt ez az elvi lehetőség nem látszik gyakorlatban sem megvalósíthatónak, sem megvalósítandónak.

Ha a közgyűjtemények számára fontos névtérépítkezés stratégiáját keressük, akkor érdemes minden fontos névteret számba venni még akkor is, ha tudjuk, hogy nem számíthatunk arra, hogy minden területen elinduljanak a munkálatok. Az összkép felfestése érdekében az alábbi ábrában igyekeztünk minden fontos szegmenst, potenciális fontos szereplőt, összetevőt, feladatot feltüntetni.

Az ábra értelmezése előtt újra hangsúlyozni kell, hogy a fenti képen minden fontos feladat fel van tüntetve, de ezek közül sokakat biztosan hátrébb kell majd sorolni, és csak később lehet belekezdeni a velül kapcsolatos munkákba. Vannak olyan névtértípusok, amelyekre vonatkozóan könnyebben megmondható, hogy kik lehetnek érintettek a fenntartásukban, kik lehetnek a főfelelőseik az induló munkáknak, hol lehet esetleg már a jelenben nemzetközi partnert találni, és vannak olyan területek, ahol inkább csak a kérdéseket lehet feltenni, és a válaszokon még sokat kell gondolkodni. Az ábrán szerepelnek mindazon potenciális névterek, amelyek a közgyűjteményi gyakorlatban használhatóak lennének. Egy nemzeti névtér felépítésére irányuló stratégiának figyelembe kell venni minden olyan dokumentumtípust, amely a nemzeti örökségünk fenntartásához hozzájárulhat. Ezen dokumentumtípusok nagyobbik részét nyilván hozzá lehet rendelni a hagyományos intézményi struktúrában működő, már létező szervezetekhez, de vannak olyan dokumentumok is, amelyekre nézve még nincsenek se gyűjteményezési elvárások, se ilyen gyakorlatok, miközben egyre nyilvánvalóbban látszik, hogy ezeket a magyar kulturális örökség körébe tartozónak kell minősítenünk. Az nyilvánvaló, hogy mind a hagymányos, mind az elektronikus könyvek gyűjtése a könyvtárak feladata, mint ahogy a filmek a Manda Filmintézet, a broadcast (tévé- és rádió) műsorszámok a NAVA gyűjtési körébe (felelősségébe) tartoznak. De mit kell kezdenünk az online videókakl, amelyek gyűjtésének láthatóan vannak csomópontjai a neten, de a nemzeti kultúra megőrzésével kapcsolatban szempontokról még semmit sem tudunk mondani.

A Manda Filmintézetben elindult a MozgóKépTár (MKT) portál fejlesztése, amelynek egy olyan filmes adatbázist kell hozzáférhetővé tenni a neten, amelyen belül már létezik lokális névtér a filmekre, személyekre, testületekre, földrajzi helyekre vonatkozóan. Ezek közül a filmes lokális névtér "igényt tarthatna" arra, hogy a filmes nemzeti névtér legyen egyben, a többi lokális névtér esetében pedig a vonatkozó nemzeti névtérfejlesztések indulásakor az MKT induló partner lehetne. A földrajzi névtérre vonatkozóan külön fejezetben fejtjük ki az elképzeléseinket. A személynévtér esetében nincs olyan közgyűjteményi szereplő, amelyikre azt mondhatnánk, hogy az intézmény személyadatbázisa (névtere) természetes módon adhatná a nemzeti névtér alapját. A legnagyobb névállománnyal nyilván az Országos Levéltár rendelkezik, de ez a névtérépítés szempontjából inkább hátránynak tekinthető. Van viszont egy globális névtér ezen a területen, amelyik "pályázhat" arra, hogy a nemzeti személynévtér számára "partnerül" válasszuk, a VIAF. A projekt elején meg kell vizsgálni, hogy ez valóban így van-e, és ha igen, akkor milyen módon lehet a kapcsolatrendszert kiépíteni a nemzeti és globális szint között. A testületi névtér területén az első szakaszban csak annyit érdemes vállalni, hogy lokális névtér építését megkezdjük, a korlátozott erőforrások védelme érdekében ezen a területen nem érdemes várni a gyorsabb előrehaladásra. A könyvekre és periodikákra biztosan érdemes lenne egy-egy névtérépítési alprojektet elindítani, hiszen ezen dokumentumtípusok körébe tartozó dokumentumok számossága még elég kicsi ahhoz, hogy egy névtér-projekt végét látni lehessen, aminek sikereségéhez az is hozzájárulhat, hogy ezen dokumentumok feldolgozottsági szintje is magasnak mondható. Azt a kérdést még meg kell vizsgálni, hogy egy könyv és periodikanévtér alapját milyen adatrendszerekből lenne érdemes kibányászni. A cikkek esetében első pillanatra nehezebbnek tűnik a névtér felállítása, de lehet, hogy alaposabb "helyismeret" alapján ez a tézis hamisnak kell majd tartanunk. Elképzelhető, hogy a cikknévteret valamilyen szempont alapján korlátozottan lenne érdemes elkezdeni (például a tudományos cikkeket gyűjtő MTMT mögé állítani egy ilyen névteret).

Alkalmazásfejlesztés

Együttműködési szabályok

A névtérépítés és -használat sikeréhez három fontos tényezőt kell megneveznünk. Szükség van egy jó névtér-adatbázisra (adatbázisréteg), aminek mind a szerkesztését, mind a használatát (kereséshetőségét) felhasználóbarát, intelligens informatikai megoldásokkal kell támogatni (alkalmazásréteg), és kellenek együttműködési szabályok, amelyek révén koherenssé, egyirányúvá válhat az rendszer hátterében zajló sokintézményes, sokszereplős kollaboráció. Ez utóbbi követelmény ugyanolyan fontos, mint az előző kettő. Ha nincsenek azonos módon értelmezett, kölcsönösen elfogadott együttműködési normák, akkor a közös építkezés illúzió marad, és ha lesz is valami eredménye, annak minősége hamar elfogadhatatlanná válhat. Ezért a projekt egyik fontos feladata kell legyen, hogy kidolgozza a megfelelő kooperációs szabályokat, aminek érvényesülését azzal is támogatni kell majd, hogy igyekezni kell minél több olyan intelligens informatikai alkalmazást megtervezni és kifejleszteni, amely segíti a széleskörű kollaborációs munkát. A kollaboráció lényeg az, hogy a lokális névtereket használó intézményi szakemberek közös lekérdezőfelületeken keresztül úgy használhassák a közös névtér-adatbázist, hogy ez ne jelentsen komolyabb többletterhet számukra. A névtereket úgy kell megtervezni és megvalósítani, hogy a névtérhasználat "munkaköltsége" minimális legyen.

Megfontolandó, hogy az összes nemzeti névtér számára egyetlen közös domaint használjunk.

Köznévtér: közös általános fogalmi tér

A magyar nyelvű tudásszervezési rendszerek, azokon belül is elsősorban a tezauruszok nagyon gazdag fogalomállománnyal, szabályosan struktúrált szerkezettel rendelkeznek, és nagyon sokféle ismeretterületen léteznek. A magyar tezauruszörökség kimondottan gazdagnak mondható. A névtér projektben két – egyébként a könyvtári világ által már régóta használatba vett – tezauruszt érdemes feldolgozni: a földrajzi névtér számára a Geotauruszt, míg a köznévtér számára a Köztauruszt. A 2000-es évek közepén volt egy kezdeményezés (MEO – Magyar Egységes Ontológia K+F projekt), amely összeszedte azokat a szempontokat, amelyeket figyelembe kell venni az ontológiaépítési (tudásszervezési rendszerek építésének) gyakorlatában. A MEO-t megelőzően, és utána is voltak természetesen más, olyan projektek, amelyek valamilyen tudásszervezési rendszert építettek, használtak, és amely eredményeit kisebb-nagyobb mértékben újra lehet hasznosítani.

A modellezéssel kapcsolatos megfontolások

A névtérépítés során felmerülő legfontosabb fogalmakat összegyűjtöttük, és egy külön oldalon megadjuk ezek rövid meghatározásait, valamint a hozzájuk kapcsolható szemléltető példákat és értelmező megjegyzéseket. Ahogy a projekteknek már lesznek eredményei, úgy érdemes egy effajta fogalomértelmező szótárat a mindenkori érintettek és érdeklődők rendelkezésére bocsátani (az bejegyzéseket természetesen folyamatosan frissítve, pontosítva).

Duplikátumkezelés

A névterek egyik ismétlődő (és talán legnehezebben kezelhető) problémája a duplikátumok (duplumok) előfordulása, az a jelenség, amikor különböző névhordozókhoz azonos nevek tartoznak. A névhomonimitás feloldása nem megoldható emberi közreműködés nélkül, de törekedni kell arra, hogy minél intelligensebb informatikai támogatást tudjunk nyújtani az effajta egyértelműsítő munkáknak.

Földrajzi névtér

A földrajzi neveknek vannak olyan jellegzetességei, amelyek más névtípusokhoz képest egyedinek mondhatóak, ráadásul a névtérépítkezés szempontjából is meghatározó jelentőséggel bírnak. Ezeket a sajátosságokat figyelembe kell venni a földrajzi névtér modelljének kialakításakor. A földrajzi névtérnek a modellezésbeli különbségeken túl van még egy további, számossággal kapcsolatos fontos specialitása is, ami érvként használható amellett, hogy a földrajzi névtérrel kezjük el az építkezést. A földrajzi helyek, nevek felülről erősen korlátosak, számosságuk nem nő linerálisan együtt az idővel, míg a többi tulajdonnév esetében inkább az a jellemző, hogy idő haladtával folyamatosan nő az adott névtér tartománya. Mindig megjelennek új ágensek, mindig keletkeznek új dokumentumok, mindig lesznek új események, de földrajzi helyből, földrajzi névből ez nem így van. A földrajzi nevek még csak-csak változnak, de a földrajzi helyek már sokkal kevésbé.

A földrajzi entitások modelljének kérdései

A földrajzi entitások különlegessége, hogy a földrajzi térben léteznek, így egyfelől valamilyen geometriai tulajdonsághalmazzal (röviden: geometriával) jellemezhetők, másfelől mindig elhelyezhetők, lokalizálhatók a földrajzi tér egészén belül (hogy mennyire pontosan és mennyire egyértelműen, az már egy másik kérdés). Mondhatjuk, hogy a földrajzi helyeknek mindig létezik valamilyen geometriája, de ezt az állítást még pontosítanunk kell. Nagy kérdés ugyanis, hogy mit és mi alapján tekinthetünk földrajzi entitásnak. A válaszhoz egy nagyon fontos filozófiai fogalomkettőst kell beemelnünk az értelmezési keretünkbe.

A filozófusok elkülönítik egymástól a dolgok (azon belül a földrajzi entitások) kétféle típusát, amikor azt mondják, hogy beszélhetünk fiat és bona fide dolgokról. A fiat entitások az emberi akarat termékei, valamilyen konstituálási aktus eredményeként léteznek, míg a bona fide entitások létezése, létrejötte az emberi akarattól független. Amikor azt mondjuk a tér egy darabjára, hogy ez az utca, a mellette levő másik rész pedig a járda, akkor mindkét dolog csak azért létezik, mert így döntöttünk, és fizikailag-földrajzilag korábban is létező földdarabkára mutatva létrehoztuk az adott konkrét utcát és adott konkrét járdát. Amikor egy városhoz csatolják a szomszédfalut, amivel egyrészt megnő a város területe, másrészt a szomszédfalu megszűnik önálló településként és a város egy városrészévé válik, akkor is arról az emberi konstitutív aktusról van szó, amely újradefiniálja az addig létező települések közigatgatási státusát és területeit. Ezek mind fiat objektumok. Ezzel szemben egy folyó, egy hegy, egy tó akkor is ott van a földrajzi térben, és akkor is folyó, hegy vagy tó marad, ha mi, emberek, ezt nem deklaráljuk, nem konstituáljuk, nem csinálunk semmit.

A kétféle entitás megkülönböztetés után (és alapján) már rögzíthetjük, hogy mit és hogyan kell figyelembe vennünk a földrajzi entitások leírásakor. Mindkét objektumtípus előfordulhat a földrajzi objektumok között, tehát beszélhetünk fiat és bona fide földrajzi entitásokról (a fiat objektumokra példa az ország, város, tér, utca, a bona fide objektumokra a folyó, hegy, medence, tó, óceán fogalma). Modellezési szempontból a fiat pbjektumok leképezése a nehezebb, hiszen ezek leírásához, értelmezéséhez több ismeretre van szükségünk, így ezekre érdemes fókuszálni a földrajzi objektumok modellezése során. A földrajzi entitások legfontosabb jellemzőit – konstitutív jellegük miatt – mindig az időben elhelyezve, időbeli paraméterekkel ellátva kell leírnunk.

A földrajzi entitások tulajdonságainak mindig van időbeli kezdő- és végpontja.

Az az elvárás, hogy minden fontos tulajdonság leírásába be kell venni a kezdő- és záróidőjelzést, nem jelenti azt, hogy mindig meg tudnánk adni pontosan ezeket az időbeli értékeket. Egyrészt nem is lehet minden esetben egyetlen időpontot kijelölni az időben, ami valamilyen tulajdonság pontos kezdetét vagy végét jelölné, vagy azért nem, mert nem tudjuk a pontos értéket, vagy azért nem, mert nem köthető egyetlen időponthoz a szóbanforgó esemény. Másrészt ha tudunk is valamit az adott eseményről, akkor is kérdés még, hogy milyen pontosságú ez az ismeretünk. A modellünkbe be kell vezetni az időpontosság fogalmát, amelynek segítségével mindig jelezni tudjuk, hogy valamely időbeli adat milyen pontossággal rendelkezik (perc-, óra-, nap-, hónap-, évpontos stb.).

A földrajzi hely legfontosabb paramétere a geometriája, aminek mindig van egy típusa (pont-, vonal- vagy poligonszerű), és ez a geometria változhat az időben (például egy település határvonala változik). A földrajzi entitásoknak mindig van egy társadalmi, intézményi, közigazgatási státusminősége, ami megintcsak változhat az időben. Gondoljunk arra a példára, amikor egy kisebb települést hozzácsatolnak egy nagyobbhoz. Ilyen esetben az az intézményi besorolás változik meg a csatolt település esetében, ami a falu közigazgatási önállóságára vonatkozik: megszüntetik önálló települési jogállását, és a másik település városrésze lesz. Eközben a "befogadó" város státusa, besorolása nem változik. Az ilyen besorolási, osztályozási konstitív aktusok körébe tartozik még valamely település más járásba, más megyébe, más országba való besorolása. A földrajzi objektumok harmadik jellemzője az azonosítására használt megnevezés, a földrajzi név. A nevek is konstitutív aktusok ereményeiként jönnek létre, tehát ezek leírásakor is időbeli paramétereket kell felvennünk. Abból a tényből, hogy mindhárom alaptulajdonság esetében meg kell engednünk azt, hogy azok időben változzanak, következik az a modellezési elvárás, hogy mindhárom tulajdonságtípus esetében a konkrét tulajdonságértékeket úgy kell a földrajzi entitások előfordulásaihoz rendelni, hogy meg kell engednünk az 1:N-es kapcsolatot köztük.

A földrajzi entitások három alaptulajdonságát, a geometriát, a státust és a nevet időben változó módon, 1:N-es kapcsolattípus mentén kell felvennünk.

Egy földrajzi entitás leírásához mindig meg kell tudnunk adni a három alaptulajdonságának aktuális értékét. A földrajzi helyek nevét tiviálisan meg tudjuk adni, hiszen minden diskurzusban így hivatkozunk rájuk. A

A földrajzi névtér építéséhez használható adatforrások, potenciális partnerek

Az OpenStreetMap egy szabad és nyilt, a Wikipedia kollaborációs mintájára működő, térképes adatszolgáltatás és a szolgáltatás mögött álló közösség, amely a Google Maps egyetlen konkurrenciájának tekinthető. Az OSM brutális erejét a mögötte dolgozó közösség kollaborációja, vagyis a közösségi munka eredményeként előálló, legfrisebb, valóságpontos állapot ténye jelenti, amitől azt remélhetjük, hogy az objektumok geometriái és nevei aktuálisan, hosszútávon, tartósan, a lehető legteljesebb és legpontosabb módon le lesznek írva. Ezt az erőt és ezt az előnyt nem kihasználni felelőtlenség lenne.

A földrajzi névtér geometriáját az OSM-re kell alapozni.

Meg kell azonban oldani az OSM egy nagyon nagy hibáját, pontosabban hiányosságát, ami persze inkább csak a közgyűjteményi szempontból, a kulturális vagyon védelme felől tekintve minősíthető hátránynak, az OSM használati gyakorlatában sokak számára nem zavaró tényező.

Az OSM ugyanis emlékezet nélküli rendszer,

vagyis mindig csak az aktuális geometriai, intézményi és terminológiai állapotot kezeli, a korábbi adatokat már nem tudja (nem is akarja) rendszerszerűen kezelni, tárolni. Ez a webes térképhasználat jelenidejű igényei miatt nem zavaró, de bármilyen történeti szempont megjelenése esetén már nem kielégítő. Ha a földrajzi névtér minden fontos tulajdonságát időben kell kezelnünk, akkor meg az OSM használatára csak akkor van mód, ha vele szoros kapcsolatban ugyan, de tőle függetlenül felépítünk egy történeti OSM+ adatbázist, amelyben az történetileg bármikor létezett földrajzi entitások alapadatait, azok nevét, státusát és geometriáját adatbázisba rendezzük (a geometriai adatokat az OSM aktuális geometriai adataiból kiindulva, azokkal kompatibilis módon definiálva). Ez az építkezési (és kapcsolódási) logika megengedi azt, hogy a történeti névtér építése a saját logikája mentén valósulhasson meg, tehát sem informatikai, sem archivátori szempontból nem kell semmit feladni, csak annyit kell biztosítani, hogy a jelenhez érve kompatibilisek maradjunk az OSM adataival. Az OSM adatrendszeréből elsősorban a geometriai adatok fontosak számunkra, és ezek kiváltására nem nagyon látszik bármilyen más lehetőség. Ha az OSM-nek lenne is alternatívája a jelenben, ezt a lehetőséget az OSM mögötti brutális kollaborációs potenciál vélhetőleg igen hamar megszüntetné a közeljövőben, tehát inkább most kell megtanulni együttélni egy ilyen nyitott rendszerrel. A geometriai adatok folyamatos biztosítása (vélhetőleg egyre megbízhatóbb módon, egyre pontosabb tartalom mentén) lehet az OSM-kapcsolat hozadéka, amiért megéri a nyitott rendszerhez való csatlakozásból az archívumi világ számára idegen, kánonon kívüli kultúrával való érintkezés, együttműködés.

Arcanum digitalizálási stratégiájában mindig is kiemelt szerepet kaptak a kulturtörténetileg fontos – szöveges és képi – források digitalizálása. A földrajzi nevekkel kapcsolatban is nagyon sok korabeli térképet, helységnévtárakat és más, helytörténetekkel, helynevekkel kapcsolatos könyveket digitalizáltak. A közgyűjtemények számára a földrajzi névtér építésének és használatának egyik kiemelkedően fontos értelme, hozadéka lehet a történeti helynevek megfelelő kezelése, szolgáltatása, ezért komoly érdek fűződik az Arcanum vonatkozó térképes és szöveges adatállományainak megszerzése és újrahasznosítása a névtér projekten belül.

A Központi Statisztikai Hivatal (KSH) közigazgatási kompetenciájába és felelősségi körébe tartozik a magyarországi helységek alapadatainak gyűjtése, publikálása. A KSH Helységnévtár nemcsak az aktuális adatokat tartalmazza, van egy történeti metszete is. Ez a helységtörténeti adatbázis az aktuális adatokon túl 1900-ig visszamenőleg tartalmazza a jelenlegi országhatáron belülre eső települések megnevezésében, illetve közigazgatási státusában bekövetkezett változásokat. Amennyiben a KSH is beszállna a közös névtérépítésbe, és "beszolgáltatná" ezeket az adatokat, akkor ez a tény egyfajta hivatalos jelleget is kölcsönözne ennek a kapcsolatnak még akkor is, ha az ilyen jellegű adatokra nincs megnevezett hivatalos jogosultság. A KSH mellett fontos államigazgatási partner lehetne még a Földmérési és Távérzékelési Intézet (FÖMI), ahol karbantartanak egy hivatalos földrajzi névállományt, aminek esetleges megszerzése hatalmas eredménynek számítana a földrajzni névtér építkezésében. A korábban szerzett tapasztalatok azonban nem sok jóval kecsegtetnek. A FNT-projekt fontos kezdeti feladata lesz, hogy megpróbáljon minél több adatot beszerezni államigazgatási szereplőktől.

Sok éve épül a Geotaurusz (és annak részeként a Geohistaurusz), ami a földrajzi nevek tezaurusza. A Geotaurusz tartalmaz magyar és nemzetközi földrajzi neveket egyaránt, és szerepelnek benne magyar vonatkozású földrajzi helyek más nyelvű megnevezései, valamint nagyon sok történeti nevet is tartalmaz. Rendezettsége és a benne levő rekordok százezres nagyságrendje nemcsak, hogy kihagyhatatlanná teszi, de arra predesztinálja, hogy a nemzeti földrajzi névtér adatbázisának alapjául tegyük meg. Ehhez a tezauruszlogikához igazodó adatmodell kisebb mértékű átalakítására lenne szükség, de ez megoldhatónak tűnik. A legjobb megoldás az lenne, ha a földrajzi névtér adatbázisát és a Geotezauruszt közös adminrendszerben lehetne szerkeszteni a névtér- és tezauruszszerkesztés elvárásainak egyaránt eleget téve. Ez szintén megoldható feladatnak látszik, aminek elvégzését még az is indokolja, hogy jelenleg nincs megfelelő gazdája a tezauruszok hálózati adminisztrálására korábban kifejlesztett online relex alkalmazásnak.

A földrajzi névterek mint tulajdonnévterek lényegük szerint tulajdonneveket kell, hogy gyűjtsenek. Akármelyik tulajdonnévtérről is beszélnénk, mindegyik esetben nyilvánvalóan szükség lenne kisebb-nagyobb számosságú köznévállomány használatára, amelyek segítségével tipizálni, struktúrálni lehet az adott névtér elemeit (mindegyik névtérben szükség van arra, hog valahogyan tipizáljuk a névállományt). Ez az általános fogalmak használata iránti igény – úgy tűnik - nagyobb lehet a földrajzi névtér építésekor, mint - mondjuk - a személynévtér esetében. A hétköznapi használatban talán nem vesszük észre, pedig a földrajzi objektumoknak nagyon sokféle típusa van, amit kezelni kell tudnunk. Ehhez nyilván arra van szükség, hogy a földrajzin névtér részévé tegyünk egy minél teljesebb földrajzi fogalmi struktúrát. Ehhez már rendelkezésre állnak megfelelő források (pl. a Kartotaurusz, térinformatikai fogalomtár), elérhetőek angol nyelvű effajta dokumentumok (Getty thesaurus, BGN, GNIS). Ez a névtérrész azért is különösen fontos, mert ez a köznévállomány teszi összekapcsolhatóvá a névtér tulajdonnév-állományát a nemzetközi névterekkel. Természetesen csak akkor, ha a felépített földrajzi fogalomtárnak elkészül az angol fordítása is (az előzetes becslés szerint itt 4-5 ezres állományról van szó).

források