A webarchiválás a világháló (World Wide Web) egyes részeinek begyűjtésére és megőrzésére irányuló tevékenység. Fő célja, hogy a világhálón tárolt információk a kutatók, történészek és a széles társadalmi nyilvánosság részére, szervezett gyűjteményi keretek között, a jövőben is elérhetők legyenek.[1] A webarchiválással foglalkozó szakemberek rendszerint keresőrobotokat használnak az automatizált begyűjtéshez, jelenleg ez a leginkább elterjedt módszer a nagy mennyiségű és nagy terjedelmű webes információforrások begyűjtésére.
A legnagyobb és legrégebbi internet archiválással foglalkozó nonprofit szervezet, az Internet Archive, amely a teljes világháló egyes szegmenseiről készít mentéseket. „Rajta kívül a nemzeti könyvtárak, a nemzeti levéltárak, valamint a webarchiválásban érdekelt egyéb szervezetek által alkotott különféle szövetségek, konzorciumok játszanak vezető szerepet a webes kulturális örökség megőrzésében.
A 2001-ben alakult International Web Archiving Workshop (IWAW) elsőként biztosított egységes platformot a tapasztalatok megosztásához és a közös szakmai gondolkodáshoz. Az International Internet Preservation Consortium (IIPC) későbbi, 2003-ban történt megalapítása jelentősen megkönnyítette a nemzetközi együttműködést a szabványok és a nyílt forráskódú eszközök fejlesztésének terén. Az IIPC segítséget nyújt az egyes nemzeti webarchívumok létrehozásához, folyamatos fejlődéséhez, és közös ernyőszervezetben tömöríti 45 országból[2] a webarchiválásban érintett közgyűjteményeket, nonprofit intézményi szereplőket és magánvállalatokat.[3]
Magyarországi partnerként az Országos Széchényi Könyvtár (OSZK) 2018-ban csatlakozott a szervezethez.[4] Mivel a kulturális alkotások egyre nagyobb hányada már eleve a számítógépes világhálón jön létre, illetve ott is rögzítésre kerül, ezért egyre nagyobb az igény e kultúrkincs archiválásra a közgyűjtemények részéről. Az IIPC közös kereteket ad ahhoz, hogy egyre több könyvtár, levéltár és múzeum feleljen meg e szakmai kihívásnak.
A világháló hőskorát még a statikus honlapok és az azokon keresztül közzétett információ korlátozott, könnyen áttekinthető és nyilvántartható rendszere jelentette. Ennek az időszaknak egyik jellemző műfaja volt a tematikus katalógus (például az Amnesty International által összegyűjtött emberi jogi csoportok listája, valamint a Yahoo! Directory és az Open Directory Project). A kilencvenes évek közepén az egyik legfontosabb szolgáltatás-típus volt ez a maga nemében, mert tartalmi kategóriák szerint, folyamatos frissítéssel tette elérhetővé az egyes webhelyek címeit. 1998-ra már az a meggyőződés alakult ki, hogy a Yahoo! jelentősen hozzájárult az online könyvtártudomány kialakulásához, nem csupán annak osztályozási rendszere révén, hanem a cég által kifejlesztett navigációs eszközöknek köszönhetően is. A weboldalak felmérése, értékelése és kategorizálása jelentette a webkurátori tevékenység kezdeti formáját. Az algoritmikus keresőmotorok megjelenése – az online tartalom exponenciális mértékű növekedésével párhuzamosan – az ilyen manuális módszerek eltűnéséhez vezetett, de kisebb méretű válogatott linkgyűjtemények létrehozásához erre a tevékenységre továbbra is szükség van.
Magyarországon a webarchiválás gondolata már a 2000-es évek elején felmerült különféle könyvtári és informatikai fórumokon. Kisebb kísérleti projektek zajlottak könyvtárakban, egyetemeken és kutatóintézetekben, de az intézményi keretek között szervezett, nemzeti szintű webarchiválási tevékenység megalapozására egészen 2017-ig kellett várni. Ekkor indult el az Országos Széchényi Könyvtárban az a kísérleti projekt,[5] melynek célja az üzemszerűen működő magyar webarchívum szakmai és infrastrukturális feltételeinek megteremtése.
A webarchívumok munkatársai általában különböző típusú tartalmakat archiválnak, beleértve a HTML weboldalakat, a stíluslapokat, a JavaScript-et, a képeket és a videóanyagokat. Az archiválás során az összegyűjtött források metaadatait is megőrzik. A különböző típusú (leíró, adminisztratív, technikai) metaadatok rögzítésére szolgáló intézményi gyakorlat kialakítását nemzetközi ajánlások segítik.[6] A metaadatok hasznosak a gyűjtemény hitelességének és eredetiségének megállapításához is, különösen a levéltárak által archivált "hivatalos" webdokumentumok esetében van ennek fokozott jelentősége.
A leggyakoribb webarchiválási módszer a keresőrobotokhoz hasonlóan automatizálja a weboldalak gyűjtésének folyamatát. Ezek a szoftverek jellemzően ugyanúgy érik el a weblapokat, mint a böngésző programok, ezért viszonylag egyszerű módszert biztosítanak a tartalom távolról történő aratására. Az archiváláshoz használt robotok közül az alábbiak használata a leginkább elterjedt:
A HTTrack ugyanabban a könyvtárszerkezetben gyűjti be a webes anyagot, ahogyan az az eredeti webhelyen megjelent. A hosszú távú megőrzéshez azonban a webarchívumok ennél célravezetőbb tárolási módot használnak. A WARC a robotok által begyűjtött digitális objektumok és metaadataik tárolására szolgáló, 2009-ben szabványosított (ISO 28500[12]) nyílt formátum. A WARC fájl egy olyan, jellemzően nagy méretű csomag, amely egy vagy több WARC rekordot tartalmaz (ezeknek 8 fajtája létezik), melyek mindegyike egy header-ből és egy content block-ból áll. Utóbbiban bármilyen fájltípus tárolható. A Heritrix által vezérelt robotok ilyen gyűjtőfájlokba mentik a learatott tartalmat.[13] A WARC fájlokba mentett webanyagot általában az Internet Archive által fejlesztett Wayback Machine nyílt forráskódú változatával jelenítik meg, de léteznek alternatív megoldások is, például a Webrecorder Player,[14] vagy a Python nyelven írt pywb.
Ez a kategória az adatbázis-alapú webhelyek tartalmának archiválására szolgáló módszereket foglalja magában, ami általában az adatbázis tartalmának szabványos sémába történő exportálását igényli, gyakran XML használatával. A szabványos formátumban tárolt adatbázisok archivált tartalmait közös lekérdező rendszer segítségével is el lehet érni. Ezt szolgálják például a DeothArc és a Xinq eszközök, amelyeket a Francia Nemzeti Könyvtár és az Ausztrál Nemzeti Könyvtár fejlesztett ki. A DeepArc lehetővé teszi egy relációs adatbázis struktúrájának XML-sémára történő leképezését, majd az XML dokumentumba történő tartalom konverziót. A Xinq pedig az így konvertált tartalom online elérhetőségét biztosítja. Bár a webhely eredeti elrendezése és funkcionalitása nem tartható meg teljes pontossággal, a Xinq lehetővé teszi az eredetinek megfelelő alapvető lekérdezési és visszakeresési funkciókat.
Ez egy olyan eseményalapú archiválási módszer, amely összegyűjti a webszerver és a webböngésző közötti tranzakciókat. Elsősorban az adott webhelyen, adott időpontban ténylegesen megtekintett tartalom bizonyításának megőrzéséül szolgál. Ez különösen fontos lehet olyan szervezetek számára, amelyeknek meg kell felelniük az információk nyilvánosságra hozatalára és megőrzésére vonatkozó jogszabályi, illetve egyéb szabályozási követelményeknek.
Különféle ingyenes szolgáltatások is léteznek, webes források archiválására, a fentebb tárgyalt aratási technikák valamelyikének alkalmazásával. A teljesség igénye nélkül néhány a lényegesebbek közül:
A WebCite[15] egy elsősorban szerzőknek és szerkesztőknek szánt ingyenes, igény szerint archiváló szolgáltatás, amely lementi és stabil URI-val látja el a felhasználó által javasolt publikációkat és egyéb online forrásokat, így biztosítva, hogy az ezekre való hivatkozások hosszú távon is működőképesek maradnak.[16] Böngészőbe beépíthető könyvjelző alkalmazás is van hozzá.
A Conifer[9] a Rhizome nonprofit szervezet által 2016 óta fejlesztett, Python nyelven írt nyílt forráskódú program a weben való böngészések archiválására és utólagos visszanézésére. (Csak a felhasználó által meglátogatott oldalak nézhetők újra). Elsősorban a közösségi média megőrzésére optimális, olyan regisztrációhoz kötött, interaktív, dinamikus, média-gazdag oldalakhoz, amelyekkel a hagyományos robotok és egyéb letöltők nem boldogulnak. Az archív tartalom WARC formában tárolható, és fel- illetve letölthető az WebRecorder.io szerverre, ami 5 GB ingyen tárhelyet ad. A munkamenetek fájlkezelő-szerű felületen menedzselhetők és megoszthatók másokkal.[17]
Az Archive.is[18] egy ingyenes weboldal archiváló szolgáltatás, ami egy bookmarklet segítségével böngészőbe is beépíthető. A felhasználó kezdeményezésére lementett weblapok stabil URL-eken hivatkozhatók és kereső is van hozzájuk. A lementett oldalakról 1024x768 pixeles képernyőfotó is készül. A maximális mérethatár 50 MB (oldalanként, képekkel együtt), megőrzési határidőkorlát nincs. A szöveges tartalomról három másolatot tárol, de a képanyag is duplikálva van különböző európai adatközpontokban.[19]
A webarchívumok a világháló feltérképezésének eredményeire támaszkodnak. A webanyagok feltárását és begyűjtését azonban több dolog nehezíti:
Fontos azonban megjegyezni, hogy egy natív formátumokra támaszkodó nagy webarchívum létrehozatala és bővítése, azaz egy teljesen böngészhető gyűjtemény működő hivatkozásokkal, dizájn- és média-elemekkel stb., jelenleg döntően csupán a robotokra támaszkodó technológiai háttérrel lehetséges.
Az egyes lekérdezési műveletekre válaszként folyton dinamikusan változó tartalmat generáló oldalak archiválása viszont nem oldható meg hagyományos webrobotok segítségével. Fejlesztés alatt állnak olyan, az emberi böngészési tevékenységet imitáló szoftverek, melyek segítségével a jelenleg nem jól aratható tartalmak (pl. közösségi média, folyamatosan változó hírportálok, a láthatatlan webet alkotó adatbázisok stb.) is feltérképezhetőbbé és menthetőbbé válhatnak. Jelenleg még csupán arra van lehetőség, hogy a Webrecorder szolgáltatás révén manuálisan, egy böngésző segítségével gyűjtsük be az általunk bejárt dinamikus oldalakat.
A web mérete annyira nagy, hogy teljes feltérképezése hatalmas mennyiségű technikai erőforrást igényel. Egy webhely egy része akár meg is változhat, mielőtt a robot befejezi az aratását. Az egyes webarchívumok gyűjtőköri szabályozása ezért pontosan meghatározza a begyűjtendő tartalom körét.
Egyes webszerverek úgy vannak beállítva, hogy eltérő oldalakat küldjenek vissza a kereső vagy archiváló robotoknak és a természetes személyeknek.[20] Ez néha azért történik, hogy a keresőgépeket félrevezessék és nagyobb felhasználói forgalmat irányítsanak az adott webhelyre, vagy pedig azért, hogy elkerüljék a szolgáltatott tartalommal kapcsolatos elszámoltathatóságot. Az is előfordul, hogy úgy optimalizálják a webhely megjelenését és funkcióit, hogy csak meghatározott böngésző típusok vagy verziók számára nyújtsanak emelt minőségű, az adott böngésző képességeire specializált szolgáltatást. A robotok ilyenkor szintén nem, vagy csak részlegesen tudják learatni a webhely tartalmát, illetve számos esetben a speciális technológiák miatt nem tudják megőrizni a weboldalak eredeti külalakját.
A webarchívumok munkatársainak nem csupán a webarchiválás technikai kihívásait kell kezelniük, hanem a szellemi tulajdonjoggal kapcsolatos jogi szabályozással is foglalkozniuk kell. A közvéleményben általános vélekedésként él, hogy a világhálón közzétett tartalmak a közjavak körébe tartoznak. Valójában a világháló minden egyes szelete szerzői jogvédelem alatt áll, így szigorú jogi érvelés szerint egyéb törvényi felhatalmazás hiányában a webarchívumoknak nincs joguk a tartalom lemásolására. Azokban az országokban azonban, ahol nemzeti szintű webarchiválási tevékenység zajlik, a nemzeti könyvtáraknak,[21] illetve a kötelespéldányokat gyűjtő egyéb intézményeknek általában joguk van arra, hogy a webes tartalmakat a kötelespéldány rendelkezések kiterjesztésével gyűjtsék be. Ez történhet úgy, hogy a kötelespéldány rendeletbe vagy törvénybe építik be a webarchiválásra vonatkozó rendelkezéseket, de néhány országban külön törvény szabályozza ezt a tevékenységet. Magyarországon 2018 második felében kezdődött el webarchiválásra vonatkozó jogszabályi háttér kidolgozása.
A nemzeti és egyéb közgyűjteményi webarchívumokban az európai szerzői jogi gyakorlatot tükröző jogszabályok szerint a jogtulajdonos kifejezett engedélye kell hozzá, hogy az adott webhely lementett tartalmát nyilvánosan szolgáltatni is lehessen. Engedély hiányában csak az adott intézmény épületében kijelölt terminálokon, illetve zárt hálózaton érhetők el a jogvédett anyagok. Az intézmények lehetővé teszik a tartalomtulajdonosok számára, hogy elrejtsék vagy eltávolítsák az archivált tartalmat, amit nem akarnak a nyilvánosság számára hozzáférhetővé tenni. Kötelespéldányként begyűjtött tartalom esetében csupán a szolgáltatásból történő kizárás jöhet szóba, a tartalmat nem lehet töröltetni. Az IIPC weboldalán található egy összefoglaló az egyes országok webarchiválással kapcsolatos jogi szabályozásáról, hivatkozásokkal a vonatkozó nemzeti joganyagra.[22]
Az Országos Széchényi Könyvtár webarchiválással foglalkozó projektjének keretében csupán olyan webhelyek kerülnek nyilvánosan szolgáltatásra, ahol ehhez a jogtulajdonos szerződéses formában hozzájárult. A többi anyag csak zárt hálózaton, a könyvtár épületében érhető el. 2021. januárjától egy kormányrendelet értelmében az állami és önkormányzati fenntartású intézmények archivált webhelyei külön engedély nélkül is szolgáltathatók.[23]
Néhány nonprofit webarchívum anyaga nyilvánosan, korlátozás nélkül hozzáférhető (pl. a WebCite, az Internet Archive vagy az Internet Memory Foundation gyűjteménye). Fontos megemlíteni, hogy a Google nem végez webarchiválási tevékenységet, csupán a saját gyorsítótárában őrzi meg egy darabig az időlegesen elérhetetlen online tartalmak egy részét, változó tartalmi, illetve megjelenítési minőségben. Amennyiben az adott oldal tartósan eltűnik a webről és így végül a Google találati listájából is, akkor a kapcsolódó gyorsítótárban őrzött tartalom is törlésre kerül.
A webarchívum, illetve az abban megőrzött tartalmak maguk is a tudományos kutatás tárgyaként jelennek meg. Számos tudományág képviselői dolgoznak együtt nagyméretű webes korpuszok elemzésén, azok szerkezeti, illetve tartalmi jellemzőit feltárva. Új területek születésének vagyunk tanúi az utóbbi években, ilyen például a webtörténelem.[24] Az archivált webes korpuszok egyes szegmensei maguk is a történeti elemzés tárgyai lehetnek, de magának a számítógépes világhálónak a története, az információtechnológiai eszköztár fejlődése is kutatások tárgya. A webarchívumban tárolt nagy mennyiségű adattömeg pedig a webtörténet határain túlmutató, sokszínű adattudományi elemzések tárgyául is szolgálhat.[25] A harmadik nagy terület az információtudományhoz, illetve az információkeresés terén megjelenő szemantikus webes eszközök térhódításához kapcsolódik. A webarchívumokban tárolt tartalom szemantikus metaadatokkal való gazdagítása, a sok szempontú visszakereshetőség és értelmezési lehetőség megteremtése, a webarchívumok beillesztése a nyílt kapcsolt adatok világának felhőrendszerébe, szintén egy igen fontos kutatási irány.[26] Amikor a webarchívumok társadalmi hasznáról van szó, éppen ezek a kutatási irányok segítenek feltárni a hatalmas adattömegekben rejtőző hozzáadott értéket.
A webarchívumokban tárolt anyag kutatási célú felhasználása felsőoktatási intézményeken belüli, illetve azok közötti interdiszciplináris együttműködéseket alapozhat meg, újfajta tantervi keretek születéséhez járulhat hozzá a digitális bölcsészethez, az informatikához, az adattudományhoz, illetve a könyvtár- és információtudományhoz kötődő tanszékek, tudományos műhelyek együttműködése révén.
Az Országos Széchényi Könyvtár 2017 áprilisától az Országos Könyvtári Rendszer (OKR) projekt[27] keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. 2020-tól üzemszerűen működik az OSZK webarchívuma.[28]
A projekt keretében létrejött egy nyilvánosan elérhető demó webarchívum, olyan kulturális és tudományos webhelyekről készült mentésekből, melyek tulajdonosai hozzájárultak ehhez. Emellett folynak tematikus, eseményalapú és webtérszintű aratások, de a lementett tartalom egyelőre egy zárt archívumba kerül.
Az internet archiválásával kapcsolatban az elmúlt több mint 20 évben számos projekt indult a világban és rengeteg ismeret összegyűlt, a MIA Wikiben ezeket próbáljuk meg minél tömörebben összefoglalni, a következő kategóriák alatt: Fogalmak, Formátumok, Fórumok, Hasznosítás, Irodalom, Projektek, Rendezvények, Szabványok, Szervezetek, Szoftverek és Szolgáltatások. A wiki 2017. július 26. óta működik.[29] A projekt honlapján e mellett egy időszakosan frissített bibliográfia is elérhető a webarchiválás hazai és nemzetközi szakirodalmáról.[30]
Az IIPC keretében 2017 végén alakult meg a képzési munkacsoport.[31] Első projektjük keretében összeállítottak egy kérdőívet[32] annak felmérésére, hogy az egyes országokban milyen típusú szervezetek, mekkora létszámban foglalkoznak webarchiválással, valamint ezeknek a szakembereknek milyen igényeik vannak az oktatás, a szakmai továbbképzés terén.[33] Ebből is kiderült, hogy még nagyon az út elején tartunk, ami az oktatási, képzési tevékenységek súlyát felértékeli. A legtöbben jelenleg online forrásokra támaszkodnak, ha szakmai kompetenciáik bővítésére vágynak, s ettől jelentősen elmarad bármilyen szervezett oktatási tevékenység hozzáférhetősége, illetve relatív módon jelentős a súlya a semmiféle képzésben nem részesült munkatársaknak is. Messze a legkevesebben vesznek részt hivatalos tantervi alapú képzésekben. Az oktatási tevékenység workshopok keretében, illetve informális keretek között vagy valamely szakmai szervezet által koordinálva zajlik. A képzési igényeket felmérő kérdésre a legtöbben azt válaszolták, hogy a webarchiválással, a digitális megőrzéssel kapcsolatos szabványok és technológiák terén szeretnék tudásukat elmélyíteni, illetve az egyes szoftvereszközök használatának oktatását tartanák fontosnak. A képzési formák közül pedig a legnépszerűbbnek a webináriumok, illetve a személyes jelenlétre épülő tanfolyamok bizonyultak.
Az IIPC képzési munkacsoportja a kérdőív tapasztalatait felhasználva tervezi jelenleg azokat a fajta oktatási tevékenységeket, melyekkel a leghatékonyabb segítséget tudják majd nyújtani tagintézményeik, illetve a lehető legszélesebb körű szakmai célcsoportok számára. Fokozottan szeretnének építeni az egyes országokban eddig felhalmozott tapasztalatokra. Most először mérik fel azt is, hogy az egyes országokban milyen oktatási és képzési tevékenységek zajlanak, milyen keretek között, s hányan vesznek azokban részt. 2020 folyamán a Digital Preservation Coalitionnel[34] való együttműködés révén elkészült az első tananyag, mely a webarchiválással kapcsolatos alapismereteket tekinti át.[35] Remélhetőleg a közeljövőben olyan egyéb oktatási programok és szakmai anyagok kidolgozása kezdődik el, amelyekből a magyar szakmai közönség is sokat profitálhat majd.
Az Országos Széchényi 2017 elején indult kísérleti webarchiválási projektben fogalmazódott meg az igény arra, hogy közgyűjteményi szakemberek számára a Könyvtári Intézetben 30 óra terjedelmű továbbképzést szervezzünk. A webarchiválás ugyanis akkor működik hatékonyan, ha széleskörű intézményi együttműködésen alapul. A képzés fő céljaként ezért az merült fel, hogy a résztvevők ismerjék meg az internetes tartalmak hosszú távú megőrzésére alkalmas technikákat, az ezzel a területtel foglalkozó külföldi projekteket és az OSZK-ban folyó ez irányú tevékenységet. A kurzus elvégzése után pedig legyenek képesek akár magán célra, akár intézményük számára weboldalakat és webhelyeket tartalmazó gyűjteményeket létrehozni, illetve részt venni a magyar internet archívummal kapcsolatos munkákban. A fő célközönséget a könyvtárosok, a múzeumi és levéltári dolgozók, az archivátorok és az informatikusok jelentik. A képzés oktatói bázisát az OSZK E-könyvtári, Webarchiválási, illetve Infrastruktúra Szolgáltatások Osztályainak a kísérleti projektben érintett munkatársai adják. Az első kurzus 2019. áprilisában került lebonyolításra.
A tananyag az alábbi fő témakörökből áll:
Emellett – az Országos Könyvtári Rendszer program részeként megvalósuló e-learning rendszert felhasználva – egy „blended” típusú, vagyis részben távoktatással megvalósuló, részben pedig személyes jelenlétet is igénylő tananyag is elkészült.