Web archiving és el procés de recollir parts del World Wide Web per assegurar la preservació de la informació en un arxiu per a futurs investigadors, historiadors i públic general.[1] Els arxivers web normalment utilitzen aranyes web (web crawlers, en anglès) per automatitzar la captura a causa de l'enorme grandària i la quantitat d'informació present a la Xarxa. L'organització més gran de web archiving basada en l'ús massiu del rastreig web (web crawling) és l'Internet Archive que s'esforça a mantenir un arxiu de tota la Xarxa. L'International Web Archiving Workshop (IWAW), iniciat el 2001, va proporcionar una plataforma per compartir i intercanviar experiències i idees. La posterior fundació de l'International Internet Preservation Consortium (IIPC) l'any 2003 va facilitar en gran manera la col·laboració internacional en el desenvolupament d'estàndards i eines de codi obert per a la creació d'arxius web. Aquests esdeveniments, i la part cada cop més gran de la cultura humana creada i enregistrada a la web, es combinen per fer inevitable que cada vegada més les biblioteques i arxius hauran de fer front als reptes de l'arxiu web. Així mateix, les biblioteques nacionals, arxius nacionals i diversos consorcis d'organitzacions també estan involucrats a arxivar contingut web amb valor cultural. Igualment, hi ha disponible programari comercial i serveis d'arxiu web per a les organitzacions que necessiten arxivar el seu propi contingut web com a patrimoni corporatiu, normatiu o amb fins legals.
Els arxivers web generalment recopilen diversos tipus de contingut web, on s'inclouen pàgines web HTML, fulls d'estil, JavaScript, imatges i vídeos. Per altra banda, recullen les metadades dels recursos com, per exemple, el temps d'accés, tipus MIME i mida del contingut. Aquestes metadades són útils per establir l'autenticitat i la procedència de la col·lecció arxivada.
La tècnica més comuna d'arxiu web utilitza aranyes web per automatitzar el procés de recol·lecció de pàgines web. Les aranyes solen accedir a pàgines web de la mateixa manera que els usuaris disposen d'un navegador veure la web i, per tant, suposen un mètode relativament senzill de recol·lecció remota de contingut web. Alguns exemples d'aranyes web utilitzades per a l'arxiu web inclouen: Heritrix, HTTrack o Wget. Existeixen diversos serveis gratuïts que poden usar-se per arxivar els recursos web a demanda, utilitzant aquestes tècniques de rastreig web. Aquests serveis inclouen Wayback Machine i WebCite.
La tècnica d'arxiu de bases de dades fa referència a mètodes per arxivar el contingut subjacent de llocs web basats en bases de dades. Generalment, requereix l'extracció del contingut de la base de dades en un esquema estàndard, sovint usant XML. Un cop emmagatzemat en aquest format estàndard, el contingut es pot fer accessible mitjançant un únic sistema d'accés. Aquest enfocament s'exemplifica amb les eines DeepArc i Xinq, desenvolupades per la Biblioteca Nacional de França i la Biblioteca Nacional d'Austràlia, respectivament. DeepArc permet mapejar l'estructura d'una base de dades relacional en un esquema XML (XML schema) i exportar el contingut en un document XML. Xinq, a més, permet que el contingut sigui accessible en línia. Tot i que la disposició original i el comportament de la pàgina web no es pot conservar exactament, Xinq permet replicar la consulta bàsica i la funcionalitat de recuperació d'informació.
L'arxivat transaccional és un enfocament orientat a esdeveniments, que recull les transaccions reals que tenen lloc entre un servidor web i un navegador web. S'utilitza principalment com a mitjà per preservar el testimoni del contingut que es veu realment en una pàgina web específica en una data determinada. Això pot ser particularment important per a les organitzacions que necessiten complir amb determinats requisits legals o normatius en l'exposició i la retenció d'informació. Un sistema transaccional d'arxiu normalment funciona interceptant cada petició HTTP al servidor web i la seva resposta corresponent, a l'hora que filtra cada resposta per eliminar contingut duplicat i emmagatzema permanentment les respostes com a fluxos de bits (bitstreams).
Els arxius web que es basen en el rastreig web com el seu principal mitjà de recollida es veuen afectats per diverses dificultats en aquest rastreig:
De tota manera, és important tenir en compte que un arxiu web natiu, és a dir, un arxiu web totalment navegable, amb vincles operatius, mitjans, etc., només és possible utilitzant la tecnologia d'aranyes. El web és tant gran que per rastrejar una part significativa es necessita una gran quantitat de recursos tècnics. La Xarxa canvia tant ràpidament que, fins i tot, parts d'un lloc web poden canviar abans que una aranya web hagi acabat de rastrejar-lo.
Alguns servidors web estan configurats per enviar de resposta diferents pàgines a les sol·licituds d'arxivadors web com ho farien en resposta a les peticions d'un navegador corrent.[2] Això es realitza normalment per enganyar els motors de cerca a dirigir més tràfic d'usuaris a un lloc web i, sovint, es fa per evitar la rendició de comptes o per proporcionar contingut millorat només a aquells navegadors que el poden mostrar.
Els arxivers web no només han d'afrontar els reptes tècnics per arxivar el web, sinó que també han de tenir en compte les lleis de propietat intel·lectual. Peter Lyman afirma que "tot i que el web és considerat popularment com a recurs de domini públic, té drets d'autor; per tant, els arxivers no tenen dret legal per copiar-lo".[3] No obstant això, algunes biblioteques nacionals poden estar autoritzades per fer-ho, gràcies a les lleis del dipòsit legal.
Alguns arxius web sense fins de lucre que es fan accessibles al públic, com WebCite, l'Internet Archive o de la Internet Memory Foundation permeten als propietaris amagar o eliminar el contingut arxivat que no volen que el públic hi tingui accés. Altres arxius web només són accessibles des de certs llocs o han regulat el seu ús. WebCite cita una recent demanda contra l'emmagatzematge en memòria cau de Google, que Google va guanyar. [4]
La curació web, igual que qualsevol curació digital, implica:
A més, a banda de l'exposició sobre els mètodes de recollida de la Web, també cal incloure aquells que faciliten l'accés, la certificació i l'organització. Hi ha un conjunt d'eines populars que aborden aquests passos de curació, el conjunt d'eines per a la curació web de International Internet Preservation Consortium:
Altres eines de codi obert per a la manipulació d'arxius web:
Com a eines gratuïta, però no de codi obert també existeix:
Hi ha una normalització feta per la ISO anomenat format Web ARChive.[4]
Uns investigadors de la Universitat d'Old Dominion van crear unes mètriques per a avaluar quantitativament la capacitat dels crawlers dels serveis d'arxiu web.[4] Aquesta mètrica consisteix en una sèrie de tres grups de proves:[5]