Η αρχειοθέτηση Ιστού αποτελεί διαδικασία συλλογής, διατήρησης και παροχής πρόσβασης σε υλικό από τον Παγκόσμιο Ιστό. Στόχος είναι να διασφαλιστεί ότι οι πληροφορίες διατηρούνται σε αρχειακή μορφή για την έρευνα και το κοινό.[1]
Οι αρχειοθέτες Ιστού συνήθως χρησιμοποιούν αυτοματοποιημένα προγράμματα ανίχνευσης ιστού για να συλλάβουν τον τεράστιο όγκο πληροφοριών στον Ιστό.
Ενώ η επιμέλεια και η οργάνωση του Ιστού επικρατούσαν από τα μέσα έως τα τέλη της δεκαετίας του 1990, ένα από τα πρώτα μεγάλης κλίμακας έργα αρχειοθέτησης Ιστού ήταν το Internet Archive, ένας μη κερδοσκοπικός οργανισμός που δημιουργήθηκε από τον Brewster Kahle το 1996. Το Internet Archive κυκλοφόρησε τη δική του μηχανή αναζήτησης για την προβολή αρχειοθετημένου περιεχομένου ιστού, το Wayback Machine, το 2001. Tο 2018, φιλοξενούσε 40 petabytes δεδομένων.
Το αυξανόμενο τμήμα του ανθρώπινου πολιτισμού που δημιουργείται και καταγράφεται στον Ιστό καθιστά αναπόφευκτο ότι όλο και περισσότερες βιβλιοθήκες και αρχεία θα πρέπει να αντιμετωπίσουν τις προκλήσεις της αρχειοθέτησης Ιστού.[2] Εθνικές βιβλιοθήκες, εθνικά αρχεία και διάφορες κοινοπραξίες οργανισμών εμπλέκονται επίσης στην αρχειοθέτηση πολιτιστικά σημαντικού περιεχομένου Ιστού.
Οι αρχειοθέτες Ιστού αρχειοθετούν γενικά διάφορους τύπους περιεχομένου Ιστού, συμπεριλαμβανομένων ιστοσελίδων HTML, JavaScript, εικόνων και βίντεο. Αρχειοθετούν επίσης μεταδεδομένα σχετικά με τους συλλεγόμενους πόρους, όπως ο χρόνος πρόσβασης, ο τύπος MIME και το μήκος περιεχομένου. Αυτά τα μεταδεδομένα είναι χρήσιμα για τον καθορισμό της αυθεντικότητας και της προέλευσης της αρχειοθετημένης συλλογής.