Trong lĩnh vực thư viện và lưu trữ, lưu trữ số là quá trình đảm bảo thông tin kỹ thuật số quan trọng có thể được truy cập và sử dụng trong tương lai.[1] Quá trình này bao gồm lập kế hoạch, phân bổ tài nguyên và áp dụng các phương pháp lưu trữ phù hợp,[2] kết hợp với các chính sách và chiến lược để đảm bảo nội dung số luôn sẵn có, không bị ảnh hưởng bởi các vấn đề về lỗi thiết bị hay thay đổi công nghệ. Mục tiêu chính là duy trì tính chính xác và khả năng truy cập của nội dung số đã được xác thực theo thời gian.[3]
Hiệp hội Thư viện Hoa Kỳ định nghĩa lưu trữ số là việc thực hiện các chính sách, chiến lược và hành động nhằm đảm bảo nội dung số luôn có thể truy cập được.[4] Theo Harrod's Librarian Glossary, lưu trữ số là cách thức lưu trữ tài liệu số để chúng vẫn có thể sử dụng được khi công nghệ phát triển và phần cứng, phần mềm gốc trở nên lỗi thời.[5]
Tuổi thọ hạn chế của các phương tiện lưu trữ kỹ thuật số cũng là một trong các lý do khiến con người ta tìm đến phương pháp lưu trữ số. Ổ cứng thông thường có thể hư hỏng sau vài năm sử dụng, còn bộ nhớ flash (trong ổ SSD, điện thoại, USB) có thể mất dữ liệu sau một thời gian không sử dụng, tùy vào điều kiện lưu trữ. Các phương tiện lưu trữ quang học như đĩa DVD chuyên dụng có thể lưu dữ liệu lâu hơn nhưng cần phải có công nghệ đặc biệt để ghi đĩa và các công nghệ này cũng không phổ biến. Băng từ LTO cũng cần được chuyển đổi định kỳ để đảm bảo khả năng đọc dữ liệu. Mảng RAID có thể giúp bảo vệ dữ liệu khỏi lỗi ổ cứng, nhưng cần được thiết lập và quản lý cẩn thận.
Thẩm định lưu trữ là quá trình đánh giá và lựa chọn các tài liệu, hồ sơ có giá trị lâu dài để lưu trữ[6][7]. Việc này dựa trên nhiều yếu tố khác nhau và có ý nghĩa quan trọng trong việc định hình cách hiểu của các nhà nghiên cứu về nguồn tài liệu đó. Thẩm định lưu trữ là một bước trong quy trình lưu trữ tài liệu số, khác với thẩm định giá trị tài sản.[8][9]
Thẩm định lưu trữ có thể được thực hiện ở nhiều thời điểm khác nhau trong quá trình tiếp nhận và xử lý tài liệu. Thẩm định sơ bộ có thể được thực hiện trước khi tiếp nhận để xác định những tài liệu nào cần được lưu trữ. Sau đó, quá trình thẩm định chi tiết hơn sẽ được thực hiện trong quá trình xử lý tài liệu.[10]
Thẩm định được thực hiện trên tất cả các loại tài liệu lưu trữ, bao gồm cả tài liệu số và tài liệu truyền thống. Trong thời đại số, việc lưu trữ nhiều dữ liệu hơn so với trước đây là một xu hướng, do chi phí lưu trữ giảm và các công cụ tìm kiếm thông tin tiên tiến giúp khai thác giá trị từ những dữ liệu tưởng chừng ít quan trọng.[11][12] Đối với tài liệu analog, việc loại bỏ hoặc chỉ giữ lại một phần nhỏ là điều thường thấy. Tuy nhiên, với tài liệu số, việc lựa chọn, đánh giá và ưu tiên cần được cân nhắc kỹ lưỡng, dựa trên khả năng quản lý của tổ chức.
Khi tiếp nhận tài liệu ở nhiều định dạng khác nhau, thư viện và kho lưu trữ thường ưu tiên chọn định dạng phù hợp nhất cho việc lưu trữ lâu dài. Thư viện Quốc hội Hoa Kỳ đã thiết lập một bộ tiêu chuẩn về định dạng khuyến nghị cho việc lưu trữ nội dung số.[13] Ví dụ, bộ tiêu chuẩn này sẽ được áp dụng khi Thư viện nhận tài liệu gửi bản quyền từ nhà xuất bản.
Trong lĩnh vực lưu trữ số và quản lý bộ sưu tập, mã định danh và siêu dữ liệu mô tả đóng vai trò quan trọng trong việc tìm kiếm và nhận diện các đối tượng. Mã định danh là một nhãn riêng biệt, thường là số hoặc chuỗi ký tự, được gán cho mỗi đối tượng hoặc hồ sơ. Khi được kết hợp với các thông tin mô tả khác, mã định danh giúp phân biệt các đối tượng và các phiên bản khác nhau của chúng trong cơ sở dữ liệu hoặc danh mục.[14]
Siêu dữ liệu mô tả cung cấp thông tin về nội dung của một đối tượng, chẳng hạn như tiêu đề, tác giả, chủ đề và ngày tháng.[14] Các lược đồ siêu dữ liệu giúp xác định những yếu tố cần thiết để mô tả một đối tượng. Việc cung cấp đầy đủ siêu dữ liệu mô tả cho một đối tượng số giúp giảm thiểu nguy cơ không thể truy cập đối tượng đó trong tương lai.[15]
Ngoài mã định danh, tên tập tin cũng thường được sử dụng để nhận diện tập tin. Việc tuân thủ một quy tắc đặt tên nhất quán giúp việc tìm kiếm và sử dụng tập tin trong bộ sưu tập trở nên dễ dàng hơn, đặc biệt khi số hóa tài liệu truyền thống. Các quy ước đặt tên như 8.3 hoặc Warez đảm bảo khả năng tương thích giữa các hệ thống và hỗ trợ việc di chuyển dữ liệu. Tên tập tin có thể mang tính mô tả hoặc không, tùy thuộc vào quy mô của bộ sưu tập.[16] Tuy nhiên, tên tập tin không phải là phương pháp nhận diện tốt nhất vì chúng có thể thay đổi mà không làm thay đổi nội dung của tập tin.
Tính toàn vẹn dữ liệu là yếu tố cốt lõi trong lưu trữ số. Nó đảm bảo dữ liệu được lưu trữ đầy đủ và không bị thay đổi. Các biện pháp duy trì tính toàn vẹn dữ liệu nhằm đảm bảo dữ liệu được ghi lại chính xác và không bị sửa đổi trong quá trình lưu trữ và truy xuất.[17]
Trong quá trình lưu trữ số, cần tránh những thay đổi không mong muốn đối với dữ liệu và có các biện pháp để phát hiện và khắc phục chúng. Tuy nhiên, đôi khi việc chỉnh sửa nội dung hoặc siêu dữ liệu là cần thiết, với điều kiện tuân thủ đúng quy trình và chính sách. Các tổ chức hoặc cá nhân có thể quyết định lưu trữ cả phiên bản gốc và phiên bản đã chỉnh sửa, kèm theo thông tin mô tả chi tiết. Việc đảm bảo tính toàn vẹn của dữ liệu luôn được ưu tiên, bất kể phiên bản nào được lưu trữ.
Tính toàn vẹn của hồ sơ có thể được đảm bảo bằng cách lưu trữ ở mức bit, kiểm tra tính bất biến của dữ liệu và ghi lại lịch sử các hoạt động lưu trữ. Các biện pháp này giúp ngăn chặn việc thay đổi trái phép hoặc vô ý đối với hồ sơ.[18]
Tính cố định tập tin là khái niệm chỉ một tập tin kỹ thuật số không bị thay đổi. Kiểm tra tính cố định là quá trình xác minh tập tin không bị chỉnh sửa so với trạng thái trước đó.[19] Để kiểm tra tính cố định của tập tin, người ta thường tạo, xác minh và quản lý một đoạn mã đặc biệt gọi là tổng kiểm tra (checksum).
Ngoài việc sử dụng tổng kiểm tra để kiểm tra tính toàn vẹn của từng tập tin, việc theo dõi sự tồn tại và vị trí của tập tin trong bộ sưu tập cũng rất cần thiết. Tổng kiểm tra giúp phát hiện các thay đổi về nội dung, còn việc theo dõi sự hiện diện cho biết tập tin có bị thêm, xóa hay di chuyển hay không. Đây là một phần quan trọng trong việc quản lý và đảm bảo tính ổn định của bộ sưu tập số.
Đặc tả tài liệu số là quá trình xác định và mô tả bản chất của một tệp tin, bao gồm các đặc điểm kỹ thuật của nó.[20] Thông tin này thường được lưu trữ dưới dạng siêu dữ liệu kỹ thuật, ghi lại các thuộc tính như môi trường tạo hoặc sản xuất tệp tin.[21]
Tính bền vững số liên quan đến các yếu tố đảm bảo thông tin số có thể được truy cập và sử dụng lâu dài.[22] Không chỉ là các giải pháp tạm thời, tính bền vững số đòi hỏi một quá trình liên tục và chủ động. Thay vì tập trung vào công nghệ cụ thể, tính bền vững số nhấn mạnh việc xây dựng cơ sở hạ tầng linh hoạt, dễ tương thích và có khả năng bảo trì, phát triển liên tục.[23] Các hoạt động hiện tại nhằm đảm bảo tính bền vững số sẽ giúp thông tin số dễ dàng truy cập và sử dụng trong tương lai.[24][25] Việc bảo trì liên tục là yếu tố quan trọng trong lưu trữ số, tương tự như cách cộng đồng đã duy trì thành công các di sản văn hóa như Ngựa trắng Uffington hay Thần cung Ise qua nhiều thế kỷ.[26][27]
Khả năng hiển thị là khả năng tiếp tục truy cập và sử dụng một đối tượng số mà không làm mất đi các đặc tính quan trọng của nó.[28]
Sự lỗi thời của phần cứng, phần mềm hoặc phương tiện lưu trữ có thể dẫn đến việc không thể truy cập nội dung số. Ví dụ điển hình là băng DLT, một phương tiện lưu trữ đã từng phổ biến nhưng hiện nay không còn được sử dụng và hỗ trợ.
Sự lỗi thời của định dạng tệp xảy ra khi các định dạng mã hóa mới thay thế các định dạng cũ hoặc khi phần mềm cần thiết để mở và đọc các tệp đó không còn được hỗ trợ.[29]
Mỗi tổ chức lưu trữ có thể lựa chọn định dạng tệp khác nhau tùy theo khả năng của mình. Tuy nhiên, trong lĩnh vực lưu trữ số, các định dạng mở, chuẩn hóa, không độc quyền và đã được kiểm chứng thường được ưu tiên để đảm bảo khả năng truy cập và sử dụng lâu dài.[30] Khi lựa chọn định dạng tệp để lưu trữ số lâu dài, cần cân nhắc các yếu tố như tính phổ biến, tính minh bạch, khả năng tự ghi chép, sự phụ thuộc vào phần mềm bên ngoài, tác động của bằng sáng chế và các biện pháp bảo vệ kỹ thuật.[31] Ngoài ra, cần xem xét tuổi thọ và mức độ ổn định của định dạng, khả năng tương thích với các phần mềm chuyên dụng, tiêu chuẩn thông tin được tích hợp và khả năng truy cập lâu dài vào phần mềm đọc tệp.[30]
Đặc tính quan trọng của một đối tượng số là những thuộc tính ảnh hưởng đến hình thức, chức năng, chất lượng và khả năng sử dụng của nó. Việc lưu trữ các đặc tính này là cần thiết để đảm bảo đối tượng số vẫn có thể truy cập và có ý nghĩa theo thời gian.[32]
Hiểu rõ các đặc tính quan trọng của đối tượng số là cơ sở để xây dựng các phương pháp lưu trữ số hiệu quả. Kiến thức này hỗ trợ quá trình thẩm định và lựa chọn đối tượng số cần lưu trữ, giúp phát triển siêu dữ liệu lưu trữ, đánh giá các chiến lược lưu trữ khác nhau và đóng góp vào việc xây dựng tiêu chuẩn chung cho cộng đồng lưu trữ số.[33]
Các kho lưu trữ luôn nỗ lực lưu trữ hồ sơ, dù là dạng analog hay kỹ thuật số, sao cho chúng đáng tin cậy và phản ánh trung thực thông tin gốc. Tính xác thực ở đây được hiểu là sự đáng tin cậy của một hồ sơ, đảm bảo hồ sơ không bị thay đổi hoặc làm giả. Tuy nhiên, tính xác thực không đồng nghĩa với tính chính xác; một hồ sơ có thể không chính xác nhưng vẫn được lưu trữ và bảo toàn tính xác thực, tức là nội dung của nó sẽ không bị thay đổi.[34][35]
Để đảm bảo ý nghĩa của hồ sơ không bị thay đổi trong quá trình lưu trữ, các kho lưu trữ thường áp dụng đồng thời các biện pháp như thiết lập chính sách, quy trình an ninh và lưu trữ tài liệu liên quan.
Các nỗ lực lưu trữ số chủ yếu nhằm mục đích hỗ trợ quá trình ra quyết định trong tương lai. Khi một kho lưu trữ hoặc thư viện chọn thực hiện một chiến lược cụ thể, nội dung và siêu dữ liệu liên quan phải được duy trì để cho phép các hành động được thực hiện hoặc không thực hiện theo quyết định của bên kiểm soát.
Siêu dữ liệu lưu trữ đóng vai trò quan trọng trong việc lưu trữ và quản lý đối tượng số. Nó cung cấp thông tin về đặc điểm kỹ thuật của đối tượng, môi trường lưu trữ, lịch sử lưu trữ và quyền sở hữu. Nhờ đó, các tổ chức và cá nhân có thể theo dõi quá trình lưu trữ và đảm bảo tính toàn vẹn của đối tượng số. PREMIS là một tiêu chuẩn được sử dụng rộng rãi trong lĩnh vực lưu trữ số, cung cấp hướng dẫn và định nghĩa các thuật ngữ liên quan đến siêu dữ liệu lưu trữ.[36][37]
Di sản của xã hội đã được ghi lại trên nhiều chất liệu khác nhau, từ đá, giấy da, tre, lụa đến giấy. Ngày nay, lượng lớn thông tin được lưu trữ dưới dạng số, bao gồm email, blog, trang mạng xã hội, trang web bầu cử và nhiều loại hình nội dung số khác.[38] Mặc dù việc tạo và cập nhật nội dung số dễ dàng hơn so với các hình thức truyền thống, việc bảo quản chúng lại gặp nhiều thách thức về cả kỹ thuật và kinh tế.
Khác với sách hay ảnh, những tài liệu analog có thể xem trực tiếp, nội dung số lại cần phần mềm để hiển thị. Sự phát triển nhanh chóng của công nghệ khiến các phần mềm này dễ bị lỗi thời, gây khó khăn cho việc truy cập nội dung số về lâu dài.[39] Phương tiện lưu trữ, định dạng dữ liệu, phần cứng và phần mềm đều có thể trở nên lỗi thời, ảnh hưởng đến sự tồn tại của nội dung số.[3] Hiện tượng này được gọi là lỗi thời kỹ thuật số.
Đối với nội dung số thuần túy như kho lưu trữ tổ chức, trang web, nội dung âm thanh và video, ảnh số, dữ liệu nghiên cứu, việc lưu trữ số gặp phải thách thức lớn về quy mô do lượng dữ liệu khổng lồ và không ngừng tăng lên. Công nghệ phát triển, các thiết bị và công nghệ lưu trữ nhanh chóng trở nên lỗi thời cũng khiến công tác bảo quản trở nên khó khăn hơn. Đây là vấn đề nan giải và là mối quan tâm thường trực của các chuyên gia lưu trữ số.[40]
Một thách thức khác trong việc lưu trữ nội dung số nằm ở vấn đề quy mô. Lượng thông tin số ngày càng nhiều, các loại định dạng lưu trữ cũng ngày một tăng lên khiến việc tạo ra các kho lưu trữ số đáng tin cậy với nguồn lực đầy đủ và bền vững trở thành một thách thức.[2] Từ năm 2006 đến 2010, Thư viện Quốc hội Hoa Kỳ đã lưu trữ 170 tỷ tweet, với tổng dung lượng là 133,2 terabyte.[41] Mỗi tweet chứa 50 trường thông tin bổ sung.[42]
Lưu trữ nội dung số là một hoạt động tốn kém, đòi hỏi đầu tư đáng kể vào cơ sở hạ tầng và nguồn nhân lực. Chi phí tiếp tục phát sinh trong quá trình thu thập, quản lý và lưu trữ dữ liệu. Thách thức lớn là cân đối giữa nhu cầu tài chính hiện tại và lợi ích lâu dài cho các thế hệ tương lai.[43]
Digital preservation refers to the series of managed activities necessary to ensure continued access to digital information for as long as necessary.
The existence of decaying technology, disorganization, and poor storage could in theory put a video game to sleep permanently -- never to be played again. Troubling admissions have surfaced over the years concerning video game preservation. When questions concerning re-releases of certain game titles are brought up during interviews with developers, for example, these developers would reveal issues of game production material being lost or destroyed. Certain game titles could not see a re-release due to various issues. One story began to circulate of source code being lost altogether for a well-known RPG, preventing its re-release on a new console.