Liên kết hỏng là hiện tượng các siêu liên kết bị mất khả năng trỏ đến các tập tin đích đến, trang web hoặc máy chủ sau một thời gian do tài nguyên đó đã bị chuyển sang địa chỉ truy cập mới hoặc trở nên không khả dụng vĩnh viễn (thường là do bị xóa). Liên kết (link) mà không còn trỏ đến đối tượng chỉ định còn được gọi là link hỏng, link chết. Thuật ngữ gốc bên tiếng Anh là link rot hoặc broken link.
Giới học thuật và nghiên cứu đã lựa chọn khảo sát tỷ lệ liên kết hỏng do tính chất quan trọng và tác động tiêu cực của hiện tượng này đối với việc chia sẻ và bảo toàn thông tin trên mạng Internet. Kết quả ước tính cho thấy có sự chênh lệch số liệu tỷ lệ đáng kể giữa các bài nghiên cứu. Nhiều chuyên gia trong lĩnh vực công nghệ thông tin đã lên tiếng cảnh báo rằng hiện tượng liên kết hỏng có thể gây mất những dữ liệu quan trọng, làm ảnh hưởng đến hệ thống luật pháp và nhu cầu học thuật.
Liên kết hỏng xảy ra ở nhiều nguyên nhân khác nhau, chẳng hạn như di dời, xóa bỏ tệp đích, lỗi máy chủ, hết hạn tên miền gây báo lỗi HTTP 404. Giải pháp ngăn chặn liên kết hỏng chủ yếu là tạo URL cố định, di dời nội dung sang nơi tồn tại lâu hơn, tạo liên kết ít bị hỏng, dùng dịch vụ lưu trữ liên kết sẵn có, hoặc sửa chữa liên kết hỏng.
Vì tính chất quan trọng và sức ảnh hưởng của hiện tượng liên kết hỏng đối với việc tra cứu và lưu trữ thông tin, nhiều cuộc nghiên cứu đã tiến hành thu thập và truy tìm số liệu liên quan đến hiện tượng trong hệ thống mạng lưới toàn cầu World Wide Web, trong các tài liệu học thuật sử dụng URL để trích dẫn nguồn nội dung từ web, và trong thư viện số.
Một bài nghiên cứu năm 2002 cho biết rằng hiện tượng liên kết hỏng ở thư viện số xảy ra chậm hơn ở trên web, và nhận thấy cứ một năm thì có khoảng 3% đối tượng không còn truy cập được (tương đương với chu kỳ bán rã gần 23 năm).[1] Tiếp đến, một bài nghiên cứu năm 2003 đã nhận thấy rằng, cứ 200 liên kết thì sẽ có 1 liên kết bị hỏng mỗi tuần,[2] ứng với chu kỳ bán rã 138 tuần. Tỷ lệ này lại một lần nữa được xác nhận trong bài nghiên cứu năm 2016–2017 về liên kết ở Yahoo! Directory (vốn dĩ trang này đã ngưng cập nhật vào năm 2014 sau 21 năm vận hành và phát triển) và nhận thấy chu kỳ bán rã của các liên kết thư mục là 2 năm.[3]
Một nghiên cứu năm 2004 đã chứng minh các tập hợp con của các liên kết trang web (chẳng hạn như các liên kết trỏ đến đến các loại tập tin cụ thể hoặc các liên kết được các tổ chức học thuật lưu trữ) có thể có chu kỳ bán rã khác nhau rõ rệt.[4] Các URL liên quan đến xuất bản (báo chí, học thuật,...) dường như có tuổi thọ cao hơn URL bình thường. Nhằm củng cố, một nghiên cứu năm 2015 của Weblock đã phân tích hơn 180.000 liên kết đến từ các tài liệu tham khảo trong tập hợp toàn văn của 3 nhà xuất bản truy cập mở lớn và cho biết, chu kỳ bán rã rơi vào khoảng 14 năm.[5] Đây ngầm chứng minh một nghiên cứu năm 2005 đó chính là phân nửa số URL đến từ các bài viết bên D-Lib Magazine vẫn còn hoạt động sau 10 năm.[6]
Những bài khác thì cho rằng tỷ lệ xảy ra hiện tượng liên kết hỏng ở các tài liệu học thuật cao hơn, với mức chu kỳ bán rã được đề xuất thông thường rơi vào 4 năm hoặc hơn.[7][8] Bài nghiên cứu năm 2013 bên BMC Bioinformatics phân tích gần 15.000 liên kết chỉ mục trích dẫn Web of Science của Thomson Reuters và nhận thấy tuổi thọ trung bình của các trang web đạt 9,3 năm và chỉ có 62% trang là được lưu trữ.[9] Kế đến vào năm 2021, một nghiên cứu về các liên kết bên ngoài trên các bài báo New York Times được xuất bản từ năm 1996 đến năm 2019 cho thấy chu kỳ bán rã rơi vào khoảng 15 năm (nhưng lại khác biệt đáng kể, tùy thuộc vào chủ đề nội dung). Bài nghiên cứu còn cho biết thêm, 13% liên kết tuy vẫn còn hoạt động nhưng không còn cung cấp nội dung ban đầu nữa. Hiện tượng này được gọi là trôi dạt nội dung (content drift).[10]
Quan trọng hơn, một bài báo cáo vào năm 2013 cho biết, có tới 49% là liên kết hỏng trên tổng số liên kết được dẫn trong các quyết định của Tòa án Tối cao Hoa Kỳ.[11] Một nghiên cứu năm 2023 đã theo dõi các trang tổng quan về đại dịch COVID-19 tại Hoa Kỳ và nhận thấy rằng: 23% số URL trang tổng quát của tiểu bang đã bị thay đổi vào tháng 4 năm 2023, so với thời điểm tháng 2 năm 2021.[12]
Liên kết hỏng xảy ra ở nhiều nguyên nhân khác nhau: Đối tượng mà trang web trỏ đến bị xóa mất, máy chủ lưu trữ trang đích ngừng hoạt động, bị gỡ bỏ khỏi dịch vụ cung cấp lưu trữ hoặc bị chuyển sang một tên miền mới.[13] Từ năm 1999, các chuyên gia đã lưu ý về vấn đề lưu trữ lượng lớn tài liệu trên ổ cứng rằng, "một lỗi ổ đĩa có thể giống như đi đốt thư viện ở Alexandria."[14] Ngoài ra, hoạt động đăng ký tên miền có thể sẽ hết hạn hoặc được sang nhượng cho bên khác, cũng là nguyên nhân gây ra hiện tượng liên kết hỏng.[13]
Một số lý do:
Thay đổi cấu trúc và hệ thống trang web gây biến đổi URL lưu trữ (ví dụ tenmien.net/cay_noel có thể sẽ bị đổi thành tenmien.net/cay/noel).
Di dời nội dung trước kia cho xem miễn phí sang nội dung chặn paywall yêu cầu đăng ký.[12]
Thay đổi kiến trúc máy chủ dẫn đến mã như PHP hoạt động khác so với ban đầu.
Nội dung trang động chẳng hạn như kết quả tìm kiếm thay đổi theo thiết kế.
Xóa trang đích và/hoặc nội dung của nó.
Người dùng nhập liệu thông tin trong link (như tên đăng nhập).
Hậu quả của hiện tượng liên kết hỏng đó chính là không tìm được tập tin đích và trả về mã lỗi như HTTP 404 (404 Không thể tìm thấy).[13] Hoặc là, khiến cho liên kết bị "trôi dạt" và chuyển sang cung cấp nội dung khác so với dự định ban đầu của tác giả liên kết gốc.[10] Do đó, liên kết hỏng có khả năng gây mất dữ liệu cũng như nguồn tham chiếu, làm ảnh hưởng đến chất lượng nghiên cứu hệ thống luật pháp và tính toàn vẹn trong học thuật.[15][16]
Phương pháp cơ bản để tránh hiện tượng hỏng liên kết đó chính là tạo các URL cố định không thay đổi theo thời gian. Tim Berners-Lee và những người tiên phong phát triển web khác đã nhấn mạnh tầm quan trọng của việc lên kế hoạch ngăn chặn URL hỏng.[17]
Một số chiến lược xử lý các liên kết được đề xuất như: sử dụng cơ chế chuyển hướng chẳng hạn như HTTP 301 để tự động đưa trình duyệt và trình thu thập thông tin tới nội dung được di chuyển sang nơi khác; sử dụng hệ thống quản lý nội dung trang web có thể tự động cập nhật liên kết khi nội dung trong cùng một trang web được di chuyển hoặc tự động thay thế liên kết bằng URL chuẩn[25] và tích hợp tìm kiếm các tài nguyên vào trang HTTP 404.[26]
Người ta có thể phát hiện các liên kết bị hỏng bằng thủ công hoặc tự động. Các phương pháp tự động có thể kể đến gồm có plug-in dành cho hệ thống quản lý nội dung cũng như các trình kiểm tra liên kết bị hỏng độc lập như Xenu's Link Sleuth. Tuy nhiên, trình kiểm tra tự động có thể không nhận diện ra được các liên kết trả về mã lỗi 404 mềm hoặc các liên kết tuy trả về phản hồi 200 OK nhưng lại trỏ đến nội dung đã bị thay đổi.[27]
Markwell, John; Brooks, David W. (2002). “Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks”. Journal of Science Education and Technology. 11 (2): 105–108. doi:10.1023/A:1014627511641. S2CID60802264.
Gomes, Daniel; Silva, Mário J. (2006). “Modelling Information Persistence on the Web”(PDF). Proceedings of the 6th International Conference on Web Engineering. ICWE'06. Bản gốc(PDF) lưu trữ ngày 16 tháng 7 năm 2011. Truy cập ngày 14 tháng 9 năm 2010.
^Fetterly, Dennis; Manasse, Mark; Najork, Marc; Wiener, Janet (2003). “A large-scale study of the evolution of web pages”. Proceedings of the 12th international conference on World Wide Web. Lưu trữ bản gốc ngày 9 tháng 7 năm 2011. Truy cập ngày 14 tháng 9 năm 2010.
^ abMcCown, Frank; Chan, Sheffan; Nelson, Michael L.; Bollen, Johan (2005). “The Availability and Persistence of Web References in D-Lib Magazine”(PDF). Proceedings of the 5th International Web Archiving Workshop and Digital Preservation (IWAW'05). Bản gốc(PDF) lưu trữ ngày 17 tháng 7 năm 2012. Truy cập ngày 12 tháng 10 năm 2005.
^Bar-Yossef, Ziv; Broder, Andrei Z.; Kumar, Ravi; Tomkins, Andrew (2004). “Sic transit gloria telae: towards an understanding of the Web's decay”. Proceedings of the 13th international conference on World Wide Web – WWW '04. tr. 328–337. CiteSeerX10.1.1.1.9406. doi:10.1145/988672.988716. ISBN978-1581138443.