Phần mở rộng tên file | .djvu, .djv |
---|---|
Kiểu phương tiện | image/vnd.djvu |
Phát triển bởi | AT&T Research |
Kiểu định dạng | Định dạng file ảnh |
DjVu (phát âm như déjà vu trong tiếng Pháp[1]) là một định dạng file trên máy tính, được tạo ra chủ yếu để lưu trữ các ảnh được quét, đặc biệt là ảnh có chứa văn bản và các đường vẽ thẳng. Nó sử dụng các kĩ thuật như phân chia văn bản và ảnh nền trong các lớp ảnh, mã hoá số học (một phương thức nén không mất dữ liệu), nén mất dữ liệu với ảnh đen trắng. Nó cho phép lưu trữ các ảnh chất lượng cao, có thể đọc được mà chỉ chiếm dung lượng tối thiểu, do đó có thể sử dụng trên web.
DjVu hướng tới trở thành một định dạng để thay thế cho PDF, thực tế là hiệu quả hơn PDF trong hầu hết các tài liệu được quét.[2] Các nhà phát triển của DjVu đưa ra số liệu khi nén với chuẩn này một trang tạp chí màu mất 40–70KB, tài liệu kĩ thuật đen trắng khoảng 15–40KB, và các chữ viết tay cổ khoảng 100KB. Tất cả đều nhỏ hơn khá nhiều kích thước một ảnh JPEG xem được (thường khoảng 500KB).[3] Giống như PDF, DjVu có thể chứa một lớp văn bản đã được nhận dạng (OCR), giúp cho người dùng có thể sao chép và thực hiện các thao tác khác với văn bản một cách dễ dàng.
Công nghệ DjVu đầu tiên được Yann Le Cun, Léon Bottou, Patrick Haffner, và Paul G. Howard bắt đầu phát triển tại Phòng thí nghiệm AT&T năm 1996. DjVu là một định dạng file mở (các đặc tả đầy đủ về định dạng file, cũng như các mã nguồn của thư viện tham khảo được công bố rộng rãi). Quyền sở hữu về việc phát triển thương mại của DjVu được chuyển qua lại giữa AT&T và LizardTech. Các tác giả ban đầu đưa ra giấy phép phát triển GPL mang tên "DjVuLibre Lưu trữ 2006-03-15 tại Wayback Machine".[4][5]
DjVu phân một ảnh ra thành nhiều ảnh khác nhau, sau đó nén riêng rẽ từng ảnh được phân chia. Để tạo một tập tin DjVu, ảnh ban đầu được phân ra thành 3 ảnh: ảnh nền, ảnh bề mặt và ảnh mặt nạ. Ảnh nền và ảnh bề mặt thường là ảnh màu có độ phân giải thấp (ví dụ 100dpi); ảnh mặt nạ là ảnh đen trắng có độ phân giải cao (ví dụ 300dpi) và thường là nơi chứa dữ liệu văn bản. Ảnh nền và ảnh bề mặt được nén bằng thuật toán nén theo kiểu wavelet có tên IW44. Ảnh mặt nạ được nén theo một phương thức có tên JB2 (tương tự như JBIG2).