Heritrix

Heritrix
	HeritrixのAdmin Console.
作者	インターネット・アーカイブ他
最新版	3.4.0-20240909 / 9 9月 2024
リポジトリ	github.com/internetarchive/heritrix3;
プログラミング; 言語	Java
対応OS	Linux/Unix-like/Windows (unsupported)
種別	クローラ
ライセンス	Apache License
公式サイト	webarchive.jira.com/wiki/display/Heritrix/Heritrix
	テンプレートを表示

Heritrix はインターネット・アーカイブが開発したウェブアーカイブのためのWebクローラーの一種。Java言語で実装され、フリーソフトウェアライセンスにより自由に利用できる。主にウェブブラウザを使って操作するが、コマンドラインツールを使ってクロールを開始するなどの操作も可能である。名前は「(女性の)相続人」を意味するheiressの古語に由来する^[2]。

Heritrixの開発は、2003年にまとめられた仕様に基づいて、インターネット・アーカイブとNordic National Librariesの共同で行われた。最初のリリースは2004年1月で、その後インターネット・アーカイブの従業員や外部のウェブアーカイブに関心を持つ人々によって継続的に改良が続けられている。

もっともHeritrixがインターネット・アーカイブ自身のウェブ収集に使われるようになったのはかなり後のことである。かつてはアーカイブの大半はアレクサ・インターネット社から提供されていた。アレクサ社は自身の業務に供するため独自のia_archiverと呼ばれるクローラーを使ってウェブ収集を行っており、収集したデータをインターネット・アーカイブに寄贈している。当初インターネット・アーカイブ自身もHeritrixを使って収集を行ってはいたが、小規模なものに留まっていた。

2008年からインターネット・アーカイブは自身の全ウェブ規模のクローリングの性能を向上させ、現在では自身で収集したものが大半を占めるようになっている^[3]。

Heritrixの利用事例

様々な組織、各国国立図書館などがHeritrixを利用している。例えば:

Austrian National Library, Web Archiving
Bibliotheca Alexandrina's Internet Archive
Bibliothèque nationale de France
British Library
California Digital Library's Web Archiving Service
CiteSeerX
Documenting Internet2
Internet memory
Library and Archives Canada
Library of Congress [1]
National and University Library of Iceland
National Library of Finland
National Library of New Zealand
National Library of the Netherlands (Koninklijke Bibliotheek)^[4]
Netarkivet.dk
Smithsonian Institution Archives
National Library of Israel
国立国会図書館インターネット資料収集保存事業 (WARP)

Arcファイル

初期のHeritrixは(特に変更しなければ)収集したウェブ資料をArcファイルに保存していた。ここでいうArcファイルは汎用のアーカイブファイルフォーマットであるARCファイルとは無関係で、ウェブアーカイブのためにインターネット・アーカイブが1996年に設計したファイル形式のことである。その後、仕様がより精密で拡張性に優れるWARCファイルに保存するように変更され、現在に至る。Heritrixの設定を変更すればWgetのようにURLをディレクトリとファイル名に対応付けて保存することもできる。多数の小さいファイルを扱う煩雑さを避けるため、Arcファイルは複数のウェブ資料を単一のファイルにまとめて保存する。HTTPヘッダとレスポンス本体の前に資料の取得方法に関するメタデータをつけたものを一つのURLレコードとし、これを複数結合した形式である。Arcファイルの先頭には通称filedescと呼ばれる、Arcファイル全体に関するメタデータを記録した特別なレコードを配置する。これには以降に続くURLレコードのメタデータヘッダ行の形式の記述が含まれる^[5]。Arcファイルの大きさは通例100から600 MB程度である。

例:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>