Nutch

Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene.

Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto.

Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione.

Nel giugno del 2005 Nutch è passato dallo stato di Apache Incubator a sottoprogetto di Lucene.

È implementato completamente in Java, ma i dati sono conservati in un formato neutro. Nel giugno 2003 fu eseguito con successo un test per indicizzare 100 milioni di pagine. Per soddisfare la necessità di una elaborazione distribuita, per il progetto Nutch è stato anche realizzato una funzionalità di MapReduce ed un file system distribuito. Queste due componenti sono poi confluite in un progetto proprio chiamato Apache Hadoop.

Progetti correlati

Motori di ricerca costruiti con Nutch

mozDex
Krugle
BusyTonight
Wikiasari
MetaMojo.com
Greener, a search engine for green resources, su greener.com.

Altri progetti

Wikimedia Commons contiene immagini o altri file su Nutch

Collegamenti esterni

Official page of the Nutch project, su lucene.apache.org.
Building Nutch: Open Source Search Archiviato il 25 ottobre 2006 in Internet Archive. (2004) - ACM Queue vol. 2, no. 2
An article about Nutch (2003) - Search Engine Watch
Another article about Nutch Archiviato il 6 luglio 2008 in Internet Archive. (2003) - Tech News World
unofficial Documentation, su wiki.media-style.com.
Official page of the Hadoop project, su lucene.apache.org. URL consultato il 10 febbraio 2007 (archiviato dall'url originale il 10 febbraio 2007).

Portale Internet

Portale Software libero

Portale Telematica