Nutch
| |
---|---|
Basisdaten
| |
Entwickler | Apache Software Foundation |
Aktuelle Version | 1.19[1] (22. August 2022) |
Betriebssystem | Plattformunabhängig |
Programmiersprache | Java[2] |
Kategorie | Crawler, Parser und Suchmaschine. |
Lizenz | Apache-Lizenz |
deutschsprachig | nein |
nutch.apache.org |
Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung).
Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate.
Das deutsche Bundesamt für Verbraucherschutz und Lebensmittelsicherheit betrieb die auf Nutch basierende „Verbraucher-Suchmaschine“ Clewwa. Auch die Suchmaschine Wikia Search setzte auf der Technologie von Nutch auf.
Nutch wird zurzeit in 2 Versionen gepflegt[3]