Apache Tika

Apache Tika; software
	Logo
Genere	Motore di ricerca e indicizzazione Libreria (non in lista)
Sviluppatore	Apache Software Foundation
Data prima versione	22 marzo 2007
Ultima versione	3.1.0 (31 gennaio 2025)
Sistema operativo	Multipiattaforma
Linguaggio	Java
Licenza	Apache License 2.0; (licenza libera)
Sito web	tika.apache.org
	Modifica dati su Wikidata · Manuale

Apache Tika è un software per l'estrazione di dati e analisi dei contenuti, scritto in Java, gestito dalla Apache Software Foundation.^[1] È in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file. È disponibile come libreria Java, in versione server e command line, pronto per essere richiamato da altri linguaggi di programmazione.

Storia

In origine apparteneva al progetto Apache Nutch, per l'identificazione di contenuti e l'estrazione di dati da internet per i web crawler. Successivamente divenne un sottoprogetto di Lucene.

Nel 2007 divenne un progetto autonomo, per diventare una libreria richiamabile da qualunque sistema di gestione dei contenuti (Content Management System) e motore di ricerca. La versione autonoma è frutto del lavoro di Jérôme Charron, Chris Mattmann e Jukka Zitting.^[2] Nel 2011 Chris Mattmann e Jukka Zitting hanno pubblicato il libro "Tika in Action", e il progetto ha rilasciato la versione 1.0.

Caratteristiche

Tika ha la capacità di analizzare oltre 1400 tipi di file tra quelli elencati dalla Internet Assigned Numbers Authority nei tipi MIME. Per la maggior parte dei formati comuni e diffusi,^[3] Tika fornisce l'estrazione del contenuto, dei metadati e l'identificazione della lingua.

Tika è scritto in Java, ma è usato da moltissimi altri linguaggi^[4]. In particolare il server REST e la versione CLI consentono agli altri linguaggi di agganciarsi e sfruttare le potenzialità della libreria.

Casi di utilizzo notevoli

Tika viene utilizzato nel mondo finanziario da istituti quali: Fair Isaac Corporation (FICO),^[5] Goldman Sachs,^[6] NASA e ricercatori universitari^[7]

Il 4 aprile 2016 Forbes pubblicò un articolo^[8] in cui si cita Tika come una delle chiavi tecnologiche che consentirono a oltre 400 giornalisti di analizzare gli 11 milioni e passa documenti sfuggiti al controllo ufficiale (leak), noti come i Panama Papers, e ricostruire le vicende scandalose di movimento di denaro ed evasione di personalità di alto profilo che utilizzavano i fondi offshore.

Note

^ Apache Tika, su tika.apache.org. URL consultato il 15 aprile 2016.
^ Tika Proposal, su wiki.apache.org. URL consultato il 15 aprile 2016.
^ The Apache Software Foundation, su Apache Tika formats page. URL consultato il 16 aprile 2016.
^ API Bindings for Tika, su wiki.apache.org, Apache Tika. URL consultato il 17 aprile 2016.
^ FICO to Engage Kaggle's Community of 180,000 Data Scientists to Drive Innovation in the FICO Analytic Cloud FICO, su FICO Decisions. URL consultato il 15 aprile 2016 (archiviato dall'url originale il 3 giugno 2016).
^ (EN) Goldman Sachs Puts Elasticsearch To Work - InformationWeek, in InformationWeek. URL consultato il 21 giugno 2017.
^ Studying polar data with the help of Apache Tika, su Opensource.com. URL consultato il 15 aprile 2016.
^ Thomas Fox-Brewster, From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers, su Forbes. URL consultato il 15 aprile 2016.

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su Apache Tika

Collegamenti esterni

Sito ufficiale, su tika.apache.org.
Repository sorgenti di Apache Tika, su gitbox.apache.org.
Sito di segnalazione bug, su issues.apache.org.
(EN) Apache Tika, su Free Software Directory.

[1] Apache Tika, su tika.apache.org. URL consultato il 15 aprile 2016.

[2] Tika Proposal, su wiki.apache.org. URL consultato il 15 aprile 2016.

[3] The Apache Software Foundation, su Apache Tika formats page. URL consultato il 16 aprile 2016.

[4] API Bindings for Tika, su wiki.apache.org, Apache Tika. URL consultato il 17 aprile 2016.

[5] FICO to Engage Kaggle's Community of 180,000 Data Scientists to Drive Innovation in the FICO Analytic Cloud FICO, su FICO Decisions. URL consultato il 15 aprile 2016 (archiviato dall'url originale il 3 giugno 2016).

[6] (EN) Goldman Sachs Puts Elasticsearch To Work - InformationWeek, in InformationWeek. URL consultato il 21 giugno 2017.

[7] Studying polar data with the help of Apache Tika, su Opensource.com. URL consultato il 15 aprile 2016.

[8] Thomas Fox-Brewster, From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers, su Forbes. URL consultato il 15 aprile 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

V · D · M Apache Software Foundation
Progetti principali	Accumulo · ActiveMQ · Ambari · Ant · Aries · Apache HTTP Server · APR · Avro · Axis · Axis2 · Beam · Bloodhound · Brooklyn · Buildr · Calcite · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Cordova · CouchDB · cTAKES · CXF · Derby · Directory · Drill · Empire-db · Felix · Flex · Flink · Flume · Geronimo · Gora · Gump · Hadoop · HBase · Hive · Jackrabbit · James · Jini · JMeter · Kafka · Kudu · Kylin · Lucene · Mahout · Maven · MINA · mod_perl · MyFaces · NetBeans · Nutch · OFBiz · Oozie · OpenEJB · OpenJPA · OpenNLP · OpenOffice · PDFBox · Parquet · Phoenix · POI · Pig · Pivot · Qpid · Roller · Samza · ServiceMix · Shiro · Sling · Solr · Spark · Stanbol · Storm · SpamAssassin · Struts 1 · Struts 2 · Subversion · SystemML · Tapestry · Thrift · Tika · Tomcat · Traffic Server · UIMA · Velocity · Wicket · Xalan · Xerces · ZooKeeper
Apache Commons	BCEL · BSF · Daemon · Jelly · Logging
Apache Incubator	NuttX · SINGA · Trafodion · XAP
Altri progetti	Batik · Chainsaw · FOP · Ivy · Log4j
Apache Attic	Abdera · Apex · AxKit · Beehive · Bluesky · iBATIS · Cactus · Click · Continuum · Deltacloud · Excalibur · Forrest · Hama · Harmony · HiveMind · Jakarta · Lenya · Marmotta · ODE · Shale · Shindig · Slide · Sqoop · stdcxx · Tuscany · Wave · Wink · XMLBeans
Licenze	Licenza Apache
Categoria