OCRopus

OCRopus
software
Schermata di esempio
Schermata di esempio
GenereRiconoscimento ottico dei caratteri
SviluppatoreThomas Breuel, DFKI
Ultima versione1.3.3 (16 dicembre 2017)
Sistema operativoLinux
macOS
LinguaggioC++
Python
LicenzaApache License v2.0
(licenza libera)
Sito webgithub.com/tmbdev/ocropy e github.com/ocropus/ocropy

OCRopus è un software libero di riconoscimento ottico dei caratteri distribuito con la licenza Apache, versione 2.0 con un design modulare attraverso l'uso di plugin.

OCRopus è attualmente sviluppato sotto la guida di Thomas Breuel dal Centro di Ricerca Tedesco per l'Intelligenza Artificiale a Kaiserslautern, il suo sviluppo è sponsorizzato da Google.

OCRopus è sviluppato per Linux tuttavia degli utenti hanno riportato che è possibile utilizzarlo anche su macOS e un'applicazione chiamata TakOCR è stata sviluppata per installare OCRopus su macOS.

Funzionamento

[modifica | modifica wikitesto]

OCRopus è un sistema OCR che combina la document layout analysis, il riconoscimento ottico dei caratteri e la modellizzazione del linguaggio, funzionalità inseribili nel software attraverso dei plugin. Esso è rivolto principalmente alla conversione di grandi volumi di immagini, principalmente per Google Book Search, ma anche per l'ufficio domestico o in ufficio o per persone non vedenti o ipovedenti.

OCRP usava il software Tesseract come unico plugin di riconoscimento dei caratteri ma ha un proprio motore a partire dalla release 0.4[1]. OCRopus contiene anche del codice disabilitato un motore per il riconoscimento della scrittura (a mano).

Il plugin di analisi del layout di OCRopus preprocessi l'immagine e analizza il layout suddividendo il documento scannerizzato e passando le sezioni al plugin di riconoscimento dei caratteri per il riconoscimento (che può avvenire linea per linea o carattere per carattere).

All'ultima versione, OCRopus usa il codice di modellizzazione del linguaggio da un altro progetto sponsorizzato da Google OpenFST[2], tale funzionalità è opzionale nelle versioni precedenti la 0.4.

Attualmente OCRopus può essere usato solo da riga di comando. una volta installato può essere invocato specificando le pagine di input e produce codice basato sull'HTML come output sullo standard output. Delle opzioni possono essere specificate per modificare il funzionamento del programma (come il riconoscimenti di linee singole).

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
  • (EN) OCRopus (project page on Google Code)
  • (EN) OCRopus Wiki, su sites.google.com. URL consultato il 3 maggio 2019 (archiviato dall'url originale il 14 novembre 2012).
  • (EN) IUPR Publication Server (papers behind many of the algorithms used in OCRopus)
  • (EN) OCRopus course (outline of OCRopus code and how to contribute)
  Portale Informatica: accedi alle voci di Wikipedia che trattano di Informatica