OCRopus

Aus Tuxfutter

Wechseln zu: Navigation, Suche
OCRopus
Logo
Hersteller / Programmierer Thomas Breuel, DFKI



Grundinformationen
Lizenz: Apache-Lizenz 2.0
Unterstützte Plattformen:
Webpräsenz / Download: ocropus.org
Aktuelle Version: 0.4
Alternativen
Freie Software CuneiForm
Proprietäre Software FineReader, OmniPage

OCRopus ist ein sehr modular aufgebautes freies Texterkennungsprogramm, das auf Tesseract aufbaut.

Es wurde von Google für die Retrodigitalisierung gedruckter Bücher zur Indexierung für deren Online-Suche in gedruckten Büchern, das sogenannte Google Book Search gestartet und seither mit Hilfe vom DFKI Kaiserslautern aktiv weiterentwickelt. Bislang sind nur Test-Versionen (alpha) erschienen, die nur über Kommandozeile steuerbar sind. Im Herbst 2008 soll es eine grafische Benutzeroberfläche erhalten.

Es ist das wohl vielversprechendste freie (Linux-)Programm für diesen Anwendungsfall. Die Erkennungsergebnisse sind schon besser als die des nackten Tesseract oder auch die von GOCR oder Ocrad.

[Bearbeiten] Externe Verweise

Bild:WikipediaW.png Weitergehende enzyklopädische Informationen bietet der Wikipedia-Artikel zu OCRopus
'Persönliche Werkzeuge