OCRopus
Aus Tuxfutter
| OCRopus | |
|---|---|
| Logo | |
| Hersteller / Programmierer | Thomas Breuel, DFKI |
| | |
| Grundinformationen | |
| Lizenz: | Apache-Lizenz 2.0 |
| Unterstützte Plattformen: | |
| Webpräsenz / Download: | ocropus.org |
| Aktuelle Version: | 0.4 |
| Alternativen | |
| Freie Software | CuneiForm |
| Proprietäre Software | FineReader, OmniPage |
OCRopus ist ein sehr modular aufgebautes freies Texterkennungsprogramm, das auf Tesseract aufbaut.
Es wurde von Google für die Retrodigitalisierung gedruckter Bücher zur Indexierung für deren Online-Suche in gedruckten Büchern, das sogenannte Google Book Search gestartet und seither mit Hilfe vom DFKI Kaiserslautern aktiv weiterentwickelt. Bislang sind nur Test-Versionen (alpha) erschienen, die nur über Kommandozeile steuerbar sind. Im Herbst 2008 soll es eine grafische Benutzeroberfläche erhalten.
Es ist das wohl vielversprechendste freie (Linux-)Programm für diesen Anwendungsfall. Die Erkennungsergebnisse sind schon besser als die des nackten Tesseract oder auch die von GOCR oder Ocrad.
[Bearbeiten] Externe Verweise
- ocropus.org - Projektseite bei Google Code
- sites.google.com/site/ocropus - Wiki

