Texterkennung
Aus Tuxfutter
Texterkennung (engl. optical character recognition, OCR) ist die Umwandlung von Texten aus Rastergrafiken (z.B. von einem Scanner, Fax-Gerät oder Digitalkamera) in editierbare Textformate. Dies ist eigentlich ein recht gut gelöstes Problem, jedoch in der Linux- wie auch der Freie-Software-Welt noch vergleichsweise schwierig. Bekannte proprietäre Windows-Programme wie FineReader oder OmniPage lösen dieses Problem komfortabel und schnell. Die noch junge GNOME-Software OCRFeeder bietet vergleichbares, wenngleich noch nicht so ausgereift.
Außerdem gibt es das für massenhaftes Retrodigitalisieren von gedruckten Büchern für Google Book Search entwickelte OCRopus sowie das ehemals kommerzielle OCR-Paket CuneiForm von Cognitive Technologies, das derzeit Schritt für Schritt als Freie Software verfügbar gemacht wird.
Inhaltsverzeichnis |
[Bearbeiten] Software
[Bearbeiten] freie Software
- OCRFeeder – vollständig(st)e Desktop-Texterkennungs-Suite für Linux
- easy-ocr
- CuneiForm – Komplettsystem mit Layout-Analyse, bislang unter Linux nur als Kommandozeilenprogramm
- OCRopus – Komplettsystem mit Layout-Analyse, bislang nur Kommandozeilenprogramm
- GOCR – reine Texterkennung, Kommandozeilenprogramm
- Ocrad – reine Texterkennung, Kommandozeilenprogramm
- Tesseract – reine Texterkennung, Kommandozeilenprogramm
- Zinnia – für Handschrifterkennung
- HOCR – für hebräische Schrift
- Audiveris – für Notenschrift

