Texterkennung

Aus Tuxfutter

Wechseln zu: Navigation, Suche

Texterkennung (engl. optical character recognition, OCR) ist die Umwandlung von Texten aus Rastergrafiken (z.B. von einem Scanner, Fax-Gerät oder Digitalkamera) in editierbare Textformate. Dies ist eigentlich ein recht gut gelöstes Problem, jedoch in der Linux- wie auch der Freie-Software-Welt noch vergleichsweise schwierig. Bekannte proprietäre Windows-Programme wie FineReader oder OmniPage lösen dieses Problem komfortabel und schnell. Die noch junge GNOME-Software OCRFeeder bietet vergleichbares, wenngleich noch nicht so ausgereift.

Außerdem gibt es das für massenhaftes Retrodigitalisieren von gedruckten Büchern für Google Book Search entwickelte OCRopus sowie das ehemals kommerzielle OCR-Paket CuneiForm von Cognitive Technologies, das derzeit Schritt für Schritt als Freie Software verfügbar gemacht wird.

Inhaltsverzeichnis

[Bearbeiten] Software

[Bearbeiten] freie Software

  • OCRFeeder – vollständig(st)e Desktop-Texterkennungs-Suite für Linux
  • easy-ocr
  • CuneiForm – Komplettsystem mit Layout-Analyse, bislang unter Linux nur als Kommandozeilenprogramm
  • OCRopus – Komplettsystem mit Layout-Analyse, bislang nur Kommandozeilenprogramm
  • GOCR – reine Texterkennung, Kommandozeilenprogramm
  • Ocrad – reine Texterkennung, Kommandozeilenprogramm
  • Tesseract – reine Texterkennung, Kommandozeilenprogramm
  • Zinnia – für Handschrifterkennung
  • HOCR‎ – für hebräische Schrift
  • Audiveris‎ – für Notenschrift

[Bearbeiten] Siehe auch

[Bearbeiten] Externe Verweise

'Persönliche Werkzeuge