Fehlerhafte OCR-Erkennung

Hallo,

ich habe einige PDF Dateien die aus Text und Grafiken bestehen (d.h. sie sind NICHT eingescannt worden). Den Text kann man lesen aber wenn man ihn kopieren will besteht er nur noch aus nicht darstellbaren Zeichen. Er ist damit auch nicht zu durchsuchen.
Bei dem alten OCR System IRIS konnte man einfach den Text neu erkennen lassen. Damit konnte man dann in der PDF-Datei wieder Wörter suchen.

Mit dem neuen System ABBY geht das nicht mehr! Alles was keine Grafik ist wird in der von ABBY mit OCR behandelten Datei schwarz dargestellt. D.h. im extremfall, wenn eine PDF-Datei nur Text enthält sind alle Seiten danach schwarz.
PDF-Dokumente die nur eingescannte Seiten enthalten werden komplett und richtig verarbeitet.

Ich hoffe das dieses Verhalten von “ABBY” ein Fehler ist! Ansonsten hätte ich gerne IRIS zurück.

Ausserdem sind die durch ABBY erzeugten Dateien extrem groß. Z.B.: Ein Patent mit 8 eingescannten Seiten hat eine Größe von ca. 122KB. Nach der OCR ist das Dokument 3,3MB groß.

Stefan