OCR nach Update auf DT 3.5 extrem langsam

Hallo,

leider ist die Texterkennung nach dem Update auf 3.5 extrem langsam - es dauert ca 10x so lange wie vorher bis ein Dokument erkannt wurde. Besonders lange dauert es, das Dokument zu laden: in der Statuszeile steht ewig lang “Lade Dokument”
Ich dachte eigentlich, das Programm sei abgestürzt, aber nach ca. 30 Minuten war ein kleiner Teil (von 400 Seiten) dann doch erkannt worden - es lief also, aber fast unbrauchbar langsam.
Ich vermute, dass es mit dem Finereader-Update zusammenhängt, das mit 3.5 vorgenommen wurde. Kann man das wieder rückgängig machen? Oder muss ich etwas an den Einstellungen ändern, damit die Geschwindigkeit wieder akzeptabel wird?

Beste Grüße

Wilkommen @subzero

Nein, Sie können die OCR-Engine nicht herabstufen. Woher bekommen Sie eine 400-seitige Datei, die OCR benötigt?

(Übersetzt mit https://deepl.com)

Hauptsächlich eingescannte Briefe und sonstige Schreiben, die ansonsten nur analog vorliegen.

Was muss ich denn tun, damit die Geschwindigkeit wieder normal ist? So langsam wie es jetzt ist, dauert so ein OCR-Durchlauf mehrere Stunden – vorher ca. 30 Minuten. Das ist sehr enttäuschend und macht meinen Workflow kaputt.

Die Entwicklung müsste dies bewerten.
@aedwards ?

Ja, aber sollte das nicht geschehen, bevor das Produkt veröffentlich wird…?

Jedenfalls habe ich noch etwas anderes festgestellt:

Der OCR-Prozess hat mittendrin abgebrochen. Fehlermeldung im Protokoll: Nicht genügend Festplattenspeicher. Das ist aber nicht der Fall. Ich habe zwar momentan nur 20 GB Restspeicher, aber inwiefern sollte das den OCR-Prozess für eine 800 MByte große Datei beeinflussen?

Das ganze Problem ist reproduzierbar. Seit dem Update funktioniert es weder richtig auf meinem Macbook noch auf meinem iMac. Auf beiden Computer ist das OCR unbrauchbar langsam geworden.

Eine 800MB-Datei ist ungewöhnlich groß!
Haben Sie diese Datei selbst erstellt?
Wenn ja, warum haben Sie eine so große Datei erstellt?

400 Seiten (Graustufen) bei 300 dpi = 800 MB

Solche OCR-Konvertierungen waren vor dem Update auf 3.5 überhaupt kein Problem und waren auch schnell erledigt.

1 Like

Ich beobachte bei mir dasselbe Problem auch mit weit kleineren Dateien: Das Laden der Datei dauert deutlich länger als zuvor.

Wieviel RAM hat denn der Rechner? Eventuell wird das Problem durch virtuellen Speicher verursacht, die neue Abbyy-Engine ist deutlich umfangreicher.

Der iMac hat 20GB RAM, das sollte eigentlich reichen. Das Macbook mit 4GB zwar deutlich weniger, aber dennoch ist das Laden der Datei dort in etwa gleich langsam. Die eigentliche Erkennung geht auf dem iMac natürlich schneller, hat ja auch den schnelleren Prozessor etc.

Überhaupt ist die Erkennung selbst nicht viel langsamer geworden. Das Problem liegt beim Laden der Datei. Es wird ewig lang angezeigt, dass die Datei geladen wird bis mal etwas passiert. Je größer die Datei, desto länger dauert es. Auch bei einem 10 Seiten Pdf (300 dpi, Graustufen, Größe 20 MB), dauert das Laden deutlich länger als zuvor; bei lediglich 2 oder 3 Dokumenten ist das lästig, aber nicht schlimm; hat man aber 500 Dokumente dann dauert der Prozess nicht mehr nur um die 12 Stunden, sondern nun – zumindest hochgerechnet – mehrere Tage.

Könnten Sie ein Beispieldokument an cgrunenberg - at - devon-technologies.com schicken plus ein Bildschirmfoto von Einstellungen > OCR? Danke!

Vielen Dank für das Angebot! Ich habe Ihnen eine Beispieldatei nebst OCR-Einstellungen geschickt.

Durch eine kleine Testreihe konnte ich feststellen, dass die Dauer für die eigentliche OCR-Erkennung der Datei und deren Ladezeit korrelieren: Die Erkennungsdauer beträgt ca. 1,1 bis 1,4 mal so lange, wie die Ladezeit.

Konkret:
Eine 245 Mb große Datei mit 100 DIN A4 Textseiten, gescannt in Graustufen und mit 300dpi und benötigt hier auf einem 2011er iMac (i5, 20 GB RAM, SSD) ca. 756 Sekunden, um konvertiert zu werden, davon 303 Sekunden Ladezeit und 453 Sekunden OCR-Erkennungszeit (Endgröße: 49 Mb). Eine ähnliche Datei mit lediglich 10 Seiten kommt ziemlich genau auf ein Zehntel dieser Werte. Andere OCR-Einstellungen führen möglicherweise zu anderen Werten.

Die Deaktivierung der automatischen Korrektur von Verzerrungen sollte die Geschwindigkeit deutlich erhöhen.

Gute Nachrichten!

Mit dem Update auf Version 3.5.1 und dem gleichzeitigen Finereader Update ist die altbekannte Geschwindigkeit wieder da!

Insbesondere die Ladezeit hat extrem abgenommen und liegt bei unter einer Sekunde (auch bei 250 Mb großen Textscans).

Konkret:
Eine 245 Mb große Datei mit 100 DIN A4 Textseiten, gescannt in Graustufen und mit 300dpi und benötigt hier auf einem 2011er iMac (i5, 20 GB RAM, SSD) nun nur noch ca. 400 Sekunden, um konvertiert zu werden, davon nur noch ca. 1 Sekunde Ladezeit und 399 Sekunden OCR-Erkennungszeit (Endgröße: 42,5 Mb, dpi-Zahl bleibt unverändert). Eine ähnliche Datei mit lediglich 10 Seiten kommt auch hier ziemlich genau auf ein Zehntel dieser Werte. Andere OCR-Einstellungen führen möglicherweise zu anderen Werten.

Noch schneller geht es, wenn man die dpi-Zahl der konvertierten Dokumente auf 150 reduziert. Dann benötigt die oben genannte 245 Mb-Datei 1 Sekunde Ladezeit, 233 Erkennungszeit und hat eine Endgröße von nur noch 17,4 Mb. Die Qualität ist dann zwar noch gerade so akzeptabel aber natürlich deutlich schlechter als bei 300 dpi.

Super und vielen Dank! Bin wieder zufrieden!

1 Like