OCR dauert bei manchen PDFs verdammt lange - woran liegts?

Hallo zusammen,

als langjähriger DTPO-Nutzer ist mit heute aufgefallen, dass OCR aktuell bei manchen PDF-Dokumenten extrem langsam läuft.
Langsam bedeutet, mehrere Minuten für zwei Seiten PDF (Scan aus Fachbuch). Auch abbrechen kann man dies nicht so einfach, das Aktivitätenfenster hängt bei “Breche ab…”

Gibts da Erkenntnisse, woran dies liegen kann?

Grüße
Andreas

Welche Auflösung & Qualität ist in Einstellungen > OCR eingestellt? Ist die Anzahl der Seiten jeweils identisch?

  • Auflösung ist eingestellt: 150ppi oder Selbe wie Scan
  • Qualität ist auf 75% eingestellt
  • Die Anzahl der Seiten ist unterschiedlich, aber durchgehend recht gering, daran sollte es nicht liegen

Es sieht ganz so aus als stammen diese “Problem-PDFs” alle nicht von meinem ScanSnap sondern noch von einem Scanner in der Uni. Die Dateigröße liegt zwar bei 2-5MB, die Größe allerdings bei 87cm x 132cm - hier liegt wohl das Problem. Wer das auch immer gescannt hat…
Auf A4 verkleinert abgespeichert gibts keine Probleme wie es aussieht.

Seien Sie vorsichtig bei der Verwendung von “Same as Scan”, da Scans manchmal mit zu hoher Auflösung durchgeführt werden. Ich schlage vor, dass Sie diese Einstellung nur verwenden, wenn Sie den Scan selbst durchgeführt haben (und wir empfehlen 200dpi, maximal 300).

Hier jetzt seit gestriger Neuinstallation von macOS das Gleiche… zuvor manuelle Umwandlung in durchsuchbares PDF in ruckzuck — nun dauert es ewig/mehrere Minuten lang.

Eingestellungen wie vorher auch.

Wer hätte bitte Ideen für eine Lösung?

Welche Version von DEVONthink verwenden Sie aktuell und welche vorher?

Die aktuelle Version und auch zuvor die aktuelle Version.

Aber ich habe die Ursache vermutlich gefunden: ich war mit der Auflösung womöglich zu euphorisch :smiley:

Eingestellt auf 300 dpi war wohl etwas zu hoch/anstrengend für DEVONthink… jetzt habe ich 200 dpi und es läuft wieder zügiger.

Ist das also normal, dass es für 300 dpi “ewig” (mehrere Minuten) dauert? An der Hardware liegt es wohl eher nicht. DEVONthink läuft hier auf dem aktuellen Mac Pro.

Wie lange dauert es denn bei 200 DPI vergleichsweise? Aufgrund der größeren Datenmenge sind 300 DPI natürlich langsamer und benötigen mehr Speicher, d.h. falls virtueller Speicher nötig sein sollte, könnte die Performance in der Tat spürbar einbrechen.

Die Dauer bei 200 dpi für ein 2-seitiges PDF ca. 10 Sekunden —bei 300 dpi mehrere Minuten.

Was genau meinen Sie mit virtuellen Speicher — hat der Mac doch mehr als ausreichenden physischen Arbeitsspeicher?

Zum Test habe ich jetzt extra mal ein 35 seitiges PDF konvertieren lassen … der Mac langweilt sich dabei eher :wink: — und ausreichend Luft im physischen Arbeitsspeicher ist auch vorhanden. :slight_smile:

Bildschirmfoto 2020-06-25 um 08.55.58

Mit 200 oder 300 DPI?

…mit 200 und 300 dpi :wink: die Werte der Auslastung sind dabei identisch.

Wie schon gesagt: Das läuft auf dem aktuellen Mac Pro … und es wäre wohl eher eine “Katastrophe”, wenn solch Konvertierung das Gerät auch nur etwas aus der Ruhe bringen ließe… :smiley:

Das ist allerdings richtig. Ich habe dies weitergeleitet. Oder könnten Sie das verwendete Dokumente zusammen mit einem Bildschirmfoto von Einstellungen > OCR an cgrunenberg - at - devon-technologies.com schicken? Danke!

Können Sie das Dokument mit anderen teilen, da ich es auf den von mir getesteten Dokumenten nicht reproduzieren konnte?

(Übersetzt mit https://deepl.com)