OCR Texterkennung in DevonThink

Hallo zusammen,

soeben habe ich folgendes Problem festgestellt.
DevonThink Pro Office 2.9.8, Scan Knapp Manager Version 6.3 L60.

Ich lasse seit Jahren OCR von DevonThink übernehmen - gefühlt seit einem Update von Scansnap in den letzten Tagen kann DevonThink kein OCR mehr ausführen … sogar wenn ich es manuell ausführe. (Rechtsklick -> Konvertieren -> in durchsuchbares PDF) kommt die Meldung “Kein Text”.

Hat das Phänomen auch jemand mit diesem Setup? Hat vorher alles funktioniert …

Ich habe die selbe Erfahrung gemacht.

macOS 10.12.2 wurde leider mal wieder voreilig veröffentlicht (so wie Sierra generell) und enthält neue, schwere Fehler. Die kommende Version 2.9.9 wird deswegen neue Workarounds erhalten, in der Zwischenzeit sollte es klappen, wenn Sie Scans nicht im PDF-Format, sondern z.B. im JPEG/TIFF/PNG-Format erstellen und dann OCR anwenden.

@cgrunenberg: Ja, korrekt. Es funktioniert so für einzelne Seiten. Allerdings gibt es einen weiteren unerwünschten Effekt, wenn man diese nach dem erfolgreichen OCR-Lauf zu einem mehrseitigen “PDF+Text”-Dokument zusammenführt: dann verschwindet der OCR Text plötzlich in dem generierten mehrseitigen PDF wieder und es ist nur noch ein PDF ohne Text.
Somit erfolg natürlich keinerlei Indizierung.

Einen weiteren Effekt habe ich festgestellt, den ich für wesentlich dramatischer halte!:
Alte bestehende “PDF+Text”-Dokumente (aus funktionierenden DT & macOS Versionsständen) “verlieren” in der DT Version 2.9.8 unter macOS 10.12.2 sogar ihren OCR Text, wenn ich eine Änderung wie bspw. eine Markierung im Dokument durchführe. Es scheint so, als dass der Text-Verlust bei jedem Speichern eines “PDF+Text”-Dokuments erfolgt.

:confused:

Es handelt sich dabei immer um denselben Fehler von macOS 10.12.2, d.h. nach dem Bearbeiten von PDF-Dokumenten (egal ob mit z.B. DEVONthink oder Preview.app) wird die unsichtbare Text-Ebene entfernt und das Dokument ist somit nicht mehr durchsuchbar.

DEVONthink 2.9.9 wird diesen Fehler zumindest teilweise umgehen, der Fehler ist auch an Apple gemeldet, aber die erste Betaversion von 10.12.3 korrigiert diesen leider noch nicht.

Die einzigen Workarounds im Augenblick sind leider ein Downgrade auf z.B. macOS 10.12.1 oder die Verwendung von PDF-Editoren (z.B. Adobe Acrobat), die nicht das PDFkit von Sierra verwenden.

Bei Interesse könnte ich Ihnen auch eine Beta von Version 2.9.9 schicken, die bei folgenden Features das Problem umgeht:

  • OCR
  • Aufteilen/Vereinen von Dokumenten
  • Einfügen/Löschenvon Seiten
  • Ändern der Eigenschaften des Dokuments

Der Workaround funktioniert allerdings nicht beim Annotieren/Markieren/Drehen von PDF-Dokumenten, hier ist leider Apple gefordert :imp:

Ich habe das gleiche Problem, werden ja wohl alle haben.

Ist es eine vernünftige Strategie, DEVONthink ‘normal’ weiter zu benutzen und die nicht erkannten Dokumente nach Vorliegen eines Patches in macOS 10.12.xy dann nachträglich in durchsuchbare pdf zu konvertieren? So verfahre ich zur Zeit.

Viele Grüße

Thomas

Das ist im Augenblick vermutlich die sicherste Lösung, bis Updates von DEVONthink und/oder macOS erhältlich sein werden.

Das Problem existiert übrigens auch unter OS X 10.9.5 (Mavericks) mit DTP 2.9.8. Wenn ich z.B. eine Annotation zu einem PDF hinzufüge wird der OCR Text im Dokument zerstört. Ich glaube deshalb nicht, dass es ein Sierra Problem ist.

Gruß Jens

Das Problem tritt v.a. seit 10.12.2 auf, nicht seit der Veröffentlichung von 2.9.8. Und es passiert auch mit anderen, PDFkit-basierten Programmen.

Unter älteren macOS-Versionen gab es zwar früher teilweise bereits ähnliche Probleme, aber die beschränkten sich auf manche Sprachen (z.B. osteuropäische). Könnten Sie uns ein Beispieldokument schicken?

Gerade nochmals getestet, hier tritt das Problem definitiv nicht unter 10.9.5 auf.

Ich habe heute ein paar Beispiele erzeugt, die das Phänomen zeigen (siehe Anlage). Benutzt habe ich die Vorschau.app, um Seiten aus einer PDF zu löschen. Das Interessante daran ist, dass das Problem sehr wohl unter 10.9.5 mit installiertem DTP 2.9.8 auftritt. Allerdings trat das Problem nicht unter 10.12.2 ohne installiertem DEVONthink auf.

In der Anlage habe ich eine DB mit 3 PDF Dateien beigefügt und eine Protokolldatei, die beschreibt, was ich getestet habe (alles in der Gruppe “Probleme”).

Interessant war auch, dass es durchaus andere PDF Dateien gibt, bei denen das Problem überhaupt nicht auftritt, d.h. man konnte beliebige Seiten löschen, oder Annotation hinzufügen, ohne dass der Text zerstört wurde. Bei Bedarf kann ich die auch gern zur Verfügung stellen.

Gruß Jens
Jens.dtBase2.zip (839 KB)

Was macht APPLE da eigentlich? Ich verstehe nicht, warum so viel in Sierra schiefläuft. Wird das das VIESTA von APPLE?
Irgendwie geht die Qualität den Bach runter, oder sehe ich das falsch?

Sierra ist in der Tat ein problematisches Update. Und die extremen Umbauten im PDFKit machen allen Programmen, die mit PDFs arbeiten und dabei nicht komplett auf eine eigene Bibliothek setzen, schwer zu schaffen. Hier hat Apple auch aus unserer Sicht jede Qualitätskontrolle versäumt.

Die Installation von DEVONthink hat keinerlei Einfluss auf die Preview.app oder andere Anwendungen, d.h. entweder handelt es sich dabei um Fehler von Preview.app oder um Fehler vom PDFkit-Framework, das ebenfalls von DEVONthink verwendet wird.

Wann wird voraussichtlich V2.9.9 veröffentlicht?
OCR ist eine kaufentscheidende Funktion für mich.
Ich bin bereits auf macos Sierra (10.12.2) umgestiegen.

Besteht irgendein Zusammenhang zum ähnlichen Problem des Fujitsu ScanSnap Managers?
fujitsu.com/global/support/p … 63l60.html

Ok, dann mache ich hier mal weiter und vertraue auf euch :confused: 8)

Ok, dann mache ich hier mal weiter und vertraue auf euch :confused: 8)

Und ich dachte schon … versuche seit Stunden OCR wieder ans Laufen zu bekommen und dachte nun in letzter Verzweiflung ich schau mal ins Forum.
Ggf. wäre bei solch gravierenden Bugs eine separate Info an den Anwender nützlich. Ich will nicht wissen, wie viele User grade Dokumente scannen und denken, dass OCR durchgeführt wird.

Ich scanne wie bisher auch und hole das OCR dann später nach. Danke für die Info hier im Threat.

Denke auch, das wäre angebracht. :bulb:

Wenn Sie Scans im JPEG/TIFF/PNG-Format anstatt im PDF-Format erzeugen und die Eingabe der Metadaten (s. Einstellungen > OCR) deaktivieren, sollte es funktionieren. Version 2.9.9 wird aber vermutlich in der ersten Hälfte des Monats erhältlich sein und diverse Workarounds enthalten. Bei Interesse an einer Beta einfach Email an mich.