OCR erzeugt stets ungelesene Dokumente

JamesInform · September 2, 2013, 11:14am

Habe gerade folgendes Problem:

In meiner Datenbank befinden sich Dokumente, die über einen längeren Zeitraum hinzugefügt wurden. Einige der älteren Dokumente sind PDFs ohne OCR. Nun möchte ich diese PDFs nachträglich einem OCR-Lauf unterziehen.

Dabei habe ich festgestellt, dass es keine Funktion gibt, mit deren Hilfe einfach alle noch nicht OCR-gescannten Dokumente einem OCR-Lauf unterzogen werden können. (Oder ich habe sie noch nicht gefunden! )

Dies wäre Feature-Wunsch Nr.1!

Ich muss hier über eine intelligente Gruppe alle PDFs anzeigen und die Ergebnisliste danach nach der “ART”-Spalte sortieren, um alle noch nicht konvertierten PDFs in der Datenbank zu finden. (Ziemlich umständlich! )

Aber viel wichtiger:

Nach dem OCR-Lauf werden gemäß meinen “Einstellungen” die alten PDFs in den Papierkorb gelegt. Die neuen sind aber alle als ungelesen markiert. Das ist natürlich Quatsch, da ich einfach nur meine alten Dokumente durchsuchbar machen will. Gelesen habe ich sie ja bereits mitunter vor Wochen. Sie sind mir also bekannt und damit nicht neu. Gerade in einem Team, bei dem die Datenbanken beispielsweise über einen SyncStore synchronisiert werden, führt das mitunter zu großen Irritationen.

Also wäre es wichtig, wenn man bei der OCR Konvertierung festlegen kann, ob die neu erzeugten Dokumente als gelesen, ungelesen oder mit dem gleichen Status des Ursprungsdokuments versehen werden sollen. Bedeutet: Konvertiere ich ein gelesenes Dokument, so soll das Konvertierte ebenfalls gelesen sein und umgekehrt analog bei ungelesenen Dokumenten.

Dies wäre Feature-Wunsch Nr. 2.

cgrunenberg · September 3, 2013, 10:20am

Per Daten > Neu mit Vorlage > Intelligente Gruppen > PDFs (nicht durchsuchbar) lässt sich eine intelligente Gruppe anlegen, die alle nicht durchsuchbaren PDF-Dokumente findet.

Vielen Dank für den Vorschlag, eine zukünftige Version wird das entsprechend verbessern.

JamesInform · September 3, 2013, 10:31am

Vielen Dank für die Info.

Die intelligente Gruppe ist genau richtig für unsere Belange!

saschabur · October 2, 2013, 5:14pm

Wird es denn eine Funktion geben, per Rechtsklick auf ein Bild oder ein ohne-text-PDF OCR anzuwenden?

cgrunenberg · October 3, 2013, 6:57am

Das Kontextmenü von DEVONthink Pro Office enthält hierfür bereits die Funktion Konvertieren > In durchsuchbares PDF.

saschabur · October 5, 2013, 9:25am

Danke für den Hinweis. Allerdings geht das nicht, wie bereits in einem anderen Tonic besprochen, mit Notes, die als image von Evernote kommen. DTPO sieht die als HTML+irgendwas, obwahl eben das “irgendwas” die eigentliche Notiz ist (also das JPG des Scan). DTPO zeigt das im Vorschaufensterfenster ja sogar als sichtbares Bild an. Nur der OCR-Button bleibt grau

cgrunenberg · October 7, 2013, 9:55am

OCR ist im Augenblick nur bei Bildern & PDF-Dokumenten möglich, die sich direkt in der Datenbank, d.h. nicht innerhalb von Dokumenten wie RTFD oder Formatierte Notizen, befinden. Evernote wiederum kennt eigentlich nur Notizen+Anhänge, d.h. kann ja keine Dateien direkt importieren.