OCR in durchsuchbare Dokumente + Regeln - Bug?

Hi,
Ich verzweifel gerade.
PDF Dokumente im Eingang sind z.b. PDF-Dokument und ich würde es gerne zu PDF+Text per automatischer Regel umwandeln. Das funktioniert nicht. Es bleibt einfach ein PDF-Dokument ohne Text.

Wenn ich jedoch per Rechtsklick auf die Datei gehe und auf OCR - in durchsuchbares PDF anklicke, dann macht er es. Warum aber nicht per Regel?

Die Regel wird laut Bildschirmfoto („Folgende Aktionen durchführen“) nur manuell ausgelöst, d.h. nicht automatisch beim Import.

Das ist klar, aber wenn ich auf “Regel anwenden” klicke, dann kommt links unten

Füge Dokument hinzu
Lade Dokument
Vorbereitung
Texterkennung
Speichere Dokument

Aber es ist dann immer noch ein PDF-Dokument - kein PDF+Text

Also die Regel arbeitet, aber wandelt nicht um.

Wenn ich mit der rechten Maustaste auf die Datei selbst klicke mit OCR - in durchsuchbares PDF, dann macht es links unten das gleiche, aber als ergebnis habe ich ein PDF+text.

Nur über die intelligente Regel geht das nicht

Die Regel sollte eigentlich ein neues PDF-Dokument erstellen und das Original in den Papierkorb legen. Klappt es denn, wenn Sie beiden Aktionen durch OCR > Anwenden ersetzen?

Ja, mit OCR Anwenden geht es, aber mit OCR In durchsuchbares PDF geht es nicht.

Habe mal ein Video gemacht

Ich vermute, du legst das gerade erzeugte PDF+Text in den Papierkorb. Hast du dort mal nachgeschaut?
Jedenfalls erledigt “OCR anwenden” das Gewünschte.

Ich sehe etwas, das möglicherweise verwandt, aber seltsamer ist…

Dies ist in einer neu erstellten Datenbank.
Während PDF+Text ein PDF ist, verstand ich, dass es einen harten Unterschied zwischen den beiden gab:

  • PDF-Dokument hat keine Textebene (einschließlich Dokumente mit Vision-erkanntem Text)
  • PDF+Text hat eine echte, eingebettete Textebene.

Eine Toolbar-Suche zeigt ähnliche Ergebnisse und die Raw-Syntax ist kind:pdf, nicht kind:pdf/ps (oder ähnliches), daher vermute ich, dass das Ergebnis logisch ist.

PS: Ich bin bisher nicht in der Lage, das ursprünglich gemeldete Problem zu reproduzieren.

(Übersetzt mit Claude 4.5 Haiku)

Halten Sie in DEVONthink die Optionstaste gedrückt und wählen Sie Hilfe > Fehler melden . Vielleicht gibt es einen Hinweis in den Protokollen.

Werde ich heute abend machen

Fehlt nur noch deine Automation. Ich habe das heute gemacht, mit control + A alles markiert und dann mit rechter Maustaste OCR durchgeführt - über 1.300 PDFs. In den Einstellungen muss man noch einstellen, alte PDFs in Papierkorb verschieben sofern nicht angehakt. Dialog mit ChatGPT.

Rainer

1 Like

Dasselbe hätte dir eine Suche im Forum auch verraten. Ganz ohne Dialog. Die Aufgabe ist hier schon x-mal gelöst worden (woher sollte ChatGPT auch sonst sein “Wissen” her haben).

Allerdings hättest Du dann nicht diese zauberhafte Bedingung “PDF-Text ist nicht vorhanden” bekommen. Die kennt vermutlich in dieser Form nur eine KI. Warum man bei einer digitalen Rechnung, die kleiner als 50KB ist, kein OCR haben möchte, versteht der Mensch auch nicht.

Die von ChatGPT bereitgestellten Anweisungen sind (wenig überraschend) falsch. Sie sollten sich bei Informationen speziell zu DEVONthink nicht auf Ihre KI-Web-Chats verlassen.

PS: Was war Ihre KI-Eingabeaufforderung?

(Übersetzt mit Claude 4.5 Haiku)

1 Like

Warum suchen, wenn’s einfacher geht.

Klappt doch. Ruck zuck. Die 50 kb hab ich extra drin gelassen weil ich wusste, dass da eine Reaktion kommt. Hab ich sowieso nicht beachtet. Jetzt ist alles so wie ich es wollte.

Rainer

Mail mit “Fehler melden” ist unterwegs.

1 Like