Der OCR Vorgang ist fehlgeschlagen, Erzeugung der PDF Datei fehlgeschlagen

Hallo,

seitdem ich vor kurzem Devonthink 3 auf einem M2 Mac nutze (vorher Intel), bekomme ich beim Import von PDF Dateien immer die im Titel genannte Fehlermeldung. Wenn ich einen OCR Vorgang starte erscheint unten links der Fortschrittsbalken für die Erkennung. Wenn der Balken bei 100% ist bekomme ich kurz danach die genannte Fehlermeldung.

Bei der Suche nach einer Lösung bin ich auf diese Seite gestoßen:
https://discourse.devontechnologies.com/t/ocr-to-searchable-pdf-does-not-work/67076

Ich habe die beschriebenen Änderungen vorgenommen und auch die OCR.Plist eingesetzt.
In der Log Datei erscheint folgende Fehlermeldung:

The creation date “D:20221113142925+02’00’'” cannot be written in the document. Please specify the date in the correct format.

Ich verwende
M2 MacBook Air
MacOS 12.5
Devonthink 3.8.7

Vielen Dank für Eure Unterstützung

Oliver

Taucht dieselbe Fehlermeldung bei allen PDFs auf? Woher stammen diese Dateien?

Vielen Dank für die schnelle Response.
Die Dateien werden durch einen Dokumentenscanner (Brother) erzeugt und in ein Verzeichnis gelegt. Ich hole sie dann über ein Skript ab und importiere sie nach Devonthink. Das hat mit dem Intel Mac einwandfrei funktioniert. Aber auch, wenn ich sie per Drag and Drop in den “Inbox” Folder von Devonthink ziehe, oder in Deveonthink die Generierung eines “durchsuchbaren PDF’s” anstoße funktioniert es nicht. Es ist immer das gleiche Verhalten (wie oben beschrieben).

Btw: Dem folgenden Artikel nach klingt es danach, dass Devonthink fas Datum falsch formatiert. Aber dann müssten doch auch andere das gleiche Problem haben. hmm.

https://support.abbyy.com/hc/en-us/articles/360011978019--The-creation-date-cannot-be-written-in-the-document-Please-specify-the-date-in-the-correct-format-error-in-FineReader-Engine-12

Such’ bitte mal nach “Brother” in den Posts hier im Forum, sortiert nach “neueste”. In meiner Erinnerung hatten ein paar Leute Probleme damit.

Nicht wirklich. Denn in diesem Post heißt es, das Format müsse so aussehen:
D:YYYYMMDDHHmmSSOHH'mm
In Deiner Fehlermeldung taucht das hier auf (Leerzeichen von mir):
D:2022 11 13 14 29 25 + 02’00
was mE völlig korrekt ist: 13. November 2022 um 14h29, 25 Sekunden, Offset zur UTC 2 Stunden.

Wenn ich Dich richtig verstehe, erzeugt Dein Scanner das PDF. Dann schreibt auch er ggf das flasche Datum in die Datei.

Ich habe mich auf die Suche begeben und einen Artikel gefunden:

Der dort beschriebene Workaround mit der intelligenten Regel funktioniert. Vielen Dank dafür.
Wenn ich es richtig verstanden habe, kann ich aber noch auf ein Update hoffen, dass das Problem “behebt” und die Regel dann nicht mehr benötigt wird.

Zu dem Punkt mit dem Datum: Aufgrund der Fehlermeldung ging ich davon aus, dass Devonthink/Abby die Datei schreibt. Steht ja auch so im Log und schließlich wird ja der erkannte Text dem PDF hinzugefügt, was eine Modifikation des PDF’s darstellt, die persistiert werden muss. Es kann natürlich sein, dass Devonthink/Abby dabei das Erstellungsdatum nicht anfasst oder 1:1 übernimmt. Dann wäre Deine Aussage, dass der Scanner das “falsche” Datum erzeugt, korrekt.

Wie auch immer. Ich bin jedenfalls froh, dass ich meine Dokumente wieder mit Devonthink verarbeiten kann und hoffe auf ein baldiges Update.

Daher nochmal vielen Dank für Deine Hilfe.

Naja, dafür müsste Brother wohl tätig werden. Die Software, die ich früher mal von denen gesehen habe, würde mich nicht optimistisch stimmen.

Bezüglich des Datums: Du könntest ein von deinem Scanner erzeugtest PDF mal in Vorschau oder Acrobat Reader angucken, dann solltest Du sehen können, welche Daten da drinstehen. Und wie gesagt: Das von der Meldung beanstandete Datum sieht für mich völlig ok aus.

Haben Sie Brother bezüglich dieses Problems kontaktiert?

(Übersetzt mit macOS)

Moin,
ich habe aktuell das gleiche Problem, dass mir Abbyy Finereader 12 einen Fehler*) meldet, wenn es eine PDF zu einer OCR-PDF verarbeiten soll, die von einem Brother ADS-2400N Scanner stammt. Dabei habe ich verschiedene Tests gemacht und beim Erstelldatum und beim Änderdatum nutzt Brother ein doppeltes Hochkomma am Ende.
Das ist in den PDF-Eigenschaften nicht zu erkennen, aber wenn man das PDF im Editor öffnet und nach
“/CreationDate” sucht, dann findet man das:

/CreationDate (D:20240208102009+01'00'')
/Creator (Brother Scanner System : ADS-2400N)
/Producer (Brother Scanner System Image Conversion)
/ModDate (D:20240208102009+01'00'')

Vergleiche ich das mit einer anderen PDF

/CreationDate(D:20240307124850+01’00’) /ModDate(D:20240307124850+01’00’)

dann fällt das doppelte Hochkomma am Ende fast gar nicht auf.

Wenn ich jeweils eines dieser Hochkommas (bei CreationDatei und bei ModDate) per Editor lösche und anschließend die Datei verarbeite, dann läuft die Datei fehlerfrei durch, was beweist, dass dies der Fehler ist und das sich Brother offensichtlich nicht an den Standard hält…

Abbyy hat zu diesem Verhalten auch eine Lösung beschrieben:
Artikel 360011978019 mit dem Titel: “The creation date … cannot be written in the document. Please specify the date in the correct format” error in FineReader Engine 12

Allerdings fände ich es nicht so cool, wenn man kein oder nur das aktuelle Datum einsetzte nur weil Brother das Datumsformat nicht ordentlich schreibt und außerdem müsste das von der Software dann anders angesprochen werden, die die Abbyy-FR-API-anspricht - hier dann also “devonthink3” und eine ECM-Lösung in meinem Fall…

*)
The creation date “D:20240208102009+01’00’'” cannot be written in the document. Please specify the date in the correct format.

Willkommen @thunderbrain
Welche Version von macOS und DEVONthink verwenden Sie?
Haben Sie Brother kontaktiert, um dieses Problem zu melden? Es ist technisch gesehen deren Problem, das zu lösen ist.

(Übersetzt mit DeepL)

Ich hatte das gleiche Problem mit dem Brother ADS-2400N Scanner. Das Format ist nur beim Erstellen normaler PDF-Dateien falsch. Die einfache Lösung war, die Ausgabe im Scanner auf PDF/A umzustellen:

Brother PDF:
<<
/CreationDate (D:20240226115240+01’00’‘)
/Creator (Brother Scanner System : ADS-2400N)
/Producer (Brother Scanner System Image Conversion)
/ModDate (D:20240226115240+01’00’')

Brother PDF/A:
<<
/CreationDate (D:20240307154813+01’00’)
/Creator (Brother Scanner System)
/Producer (Brother Scanner System Image Conversion)
/ModDate (D:20240307154813+01’00’)

Jetzt werden die Dokumente auch bei der OCR-Verarbeitung in Abbyy Finereader 12 akzeptiert :slight_smile:

2 Likes

Willkommen @Andresnnn
Vielen Dank für die Informationen und die Problemlösung. Ich hoffe, Sie haben sich trotzdem mit Brother in Verbindung gesetzt, um den Fehler zu melden, denn es sollte unabhängig von der jeweiligen Spezifikation des PDFs funktionieren.

(Übersetzt mit DeepL)

Hallo,
macOS und DEVONthink treffern auf mich nicht zu, das Problem, dass dieses Brother Scannermodell falsche PDF-Dateien erzeugt schon. Ich habe auch versucht Brother zu kontaktieren, aber auf deren Homepage landet man immer wieder in einer Sackgasse und wird auf bekannte Probleme verwiesen. Auch der Chat endet einfach ohne Lösung - Sieht für mich aus, wie reine Abwehrmechanismen um bloß keine Arbeit zu haben, weil andere Fehler ja niemals vorkommen können (Ironie!)- ich habe es gerade mit einer E-Mail probiert, mal sehen ob da etwas zurück kommt.