Indizieren erkennt Text-Layer nicht mehr

Dirk · August 11, 2017, 5:48am

Hallo zusammen,

folgendes Problem: wenn ich Dokument mit dem ScanSnap in DTPO einscanne und texterkennen lasse, liegt in der Datenbank eine Datei “PDF+Text” vor. Wenn ich nun dieselbe Datei von DTPO indizieren lasse (exportiert auf eine externe HD in ein indiziertes Verzeichnis), wird sie nicht mehr als PDF+Text sondern nur noch als pdf erkannt und ist dann nicht mehr durchsuchbar. Wenn ich dasselbe Dokument aber z.B. mit PDF Expert öffne, wird der Text-Layer sehr wohl erkannt - nur DTPO erkennt ihn bei dem exportierten PDF nicht mehr, obwohl es die OCR selbst durchgeführt hatte.

Früher ging das, ich habe jahrelang auf diese Art (durchsuchbare) Dokumente auf einer externen Festplatte archiviert, um den Index im internen Speicher immer dabei zu haben. Wenn ich aber nun früher angelegte Dokumente dieser Art neu indizieren lasse (die bereits als PDF+Text in der Datenbank vorliegen), werden auch diese früheren Dateien nicht mehr ordentlich erkannt und nur noch als pdf dargestellt.

Das Problem liegt also scheinbar nicht an der Texterkennung selbst, sondern DTPO erkennt den (selbst erzeugten!) Text-Layer von PDF-Dateien beim Indizieren nicht mehr.

Leider ist mir das nun erst nach einigen Tagen Arbeit aufgefallen, einige tausend Seiten sind zwar eingescannt, aber nicht durchsuchbar, weil der Text-Layer nicht erkannt wird

Weiß jemand Rat? (Alle Dokumente innerhalb der Datenbank zu belassen ist keine Lösung, ich benötige die - früher funktionierende - Lösung einer Datenbank, die die PDF+Text-Dateien nur indiziert.)

Dirk · August 11, 2017, 8:19am

Nachtrag: offensichtlich scheint das nicht am Indizieren zu liegen, sondern ein grundsätzliches Problem von DTPO bei der Behandlung von PDF-Dokumenten mit Texterkennung zu sein.

Hier habe ich englischsprachige Posts gefunden, die das gleiche Problem beschreiben:

Leider ist bei keinem eine Lösung angegeben, falls also jemand etwas darüber weiß, wäre ich über Hinweise dankbar, bevor ich unnötig viel weitere Zeit investiere (ich hatte schon mit erneutem Einscannen begonnen und nach einigen Stunden bemerkt, dass nach jeder Änderung an der Datei auch diese nicht mehr als PDF+Text erkannt wird).

Übrigens: kurioser Weise sind die PDFs sogar weiterhin durchsuchbar, darauf hat einer der genannten Posts hingewiesen. Man kann aber nicht weiter damit arbeiten (auswählen, kopieren, markieren usw.).

cgrunenberg · August 11, 2017, 8:26am

Welche Version von macOS und DEVONthink verwenden Sie denn im Moment? Eventuell hilft es, die Dateien erneut zu indizieren oder die Datenbank neu aufbauen zu lassen. Falls das nicht hilft - wie groß sind denn die PDF-Dateien (Seiten, MB)?

Dirk · August 11, 2017, 8:40am

MacOS 10.12.6
DTPO 2.9.14

Den empfohlenen Versuch mit dem Neuaufbau der Datenbank habe ich bereits gestern Abend gemacht. Nach einigen Stunden (es werden > 13.000 Dateien indiziert) war das Ergebnis, dass alle auch vorher noch als PDF+Text erkannten Dateien nur noch als “pdf” angezeigt wurden. Zum Glück konnte ich zum vorher erstellten Backup zurückkehren, damit wenigstens die früher richtig angelegten Verweise gerettet waren.

Die indizierten Dateien selbst haben ca. 70 GB, die Datenbank an sich 4,13 GB. Wobei es nicht an der Größe zu liegen scheint: bei anderen, kleineren Datenbanken tritt das gleiche Problem auf. Zu Testzwecken habe ich außerdem eine neue Datenbank angelegt und diese hat von Beginn an das gleiche Problem bei nur 64 PDF-Dateien.

cgrunenberg · August 11, 2017, 9:02am

Klappt denn evtl. eine Neuindizierung nach einem Neustart von DEVONthink und/oder dem Rechner?

Dirk · August 11, 2017, 9:04am

Das habe ich heute Morgen schon mal versucht: Neustart Rechner, neue Datenbank in DTPO erstellt. Problem bleibt.

cgrunenberg · August 11, 2017, 9:08am

Könnten Sie bitte Hilfe > Fehler melden bei gedrückter Alt-Taste auswählen und die Email an mich (cgrunenberg - at - devon-technologies.com) schicken? Eventuell enthalten die Protokolle ja irgendwelche Hinweise.

Dirk · August 11, 2017, 9:12am

Ist unterwegs.