OCR und Replicants

Hallo,

Mein Problem ist folgendes:
In der DTPO Datenbank befindet sich ein PDF Dokument. Dieses Dokument existiert in z.B. fünf Ordnern als Replikant. Weiterhin wird auf dieses Dokument in verschiedenen RTFD Dokumenten (auch diese befinden sich in der Datenbank) per Link verwiesen.

Nun wird bei dieses Dokument “Convert -> to Searchable PDF” ausgeführt. Damit erhält man nun ein neues Dokument mit Texterkennung was aber keine Verbindungen mehr hat zu den Ordnern und RTFD Dokumenten. Diese Datei ist praktisch wertlos!

Dieses Verhalten von DTPO ist keine Fehler denn es hat auch schon in der Version 1.54 nicht funktioniert. Wird das irgend wann mal geändert? Oder muss ich damit leben das DTPO meine Datenintegrität einfach ignoriert?

Es ist ja auch nicht so das DTPO mir sinnvolle Werkzeuge an die Hand gibt mit denen ich kontrollieren kann wo sich Replikants befinden. Das Kontextmenu (recht Maustaste auf dem Objekt) ist auf jeden Fall keine Lösung.

Stefan

Da ja beim Umwandeln eine neue Datei angelegt wird, die mit den Replikaten der Originaldatei und etwaigen Links nichts zu tun hat, wüsste ich nicht, wie sich das Problem beheben liesse. Ich führe grundsätzlich VOR der weiteren Verarbeitung (Replikation, Verlinkung etc.) den OCR-Prozess durch, sofern notwendig.

Nils

Das man die PDF’s vorher per OCR umwandelt sollte ist mir schon klar. Was macht man aber wenn man feststellt das die OCR Erkennung schlecht ist, wichtige Begriffe nicht gefunden werden können weil sie nicht richtig erkannt wurden?

Ausserdem scheint es ja zu funktionieren: wenn ich die PDF Datei mit Adobe öffne und eine OCR Erkennung durchführe und diese dann zurückschreibe kann ich danach in dieser PDF Datei suchen. Der Typ “Kind” wird dabei allerdings nicht von “PDF” auf “PDF+Text” geändert.

Stefan