Zurück von Paperless zu DT

rerexx · November 6, 2024, 4:16pm

Nach meinem Ausflug zu Paperless bin ich nun doch wieder zurück zu DT. Nach einem Datenbankchrash und Wiederherstellen hatte ich anstatt meiner ursprünglich 4800 Dateien plötzlich 12xxx
Die erst mal alle in DT in eine neue DB importiert. Ich dachte, DT findet Duplikate. Klappt aber nicht. Die PDFs unterscheiden sich manchmal nur in ein paar kb sind aber vom Inhalt gleich. Werden nicht als Duplikate erkannt. Bekomme ich das irgendwie in DT gerade gerückt oder muss ich die Daten extern nach Duplikaten durchsuchen?

BLUEFROG · November 6, 2024, 4:34pm

Dies wurde schon oft in den Foren, der Dokumentation und sogar in unserem Blog diskutiert.
Siehe DEVONthink’s Einstellungen > Allgemein > Allgemein > Strengere Erkennung von Duplikaten.

(Übersetzt mit DeepL)

rerexx · November 6, 2024, 9:14pm

Sorry, hatte ich vergessen zu erwähnen. Das ist natürlich bereits eingestellt. Also daran liegt es leider nicht.

BLUEFROG · November 6, 2024, 11:04pm

Bei der strengeren Erkennung werden Dateigröße, Dateityp und der Inhaltshash jedes Dokuments berücksichtigt, so dass nur tatsächlich doppelte Dokumente markiert werden.

Und auf welche „Wiederherstellung“ beziehen Sie sich?

rerexx · November 7, 2024, 5:37am

Beispiel:
Dokument hat einmal den Namen xxx123.pdf mit einer Größe von 1.12 MB und einmal heißt es xxx.yyy.123.abc.pdf und eine größe von 1.50 MB. Der Inhalt ist definitiv der selbe und OCR wurde von Paperless durchgeführt.
Die Dokumente zu haben definitiv deb selben Inhalt aber werden nicht als Duplikate erkannt. Manchmal existiert das selbe Dokument 3-4 mal mit den unterschieden von oben oder auch ohne unterschied im Namen oder der Dateigrõße. Völlig egal aber immer mit selben Inhalt,
Von den Importieren Dokumenten müssen definitiv einige 1-2 Duplikate haben da es ursprünglich nur 4660 in PL gab aber im gerretteten Datembestand über 12000 Dokumente vorhanden sind.

cgrunenberg · November 7, 2024, 5:40am

Falls das Dokument auch nach der Deaktivierung der strengeren Duplikat-Erkennung (s. Einstellungen) noch nicht als Duplikat erkannt wird, dann ist es tatsächlich unterschiedlich (z.B. der durch OCR hinzugefügte Text).