Duplikate gefunden, welches aber keine Duplikate sind ?

Moin,
ich habe ein für mich seltsames Phänomen festgestellt…

DTPO hat bei mir Duplikate gefunden und ausgewiesen… Soweit so fein, nur sind das definitiv keine Duplikate…
Weder die Dateigröße, noch der Dateiname, noch der Dateiinhalt sind gleich.

Stellt sich mir die Frage, warum das so ist und was das vielleicht falsch gelaufen ist.
Es handelt sich um PDF-files, beide mit PDF+TXT…

Ich habe beide Dateieinträge in DTPO gelöscht und neu eingelesen, aber das Duplikat bleibt?

Was kann ich tun?

HG
Rolf

Im Falle von PDF-Dokumenten mit Text wird der indizierte Text verglichen, die Duplikaterkennung ist absichtlich nicht exakt. Ist denn die Seitenanzahl auch identisch? Eine zukünftige Version wird optional eine striktere Erkennung unterstützen.

Guten Abend,
das mit dem Hinweis auf die Anzahl der Seiten scheint die Lösung zu sein.

Die Seitenanzahl ist mit 114 bei beiden PDF-Files gleich, alles andere scheint unterschiedlich zu sein.
Dann weiß man nun jedenfalls, woher der Fehler kommt.
Danke.

Gruß
Rolf

weitere Info:
habe aus dem einen Dokument 1 Seite entfernen können. Nun ist es in den Augen von DT auch kein Duplikat mehr…

Also das mit der Seitenzahl scheint ein Lösungsansatz/Workaround zu sein.

Gruß
Rolf

Neben der Seitenanzahl müsste auch der indizierte Text identisch sein, das könnten Sie z.B. mit Hilfe einer Konvertierung in ein Text-Dokument überprüfen.

Habe dieses Problem leider auch. Es werden Duplikate gefunden die keine sind. Dabei handelt es sich um PDF-Dateien, die als PDF+Text angezeigt werden, aber tatsächlich keinen Text enthalten, der markiert werden kann, sondern nur Bilder. Die Grüße und der Titel der Dateien ist unterschiedlich, gleich nur die Seitenzahl und die Angabe “30 Wörter”. Offenbar sind diese 30 Wörter das Wasserzeichen der PDF-Dateien, welches als Text schräg über die Bilder läuft. Wäre gut, wenn die Duplikat-Erkennung, die sonst sehr nützlich ist, solche Dateien ignoriert.

Schöne Feiertage allerseits,
Peter

Gibt es hierzu eigentlich schon etwas neues?
Ich habe auch 2 Dateien in dem “Duplikate Filtern” Bereich der Intelligenten Regeln. Diese sind aber keine Duplikate und ich würde dies gerne dem System so mitteilen damit sie aus dem Bereich “Duplikate Filtern” raus fliegen…

Geht hier um 2 PDF Datei + Text die sich nur minimal im Inhalt unterschreiben (Brief der Bank in dem es im Inhalt um das gleiche ging aber bezogen auf 2 Konten).

Kann ich die dem System nicht irgendwie mitteilen das es keine Duplikate sind? Oder kann ich etwas an den Dateien ändern das sie aus dieser Rubrik “Duplikate Filtern” wieder raus kommen??

Danke und Gruß!
Stefan

Hast du die Option “stricter recognition of duplicates” aktiviert? (Ich weiß leider nicht, wie die Option auf Deutsch heißt; genauere oder strengere Duplikaterkennung o.s.ä. denke ich).

Wenn das nichts hilft, kannst du z.B. die intelligente Regel ändern, in dem du eine Bedingung Tag ist nicht KeinDuplikat hinzufügst, und die beiden Dateien dann mit dem Tag KeinDuplikat versiehst.

1 Like

Manchmal kann es auch so einfach sein… Danke @blanc für den Tipp… Habe ich gleich mal umgesetzt.

Super :slight_smile: sagst du mir noch, wie die Option auf Deutsch heißt?

@Blanc … vielleicht habe ich mich falsch ausgedrückt… Ich habe die Variante mit dem Tag umgesetzt…
aber ich schaue aber gerade mal nach der Übersetzung…

VG

1 Like

Also ich habe die Einstellung Exaktere Erkennung von Duplikaten aktiviert.

Die Variante mit den Tags funktioniert super. Wie kann ich aber das Tag erstellen damit ich es gleich in der Datei wählen kann? Aktuell gehe ich etwas umständlicher vor über Skripte → Tags → Add tags to selection und hinterlege da dann “Kein Duplikat”.

Danke und Gruß, Stefan.

Im Menü „View“ („Ansicht“ nehme ich an?) kannst du die Tagleiste aktivieren (Show/hide tags); es erscheint unter deinem Dokumentenfenster eine hellgraue Leiste. Hier werden fortan die Tags zu jedem Dokument angezeigt; klickst du in die Leiste, kannst du einfach einen neuen Tag eintragen.

(Seite 146 der DEVONthink 3.6.2 Anleitung)

Ja, die Leiste ganz Links für die Tags habe ich:

Jedoch hatte ich eher die Hoffnung ich kann eine Datei zum Beispiel rechts anklicken und dann auf Tags und kein Duplikat auswählen:

Ne, da gibts unten eine Tagleiste - die kannst du so wie von mir beschrieben aktivieren.

Ja ich glaube jetzt habe ich es gefunden :slight_smile:
Vielen Dank hierfür!