Moin,
ich habe ein für mich seltsames Phänomen festgestellt…
DTPO hat bei mir Duplikate gefunden und ausgewiesen… Soweit so fein, nur sind das definitiv keine Duplikate…
Weder die Dateigröße, noch der Dateiname, noch der Dateiinhalt sind gleich.
Stellt sich mir die Frage, warum das so ist und was das vielleicht falsch gelaufen ist.
Es handelt sich um PDF-files, beide mit PDF+TXT…
Ich habe beide Dateieinträge in DTPO gelöscht und neu eingelesen, aber das Duplikat bleibt?
Im Falle von PDF-Dokumenten mit Text wird der indizierte Text verglichen, die Duplikaterkennung ist absichtlich nicht exakt. Ist denn die Seitenanzahl auch identisch? Eine zukünftige Version wird optional eine striktere Erkennung unterstützen.
Guten Abend,
das mit dem Hinweis auf die Anzahl der Seiten scheint die Lösung zu sein.
Die Seitenanzahl ist mit 114 bei beiden PDF-Files gleich, alles andere scheint unterschiedlich zu sein.
Dann weiß man nun jedenfalls, woher der Fehler kommt.
Danke.
Neben der Seitenanzahl müsste auch der indizierte Text identisch sein, das könnten Sie z.B. mit Hilfe einer Konvertierung in ein Text-Dokument überprüfen.
Habe dieses Problem leider auch. Es werden Duplikate gefunden die keine sind. Dabei handelt es sich um PDF-Dateien, die als PDF+Text angezeigt werden, aber tatsächlich keinen Text enthalten, der markiert werden kann, sondern nur Bilder. Die Grüße und der Titel der Dateien ist unterschiedlich, gleich nur die Seitenzahl und die Angabe “30 Wörter”. Offenbar sind diese 30 Wörter das Wasserzeichen der PDF-Dateien, welches als Text schräg über die Bilder läuft. Wäre gut, wenn die Duplikat-Erkennung, die sonst sehr nützlich ist, solche Dateien ignoriert.
Gibt es hierzu eigentlich schon etwas neues?
Ich habe auch 2 Dateien in dem “Duplikate Filtern” Bereich der Intelligenten Regeln. Diese sind aber keine Duplikate und ich würde dies gerne dem System so mitteilen damit sie aus dem Bereich “Duplikate Filtern” raus fliegen…
Geht hier um 2 PDF Datei + Text die sich nur minimal im Inhalt unterschreiben (Brief der Bank in dem es im Inhalt um das gleiche ging aber bezogen auf 2 Konten).
Kann ich die dem System nicht irgendwie mitteilen das es keine Duplikate sind? Oder kann ich etwas an den Dateien ändern das sie aus dieser Rubrik “Duplikate Filtern” wieder raus kommen??
Hast du die Option “stricter recognition of duplicates” aktiviert? (Ich weiß leider nicht, wie die Option auf Deutsch heißt; genauere oder strengere Duplikaterkennung o.s.ä. denke ich).
Wenn das nichts hilft, kannst du z.B. die intelligente Regel ändern, in dem du eine Bedingung Tag ist nicht KeinDuplikat hinzufügst, und die beiden Dateien dann mit dem Tag KeinDuplikat versiehst.
@Blanc … vielleicht habe ich mich falsch ausgedrückt… Ich habe die Variante mit dem Tag umgesetzt…
aber ich schaue aber gerade mal nach der Übersetzung…
Also ich habe die Einstellung Exaktere Erkennung von Duplikaten aktiviert.
Die Variante mit den Tags funktioniert super. Wie kann ich aber das Tag erstellen damit ich es gleich in der Datei wählen kann? Aktuell gehe ich etwas umständlicher vor über Skripte → Tags → Add tags to selection und hinterlege da dann “Kein Duplikat”.
Im Menü „View“ („Ansicht“ nehme ich an?) kannst du die Tagleiste aktivieren (Show/hide tags); es erscheint unter deinem Dokumentenfenster eine hellgraue Leiste. Hier werden fortan die Tags zu jedem Dokument angezeigt; klickst du in die Leiste, kannst du einfach einen neuen Tag eintragen.