Duplikate feststellen

heinzlman · August 29, 2016, 4:14pm

Hallo,
DT zeigt ja ganz toll an, wieviele Duplikate es in einer DB gibt.
Wenn man mal mehrere tausend Texte hat, dann tut man sich doch schwer, die jeweiligen doppelten Dateien zu finden. Konkret habe ich 1800 PDfs in der Datenbank, welche mir ca. 100 doppelte Dateien anzeigt. Da die PDFs unterschiedliche Namen haben können, fällt es mir schwer die jeweilige “unwichtige” PDF zu finden und zu löschen, da manchmal doch in der Dateigröße bei den PDFs Unterschiede sind und ich dann entscheiden möchte, welche der doppelten PDF ich lösche.
Gibt es eine Möglichkeit, die jeweils zusammengehörigen Doppelten anzuzeigen?
Hoffe, ich habe mich verständlich ausgedrückt.
Grüße heinzlman

cgrunenberg · August 31, 2016, 12:24pm

Eine entsprechende Ansicht gibt es bisher nicht. Evtl. hilft es aber, die Duplikate nach Wortanzahl zu sortieren. PDFs mit Text, die als Duplikat markiert sind, sollten nämlich dieselbe Wortanzahl haben.

heinzlman · September 2, 2016, 8:44pm

Danke für die Antwort!
Die Idee hat mir tatsächlich weitergeholfen!!
Ich habe in der Beziehung auch noch eine Hilfe für diesen Fall gefunden.
Wenn man sich die Dateneinträge mit den Pfaden anzeigen lässt und dann sich von einem Eintrag die Informationen aufruft, so kann man sich bei den Instanzen die Pfade der doppelten Dokumente grafisch zeigen lassen und da tut man sich ebenfalls leichter, das passende 2. und doppelte Dokument zu finden.
Wäre ja alles nicht so schlimm, wenn die Dokus wenigstens den gleichen Namen hätten.
Schöne Grüße
heinzlman