Große Datenbank mit vielen Duplikaten, wie löschen?

Ich habe leider immer noch das Problem, dass DT3 in einer Datenbank definitiv identische Dokumente (PDF+Text) nicht als Duplikat (oder was auch immer als “doppelt”) erkennt.
Kann man den Erkennungsprozess hierzu irgendwie anstoßen?
Ich kann (und will) nicht einige tausend Dateien von Hand prüfen und löschen.
“Datenbank überprüfen & reparieren”, sowie “Datenbank optimieren” haben bisher keinen erfolg gebracht, genauso wenig wie ein schließen, und öffnen der Datenbank.

Nur durch einen Neuaufbau der Datenbank (s. Menü Ablage). Ein vorheriges Backup wäre aber ratsam.

Ich habe die Datenbank neu aufgebaut, aber leider immer noch das Problem, dass ein deutlicher Teil an doppelten PDF´s nicht als solche erkannt werden. Teilweise liegen die Dateien sogar in der gleichen Gruppe.
DT3 macht aber noch andere Dinge, die ich mir derzeit nicht erklären kann. So habe ich gerade die im Bild gezeigten Dateien nochmal in ein “durchsuchbares PDF” umgewandelt (waren vorher schon PDF+Text), weil ich sehen wollte, ob dabei dann die Duplikate erkannt werden.
Die Dateien befanden sich in der Gruppe “Steuer 2015”.
Nach der Konvertierung werden zwar weiter alle vier in der Gruppe angezeigt, nun aber mit dem Ort “Eingang”.
Im Inspektor werden die Dateien nun als Replikanten geführt (ist daher der Dateiname Rot?), aber auch hier wird mir ein Replikat in der Gruppe “Steuer 2015” und einer im “Eingang” vermeldet.
Tatsächlich befinden sich nun in beiden Gruppen alle 4 Dateien.
Irgendwie habe ich den Eindruck, dass die Datenbanken nicht richtig funktionieren, oder welchen Denkfehler habe ich hier schon wieder?!

Haben Sie die Dateien direkt in dieser Gruppe oder in einer intelligenten Gruppe ausgewählt? Im zweiten Fall landen die fertigen Dateien tatsächlich im Eingang.

Werden diese Dateien denn als Duplikate erkannt, wenn Sie beide Kopien in eine neue Datenbank importieren? Ansonsten gibt es wahrscheinlich doch einen Unterschied, z.B. Dateigröße, Seitenanzahl, Titelbild oder indizierter Text.

Die Dateien wurden in einer regulären Gruppe ausgewählt.
Es sollte doch aber beim OCR auch keinen Unterschied machen, oder bedeutete das, wenn ich eine Datei in einer Intelligenten Gruppe durchs OCR laufen lasse, wird sie immer in den Eingang verschoben? Das würde ja überhaupt keinen Sinn machen.
Die Dateien werden auch beim Import in eine andere Datenbank nicht als Duplikate erkannt, sie sind aber, nach meinem Verständnis und dem was der Inspektor über sie anzeigt, absolut identisch!
Der einzige sichtbare Unterschied ist nun, nach dem erneuten OCR, das Datum “Geändert” und der unterschiedliche Pfad, wobei eine der Dateien auch noch einen Anhang “_2.pdf” am Dateinamen am Speicherort hat, der interessanterweise auch nicht in DT3 angezeigt wird?

Ich habe gerade ein weiteres Mal OCR über die 4 Dateien am alten Speicherort laufen lassen.
Nun werden sie als Replikanten, nicht als Duplikate, angezeigt.
Weiterhin werden sie in der Gruppe angezeigt, befinden sich aber der Ortsangabe nach im Eingang. Wechsel ich zwischen den beiden Orten hin und her, sind die Dateien auch an beiden Orten vorhanden.
Verschiebe ich die Dateien aus dem Eingang in den Papierkorb, sind auch die Markierungen als Replikate in der Gruppe wieder verschwunden.
BTW OCR ist so eingestellt, dass Originale in den Papierkorb gelegt werden.
Im Papierkorb habe ich die Dateien jetzt jeweils zwei Mal drinnen, einmal vom OCR gestern Abend, und einmal vom OCR heute morgen. Die eben gerade vom Eingang in den Papierkorb verschobenen Dateien tauchen dort nicht zusätzlich auf.

Die Angaben des Info-Inspektors sind dafür nicht ausreichend. Falls die beiden Dateien an cgrunenberg - at - devon-technologies.com schicken könnten, würde ich mir das Mal ansehen.

Sind unterwegs.
Was kann eine PDF-Datei den noch unterscheiden, was nicht in der Datei, oder den angezeigten Metadaten, sichtbar wäre?

Wie in der Antwort auf Ihre Email erläutert, sind die Dateigrößen nicht identisch und die exaktere Erkennung von Duplikaten vermutlich aktiviert.

Danke für die Mail!
Ja, die exaktere Erkennung ist aktiviert.
Nach dem abschalten werden die Dateien tatsächlich als Duplikate erkannt, wobei ich mich frage, was die zusätzlichen Bytes ausgelöst haben kann, da die Dateien durch DT vervielfältigt wurden.
Gibt es eine Information, welche Kriterien man mit “exaktere Erkennung” an und abschaltet.
Das Problem betrifft ja derzeit einige tausend Dateien, sodaß es mir nicht möglich ist beim abschalten der Funktion diese einzeln zu vergleichen.
Gibt es auch eine Erklärung dafür, warum OCR die Dateien aus der Gruppe in den Eingang zurück verschoben hat?

Sowohl Dateigröße als auch -typ müssen zusätzlich identisch sein.

Hilfreich wäre ein Bildschirmfoto incl. Info-Inspektor vor dem OCR-Ausgang und direkt danach.