Umgang mit Duplikaten

Hallo,
ich habe eine intelligente Gruppe für Duplikate, die ich zur Auffindung dieser verwende. Ich habe bei mehreren, blau unterlegten, Dateien das Gefühl, dass es sich nicht (!) um Duplikate handelt, sondern inhaltlich sehr ähnliche Dokumente (alle PDF). Wie erkennt DT diese? Wie bekomme ich DT klar gemacht, dass es keine Duplikate sind? Kann ich DT davon überzeugen, dass er mir anzeigt, WELCHES Dokument als Duplikat erkannt wird? Wenn man nur 3 Paare hat, mag das ja Spaß machen, Memory zu spielen, aber bei scrollfähigen Listen weniger.

Daher auch meine Frage, ob man bei Duplikaten nicht grundsätzlich die Archivarbeit mehr unterstützen kann, in dem man bei Klick auf ein als Duplikat gekennzeichnetes Dokument
a) das/die Duplikat/e dazu anzeigt (mit Ort),
b) beide parallel scrollbar zur Anzeige bringen kann und
c) sofort die Möglichkeit erhält DAS Original zum Behalten zu markieren und dabei die anderen in den Papierkorb zu schieben.

Ich hoffe nichts übersehen zu haben.
Beste Grüße
Th.

Duplikate werden von der KI erkannt, wenn die Dokumente extrem ähnlich sind. Unterscheiden sich Dokumente nur minimal, z.B. nur durch die Rechnungsnummer, können sie hier unter die Duplikate geraten.

Ist denn der Text der PDF-Dokumente identisch? Das lässt sich z.B. überprüfen per Daten > Konvertieren > in reinen Text.

Vielen Dank für die schnelle Reaktion!
Ich habe folgende Erkenntnis gewonnen:
Zwei offensichtlich als Duplikat eingestufte Dokumente unterscheiden sich in:
a) Anrede (Herr/Frau)
b) Vornamen
c) 2 Ziffern in einer langen Zahl
Ob das repräsentativ ist, weiß ich nicht, aber offensichtlich reicht das der KI für die Entscheidung.

Für mich bleiben aber die Fragen:
Wie kann ich erkennen, welches Dokument als Duplikat erkannt wurde (Zuordnung)?
Wie kann ich DT anweisen, dass es sich nicht um Duplikate handelt?

Unabhängig von meinem Vorschlag für eine Funktionserweiterung zum Umgang mit Duplikaten :smiley:

Beste Grüße und vielen Dank für die Hilfe
Th.

Nachtrag:
3er Duplikat entsteht bei der Verwendung eines Formulars, in dem sich in 3 Jahren jeweils die Jahreszahl und ein Datum bei der Unterschrift (Text, keine Handschrift) unterscheiden. Dateinamen und Größe sind unterschiedlich.

D.h. die konvertierten Texte der beiden Dokumente sind nicht identisch? Oder lassen sich die Dokumente gar nicht in Text konvertieren?

Jetzt wird es interessant.

Es handelt sich dabei um PDF-Dateien, die durchsuchbar sind. Bei Art stand bei 2 Dokumenten “PDF”, also habe ich eine davon konvertiert in durchsuchbare PDF, obwohl diese schon markierbaren Text hatte! Na egal. Jetzt sind sie als Duplikate aus der intelligenten Gruppe verschwunden und wenn ich jetzt diese Datei in der Datenbank ansehe, steht zwar (PDF+Text) als Art, aber der Inhalt ist bis auf ein Firmentext ein weißes Blatt Papier !!! Es ist kein Drama, wenn das nicht rückgängig machbar sein wird, aber es erstaunt mich. Ich werde nun keine Konvertierung mehr durchführen, um der KI auf die Schliche zu kommen.
Das Tripel mit den 3 Behörden-PDFs, die sich im Jahr und Datum unterscheiden haben bereits die Kennzeichnung PDF+Text.

Experimente würde ich jetzt nicht mehr wollen.

Auf meine dringenden 2 Fragen würde ich doch gern eine Antwort haben wollen. Das wäre kein Problem, wenn DT nicht anzeigen kann, welche das Duplikat darstellt und auch nicht, wenn man manuell nicht den Status Duplikat entfernen kann. Dann brauche ich in dieser Version danach nicht mehr suchen …

Vielen Dank!

Könnten Sie evtl. die 3 Dokumente an cgrunenberg - at - devon-technologies.com schicken? Dann lässt sich das am einfachsten herausfinden. Danke!

Der indizierte Texte der 3 Dokumente ist tatsächlich identisch, da PDF-Annotationen (incl. ausgefüllter Formulare) noch nicht indiziert werden.

Nun ist DT Version 3 am Start, die Duplikaterkennung ist aber unverändert, d.h. die oben beschriebenen Probleme sind immer noch da. Gibt es denn nicht auch eine Möglichkeit DT zu sagen: “Hey, das ist kein Duplikat!”? Dann wären diese besonderen Fälle auch manuell entfernbar.

Und noch eine Frage aus dem Initialthema liegt mir am Herzen: Kann man nicht das dazugehörende (erkannte) Duplikat verlinken (ins Kontextmenü, in einer speziellen Duplikatsanzeige, wo auch immer?)? Dann muss man nicht auf die Suche gehen, welches könnte jetzt aus Duplikat erkannt worden sein. Das würde mir sehr helfen. Vielleicht hilft da eine intelligente Regel, aber soweit habe ich das noch nicht durchdrungen.

Meine naiven Vorstellungen bzgl. Duplikate ist so:
Schritt 1: Duplikat gefunden, 1. Dokument, 2. Dokument, x. Dokument
Schritt 2: Anzeigen und manuell vergleichen? (paralleles Scrollen :wink:)
Schritt 3: Entscheiden, a) 1. oder 2. Dokument kann weg, b) beide kennzeichnen als kein Duplikat

Version 3 indiziert tatsächlich PDF-Annotationen, aber dafür müssen ggf. bestehende Datenbanken neu aufgebaut werden (s. Ablage > Neuaufbau der Datenbank…). Zusätzlich gibt es optional auch eine striktere Duplikat-Erkennung (s. Einstellungen).

Die Duplikate werden u.a. alle im Instanzen-Aufklappmenüs des Info-Inspektors/Fensters angezeigt.

Vielen Dank für die Antwort, den Neuaufbau der DB hatte ich in der Tat noch nicht in Betracht gezogen. Das Instanzenfenster ist jetzt auch fest im Blick. Ich kann jetzt meine kleinen Aufgaben besser lösen!

Vielleicht findet mein Vorschlag zum Umgang mit Duplikaten einen Weg in die nächsten Updates.