Habe mehrere doppelte Dateien die aber im Ordner nicht angezeigt werden.
Beispiel siehe screenshot
Der Name ist doch identisch, jedoch wurden sie auf unterschiedlichen Wegen erzeugt.
Einmal gescannt und dann in DTPO mit Texterkennung importiert.
Einmal liegt die Datei direkt als elektronisches PDF vor.
Dass die Dokumente nicht als Duplikat angezeigt wird liegt wohl daran, dass sie unterschiedlich erzeugt wurden, obwohl sie den “gleichen” Inhalt haben. Sie sind also nicht exakt identisch. Der gleiche Dokumentenname spielt keine Rolle.
Wie bekomme ich es nun hin, dass ich ALLE Dokumente aufgelistet bekomme die den gleichen Namen haben, also quasi doppelt sind ?
Die Duplikaterkennung unterstützt nur Inhalte, d.h. verwendet Namen nicht. Allerdings sind die Icons der beiden IEEE 334-1974-Dokumente unterschiedlich, aber ob auch der Text unterschiedlich ist, lässt sich von hier aus nicht beurteilen.
…ich hänge mich einmal dran. Ich habe das umgekehrte Problem:
In Einzelfällen wird mir ein Duplikat angezeigt, das aber gar keines ist. Zum Beispiel handelt es sich dann um eine Pages-Datei, die ggfs. ähnlich ist, aber letztlich doch andere Inhalte hat. (siehe Screenshot: Die Dateien Umschlag und Visitenkarte, diese sind Dateien, die zwar auf der gleichen Vorlage basieren, in welche aber unterschiedliche Bilddateien eibgeügt wurden. Das gleiche mit den beiden nicht identischen Bilddateien “stacks-image”, die erkennbar unterschiedlcih sind - anders die Bilddateien “blue-background” und “diag-cut” - diese sind identisch, werden aber korrekt als Duplikat ausgewiesen)
Reihenweise passiert mir das übrigens mit importierten E-Mail. Alle Emails beispielsweise eines Absenders werden grundsätzlich als Duplikat angezeigt, die trotz unterschiedlicher Empfangsdaten tatsächlich standardisierte gleiche Inhalte haben.
Wir sind als Mensch aber doch einig, dass der Inhalt an sich der gleiche ist ?
AI vergleicht bei Duplikaten nur Wortanzahl ? oder noch was anderes ?
Die Dateigröße kann ja nicht als Kriterium genommen werden da webarchiv deutlich kleiner als PDF ist.
Gibt es da evtl. Strategien wie man Duplikate aufspüren kann auch wenn Wortanzahl nicht exakt identisch ist. Evtl. Dateien die fast ähnlich sind.
Vergleichbare Wortanzahl, vergleichbare Bildinhalte, vergleichbare Stichwörter o.ä ?
Das können nicht die Kriterien sein, zumindest nicht verlässlich - siehe mein Problem oben, da sind die Inhalte und damit die Wortanzahl identisch. Bei Bilddateien liesse sich beispielsweise auch gar keine Wortanzahl vergleichen
In diesem Fall den indizierten Text. Dabei wird allerdings nicht vollkommen exakt verglichen, z.B. werden Groß/Kleinschreibung und Leer/Trennzeichen ignoriert.
U.a. per Skripte > Daten > Ähnliche Inhalte finden & entfernen.