Duplikate werden nicht angezeigt

traurig · March 17, 2010, 4:19pm

Habe mehrere doppelte Dateien die aber im Ordner nicht angezeigt werden.
Beispiel siehe screenshot
Der Name ist doch identisch, jedoch wurden sie auf unterschiedlichen Wegen erzeugt.
Einmal gescannt und dann in DTPO mit Texterkennung importiert.
Einmal liegt die Datei direkt als elektronisches PDF vor.

Ist das der Grund ?

Jochen
DTPO2 Duplikat.jpg

traurig · March 17, 2010, 6:41pm

Dass die Dokumente nicht als Duplikat angezeigt wird liegt wohl daran, dass sie unterschiedlich erzeugt wurden, obwohl sie den “gleichen” Inhalt haben. Sie sind also nicht exakt identisch. Der gleiche Dokumentenname spielt keine Rolle.

Wie bekomme ich es nun hin, dass ich ALLE Dokumente aufgelistet bekomme die den gleichen Namen haben, also quasi doppelt sind ?

Jochen

cgrunenberg · March 18, 2010, 5:59am

Die Duplikaterkennung unterstützt nur Inhalte, d.h. verwendet Namen nicht. Allerdings sind die Icons der beiden IEEE 334-1974-Dokumente unterschiedlich, aber ob auch der Text unterschiedlich ist, lässt sich von hier aus nicht beurteilen.

traurig · October 8, 2013, 3:58pm

Hole den Thread mal wieder hoch.

de.wikipedia.org/wiki/August_der_Starke

Obige Seite einmal als PDF und einmal als webarchive in DTPO gespeichert.

Sie wird nicht als Duplikat angezeigt.

Woran lieget es ?

Jochen

cgrunenberg · October 9, 2013, 10:20am

Der indizierte Text der beiden Formate ist nicht identisch, s. unterschiedliche Wortanzahl.

fragenuberfragen · October 9, 2013, 11:59am

…ich hänge mich einmal dran. Ich habe das umgekehrte Problem:

In Einzelfällen wird mir ein Duplikat angezeigt, das aber gar keines ist. Zum Beispiel handelt es sich dann um eine Pages-Datei, die ggfs. ähnlich ist, aber letztlich doch andere Inhalte hat. (siehe Screenshot: Die Dateien Umschlag und Visitenkarte, diese sind Dateien, die zwar auf der gleichen Vorlage basieren, in welche aber unterschiedliche Bilddateien eibgeügt wurden. Das gleiche mit den beiden nicht identischen Bilddateien “stacks-image”, die erkennbar unterschiedlcih sind - anders die Bilddateien “blue-background” und “diag-cut” - diese sind identisch, werden aber korrekt als Duplikat ausgewiesen)

Reihenweise passiert mir das übrigens mit importierten E-Mail. Alle Emails beispielsweise eines Absenders werden grundsätzlich als Duplikat angezeigt, die trotz unterschiedlicher Empfangsdaten tatsächlich standardisierte gleiche Inhalte haben.

traurig · October 9, 2013, 1:41pm

Danke für feedback.

Wir sind als Mensch aber doch einig, dass der Inhalt an sich der gleiche ist ?

AI vergleicht bei Duplikaten nur Wortanzahl ? oder noch was anderes ?
Die Dateigröße kann ja nicht als Kriterium genommen werden da webarchiv deutlich kleiner als PDF ist.

Gibt es da evtl. Strategien wie man Duplikate aufspüren kann auch wenn Wortanzahl nicht exakt identisch ist. Evtl. Dateien die fast ähnlich sind.
Vergleichbare Wortanzahl, vergleichbare Bildinhalte, vergleichbare Stichwörter o.ä ?

Jochen

fragenuberfragen · October 11, 2013, 5:58am

Das können nicht die Kriterien sein, zumindest nicht verlässlich - siehe mein Problem oben, da sind die Inhalte und damit die Wortanzahl identisch. Bei Bilddateien liesse sich beispielsweise auch gar keine Wortanzahl vergleichen

cgrunenberg · October 14, 2013, 9:53am

In diesem Fall den indizierten Text. Dabei wird allerdings nicht vollkommen exakt verglichen, z.B. werden Groß/Kleinschreibung und Leer/Trennzeichen ignoriert.

U.a. per Skripte > Daten > Ähnliche Inhalte finden & entfernen.

cgrunenberg · October 14, 2013, 9:56am

Könnten Sie evtl. ein paar Beispiele an cgrunenberg - at - devon-technologies.com schicken? Danke!

Das ist korrekt, denn nur der Inhalt wird verglichen, die Metadaten wie Absender jedoch nicht.