Duplikate werden nicht mehr angezeigt

Hallo,
Dokument 2 x eingescannt, gleicher Scanner, gleiche Variante, PDF+Text, gleicher Inhalt, Dateigröße um wenige kb anders - Ergebnis:
Beide Dokumente erkennt Devonthink nicht als Dublikat.

Ich werde noch verrückt…

Gruß Peter

Vermutlich ist die exakte Erkennung von Duplikaten aktiviert, s. Einstellungen > Allgemein. Letztlich hängt es auch vom Scanner ab, wie ähnlich die beiden Scans sind.

Hallo und Guten Morgen!

Ich habe die exakte Erkennung ausgeschaltet und trotzdem funktioniert es nicht. Ich meine, dass das mal anders war.
Das Blatt Papier liegt auf dem Flachbett, 2 Scans und am Ende, nach dem Import, haben beide im Eingang unterschiedliche Größen?

Gruß

Mit welcher Software gescannt? Vor oder nach OCR?

Zuerst habe ich mit einem Canon MX725 über das Devonthink-Menü gescannt. Die OCR lief mit der Speicherung aus “Import” zum globalen Eingang also die Software von DT3.
Seit ein paar Wochen habe ich einen SnapScan 1600 und habe dort ca. “20” Varianten, u.a. die Texterkennung gleich mit ScanSnap oder später mit DT3 erledigen zu lassen.

Da ich nun festgestellt habe, dass Dateien mit gleichem Inhalt NICHT als Duplikat erkannt werden, habe ich 2 mal das selbe Dokument gescannt (siehe Satz 1). Die Folge: 2 Dokumente mit dem selben Inhalt und unterschiedlicher Größe 956 kb bzw. 957.5 kb. Nur das 2. mal auf Scannen gedrückt, ohne Veränderung der Einstellungen.

Im Handbuch steht: Dateien mit gleichem Inhalt werden als Duplikate erkannt. Pustekuchen!

Die Dateien sind offensichtlich unterschiedlich, sonst wäre logischerweise die Größe identisch. Ob das am Scanner oder OCR liegt, lässt sich von hier aus nicht beurteilen. Zumindest nicht ohne Beispieldateien.

10 Scans, das selbe Dokument, Scanner Canon MX 725, 300 dpi, Graustufen, OCR mit DT3 (wohl AbbyFR aus DT IMPORT Sicherung Richtung glob. Eingang)

Zehn - ich wiederhole - 10 gleiche große Dateien (1.7 MB) aber mit 427, 428 oder 429 Wörtern, obwohl NICHTS verändert wurde - keine dpi, die Lage auf dem Scanner - alles das selbe.

Und obwohl 5 Dateien auch die gleiche Anzahl an Wörtern haben, werden sie nicht als Duplikate eingefärbt (ist angehakt!!!).

So langsam…
Scan 18.07.2024, 16-01-52 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-02-05 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-02-39 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-02-58 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-03-12 MESZ.pdf (1.6 MB)

Danke! Zwei davon werden hier als Duplikate erkannt, wenn (!) die exakte Erkennung deaktiviert ist. Der Rest ist tatsächlich unterschiedlich, wie eine Konvertierung in Text ergibt, d.h. der Text ist nicht identisch. Vermutlich liefert der Scanner nicht immer exakt dieselbe Bilddatei und das beeinflusst dann den OCR-Vorgang minimal.