Duplikate werden nicht mehr angezeigt

Pixelghost · July 18, 2024, 5:15am

Hallo,
Dokument 2 x eingescannt, gleicher Scanner, gleiche Variante, PDF+Text, gleicher Inhalt, Dateigröße um wenige kb anders - Ergebnis:
Beide Dokumente erkennt Devonthink nicht als Dublikat.

Ich werde noch verrückt…

Gruß Peter

cgrunenberg · July 18, 2024, 6:33am

Vermutlich ist die exakte Erkennung von Duplikaten aktiviert, s. Einstellungen > Allgemein. Letztlich hängt es auch vom Scanner ab, wie ähnlich die beiden Scans sind.

Pixelghost · July 18, 2024, 6:39am

Hallo und Guten Morgen!

Ich habe die exakte Erkennung ausgeschaltet und trotzdem funktioniert es nicht. Ich meine, dass das mal anders war.
Das Blatt Papier liegt auf dem Flachbett, 2 Scans und am Ende, nach dem Import, haben beide im Eingang unterschiedliche Größen?

Gruß

cgrunenberg · July 18, 2024, 6:48am

Mit welcher Software gescannt? Vor oder nach OCR?

Pixelghost · July 18, 2024, 12:15pm

Zuerst habe ich mit einem Canon MX725 über das Devonthink-Menü gescannt. Die OCR lief mit der Speicherung aus “Import” zum globalen Eingang also die Software von DT3.
Seit ein paar Wochen habe ich einen SnapScan 1600 und habe dort ca. “20” Varianten, u.a. die Texterkennung gleich mit ScanSnap oder später mit DT3 erledigen zu lassen.

Da ich nun festgestellt habe, dass Dateien mit gleichem Inhalt NICHT als Duplikat erkannt werden, habe ich 2 mal das selbe Dokument gescannt (siehe Satz 1). Die Folge: 2 Dokumente mit dem selben Inhalt und unterschiedlicher Größe 956 kb bzw. 957.5 kb. Nur das 2. mal auf Scannen gedrückt, ohne Veränderung der Einstellungen.

Im Handbuch steht: Dateien mit gleichem Inhalt werden als Duplikate erkannt. Pustekuchen!

cgrunenberg · July 18, 2024, 12:37pm

Die Dateien sind offensichtlich unterschiedlich, sonst wäre logischerweise die Größe identisch. Ob das am Scanner oder OCR liegt, lässt sich von hier aus nicht beurteilen. Zumindest nicht ohne Beispieldateien.

Pixelghost · July 18, 2024, 2:17pm

10 Scans, das selbe Dokument, Scanner Canon MX 725, 300 dpi, Graustufen, OCR mit DT3 (wohl AbbyFR aus DT IMPORT Sicherung Richtung glob. Eingang)

Zehn - ich wiederhole - 10 gleiche große Dateien (1.7 MB) aber mit 427, 428 oder 429 Wörtern, obwohl NICHTS verändert wurde - keine dpi, die Lage auf dem Scanner - alles das selbe.

Und obwohl 5 Dateien auch die gleiche Anzahl an Wörtern haben, werden sie nicht als Duplikate eingefärbt (ist angehakt!!!).

So langsam…
Scan 18.07.2024, 16-01-52 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-02-05 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-02-39 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-02-58 MESZ.pdf (1.6 MB)
Scan 18.07.2024, 16-03-12 MESZ.pdf (1.6 MB)

cgrunenberg · July 18, 2024, 2:29pm

Danke! Zwei davon werden hier als Duplikate erkannt, wenn (!) die exakte Erkennung deaktiviert ist. Der Rest ist tatsächlich unterschiedlich, wie eine Konvertierung in Text ergibt, d.h. der Text ist nicht identisch. Vermutlich liefert der Scanner nicht immer exakt dieselbe Bilddatei und das beeinflusst dann den OCR-Vorgang minimal.