Duplikate die keine sind

Hallo,

ich nutze DEVONthink noch nicht sehr lange. Es ist sehr mächtig und trotzdem ich die beiden empfohlenen ebooks gelesen habe (was mir sehr geholfen hat), habe ich doch von Zeit zu Zeit ein Verständnisproblem. Vielleicht könnt Ihr mir helfen.

Auf einer WebSeite die ich regelmässig nutze (Finanzinfos) kann man sich Artikel in PDF ansehen. Nun habe ich diese nach DEVONthink gedruckt und folgendes merkwürdige Verhalten:
Zwei Artikel mit ganz anderem Text werden als Duplikat zu einander erkannt.
Die Artikel sind immer gleich strukturiert:
-Seite 1 Text (sehr unterschiedlich)
-Seite 2 Grafik
-Seite 3+4 Infos (AGB) die immer gleich sind
Bei beiden betroffenen Artikel zeigt er mir auch nur “15 Worte” über der Vorschau an.
Bei anderen Artikel der selben Seite habe ich das Verhalten nicht und hier habe ich auch deutlich mehr Worte (z.B. 300).

Kann ich irgendwo erkennen welche 15 Worte er erkannt hat?
Kann ich eine Neuerkennung anstossen?
Was kann ich tun, um so etwas zu vermeiden? Aktuell hilft mir die Duplikatsfunktion sehr bei der Übernahme meiner Daten nach DEVONthink, so dass Falschmeldungen hier recht störend sind.

Beste Grüße
Ichfunktion

Die Dokumente enthalten vermutlich nur 15 identische Wörter, der restliche, sichtbare Text scheint nicht indizierbar/durchsuchbar zu sein. Ansehen lassen sich die Wörter z.B. durch eine Konvertierung in einen Text oder RTF-Text.

Ich nehme ja auch an, dass er nur 15 Worte erkannt hat.
Das ist aber völlig unverständlich, da dies in allen anderen Fällen ohne Probleme ging (dann sind es in der Regel mehr als 300 Worte).

Für mich ergeben sich daraus 2 konkrete Fragen:

  1. Kann ich nachträglich noch einmal eine Texterkennung anstossen?
  2. Wie kann ich dieses Problem vermeiden? Also was kann die Ursache dafür sein, dass er bei diesem Vorgehen so wenig erkennt?
    Vorgehen:
    -Die Webseite bietet eine Funktion den Artikel in PDF zu sehen
    Aus der PDF Ansicht sende ich dies nach DEVONthink

Vielen Dank
ichfunktion

Das ist per Daten > Konvertieren > In durchsuchbares PDF möglich.

Da dies allein an der Struktur des extern erzeugten PDF-Dokuments liegt, lässt sich das nicht direkt vermeiden.