OCR mit Devonthink im Unterschied zu Scansnap

Hallo zusammen,

mir ist bei meinen OCR-Versuchen aufgefallen, dass die OCR-Dateigröße in Devonthink Pro Office ein vielfaches größer ist, als wenn ich die OCR-Verabreitung in Scansnap nutze.

Dokument:
eine DIN A4-Seite Fülltext ausgedruckt auf Papier

Einstellungen für Scansnap:
SCANMODUS:

  • Bildqualität: Beste
  • Farbmodus: Automatische Farberkennung
  • Scan-Seite: Einseitig
  • Automatische Bilddrehung
  • Leere Seiten auslassen
  • Optionen - dort keine Häkchen gesetzt
    DATEIART:
  • In durchsuchbares PDF konvertieren
  • Sprache Deutsch
  • Zielseiten - Alle Seiten
  • Option - mehrseitige PDF-Datei
    PAPIER:
  • Papiergrösse: automatische Erkennung
    DATEIGRÖSSE
  • Komprimierungsrate 3

Einstellungen für OCR mit Devonthink
–> gleiche Scaneinstellungen beim Scanner wie oben, jedoch ohne Häkchen bei “In durchsuchbares PDF konvertieren”
In Devonthink eingestellt:
Eingehende Scans: In durchsuchbares PDF konvertieren
Auflösung: selbe wie Scan
Qualität 100%
Texterkennung: Automatisch
Hauptsprache: Deutsch, keine Zusatzsprache ausgewählt

Der mit Scansnap eingescannte Ausdruck (ohne OCR) hat eine Dateigrösse von rund 460kb

Nach Texterkennung mit Scansnap: Dateigrösse 490kb
Nach Texterkennung mit Devonthink: Dateigrösse 3,1MB

Woher kommt der grosse Unterschied in der Dateigrösse?

Mit ratlosen Grüßen
SMH

Eine Qualität von 100% bedeutet, dass die JPEG-Komprimierung absolut verlustfrei ist. Ausreichend sind normalerweise die voreingestellten 75%. Ein weiterer Grund ist die verwendete OCR-Engine, eine zukünftige Version wird das beheben.

Hallo zusammen,

ich habe das gleiche festgestellt. Was bedeutet eine zukünftige OCR Engine? Wann und in welcher Version wird die integriert werden? Welche OCR-Version von ABBYY wird das sein? Kann man sich die ggf. schon jetzt anschaffen?

Viele Grüße
Daniel

Welche OCR Version wir dann eingesetzt und ist diese dann auch von ABBYY? Wann wird diese Version kommen? Kann man sie jetzt schon irgendwie bekommen?

Derzeit arbeitet DEVONthink Pro Office mit ABBYY OCR v8, die aktuelle v11 ist erst seit kurzem für Drittanbieter verfügbar und eine zukünftige Version von DEVONthink Pro Office wird diese auch einsetzen.

Danke für die Antwort.

Ich wäre bereit mir die neue Version des ABBYY Finereader Pro zu kaufen. Ist es möglich, diese solange möglichst flüssig/automatisch in die Dokumentenerfassung zu integrieren? Gibt es dafür von Seiten Devonthink irgendwelche Erfahrungen/Anleitungen? Ich habe aktuell Files, die 70MB durch Devonthink OCR haben und sobald ich das durch eine Testversion von ABBYY schicke, nur 3 MB für 28 Seiten. Das ist leider nicht sehr befriedigend. Und die Datenqualität ist bei beiden gleich.

Nochmal die Nachfrage - ist dies möglich?

Sie könnten natürlich auch FineReader Pro verwenden und die Dokumente anschließend selbst importieren, allerdings ist eine richtige Automatisierung, d.h. Scannen > OCR > Import, damit vermutlich nicht möglich. Welche Qualitätseinstellungen verwenden Sie denn (s. Einstellungen > OCR)?

Ist in der neuen Version (DT Pro 2.8.3) nun die aktuelle ABBYY v11 enthalten?
Vielen Dank für eine kurze Info
Manfred Jurgovsky

Nein, eine neue OCR-Engine wird Teil eines größeren Upgrades werden.

@gruenenberg: und? wann können wir (Users) mit dem grösseren Update rechnen? … ich warte nämlich auch schon seit einiger Zeit (genauer: seit Jahren!) auf eine bessere, speicherplatzschonenere Version von Abbyy

Definitiv nicht mehr in diesem Jahr.

Ich komme noch einmal auf diesen alten Thread zurück.

Können Sie uns einen aktuellen Stand durchgeben welche Version von Abby zur Zeit im Einsatz ist?
Ich habe immer noch das Gefühl, dass die Größe OCR im Unterschied zu ScanSnap gerade bei größeren Dokumenten erheblich größer ist.

Vielen Dank.

Es ist noch immer dieselbe Version, da wie bereits gesagt erst ein Upgrade, d.h. kein 2.x Maintenance Release, eine neuere Version enthalten wird.