mir ist bei meinen OCR-Versuchen aufgefallen, dass die OCR-Dateigröße in Devonthink Pro Office ein vielfaches größer ist, als wenn ich die OCR-Verabreitung in Scansnap nutze.
Dokument:
eine DIN A4-Seite Fülltext ausgedruckt auf Papier
Einstellungen für Scansnap:
SCANMODUS:
Bildqualität: Beste
Farbmodus: Automatische Farberkennung
Scan-Seite: Einseitig
Automatische Bilddrehung
Leere Seiten auslassen
Optionen - dort keine Häkchen gesetzt
DATEIART:
In durchsuchbares PDF konvertieren
Sprache Deutsch
Zielseiten - Alle Seiten
Option - mehrseitige PDF-Datei
PAPIER:
Papiergrösse: automatische Erkennung
DATEIGRÖSSE
Komprimierungsrate 3
Einstellungen für OCR mit Devonthink
–> gleiche Scaneinstellungen beim Scanner wie oben, jedoch ohne Häkchen bei “In durchsuchbares PDF konvertieren”
In Devonthink eingestellt:
Eingehende Scans: In durchsuchbares PDF konvertieren
Auflösung: selbe wie Scan
Qualität 100%
Texterkennung: Automatisch
Hauptsprache: Deutsch, keine Zusatzsprache ausgewählt
Der mit Scansnap eingescannte Ausdruck (ohne OCR) hat eine Dateigrösse von rund 460kb
Nach Texterkennung mit Scansnap: Dateigrösse 490kb
Nach Texterkennung mit Devonthink: Dateigrösse 3,1MB
Woher kommt der grosse Unterschied in der Dateigrösse?
Eine Qualität von 100% bedeutet, dass die JPEG-Komprimierung absolut verlustfrei ist. Ausreichend sind normalerweise die voreingestellten 75%. Ein weiterer Grund ist die verwendete OCR-Engine, eine zukünftige Version wird das beheben.
ich habe das gleiche festgestellt. Was bedeutet eine zukünftige OCR Engine? Wann und in welcher Version wird die integriert werden? Welche OCR-Version von ABBYY wird das sein? Kann man sich die ggf. schon jetzt anschaffen?
Derzeit arbeitet DEVONthink Pro Office mit ABBYY OCR v8, die aktuelle v11 ist erst seit kurzem für Drittanbieter verfügbar und eine zukünftige Version von DEVONthink Pro Office wird diese auch einsetzen.
Ich wäre bereit mir die neue Version des ABBYY Finereader Pro zu kaufen. Ist es möglich, diese solange möglichst flüssig/automatisch in die Dokumentenerfassung zu integrieren? Gibt es dafür von Seiten Devonthink irgendwelche Erfahrungen/Anleitungen? Ich habe aktuell Files, die 70MB durch Devonthink OCR haben und sobald ich das durch eine Testversion von ABBYY schicke, nur 3 MB für 28 Seiten. Das ist leider nicht sehr befriedigend. Und die Datenqualität ist bei beiden gleich.
Sie könnten natürlich auch FineReader Pro verwenden und die Dokumente anschließend selbst importieren, allerdings ist eine richtige Automatisierung, d.h. Scannen > OCR > Import, damit vermutlich nicht möglich. Welche Qualitätseinstellungen verwenden Sie denn (s. Einstellungen > OCR)?
@gruenenberg: und? wann können wir (Users) mit dem grösseren Update rechnen? … ich warte nämlich auch schon seit einiger Zeit (genauer: seit Jahren!) auf eine bessere, speicherplatzschonenere Version von Abbyy
Ich komme noch einmal auf diesen alten Thread zurück.
Können Sie uns einen aktuellen Stand durchgeben welche Version von Abby zur Zeit im Einsatz ist?
Ich habe immer noch das Gefühl, dass die Größe OCR im Unterschied zu ScanSnap gerade bei größeren Dokumenten erheblich größer ist.