Scan nach OCR unschärfer als ohne OCR: Muss das so sein?

ich habe hier ein Parkticket eingescannt, einmal mit OCR und einmal ohne OCR, ansonsten mit den gleichen Einstellungen (Farbe, 200 dpi). Die OCR-Version ist leicht unschärfer während die Version ohne OCR gestochen scharf ausfällt. Ist das eine logische Konsequenz der OCR und dem Textlayer oder ist es möglich, dass auch die OCR Version so scharf wird wie die ohne OCR?

Das ist leider eine Unart von DT3.
Du kannst es abmildern/verhindern wenn Du unter Einstellungen - OCR - PDF komprimieren den Haken entfernst.

Verwenden Sie einen Intel- oder M1/M2-Mac? Eventuell ist es dieses Problem:

Intel, MacMini 2018, aktuellstes Betriebssystem.

Das entspricht zumindest meine Erfahrung.

Nur bei DT oder auch bei anderen Scan-OCR-Kombis?

Ne, auch sonst; OCR scheint die Datei nicht einfach nur um eine (ja unsichtbare) Textlayer zu ergänzen, sondern die graphische Darstellung nochmal zu rendern. Warum das so sein muss ist mir unbekannt (in meiner Naivität hätte ich erwartet, dass der Datei einfach nur eine Textlayer hinterlegt wird; vermutlich ist es komplizierter als das).

OCR braucht ein Bild. PDF ist aber keins, sondern nur eine Beschreibung, wo was auf Papier erscheinen soll.
Damit OCR stattfinden kann, muss die Software also erstmal das PDF interpretieren und daraus ein Bild erzeugen. Das macht sie vermutlich unter Annahme einer nicht allzu hohen Auflösung, um Platz und Zeit zu sparen => unscharf. Bzw. weniger scharf als das Resultat des Scanners.

Ohne Schärfeverlust könnte es funktionieren, wenn man zb zu TIFF scannt und das mit OCR behandelt.

1 Like

Hallo, ich kann die Erklärung in Bezug auf die gestellte Frage nicht ganz verstehen. Ausgangspunkt war doch ein Scan eines Parktickets, also ein Bild. Ob das Bild in PDF enthalten ist oder die OCR direkt mit einem Bild gefüttert wird, das Ausgangsmaterial zur Erkennung ist doch schon ein Bild? Die Frage ist ja immer welche genaue Kombination wird verwendet von Scanprogram, DT, und ggf. zusätzliche externe OCR, macOS basierte PDF verarbeitung und derein einstellungen. In der Grundeinstellung hatte ich Scans aus einem Scansnap mit 300 DPI und wenn in DT auf 200 DPI skaliert wurde, entstand dadurch die etwas unschärfere Wahrnehmung bei mir. Aber oben wurde ja benannt das die DPI gleich sind, daher kann ich auch nur die kompression vermuten. Leider sind die Informationen ja sehr ungenau, welche einstellungen genau sich hinter diesem Haken verbinden und welche ABBYY Engine einstellungen dann verwendet werden.

Ein PDF ist kein „Bild“, sondern ein Programm, dessen Ausführung dazu führt, dass an bestimmten Stellen Farbe auf einer (ggfs. virtuellen) Seite erscheint.
OCR kann man nur mit einem (ggfs. virtuellen) Bild machen. Das gilt zb auch für das Vision-Framework von Apple.
Deshalb erzeugt eine OCR-Engine bei Bedarf aus einem PDF erstmal ein Bild, dh farbige Pixel auf einer Seite. Je nach der gewählten Auflösung sieht das Bild dann ein bisschen anders aus und braucht auch unterschiedlich viel Platz im Speicher.
Andererseits kann so ein aus einem PDF erzeugtes Bild dann mehr oder weniger „scharf“ erscheinen. Ändert sich in den Abläufen die Auflösung mehrmals (es wird ja schließlich aus dem Bild wieder ein PDF gemacht), kann das halt unerwünschte Auswirkungen auf die Schärfe haben.
Eine Möglichkeit könnte sein, nicht in ein PDF, sondern ein TIFF zu scannen. Das nutzt eine verlustfreie Komprimierung und ist eben schon ein Bild, dass eine OCR-Engine direkt verarbeiten kann.

Also, das ist eine wiederholung der oben für mich nicht verständlichen texte, mein Einwand war, dass ich nicht denke, dass aus einer PDF die aus einem Scan erzeugt wurde, erst ein Bild generiert wird, sondern ein Bild layer enthalten ist.

Daher sind ja PDFs die einen Scan enthalten im Verhältniss wesentlich größer, als die Art von PDF wie oben beschrieben, die ggf. nur Vektorelemente enthält.

Das Bild ist zwar enthalten, trotzdem muss das PDF erst in ein Pixel-Image konvertiert werden. Das ist keine Glaubensfrage.

Ich tue mich tatsächlich schwer zu glauben, dass bei vorhandenem Bild-Layer noch eine neues Pixelrendering zur Verarbeitung erzeugt wird, dass dann den vorhandenen Layer auch noch automatisch in weniger guter Qualität ersetzt, aber wenn dazu ausreichend Informationen vorliegen, dass alle OCR tools im Markt so arbeiten, muss ich das wohl zur Kenntnis nehmen. Ich kann nicht für mich in Anspruch nehmen ein PDF-Spezialist zu sein. Leider ist es sehr intransparent, wie die ABBYY engine angesteuert wird und für welche presets man sich entschieden hat.

Gibt es eine einschlägige Seite auf der diese Dinge nachzuvollziehen wären ohne, dass ich jetzt Feldforschung betreiben müsste? So eine Art eingängige Zusammenfassung die zu Empfehlen ist. Ich habe vor alle Papierdokumente zu digitalisieren über einen ScanSnap ix1500 und versuche für mich immer noch die vernünftigste Kombination von Program und Einstellung zu finden. Ich habe zusätzlich auch ExactScan erworben und ABBYY Finereader PDF, sowie Hazel. Leider hat ABBYY seit Jahren die versprochene Automation und Komandozeilenoptionen immer noch nicht implementiert. Die interne OCR via ABBYY engine nutzt aber leider kein MRC, weshalb die Dokumente wesentlich größer ausfallen als nötig. Aus dem Diskussionsthread ergibt sich für mich, dass ich noch einiges über PDF lernen sollte, daher die Frage.

PDF ist inzwischen ein ISO-Standard, sodass die Dokumente nur gegen Geld zu bekommen sind. Früher konnte man Bücher darüber kaufen. Ob es die heute noch gibt, weiß ich nicht.

Im Wesentlichen ist PDF dadas Gleiche wie PostScript: eine Sprache, um den Inhalt einer Seite zu beschreiben. Pixel-Bilder sind darin nur ein Teil. Sie enthalten natürlich die Bilddaten, aber in komprimierter Form. Das kann zb TIFF sein (verlustfrei) oder JPG (verlustbehaftet). Und es gibt dazu eine Skalierung.

Beim Scannen entsteht erstmal ein simples1:1 Abbild der Pixel, idR als TIFF. Damit könnte man ohne weiteres OCR machen. Häufig wird das TIFF dann aber in ein PDF gepackt, was technisch wenig Sinn ergibt, wenn man darauf OCR anwenden will.

Die OCR-Software wiederum weiß nicht, dass das PDF lediglich ein Pixel-Bild enthält – es könnte ja auch noch gemalter Text enthalten sein. Deshalb „druckt“ sie das ganze PDF wieder als TIFF (oder irgendein anderes Pixel-Format).

Es könnte also vielleicht sinnvoll sein, nicht zu PDF zu scannen, sondern zu TIFF, und darauf dann OCR anzuwenden.

Mit dem ganzen Kompressionskram habe ich mich nicht beschäftigt. Ist mir im Wesentlichen egal, wie groß die PDFs werden, da ich nur überschaubar viele habe.