OCR, Fraktur und PDF-Umwandlung

himmelberg · February 7, 2008, 9:13am

Servus ein abermal,

gibt es einen Workaround, um DTOs Texterkennung zu verbessern oder zu trainieren? Konkret habe ich diese an einem PDF eines Zeitungsartikels vor dem Ersten Weltkrieg getestet, der in Fraktur gesetzt ist. Wenn ich es richtig sehe, ist die Texterkennung vom Hersteller Iris. Sie versagt kläglich.

Gibt es zweitens eine Möglichkeit Web-Dokumente anstatt in RTF ind PDF zu konvertieren - noch besser on the fly? Ich habe bisher nichts gefunden. Vorher jedes Mal die PDF-Funktion des Systems zu benutzen, ist arg umständlich.

Schönen Dank vorab.

Servus
Gerda

cgrunenberg · February 7, 2008, 9:26am

Das Script aus diesem Thread (http://www.devon-technologies.com/phpBB2/viewtopic.php?p=26652) sollte das vereinfachen.

himmelberg · February 7, 2008, 10:48am

Servus Herr Grunenberg,

das ging aber schnell. Sehr charmant. Herzlichen Dank für den Hinweis.

Grüße

Gerda Holzapfel