Text in pdf markieren

Immer wieder kann ich Text in durchsuchbar gemachten pdfs nicht markieren. Mal geht es, mal geht es nicht. Es ist ärgerlich, denn manchmal übergeben Webseiten bei der pdf-Erstellung nicht den Titel des Artikels, so dass ich dann alles ablesen und von Hand eingeben muss.

Bitte geben Sie mehr Informationen an, z. B. woher die PDF-Datei stammt und eine URL, wenn sie aus dem Internet kopiert wurde. Geben Sie auch an, welche Version von DEVONthink und welches Betriebssystem Sie verwenden.

(Übersetzt mit https://deepl.com)

Danke, ich arbeite mit DT 3.8 Server auf Mac Pro Catalina,

Das Problem tritt momentan auf fast allen Dateien auf, also a) auf umgewandekten Webseiten und b) auf Original-PDF-Dokumenten.
Auch wenn ich die Dokumente durch Doppelklick im großen Viewer öffne, kann ich keinen text markieren.

Hier 2 verschiedene Test-Dateien, mit denen es nicht funktioniert. Beide sind mit PDF+Text markiert und werden als durchsuchbar angezeigt.

Die Abarbeitung von Regeln zum Taggen funktioniert bei diesen Dateien auch nicht.

Die eine PDF-Datei enthält nur 6 Wörter und die andere 540. Also ja, sie haben eine Textebene, nur ohne viel Text. Mit welchem Browser haben Sie diese PDFs erstellt?

Die Datei “Im Feldtest” enthält 6 Seiten voll Text,
die zweite 22 Seiten. Vielleicht hatte die Dropbox das noch nicht ganz synchronisiert.
“Im Feldtest” ist mir per Mail zugesandt worden, die zweite habe ich via Link aus DT To Go importiert und dann in DT zur PDF umgewandelt. Ansonsten arbeite ich mit Safari 15.1

Das mag so aussehen. Aber als Text erkennbar sind nur 6 Wörter. Wie sieht’s denn aus, wenn du die Datei per OCR behandelst?

Dann kommt das:Bildschirmfoto 2021-11-26 um 18.36.30

Tja, das Resultat kann ja kaum schlechter werden… interessant wäre zudem, wie dieses pdf entstanden ist, was es für eine Auflösung hat usw

Wusste nicht, dass es gute und schlechte pfds gibt, jedenfalls kann ich nach dem OCR-Lauf den Text markieren. Das ist aber weitaus nicht bei allen PFDs der Fall. Ich habe mit ca. 20 % der PFDs Schwierigkeiten. Da ich die meisten fertig bekomme, kann ich nicht viel daran ändern. Scheinbar gibt es große Unterschiede bei den Pdf–Generatoren.

PDF ist eine Seitenbeschreibungssprache. Im besten Fall enthält ein PDF tatsächlich Befehle zum Zeichnen von Text usw. Im schlechtesten aber nur ein Bild (z.B. TIFF, JPEG).
Und das hat eben eine bestimmte Auflösung, die möglicherweise nicht gut genug ist für OCR.

Wenn die PDFs immer aus denselben Quellen stammen, könnte es sich vielleicht lohnen, mal mit den Leuten zu reden, die sie herstellen.

Ach ja, ganz vergessen: Wenn die PDF-Datei ein Textlayer enthält, ist alles gut. Das tun viele der heutzutage generierten PDFs. Wenn nicht, muss man halt OCR drüberlaufen lassen. Fun fact: Die Deutsche Telekom verschickt ihre Festnetz-Rechnungen mit, die Mobilfunk-Rechnungen ohne Textlayer.

Sicherlich gibt es Millionen schlechter PDFs auf der Welt. Und ja, es gibt verschiedene Methoden zur Erstellung von PDFs, von denen einige nicht unbedingt zu guten Ergebnissen führen. Ich würde aber auch nicht davon ausgehen, dass eine PDF-Datei schlecht ist. Das ist eine Sache von Fall zu Fall.