Leere Seite Webinhalt in PDF, aufgeräumtes PDF aber gefüllt

Hallo,
habe ein interessantes Problem.
Möchte eine Webseite archivieren, wenn ich diese mit dem “Clip to Devonthink” bei meinem Safari erfasse und PDF auswähle.
Nehme ich PDF normal, sehe ich in der Vorschau alles, speichere ich es, ist die Seite leer.
Wähle ich aufgeräumt mit an, speichert er die Seite komplett.

Leider aber auch ohne Bilder.

Ich habe auch mal Webarchiv ausgewählt, aber da habe ich das Problem, dass wohl ein übergelagertes Fenster für Cookieakzeptierung davor liegt und ich zwar das Bild sehe und die ersten Textzeilen, aber darüber liegt ein Ladekreis der sich dreht.

Dazu sagen möchte ich, dass es sich um eine Seite handelt, die sich erst nach Registrierung/Einloggen sichtbar ist.
Deswegen wollte ich auch PDF wählen, damit ich die ohne nachladen später habe.
Allerdings bräuchte ich auch die Bilder dazu bzw wäre toll.

Gruß
Thomas

Wie genau speichern Sie es denn?

Benutze Clip to Devonthink 3.7.2 für Safari.
Wähle dort dann “Inhalt erfassen aus…” - Safari

Dort dann das Format “PDF” (egal ob eine Seite oder paginiert).
Da wird die Seite leer.

Markiere ich “Aufgeräumt”, dann wird die Seite abgespeichert.

Klappt es nach einem Neustart von DEVONthink oder des Rechners?

Mac komplett neugestartet, Problem besteht trotzdem.

Ich habe es mal auf einer anderes Seite probiert, da klappt alles, werden auch die Bilder mitgenommen etc.

Ich habe die Vermutung, dass es ein Schutz der Seite ist. Ist von Heise+ ein Artikel, den ich gerne mir zum Offline anschauen archivieren wollte.

So oder so ähnlich habe ich das öfter. Ich glaube das es an entweder unsauber aufgesetzten oder “absichtlich” zerstückelten Textframes liegt, damit eben einfach die Texte nicht anderweitig benutzt werden.
Den Weg über ein stetiges ausprobieren aller Sicherungsvarianten ist mir letztenendes zu mühselig und , wie in Ihrem Fall, von wenig Erfolg gekrönt.

Ich gehen dann in die Reader Ansicht von Safari, dann in das Druckmenü uns als pdf zu DT3 sichern. Geht das auch nicht → dann ziehe ein Markierungsfeld nach dem anderen über die jeweiligen Passagen und Gruppiere die Bilder wieder in der Richtigen Reihenfolge zu einer Datei und konvertieren zu pdf und anschließender OCR .

Mit ein paar Regeln an meiner Seite und vorhandenen Skripten klappt das ganz gut. Nur wenn das Textlayout durch die unterschiedliche proportionale Textgröße in Bezug auf die Blattgröße zu sehr schwankt, dann fange ich an den Text tatsächlich in Formate wie Markdown, rtf o.ä. zu basteln.

Ich hoffe ich habe Ihr Anliegen richtig verstanden und konnte helfen.

CU

Genau das habe ich mir auch gedacht. Weil es sich ja auch um kostenpflichtigen Artikel handelt (den ich legal beziehe und für meinen privaten Gebrauch offline benutzen möchte).

Im Grunde geht es mir darum einen Webinhalt der interessant ist zu sichern und jederzeit für mich zugänglich zu haben. Da ich einiges im Elektronikbereich bastel, gibt es auch schon mal Anleitungen die später nicht mehr online sind oder überarbeitet wurden und ich brauche aber noch den “Altstand”.
Deswegen wollte ich mir jetzt angewöhnen, solche Seiten und Inhalte in einer extra Datenbank in DT zu archivieren. Halte dies für mich als einfachste und schnellste Art, statt ein Wiki o.ä. aufzubauen.

Ich werde also wohl nicht darum kommen, bei besonderen Seiten etwas zu “basteln” um diese zu archivieren.
Merkwürdig war für mich nur, dass in der Vorschau ja was gezeigt wurde, aber das dann PDF gerade mal nur 1,2kB hatte.

Danke für die Anregung und die Hilfe.

Ich habe mal geschaut bei “heise”:


Die Druckoption ist doch bei den heise+ Artikeln identisch, oder? Den das Drucklayout ist doch ganz brauchbar oder?

Genau das habe ich gerade auch gemacht :wink:
Hatte auch zuerst nicht das Drucksymbol gesehen.
Abgelegt unter DT3 hat geklappt und ist auch brauchbar.

Kurze Frage noch, kann man irgendwo angeben in welche Datenbank “Save PDF to DEVONthink3” ablegt (habe noch nicht geschaut, aber gerade gesehen, dass er es in eine andere reingelegt hat).

Je nach Voreinstellung (s. Einstellungen > Import) im globalen Eingang oder in der ausgewählten Gruppe.

Gefunden und hat geklappt. Danke


Ich sehe das Thema als erledigt an.
Es gibt wohl Webseiten, die aufgrund ihres internen Aufbaus nicht einfach archiviert werden können.
Ist wohl kein “Fehler” von DT sondern er Absicht von den Webseitenersteller.
In meinem Fall klappte es, wie @AlexD es erklärt hat mit dem Drucken und sollte es andere Seiten geben, dann muss man basteln.

Danke für die Unterstützung

1 Like