Hallo,
habe ein interessantes Problem.
Möchte eine Webseite archivieren, wenn ich diese mit dem “Clip to Devonthink” bei meinem Safari erfasse und PDF auswähle.
Nehme ich PDF normal, sehe ich in der Vorschau alles, speichere ich es, ist die Seite leer.
Wähle ich aufgeräumt mit an, speichert er die Seite komplett.
Leider aber auch ohne Bilder.
Ich habe auch mal Webarchiv ausgewählt, aber da habe ich das Problem, dass wohl ein übergelagertes Fenster für Cookieakzeptierung davor liegt und ich zwar das Bild sehe und die ersten Textzeilen, aber darüber liegt ein Ladekreis der sich dreht.
Dazu sagen möchte ich, dass es sich um eine Seite handelt, die sich erst nach Registrierung/Einloggen sichtbar ist.
Deswegen wollte ich auch PDF wählen, damit ich die ohne nachladen später habe.
Allerdings bräuchte ich auch die Bilder dazu bzw wäre toll.
So oder so ähnlich habe ich das öfter. Ich glaube das es an entweder unsauber aufgesetzten oder “absichtlich” zerstückelten Textframes liegt, damit eben einfach die Texte nicht anderweitig benutzt werden.
Den Weg über ein stetiges ausprobieren aller Sicherungsvarianten ist mir letztenendes zu mühselig und , wie in Ihrem Fall, von wenig Erfolg gekrönt.
Ich gehen dann in die Reader Ansicht von Safari, dann in das Druckmenü uns als pdf zu DT3 sichern. Geht das auch nicht → dann ziehe ein Markierungsfeld nach dem anderen über die jeweiligen Passagen und Gruppiere die Bilder wieder in der Richtigen Reihenfolge zu einer Datei und konvertieren zu pdf und anschließender OCR .
Mit ein paar Regeln an meiner Seite und vorhandenen Skripten klappt das ganz gut. Nur wenn das Textlayout durch die unterschiedliche proportionale Textgröße in Bezug auf die Blattgröße zu sehr schwankt, dann fange ich an den Text tatsächlich in Formate wie Markdown, rtf o.ä. zu basteln.
Ich hoffe ich habe Ihr Anliegen richtig verstanden und konnte helfen.
Genau das habe ich mir auch gedacht. Weil es sich ja auch um kostenpflichtigen Artikel handelt (den ich legal beziehe und für meinen privaten Gebrauch offline benutzen möchte).
Im Grunde geht es mir darum einen Webinhalt der interessant ist zu sichern und jederzeit für mich zugänglich zu haben. Da ich einiges im Elektronikbereich bastel, gibt es auch schon mal Anleitungen die später nicht mehr online sind oder überarbeitet wurden und ich brauche aber noch den “Altstand”.
Deswegen wollte ich mir jetzt angewöhnen, solche Seiten und Inhalte in einer extra Datenbank in DT zu archivieren. Halte dies für mich als einfachste und schnellste Art, statt ein Wiki o.ä. aufzubauen.
Ich werde also wohl nicht darum kommen, bei besonderen Seiten etwas zu “basteln” um diese zu archivieren.
Merkwürdig war für mich nur, dass in der Vorschau ja was gezeigt wurde, aber das dann PDF gerade mal nur 1,2kB hatte.
Genau das habe ich gerade auch gemacht
Hatte auch zuerst nicht das Drucksymbol gesehen.
Abgelegt unter DT3 hat geklappt und ist auch brauchbar.
Kurze Frage noch, kann man irgendwo angeben in welche Datenbank “Save PDF to DEVONthink3” ablegt (habe noch nicht geschaut, aber gerade gesehen, dass er es in eine andere reingelegt hat).
Ich sehe das Thema als erledigt an.
Es gibt wohl Webseiten, die aufgrund ihres internen Aufbaus nicht einfach archiviert werden können.
Ist wohl kein “Fehler” von DT sondern er Absicht von den Webseitenersteller.
In meinem Fall klappte es, wie @AlexD es erklärt hat mit dem Drucken und sollte es andere Seiten geben, dann muss man basteln.