Offline-Archiv enthält nicht mehr die einst abgespeicherten Seiten

darwin · April 5, 2022, 1:27pm

Ich habe vor etwa 5 Jahren mal eine komplette Website eines Projekts, an dem ich mitarbeite mit dem Downloadmanager für eine Archivierung heruntergeladen. Jetzt habe ich versucht, mir die Seite von damals nochmal anzuschauen, weil ich ein paar Texte gebrauchen könnte, aber jedesmal, wenn ich einen der Unterseiten im Archiv aufrufe, erscheint im DT-Browser nur “Die Seite konnte nicht gefunden werden”. Das gesamte Archiv scheint futsch zu sein. Kann das sein oder mache ich was falsch?

cgrunenberg · April 5, 2022, 1:51pm

V.a. hängt es davon ab, was mit welchen Einstellungen heruntergeladen wurde. Bei dynamischen Webseiten, die Daten erst bei Bedarf u.a. per JavaScript nachladen, ist die Archivierung ebenso wie .webarchive-Dateien in der Regel nicht komplett.

Ulli · April 5, 2022, 2:51pm

Wie kann man dieses Problem den umgehen?
Wenn ich eine Website o.ä. als Archiv speichere, dann will ich ja auch den gesamten Inhalt sicher hinterlegt haben, und nicht im Nachhinein feststellen müssen, das möglicherweise wichtige Teile fehlen.

cgrunenberg · April 5, 2022, 2:53pm

Umgehen lässt sich das leider gar nicht, der Download Manager führt weder JavaScript aus noch simuliert er das bei dynamischen Webseiten meistens nötige Benutzerverhalten.

chrillek · April 5, 2022, 3:09pm

Man könnte auf die Idee kommen, einen DOMContentLoaded- oder einen load-Handler zu benutzen, der das komplette DOM sichert.

Allerdings hilft das gar nichts, denn “das komplette DOM” enthält eben auch alle Scripts. Die werden also dabei mitgesichert, sodass sie beim nächsten Laden des Dokuments ggfs. dann aktuelle Inhalte laden.

Die Idee, die Scripts dann einfach nicht zu speichern, führt auch nirgendwo hin. Man kann ja nicht entscheiden, ob die dynamisch Inhalte laden oder eventuell andere Funktionen haben (z.B. das Layout per JavaScript zu modifizieren o.ä.)

Man landet immer wieder bei demselben Punkt: Dynamische Inhalte lassen sich nicht statisch speichern. Wer statisch braucht, muss PDF/MD/Word/whatever benutzen. Wer dynamische Inhalte speichert, muss damit leben, dass er beim nächsten Öffnen etwas anderes zu sehen bekommt.

Übrigens ist ausgerechnet Apples Entwicklerdokumentation ein großartiges Beispiel für dynamische Inhalte: Jede einzelne “Webseite” besteht anfangs aus einem weitgehend leeren Gerüst, das dann per JavaScript mit Inhalten gefüllt wird – und die kommen aus einer Datenbank. Es gibt sicherlich noch weniger sinnvolle Anwendungen für so ein Vorgehen, aber sie sind schwer vorstellbar.

darwin · April 5, 2022, 3:26pm

Das waren statische Seiten, keine dynamischen. Es war ein Universitätsprojekt, keine Werbung, nichts.

cgrunenberg · April 5, 2022, 3:31pm

Ob es an den Einstellungen lag oder an der verwendeten URL, lässt sich natürlich jetzt nicht mehr herausfinden, aber auf dem Bildschirmfoto sind nur Index-Seiten zu sehen, keine weiteren Materialien.

darwin · April 5, 2022, 3:43pm

Ja, das hat mich auch schon gewundert, dass für jeden Artikel ein Ordner angelegt wurde, in dem dann nur diese Index-Seite drin war. Sehr eigenartig. Anyway.