RSS-Fragen/-Probleme: Zeitzone(n) und Formate

Ich habe aktuell etwas “Spaß” bei der Umsetzung von Workflows, bei denen ich die RSS-Funktion von DT3 (3.0.1) nutze (bzw nutzen möchte).

Zeitzone

Es scheint, dass die Zeitzonen-Info ignoriert wird und damit der Zeitspempel der RSS-Einträge je nach Feed-Herkunft falsch ist.

Format

Welchen Regeln folgt die Option “Automatisch”? Ich hatte noch keine Zeit, mir das genauer anzusehen, aber es scheint, dass damit einfache HTML- oder WEBLOC-Dateien abgelegt werden, die sich durch ein explizites Setzen des Formats nicht erzeugen lassen. Weiterhin scheint das Format auch zu definieren, was überhaupt als eigenständiger Eintrag des Feeds ankommt bzw. angezeigt wird.
Ein Beispiel wäre der “Aktivitäten”-Feed einer Nextcloud (16.0.5).

Ist das hier der richtige Platz/Weg, um diese Fragen zu diskutieren?

Sofern die Feed-Einträge diese Information enthalten, sollte sie eigentlich verwendet werden. Wie lautet denn die URL des Feeds, sofern öffentlich?

HTML-Seiten werden für alle Einträge mit Inhalt verwendet, ansonsten Bookmarks.

Sofern die Feed-Einträge diese Information enthalten, sollte sie eigentlich verwendet werden. Wie lautet denn die URL des Feeds, sofern öffentlich?

Das lässt sich mit diversen Feeds feststellen.

Ein Beispiel von arstechnica:

	<title>Neurons hide their memories in their imaginary fluctuations</title>
	<pubDate>Sun, 20 Oct 2019 13:00:04 +0000</pubDate>

DT3 setzt den Zeitstempel (Erstellt/Geändert) ohne Berücksichtigung der Zeitzone (+0000) auf 13:00.
Andere RSS-Reader passen die Zeit auf 15:00 an, denn für mich/meine DB gilt ja (aktuell) +2000.

Zu dem anderen Thema brauche ich noch etwas Zeit, um das besser zu beschreiben/vorzubereiten …

Hier nun ein Beipiel für mein Problem mit den RSS-Formaten.
Der “Aktivitäten”-Feed einer nextcloud generiert Einträge à la:

	<item>
		<guid isPermaLink="false">951</guid>
		<title>Du hast Photos/Neuer Ordner gelöscht</title>
		<link>https://nextcloud.domain.tld/apps/files/?dir=/Photos</link>
		<pubDate>Mon, 21 Oct 2019 15:56:11 +0000</pubDate>
	</item>
	<item>
		<guid isPermaLink="false">950</guid>
		<title>Du hast Photos/Neuer Ordner erstellt</title>
		<link>https://nextcloud.domain.tld/apps/files/?dir=/Photos</link>
		<pubDate>Mon, 21 Oct 2019 15:54:56 +0000</pubDate>
	</item>

In der Voreinstellung “Automatisch” erzeugt DT3 daraus WEBLOC-Dateien. Allerdings wird bei der Aktualisierung kein zweiter Eintrag erzeugt, sondern es wird nur der Titel des ersten Eintrags angepasst. Der Zeitstempel bleibt auf dem Wert des ersten/originalen Eintrags.

Dieses Problem taucht nicht auf, wenn ich ein anderes Format auswähle. Allerdings wird das Format nicht angewendet, sondern es werden immer WEBARCHIVE-Datein erstellt.

Und noch eine weitere Frage zu den Formaten: Im Modus “Automatisch” werden ggf. einfache (kleine) HTML-Dateien erzeugt. Dieses Format lässt sich aber nicht explizit setzen. Warum ist das so?

Die Einträge haben weder einen “PermaLink” noch einen unterschiedlichen Link, in so einem Fall erzeugt DEVONthink keine doppelten Bookmarks mit derselben URL.

HTML-Dateien können nur mit Inhalt erzeugt werden, was normalerweise die Option “Automatisch” auch macht. Feeds ohne Inhalt sind eher selten, diese unterstützten auch keine anderen Formate.

Ich versuche mich mal an einer Zusammenfassung:

Format(e)

“Automatisch” erzeugt aus den RSS-Einträgen/Inhalten HTML-Dateien, die sich nicht explizit als Format setzen lassen und Inhalt (z.B. “summary”) erfordern.

Inhaltslose Einträge werden als Bookmarks (WEBLOC) abgelegt. Hierbei dient ausschließlich die URL als Schlüsselfeld. Titel und Datum werden komplett ignoriert. Bei geänderten oder auch komplett neuen Einträgen, deren URL bereits vorhanden ist, wird der Titel des vorhandenen Eintrags “stillschweigend” aktualisiert/überschrieben. Diese Modifikation lässt sich aber nicht erkennen (Änderungsdatum, Gelesen-Markierung o.ä). Es “fehlen” somit Einträge.

Wird statt “Automatisch” ein explizites Format gewählt, so werden alle Einträge importiert/angezeigt. Es entsteht aber immer ein (ungeeignetes) Webarchiv und nicht das angegebene Format (z.B. Formatierte Notiz oder Markdown).

Damit ist meine Idee bzgl. der Nextcloud-Einbindung (und DT3 als vollwertiger/alleiniger RSS-Reader) leider erst einmal gestorben bzw. erfordert eigene Skripte.

Das ist extrem schade, denn gerade auch für die direkte Integration solcher (interner) Kollaborationsplattformen (Nextcloud, Wiki etc.) ist DT3 ja eigentlich prädestiniert:
Hinweise auf relevante Seiten/Inhalte/Dateien via RSS. Direkter Zugriff via integriertem Browser inkl. Optionen zur Sortierung/Einordnung, Anreicherung und Datenübernahme (Verschlagwortung, ToDo, Erinnerung, Wiedervorlage).

Ich sehe das allerdings auch als generelles Problem, denn ein Abonnent habe ja keinerlei Einfluss auf die “Qualität” eines angebotenen Feeds und die “Automagie” führt ggf. zu falschen/fehlenden Einträgen in der DB.

Zeitstempel

Bug (zumindest kenne ich keinen anderen RSS-Reader mit diesem Verhalten). Antwort steht aber noch aus.

Das Änderungsdatum wird nur aktualisiert, wenn sich Inhalte ändern. Dies ist bei Bookmarks nie der Fall.

Das Änderungsdatum wird nur aktualisiert, wenn sich Inhalte ändern. Dies ist bei Bookmarks nie der Fall.

Dann ist ein Bookmark kein wirklich geeignetes Format für die Einträge eines RSS-Feeds. Aber das ist hier ja gar nicht das Thema. Es geht um die falsche Anzeige des Datums, weil die Zeitzoine nicht berücksichtigt wird. (s.o.)

Ergänzung: Die Art der RSS-Verarbeitung führt nicht nur zur möglichem “Informationsverlust” sondern auch zu unnötiger Verdoppelung von Einträgen.
Ein konkretes Beispiel ist der feed von t3n. Die Artikel und auch Titel werden gerne und häufig überarbeitet. DT3 erzeugt dann jeweils einen neuen Eintrag, andere RSS-Reader markieren den Eintrag lediglich als geändert, da der Match über die “guid” des Eintrag erfolgt und DT3 die “guid” ignoriert oder nicht hoch genug “bewertet”.

DT3-RSS liefert also mal zu viel und mal zu wenig, unterm Strich also ausgeglichen. :wink:

Wie lautet denn die URL des Feeds? Die GUID wird momentan nur genutzt, wenn es sich um einen Permalink handelt.

Nimm diesen hier und “beobachte” das mal. Das Überarbeiten machen sie gerne und häufig, es sollte also nicht allzu lange dauern: http:/ /t3n .de /rss.xml

Danke für den Link! Die nächste Version wird dies verbessern.

Danke für den Link! Die nächste Version wird dies verbessern.

Prima! Ich bin gespannt und evtl. löst z.B. eine angepasste Verarbeitung von “guid” auch zusätzlich noch das Problem der “fehlenden” Einträge. :wink: