Metadaten aus pdf automatisch extrahieren

Liebe DEVON-Thinker,

ich habe mit relativ vielen wissenschaftlichen und halb-wissenschaftlichen papers zu tun, die ich i.d.R. als pdf bekomme. Ich benutze kein Bibliothek-Programm wie z.B. zotero, möchte aber bei allen in Devonthink gespeicherten Dokumenten den Namen der Autorin, den Titel, sowie Erscheinungsort und -datum in den Metadaten speichern. Mit DT4 sollte es für eine KI ja ein Leichtes sein, diese angaben zu extrahieren. Aber ich bin nicht in der Lage, hierfür ein Skript zu schreiben. Könnte mir jemand ggf. helfen?

Ganz herzlichen Dank und viele Grüße in die Runde von Ben

Wenn das PDFs sind, sollten diese Daten nicht schon als Metadaten im PDF selbst stecken? Jedenfalls sieht der Standard all das vor:

So sieht das zb in Vorschau bei mir aus.

Ja, das wäre schön. Aber oft genug bekommt man pdfs, in denen insbesondere Autorennamen, Titel usw. nicht in den Metadaten aufgeführt sind – wie in Deinem Beispiel ja auch. Ich suche nach einem Skript, das genau diese Daten aus dem Text extrahiert und dann in den pdf-Metadaten einträgt. Ich kann das auch per Hand machen – aber das kommt mir im Jahr 2025 etwas altmodisch vor.

Wenn man klare Regeln angeben kann, die solche Daten identifizieren – dann lässt sich das per Script erledigen. Allerdings glaube ich nicht, dass es solche Regeln gibt.
Die nächst beste Variante könnte der DOI sein.
Und “natürlich” AI. Da muss man nur den passenden Prompt schreiben.

Mein Screenshot stammte von einer Bankabrechnung. Deshalb keine Metadaten. Dass wissenschaftliche Artikel 2025 ohne solche Daten kommen, finde ich merkwürdig.

„Altmodisch“ ist nicht gleichbedeutend mit minderwertig. Und KI wirft auch Fragen zum Datenschutz und zur Zweckmäßigkeit von Funktionen auf. Einige Aufgaben könnten von KI übernommen werden, aber es gibt viele Aufgaben, die Sie manuell effizienter und genauer selbst erledigen können. „Altmodisch, aber genau“ ist besser als „neu und ungenau oder fragwürdig“. :slight_smile:

Allerdings lässt sich dies bereits mit dem Skript „Skript anwenden > Extern > Bibliografische Metadaten herunterladen“ erreichen.

(Übersetzt mit DeepL)

1 Like

Das sieht interessant aus. Es stimmt natürlich, dass in vielen Fällen die bibliographischen Metadaten irgendwo hinterlegt sind, aber in der Hektik lade ich sie oft nicht mit herunter. Wenn man auf einschlägigen Portalen (jstor.com, academia.edu, researchgate.net usw.) die Texte als pdf lädt, hat man in der Regel nicht die biblographischen Metadaten automatisch dabei. Man muss sie getrennt laden und z.B. in zotero, endnote o.ä. speichern – Programme, die ich nicht benutze, weil ich nicht streng wissenschaftlich arbeite. (Ich brauche die wiss. Texte i.d.R. zum Verfassen von Radio-Beiträgen.) Ich werde das Skript “Download Bibliographie Metadata” ausprobieren – sieht so aus, als wäre das genau die Lösung, die ich brauche. Danke!

Gern geschehen. Viele Leute haben dieses Skript bereits erfolgreich eingesetzt!