Wie funktionieren diese neuen AI-Funktionen eigentlich?

Nerdosoph · April 9, 2025, 5:54am

Ich hab’ jetzt mal eine neue Lizenz gekauft und die DT 4 Beta installiert (einfach mal ganz blauäugig) - hat soweit auch funktioniert… aber was genau - und vor allem wie überhaupt - soll denn jetzt die AI da helfen? Also meine ganzen Dokumente sortieren und filtern lassen und so - an sich eine nette Idee, aber das Chat-Fenster ist schlicht ausgegraut. Und ich finde jetzt im Handbuch auch keinen Hinweis darauf, wie man das denn jetzt anschalten sollte. Das wirkt eher wie “Da haste dann jetzt einen Chatbot” - Nö. Hab’ ich anscheinend nicht.

Also - was mache ich da falsch?

cgrunenberg · April 9, 2025, 6:00am

DEVONthink 4 selbst enthält keine generative AI. Zunächst ist es daher nötig, für den bevorzugten Anbieter, z.B. Anthropic, unter Einstellungen > AI > Chat den nötigen API Key einzugeben. Alternativ können auch lokale Modelle verwendet werden, sofern eines der Programme Ollama, LM Studio oder GPT4All installiert ist.

Nerdosoph · May 5, 2025, 4:58am

Ok. Soweit, so gut. Aber: Eigentlich ist es egal, was ich den Chat frage, ich bekomme grundsätzlich die Antwort, dass auf die Dokumente nicht zugegriffen werden kann.

Also, will sagen: Wenn ich jetzt irgendein Dokument meiner Datenbank nehme und schreibe “Fass mir das Dokument zusammen”. kommt immer nur ein “Bitte nenn mir den Titel und den Inhalt des Dokuments”.
Ich erwarte da eigentlich, dass mein Dokument gelesen werden kann (schließlich sind es ja alles OCR-konvertierte PDFs), um dann analysiert zu werden. Alles andere ist einfach nur überflüssiges “Wir haben jetzt auch generative KI”, um auf den Hype-Train aufzuspringen.

cgrunenberg · May 5, 2025, 5:56am

Welches Modell und welcher Prompt kamen zum Einsatz? Speziell bei lokalen oder günstigen kommerziellen Modellen ist ein guter Prompt essentiell.

Nerdosoph · May 5, 2025, 7:05am

Ich experimentiere gerade mit verschiedenen Modellen. Tatsächlich scheinen die lokalen Modelle wenigstens auf die Dokumente zugreifen zu können. Das ist jetzt also gerade eine kleine Abenteuerreise.
Interessant ist: Die lokale Apple Intelligence kann Dokumente sehr viel schneller als alle anderen zusammenfassen (auch wenn sie erstmal maunzt, dass sie nichts erkennt - aber es geht).
Was ich als nächstes ausprobieren werde, ist sowas wie “Fragen zu Dokumenten stellen”. Versicherungsbedingungen z. B. “Ist xyz eigentlich versichert?” Oder ähnliches. Mal sehen, welches Modell da am ehesten hilfreich ist. Aber bisher heißt es halt meistens, dass das Dokument nicht gelesen werden kann oder dass man den Inhalt in den Chat kopieren soll.

chrillek · May 5, 2025, 7:27am

Ich vermute, dass du da bestenfalls für triviale Fragen richtige Antworten bekommst. Diese Modelle sind ja keine gelernten Juristen, sondern auf Statistik aufsetzende Algorithmen.
Wirf mal deinen Mietvertrag in so ein Modell und frag es, wie oft der Mieter sein Bad renovieren muss. Oder seine Küche.

Nerdosoph · May 5, 2025, 7:54am

Deepseek R1 (lokal) beantwortet mir das tatsächlich nach Maßgabe dessen, was im Mietvertrag steht. Auch wenn es interessanterweise manchmal auf Englisch antwortet, auch wenn es Deutsch versteht:
09:50:02

Wie oft muss ich das Bad renovieren?

09:50:30 (assistant)

The contract does not explicitly state how often the bathroom renovation should occur. It mentions “Schönheitsreparaturen” (cosmetic repairs) in Article 3, which refers to minor repairs and cleaning by the tenant, but it doesn’t specify renovation frequency. Renovation schedules are typically left to the landlord’s discretion unless specified otherwise.

09:52:01

Gehört die Küche mir?

09:52:17 (assistant)

The kitchen appears to be included in the rental agreement as part of the leased premises. While ownership of the kitchen (including built-in appliances) typically belongs to the landlord, the tenant is responsible for its use, maintenance, and minor repairs under Article 3 of the lease.

FrankT · May 5, 2025, 8:23am

Die Antworten sind tatsächlich besser als ich erwartet hätte.

Allerdings beachte die Aussage “the kitchen appears” … etwas scheint irgendwie zu sein. Sätze, die so beginnen sind fast immer richtig.

Eindeutiger ist die andere Antwort. Im Vertrag steht nicht ausdrücklich … es könnte aber anderswo stehen und trotzdem gelten. Ein Jurist wüsste das … vielleicht.

Ich will damit nur sagen, Antworten, die präzis klingen, müssen es nicht sein. Menschen kommunizieren dauernd so. Man nennt das Pragmatik. Sie hilft uns, schnell zu verstehen und “Inhalte” abzukürzen. Im besten Fall ist das im Interesse aller.

Aber Pragmatik kann auch gezielt irreführend eingesetzt werden.

Frage: Wo ist Peter?
Antwort: Glaubst du, ich weiss das?

Aus der Antwort schliesst man (pragmatisch), dass diese Person nicht weiss, wo Peter ist. Tatsächlich hat sie aber nichts dergleichen gesagt. Weiss diese Person, wo Peter ist, will es aber nicht sagen, ist diese fragende Antwort perfekt, um nichts zu sagen, aber auch nicht zu lügen.

Ich glaube, dass auch KIs diese “Technik” öfter einsetzten als uns bewusst ist.

chrillek · May 5, 2025, 8:46am

Tja. Es ist eben nicht Sache des Vermieters, über die Häufigkeit der Schönheitsreparaturen zu entscheiden. Das weiß möglicherweise ein Mensch, der sich mit Mietrecht beschäftigt hat. Aber eben kein Algorithmus, der nur Wortfolgen berechnet.

vinschger · June 1, 2025, 4:58pm

du kannst die DTP4 beta kostenlos testen und hierfür verschiedene lokale und auch kommerziellen Online-Modelle ausprobieren…

chrillek · June 1, 2025, 6:59pm

Was erwartest du? Niemand weiß, was du von KI erwartest, welche Daten du hast, in welchem Volumen. Niemand weiß welche Hardware du kaufen könntest.
Wie soll man dir da antworten?

BLUEFROG · June 1, 2025, 6:59pm

Was erfordert einen Apple Silicon Mac, um zu funktionieren? Und selbst wenn jemand sagt, dass etwas auf seinem Rechner funktioniert, sind das nur Anekdoten. Das bedeutet nicht, dass es auf Ihrem Mac genauso (oder überhaupt) funktioniert. Sie müssen einige dieser Dinge selbst herausfinden.

(Übersetzt mit DeepL)

Brainwalker · June 1, 2025, 8:41pm

Hatte schon erwartet, dass es hier nur solche Antworten gibt. Bereits in der ersten Nachricht hatte ich ziemlich klar formuliert, worauf sich meine Frage bezieht. In jedem Forum ist jemand wie chrillek, der direkt aufpoppt, pedantisch auf Interpretationsspielräume achtet, aber null nützliche Informationen liefert. Ich weiß auch, dass Bluefrog zum Mitarbeiterstamm von DT gehört. Aber Leute, lasst mal gut sein.

chrillek · June 1, 2025, 8:54pm

Warten wir einfach ab, welche Erfahrungsberichte eintrudeln.

Nerdosoph · June 2, 2025, 5:19am

Ich habe jetzt ein bisschen herumexperimentieren können.

Also: Es gibt ja verschiedene Möglichkeiten.

Man kann sich API-Keys von einem KI-Anbieter der Wahl holen. Dabei kommt’s ziemlich stark darauf an, was ihr damit vor habt. Das Kontext-Fenster und die Fähigkeiten, die das LLM hat sind da entscheidend.

Dann lassen sich natürlich noch lokale Modelle verwenden. Auch da ist das Kontextfenster entscheidend - aber je größer man das macht, desto mehr Leistung braucht das Modell. Also - mein M1 Pro Macbook kommt da durchaus an Grenzen.

Was “kann” der ganze Bumms jetzt?

Ich habe jetzt mal Mistral online eingebunden (weil DSGVO-konform und die API-Anfragen werden nicht zum Traininig benutzt). Mehrere hundert Seiten Text werden schwierig.
Auch hier: Kontext-Fenster beachten!
Ich habe Mistral selbst mal gefragt, wie viel Text ich ihm zumuten “darf”. Seht selbst:
https://chat.mistral.ai/chat/cb588d90-ddb7-4de8-84e7-c60cf12fa8d6

Aber: Die schätzung ist vermutlich grob übertrieben.
Die 98.304 Wörter mit ungefähr 197 DIN-A4-Seiten führen garantiert zu einem Fehler. Ich habe da mal ein paar Kontoauszüge (die haben ja sehr viele Seiten) von ein paar Monaten reingeworfen und beispielsweise gefragt, wie viel Geld ich denn in dem Monat für eine bestimmte Kategorie ausgegeben habe. Das geht mit einem Monat gut - aber so ein halbes Jahr läuft garantiert auf einen Fehler.

Ich habe reichlich gescannte philosophische Fachliteratur - meist so einzelne Kapitel. Das lässt sich recht gut, wenn auch manchmal etwas zu kurz, zusammenfassen.

Antworten auf Deutsch bekomme ich aktuell nur, wenn ich explizit bei jeder Anfrage vorher mitgebe “antworte auf Deutsch”, sonst kommt die Antwort grundsätzlich immer auf Englisch raus, auch wenn ein deutscher Text analysiert wurde.

Bilder kann der Chat direkt generieren. Dazu wird dann nicht die Dall-E-API genutzt, weil Mistral das ja von sich aus schon kann.

Tagging funktioniert ziemlich zuverlässig. Also: Dokumente in einem ganzen Ordner markieren, Rechtsklick, Tags von Chat hinzufügen - läuft.

Web-Research habe ich noch nicht hinbekommen, auch wenn die Häkchen bei DT4 in den Einstellungen gesetzt sind. Vielleicht muss ich da noch was in der API freigeben, aber ich hatte noch keine Zeit genau danach zu suchen. Das wäre dann an der Stelle vielleicht interessant, wenn man beispielsweise sowas wie medizinische Dokumente oder die Steuererklärung analysieren lässt und das Modell dann etwaige Fachbegriffe erklärt oder mit Web-Quellen hinterlegt. Aber wie gesagt: Das ist für mich noch ein Forschungsfeld, was das Ding alles kann und macht.

Was jetzt cool wäre (gibt es eigentlich ein Beta-Feedback-Forum? Ich bin ehrlich: Ich habe noch nicht danach gesucht), wäre wenn DT4 im Hintergrund schon die Dokumente auf die Größe der maximal möglichen Tokens anpassen und dann mehrere Anfragen in Reihe schicken könnte, um dann das Kontext-Fenster auszunutzen, ohne dass einem die Anfrage um die Ohren fliegt. Also: Wenn ich jetzt 20 Dokumente analysieren will, aber es passen nur fünf ins Kontextfenster, dann müssten die nacheinander in Fünfergruppen geschickt werden können. Aber vielleicht habe ich das mit dem Kontextfenster auch noch nicht so richtig verstanden und es wären am Ende doch zu viele Tokens, weil der gesamte Chatverlauf und alle hinzugefügten Dokumente in die Zahl der Tokens mit einfließen.

Aber: Ich forsche noch weiter daran, wie das alles so funktioniert.

Nerdosoph · June 4, 2025, 6:56pm

Nächster Erfahrungsbericht: Ich habe mal “das Original” also ChatGPT verknüpft. Das Kontextfenster ist zusammen mit Gemini das größte von allen bisher, was es möglich macht, einen ganzen Stapel von Dokumenten analysieren zu lassen (wichtig! Ihr müsst in den Einstellungen das Teilen der Daten mit OpenAI abschalten, damit das nicht zum Training der Modelle verwendet wird - naja, und darauf vertrauen, dass sie sich auch daran halten…).

Also - das ist noch mal ein ganz anderes Level an Analysemöglichkeit. Dokumentenverwaltung auf Steroiden.

cgrunenberg · June 4, 2025, 7:07pm

Zugriffe über die API (wie seitens DEVONthink) werden nicht für das Training verwendet.

o.wegner · June 26, 2025, 5:02pm

Garantiert wer? Ich werde das Gefühl nicht los, dass da gegen Alexa (in Sachen Eingriff in die Privatsphäre) nahezu ein Witz ist.
Ich mache jetzt trotzdem mal das Upgrade und sehe weiter. Aber mit mulmigem Bauchgefühl und abgespecktem Datenbankbestand.

cgrunenberg · June 26, 2025, 5:04pm

Die AI-Anbieter. Wir trainieren keine LLMs.

o.wegner · June 26, 2025, 5:14pm

Das geht dann nur per Pay-per-Use?