Ich habe jetzt ein bisschen herumexperimentieren können. 
Also: Es gibt ja verschiedene Möglichkeiten.
Man kann sich API-Keys von einem KI-Anbieter der Wahl holen. Dabei kommt’s ziemlich stark darauf an, was ihr damit vor habt. Das Kontext-Fenster und die Fähigkeiten, die das LLM hat sind da entscheidend.
Dann lassen sich natürlich noch lokale Modelle verwenden. Auch da ist das Kontextfenster entscheidend - aber je größer man das macht, desto mehr Leistung braucht das Modell. Also - mein M1 Pro Macbook kommt da durchaus an Grenzen.
Was “kann” der ganze Bumms jetzt?
Ich habe jetzt mal Mistral online eingebunden (weil DSGVO-konform und die API-Anfragen werden nicht zum Traininig benutzt). Mehrere hundert Seiten Text werden schwierig.
Auch hier: Kontext-Fenster beachten! 
Ich habe Mistral selbst mal gefragt, wie viel Text ich ihm zumuten “darf”. Seht selbst:
https://chat.mistral.ai/chat/cb588d90-ddb7-4de8-84e7-c60cf12fa8d6
Aber: Die schätzung ist vermutlich grob übertrieben. 
Die 98.304 Wörter mit ungefähr 197 DIN-A4-Seiten führen garantiert zu einem Fehler.
Ich habe da mal ein paar Kontoauszüge (die haben ja sehr viele Seiten) von ein paar Monaten reingeworfen und beispielsweise gefragt, wie viel Geld ich denn in dem Monat für eine bestimmte Kategorie ausgegeben habe. Das geht mit einem Monat gut - aber so ein halbes Jahr läuft garantiert auf einen Fehler.
Ich habe reichlich gescannte philosophische Fachliteratur - meist so einzelne Kapitel. Das lässt sich recht gut, wenn auch manchmal etwas zu kurz, zusammenfassen.
Antworten auf Deutsch bekomme ich aktuell nur, wenn ich explizit bei jeder Anfrage vorher mitgebe “antworte auf Deutsch”, sonst kommt die Antwort grundsätzlich immer auf Englisch raus, auch wenn ein deutscher Text analysiert wurde.
Bilder kann der Chat direkt generieren. Dazu wird dann nicht die Dall-E-API genutzt, weil Mistral das ja von sich aus schon kann.
Tagging funktioniert ziemlich zuverlässig. Also: Dokumente in einem ganzen Ordner markieren, Rechtsklick, Tags von Chat hinzufügen - läuft. 
Web-Research habe ich noch nicht hinbekommen, auch wenn die Häkchen bei DT4 in den Einstellungen gesetzt sind. Vielleicht muss ich da noch was in der API freigeben, aber ich hatte noch keine Zeit genau danach zu suchen. Das wäre dann an der Stelle vielleicht interessant, wenn man beispielsweise sowas wie medizinische Dokumente oder die Steuererklärung analysieren lässt und das Modell dann etwaige Fachbegriffe erklärt oder mit Web-Quellen hinterlegt. Aber wie gesagt: Das ist für mich noch ein Forschungsfeld, was das Ding alles kann und macht.
Was jetzt cool wäre (gibt es eigentlich ein Beta-Feedback-Forum? Ich bin ehrlich: Ich habe noch nicht danach gesucht), wäre wenn DT4 im Hintergrund schon die Dokumente auf die Größe der maximal möglichen Tokens anpassen und dann mehrere Anfragen in Reihe schicken könnte, um dann das Kontext-Fenster auszunutzen, ohne dass einem die Anfrage um die Ohren fliegt. Also: Wenn ich jetzt 20 Dokumente analysieren will, aber es passen nur fünf ins Kontextfenster, dann müssten die nacheinander in Fünfergruppen geschickt werden können. Aber vielleicht habe ich das mit dem Kontextfenster auch noch nicht so richtig verstanden und es wären am Ende doch zu viele Tokens, weil der gesamte Chatverlauf und alle hinzugefügten Dokumente in die Zahl der Tokens mit einfließen.
Aber: Ich forsche noch weiter daran, wie das alles so funktioniert. 