Empfehlung für lokale AI

Peter_Schulze · September 18, 2025, 12:56pm

Hallo,

ich suche nach Empfehlungen für eine lokale AI. Was ist besser: Ollama oder LM-Studio? Oder gibt es noch was anderes für lokal?
Es handelt sich um einen Mac mini (2018) mit Intel i3 Quad-Core (3,6 GHz), 16 GB Speicher und 2 TB SSD.
Leider habe ich mit lokalen AI-Modellen bisher keine Erfahrungen.

Danke vorab.

chrillek · September 18, 2025, 1:02pm

16 GB Speicher? Ich habe hier einen M3 mit 36 DB und habe lokale AI aufgegeben. Es lohnt mE nicht, sich damit abzuplagen. Da ich ohnehin bisher keinen Bedarf für AI habe, stört mich das auch nicht.

Aber eine sieben Jahre alte CPU mit 16 GB? Damit würde ich es gar nicht erst versuchen.

BLUEFROG · September 18, 2025, 4:28pm

Wie im Abschnitt „Erste Schritte > KI erklärt“ der integrierten Hilfe und des Handbuchs erwähnt, ist lokale KI möglich, jedoch durch die Hardware begrenzt. Mein letzter Intel-Mac ist letzte Woche kaputt gegangen (Grrrr…), sodass ich das derzeit nicht konkret testen kann, aber ein Apple Silicon Mac mit den Prozessoren der M-Serie und Neural Engine ist für solche Aufgaben ausgelegt.

Was die Größe der Modelle angeht, die Sie vernünftigerweise ausführen können, gilt meiner Faustregel: Sie können ein Modell mit Parametern (in Milliarden) bis zu 50 % des Arbeitsspeichers des Rechners verwenden. Auf einem Rechner mit 16 GB RAM wäre das also 16 * 0,50 = 8, sodass ein Modell mit 8 Milliarden Parametern (oder weniger) problemlos laufen sollte. Bis zu 75 % sind möglich, aber es dauert viel länger und die Wahrscheinlichkeit, dass Ihr Mac abstürzt, steigt rapide an.

PS: Als interessante Randnotiz: Die Neural Engine des M4 kann bis zu 38 Billionen Operationen pro Sekunde verarbeiten.

(Übersetzt mit DeepL)

axelbuehler · September 18, 2025, 6:53pm

Moin - ich habe auf meinem Mac Studio M2 32 GB am Wochenende DEVONthink in Verbindung mit Ollama / gpt-oss:20b lokal getestet - läuft ganz gut und mit etwas Geduld. Aber Intel, 16 GB - das wird nicht wirklich Spaß machen.

BLUEFROG · September 18, 2025, 7:07pm

Schön! Und das ergibt 62,5 % Parameter für den Arbeitsspeicher.

DTPer · September 21, 2025, 9:35am

Bei den Zahlen hier blicke ich nicht ganz durch. Ich habe einen MacBook Air M2 mit 24 GB Speicher. Wäre das ausreichend?

chrillek · September 21, 2025, 10:33am

Wofür? Die Frage entspricht etwa “Ich habe x €, reicht das für eine Eigentumswohnung?” Das reicht vielleicht in der Uckermark, aber nicht in Berlin. Oder es reicht in Berlin nur für eine 1-Zimmer-Wohnung …

@BLUEFROG hat etwas zu den Parametern der Modelle gesagt. Ob Du allerdings mit einem Modell mit 12 Milliarden Parametern glücklich wirst, hängt ua von dem konkreten Modell ab, von Deinen Fragen daran, und davon, ab welcher Wartezeit Du unglücklich wirst. Ich habe die Idee, lokale AI-Modell zu betreiben, jedenfalls ad acta gelegt. Zu viel Aufwand für zu wenig Nutzen. Für mich!

BLUEFROG · September 21, 2025, 1:40pm

Sie könnten ein 12B-Parametermodell vernünftig ausführen – 16B mit längeren Wartezeiten. Beachten Sie jedoch, dass es sich hierbei immer noch um kleine Modelle handelt, die nicht unbedingt so genaue Ergebnisse liefern wie große oder kommerzielle Modelle.

cgrunenberg · September 21, 2025, 3:36pm

Bei kleinen Modellen ist obendrein die Unterstützung für internationale Sprachen meistens stark eingeschränkt.

BLUEFROG · September 21, 2025, 5:18pm

Ja, es gibt sicherlich Kompromisse und Mängel bei lokaler KI, insbesondere bei kleineren Modellen.

DTPer · September 22, 2025, 6:08am

Danke für eure Antwort! Das scheint im Moment also nichts für mich zu sein und ich kann es abhaken. Danke!

jcromwell · September 25, 2025, 12:40pm

Ich verwende Ollama/gpt-oss:20b auf einem Mac Studio M1 Ultra 128 GB und bin sehr beeindruckt davon.

cgrunenberg · September 25, 2025, 1:26pm

Zwischen einem solchen Rechner und einem Intel Mac mini mit 16 GB von 2018 liegen allerdings auch Welten

axelbuehler · September 25, 2025, 1:28pm

Ein Hinweis - wenn der Speicher es erlaubt - das Kontext-Fenster auf jeden Fall vergrößern, z.B. auf 16k - warum: 16k token entsprechen - so mein Verständnis - etwa 12.000 Wörtern. Das ist der gesamte Kontext, den das Sprachmodell für seine Antwort verwenden kann - davon geht einiges für Prompt und Werkzeug-Defnitionen drauf - und wenn der Text, den ich analysieren möchte, oder mein Chat-Verlauf nicht mehr in das Kontext-Fenster passen, werden die Antworten schlechter. Bei 128 GB wird auch ein sehr viel größeres Kontext-Fenster funktionieren … Das Kontext-Fenster lässt sich in den Einstellungen konfigurieren

axelbuehler · September 25, 2025, 1:37pm

und: mit 128 GB solltest Du in der Lage sein, das große Modell laufen zu lassen gpt-oss-120b (braucht angeblich 80GB RAM)

BLUEFROG · September 25, 2025, 3:13pm

Sie müssten dies in Ihrer Umgebung überprüfen. Ich denke, dass 120B Parameter bei 128 GB RAM zu viel des Guten wären. Außerdem müssten Sie Ihr Kontextfenster verkleinern, wenn Sie es versuchen. 80B wäre angenehmer.