ich suche nach Empfehlungen für eine lokale AI. Was ist besser: Ollama oder LM-Studio? Oder gibt es noch was anderes für lokal?
Es handelt sich um einen Mac mini (2018) mit Intel i3 Quad-Core (3,6 GHz), 16 GB Speicher und 2 TB SSD.
Leider habe ich mit lokalen AI-Modellen bisher keine Erfahrungen.
16 GB Speicher? Ich habe hier einen M3 mit 36 DB und habe lokale AI aufgegeben. Es lohnt mE nicht, sich damit abzuplagen. Da ich ohnehin bisher keinen Bedarf für AI habe, stört mich das auch nicht.
Aber eine sieben Jahre alte CPU mit 16 GB? Damit würde ich es gar nicht erst versuchen.
Wie im Abschnitt „Erste Schritte > KI erklärt“ der integrierten Hilfe und des Handbuchs erwähnt, ist lokale KI möglich, jedoch durch die Hardware begrenzt. Mein letzter Intel-Mac ist letzte Woche kaputt gegangen (Grrrr…), sodass ich das derzeit nicht konkret testen kann, aber ein Apple Silicon Mac mit den Prozessoren der M-Serie und Neural Engine ist für solche Aufgaben ausgelegt.
Was die Größe der Modelle angeht, die Sie vernünftigerweise ausführen können, gilt meiner Faustregel: Sie können ein Modell mit Parametern (in Milliarden) bis zu 50 % des Arbeitsspeichers des Rechners verwenden. Auf einem Rechner mit 16 GB RAM wäre das also 16 * 0,50 = 8, sodass ein Modell mit 8 Milliarden Parametern (oder weniger) problemlos laufen sollte. Bis zu 75 % sind möglich, aber es dauert viel länger und die Wahrscheinlichkeit, dass Ihr Mac abstürzt, steigt rapide an.
PS: Als interessante Randnotiz: Die Neural Engine des M4 kann bis zu 38 Billionen Operationen pro Sekunde verarbeiten.
Moin - ich habe auf meinem Mac Studio M2 32 GB am Wochenende DEVONthink in Verbindung mit Ollama / gpt-oss:20b lokal getestet - läuft ganz gut und mit etwas Geduld. Aber Intel, 16 GB - das wird nicht wirklich Spaß machen.
Wofür? Die Frage entspricht etwa “Ich habe x €, reicht das für eine Eigentumswohnung?” Das reicht vielleicht in der Uckermark, aber nicht in Berlin. Oder es reicht in Berlin nur für eine 1-Zimmer-Wohnung …
@BLUEFROG hat etwas zu den Parametern der Modelle gesagt. Ob Du allerdings mit einem Modell mit 12 Milliarden Parametern glücklich wirst, hängt ua von dem konkreten Modell ab, von Deinen Fragen daran, und davon, ab welcher Wartezeit Du unglücklich wirst. Ich habe die Idee, lokale AI-Modell zu betreiben, jedenfalls ad acta gelegt. Zu viel Aufwand für zu wenig Nutzen. Für mich!
Sie könnten ein 12B-Parametermodell vernünftig ausführen – 16B mit längeren Wartezeiten. Beachten Sie jedoch, dass es sich hierbei immer noch um kleine Modelle handelt, die nicht unbedingt so genaue Ergebnisse liefern wie große oder kommerzielle Modelle.
Ein Hinweis - wenn der Speicher es erlaubt - das Kontext-Fenster auf jeden Fall vergrößern, z.B. auf 16k - warum: 16k token entsprechen - so mein Verständnis - etwa 12.000 Wörtern. Das ist der gesamte Kontext, den das Sprachmodell für seine Antwort verwenden kann - davon geht einiges für Prompt und Werkzeug-Defnitionen drauf - und wenn der Text, den ich analysieren möchte, oder mein Chat-Verlauf nicht mehr in das Kontext-Fenster passen, werden die Antworten schlechter. Bei 128 GB wird auch ein sehr viel größeres Kontext-Fenster funktionieren … Das Kontext-Fenster lässt sich in den Einstellungen konfigurieren
Sie müssten dies in Ihrer Umgebung überprüfen. Ich denke, dass 120B Parameter bei 128 GB RAM zu viel des Guten wären. Außerdem müssten Sie Ihr Kontextfenster verkleinern, wenn Sie es versuchen. 80B wäre angenehmer.