In diesem Beitrag möchte ich Ihnen zeigen, wie man Lokale KI für die Entwicklung einrichtet.

Benötigte Hardware

Die neuen Mac mit ARM-Prozessoren (M1 oder neuer) sind sehr gut geeignet, da der Arbeitsspeicher sehr schnell ist und die CPU und GPU sich diesen teilen. Leider zahlt man für viel Arbeitsspeicher auch viel Geld.

Ab 16 GB RAM sind brauchbare Modelle gut lauffähig.

Auf einem 8 GB M1 MacBook Pro habe ich auch Modelle starten können, aber man kann halt sonst nicht viel machen und es wird auch schon der Swap benutzt.

Für richtig große Modelle könnten die Macs mit 96 GB oder mehr RAM durchaus interessant sein, denn so viel RAM mit GPUs ist auch sehr teuer.

Auf Windows oder Linux wird eine NVIDIA GPU empfohlen, mit möglichst viel RAM. Aktuell gibt es z.B. für ca. 700 € eine gebrauchte NVIDIA RTX 3090 mit 24 GB RAM.

Software

Um die LLMs herunterzuladen und auszuführen empfehle ich Ollama. Dieses gibt es für Windows, macOS und Linux.

Ollama läuft im Hintergrund. Über die Konsole lädt man die Modelle herunter und spricht sie an.

ollama run llama3.1:8b

VS Code

Für die Entwicklung empfehle ich VS Code mit dem Plugin Continue.

Die Einrichtung geschieht per Konfigurationsdatei:

{
  "models": [
    {
      "model": "qwen2.5-coder:32b-instruct-q4_K_M",
      "provider": "ollama",
      "title": "qwen2.5-coder:32b-instruct-q4_K_M"
    },
    {
      "model": "mistral-small:24b-instruct-2501-q8_0",
      "provider": "ollama",
      "title": "mistral-small:24b-instruct-2501-q8_0"
    }
  ],
  "tabAutocompleteModel": {
    "title": "qwen2.5-coder:3b-instruct-q4_K_M",
    "provider": "ollama",
    "model": "qwen2.5-coder:3b-instruct-q4_K_M",
  },

Lizenzbedingungen der Modelle

Kann man die Modelle im kommerziellen Umfeld einsetzen?

Modell	Lizenz	Kommerzielle nutzung erlaubt ?
llama3.1:8b	LLAMA 3.1 COMMUNITY LICENSE AGREEMENT	Ja, mit einschränkung für sehr große Unternehmen
qwen2.5-coder:32b-instruct-q4_K_M	Apache License 2.0	Ja
mistral-small:24b-instruct-2501-q4_K_M	Apache License 2.0	Ja

Performance

Die Performance hängt stark von der Hardware und dem verwendeten Modell ab. Hier muss man sich rantasten, was mit seiner Hardware geht.

Hier sind einige Testergebnisse von mir:

Modell	System	Performance
llama3.1:8b	Lenovo P14s, AMD Ryzen 7 PRO 7840, 64 GB RAM	ok
llama3.1:8b	MacBook Pro M1 8GB RAM	gut
qwen2.5-coder:32b-instruct-q4_K_M	Ryzen 5 3600, RTX 3090 24GB	gut
mistral-small:24b-instruct-2501-q4_K_M	Ryzen 5 3600, RTX 3090 24GB	gut
mistral-small:24b-instruct-2501-q8_0	Ryzen 5 3600, RTX 3090 24GB	schlect

Bei größeren Modellen ist auch die Quantisierung entscheidend. Das mistral-small:24b hatte mit q8 keine gute Performance. Mit der Quantisierung q4 war die Performance gut.

Falls man eine GPU hat sollte das Modell nicht größer als der GPU Speicher sein und bei ollama ps sollte 100% GPU stehen.

PS C:\Users\Thomas> ollama ps
NAME                                      ID              SIZE     PROCESSOR    UNTIL
mistral-small:24b-instruct-2501-q4_K_M    8039dd90c113    22 GB    100% GPU     29 minutes from now

Fazit

Mit lokaler KI können durchaus brauchbare Ergebnisse erzielt werden. Die Tools sind einfach zu installieren und auszuprobieren -- falls man die geeignete Hardware hat.

Dadurch, dass die Modelle lokal laufen, können sie auch in kommerziellen Projekten eingesetzt werden, ohne Angst vor Know-How Abfluss.

Ich werde weiter mit lokaler KI arbeiten und werde mich auf neue Modelle und Tools konzentrieren.