Veröffentlichungsdatum

Lokale KI für die Entwicklung

Autoren
  • avatar
    Name
    Thomas Waldecker

In diesem Beitrag möchte ich Ihnen zeigen, wie man Lokale KI für die Entwicklung einrichtet.

Benötigte Hardware

Die neuen Mac mit ARM-Prozessoren (M1 oder neuer) sind sehr gut geeignet, da der Arbeitsspeicher sehr schnell ist und die CPU und GPU sich diesen teilen. Leider zahlt man für viel Arbeitsspeicher auch viel Geld.

Ab 16 GB RAM sind brauchbare Modelle gut lauffähig.

Auf einem 8 GB M1 MacBook Pro habe ich auch Modelle starten können, aber man kann halt sonst nicht viel machen und es wird auch schon der Swap benutzt.

Für richtig große Modelle könnten die Macs mit 96 GB oder mehr RAM durchaus interessant sein, denn so viel RAM mit GPUs ist auch sehr teuer.

Auf Windows oder Linux wird eine NVIDIA GPU empfohlen, mit möglichst viel RAM. Aktuell gibt es z.B. für ca. 700 € eine gebrauchte NVIDIA RTX 3090 mit 24 GB RAM.

Software

Um die LLMs herunterzuladen und auszuführen empfehle ich Ollama. Dieses gibt es für Windows, macOS und Linux.

Ollama läuft im Hintergrund. Über die Konsole lädt man die Modelle herunter und spricht sie an.

ollama run llama3.1:8b

VS Code

Für die Entwicklung empfehle ich VS Code mit dem Plugin Continue.

Die Einrichtung geschieht per Konfigurationsdatei:

{
  "models": [
    {
      "model": "qwen2.5-coder:32b-instruct-q4_K_M",
      "provider": "ollama",
      "title": "qwen2.5-coder:32b-instruct-q4_K_M"
    },
    {
      "model": "mistral-small:24b-instruct-2501-q8_0",
      "provider": "ollama",
      "title": "mistral-small:24b-instruct-2501-q8_0"
    }
  ],
  "tabAutocompleteModel": {
    "title": "qwen2.5-coder:3b-instruct-q4_K_M",
    "provider": "ollama",
    "model": "qwen2.5-coder:3b-instruct-q4_K_M",
  },

Lizenzbedingungen der Modelle

Kann man die Modelle im kommerziellen Umfeld einsetzen?

ModellLizenzKommerzielle nutzung erlaubt ?
llama3.1:8bLLAMA 3.1 COMMUNITY LICENSE AGREEMENTJa, mit einschränkung für sehr große Unternehmen
qwen2.5-coder:32b-instruct-q4_K_MApache License 2.0Ja
mistral-small:24b-instruct-2501-q4_K_MApache License 2.0Ja

Performance

Die Performance hängt stark von der Hardware und dem verwendeten Modell ab. Hier muss man sich rantasten, was mit seiner Hardware geht.

Hier sind einige Testergebnisse von mir:

ModellSystemPerformance
llama3.1:8bLenovo P14s, AMD Ryzen 7 PRO 7840, 64 GB RAMok
llama3.1:8bMacBook Pro M1 8GB RAMgut
qwen2.5-coder:32b-instruct-q4_K_MRyzen 5 3600, RTX 3090 24GBgut
mistral-small:24b-instruct-2501-q4_K_MRyzen 5 3600, RTX 3090 24GBgut
mistral-small:24b-instruct-2501-q8_0Ryzen 5 3600, RTX 3090 24GBschlect

Bei größeren Modellen ist auch die Quantisierung entscheidend. Das mistral-small:24b hatte mit q8 keine gute Performance. Mit der Quantisierung q4 war die Performance gut.

Falls man eine GPU hat sollte das Modell nicht größer als der GPU Speicher sein und bei ollama ps sollte 100% GPU stehen.

PS C:\Users\Thomas> ollama ps
NAME                                      ID              SIZE     PROCESSOR    UNTIL
mistral-small:24b-instruct-2501-q4_K_M    8039dd90c113    22 GB    100% GPU     29 minutes from now

Fazit

Mit lokaler KI können durchaus brauchbare Ergebnisse erzielt werden. Die Tools sind einfach zu installieren und auszuprobieren -- falls man die geeignete Hardware hat.

Dadurch, dass die Modelle lokal laufen, können sie auch in kommerziellen Projekten eingesetzt werden, ohne Angst vor Know-How Abfluss.

Ich werde weiter mit lokaler KI arbeiten und werde mich auf neue Modelle und Tools konzentrieren.