- Veröffentlichungsdatum
Lokale KI für die Entwicklung
- Autoren
- Name
- Thomas Waldecker
In diesem Beitrag möchte ich Ihnen zeigen, wie man Lokale KI für die Entwicklung einrichtet.
Benötigte Hardware
Die neuen Mac mit ARM-Prozessoren (M1 oder neuer) sind sehr gut geeignet, da der Arbeitsspeicher sehr schnell ist und die CPU und GPU sich diesen teilen. Leider zahlt man für viel Arbeitsspeicher auch viel Geld.
Ab 16 GB RAM sind brauchbare Modelle gut lauffähig.
Auf einem 8 GB M1 MacBook Pro habe ich auch Modelle starten können, aber man kann halt sonst nicht viel machen und es wird auch schon der Swap benutzt.
Für richtig große Modelle könnten die Macs mit 96 GB oder mehr RAM durchaus interessant sein, denn so viel RAM mit GPUs ist auch sehr teuer.
Auf Windows oder Linux wird eine NVIDIA GPU empfohlen, mit möglichst viel RAM. Aktuell gibt es z.B. für ca. 700 € eine gebrauchte NVIDIA RTX 3090 mit 24 GB RAM.
Software
Um die LLMs herunterzuladen und auszuführen empfehle ich Ollama. Dieses gibt es für Windows, macOS und Linux.
Ollama läuft im Hintergrund. Über die Konsole lädt man die Modelle herunter und spricht sie an.
ollama run llama3.1:8b
VS Code
Für die Entwicklung empfehle ich VS Code mit dem Plugin Continue.
Die Einrichtung geschieht per Konfigurationsdatei:
{
"models": [
{
"model": "qwen2.5-coder:32b-instruct-q4_K_M",
"provider": "ollama",
"title": "qwen2.5-coder:32b-instruct-q4_K_M"
},
{
"model": "mistral-small:24b-instruct-2501-q8_0",
"provider": "ollama",
"title": "mistral-small:24b-instruct-2501-q8_0"
}
],
"tabAutocompleteModel": {
"title": "qwen2.5-coder:3b-instruct-q4_K_M",
"provider": "ollama",
"model": "qwen2.5-coder:3b-instruct-q4_K_M",
},
Lizenzbedingungen der Modelle
Kann man die Modelle im kommerziellen Umfeld einsetzen?
Modell | Lizenz | Kommerzielle nutzung erlaubt ? |
---|---|---|
llama3.1:8b | LLAMA 3.1 COMMUNITY LICENSE AGREEMENT | Ja, mit einschränkung für sehr große Unternehmen |
qwen2.5-coder:32b-instruct-q4_K_M | Apache License 2.0 | Ja |
mistral-small:24b-instruct-2501-q4_K_M | Apache License 2.0 | Ja |
Performance
Die Performance hängt stark von der Hardware und dem verwendeten Modell ab. Hier muss man sich rantasten, was mit seiner Hardware geht.
Hier sind einige Testergebnisse von mir:
Modell | System | Performance |
---|---|---|
llama3.1:8b | Lenovo P14s, AMD Ryzen 7 PRO 7840, 64 GB RAM | ok |
llama3.1:8b | MacBook Pro M1 8GB RAM | gut |
qwen2.5-coder:32b-instruct-q4_K_M | Ryzen 5 3600, RTX 3090 24GB | gut |
mistral-small:24b-instruct-2501-q4_K_M | Ryzen 5 3600, RTX 3090 24GB | gut |
mistral-small:24b-instruct-2501-q8_0 | Ryzen 5 3600, RTX 3090 24GB | schlect |
Bei größeren Modellen ist auch die Quantisierung entscheidend. Das mistral-small:24b hatte mit q8 keine gute Performance. Mit der Quantisierung q4 war die Performance gut.
Falls man eine GPU hat sollte das Modell nicht größer als der GPU Speicher sein und bei ollama ps
sollte 100% GPU stehen.
PS C:\Users\Thomas> ollama ps
NAME ID SIZE PROCESSOR UNTIL
mistral-small:24b-instruct-2501-q4_K_M 8039dd90c113 22 GB 100% GPU 29 minutes from now
Fazit
Mit lokaler KI können durchaus brauchbare Ergebnisse erzielt werden. Die Tools sind einfach zu installieren und auszuprobieren -- falls man die geeignete Hardware hat.
Dadurch, dass die Modelle lokal laufen, können sie auch in kommerziellen Projekten eingesetzt werden, ohne Angst vor Know-How Abfluss.
Ich werde weiter mit lokaler KI arbeiten und werde mich auf neue Modelle und Tools konzentrieren.