Mistral Small 3.1 lokal auf RTX 4090 — mein aktuelles Setup mit echten Zahlen
Wie ich Mistral Small 3.1 auf einer RTX 4090 betreibe — inkl. socket-activation, Latenzen, Token-Throughput und ehrlichem Kostenvergleich zu OpenAI/Anthropic. Schritt-für-Schritt.
Setup-Übersicht
- Hardware: RTX 4090 (24 GB VRAM) in einem selbst konfigurierten Workstation-Gehäuse, 64 GB RAM, AMD Ryzen 9 7950X
- OS: Ubuntu 24.04 LTS, NVIDIA-Driver 565, CUDA 12.4
- Inferenz: vLLM 0.7 mit Mistral Small 3.1 (24 B, bfloat16, ~46 GB → quantisiert auf AWQ 8-bit, ~12 GB VRAM)
- Zweit-Modell: Codestral 22B (AWQ 4-bit, ~6 GB VRAM) — parallel ladbar für Code-Workflows
- Frontend: Open-WebUI als Chat-Interface, plus direkter API-Zugriff für Tools
- Aktivierung: systemd socket-activation — GPU-Service startet bei Bedarf, fährt nach 10 Min idle wieder runter
Das Setup entspricht meinem KI-Werkstatt-M-Paket (8.999 € Komplettpreis, RTX 4090 · 128 GB RAM) — die Zahlen hier sind aus meinem privaten Test-System, das auf 64 GB RAM beschränkt ist.
Latenzen (gemessen)
- Time-to-first-Token: ~0,3 s (cold-start: ~8 s einmalig nach Idle-Aufwachen)
- Throughput: ~85 Token/Sekunde bei einem Stream
- Parallele Streams: bis 6 ohne spürbaren Performance-Einbruch
- Kontext: bis 128 k Token (Mistral Small 3.1 nativ)
Vergleich: GPT-4o liegt typischerweise bei 50–80 Token/s, Claude Sonnet 4.6 bei ~100 Token/s. Mistral Small 3.1 auf einer RTX 4090 ist also spürbar im selben Bereich — und für Dokument-Zusammenfassung, RAG, Email-Drafting, Vertrags-Analyse mehr als ausreichend.
Kosten — die ehrliche Rechnung
Variante A — gemietet auf meinen Werkstatt-Servern (Deutschland): dedizierter GPU-Server ab ~200 €/Monat inkl. Strom, Netz, Backup, stacks-panel. Mit socket-activation und realistischer Last (werktags, ~5 h aktiv) sinkt das auf ~30–50 €/Monat effektiv, weil die GPU zwischen den Anfragen schläft.
Variante B — eigene Hardware im Haus (KI-Werkstatt M, 8.999 € einmalig): amortisiert sich bei typischer KMU-Nutzung (10–30 Mitarbeiter) nach 18–30 Monaten gegenüber ChatGPT-Enterprise (~20 €/User/Monat = 200–600 €/Monat).
Vergleichbare OpenAI-Kosten: bei realer Nutzung in einem Team (~10 Mitarbeiter, ~3 M Token/Monat, davon 1 M Output) wären es bei GPT-4o etwa 60–90 USD/Monat, bei Claude Sonnet 4.6 etwa 80–110 USD/Monat.
→ Fazit: Für Solo-Betrieb ist on-prem etwa gleichauf mit OpenAI. Bei einer Firma mit 10–30 Nutzer:innen kippt das Verhältnis klar zugunsten on-prem — und die Datensouveränitäts-Vorteile kommen kostenlos dazu. Ab 50+ Mitarbeiter:innen ist die KI-Werkstatt-L-Variante (RTX A6000 Ada, 17.999 €) wirtschaftlich ein No-Brainer.
Schritt-für-Schritt
- Hardware bestellen oder Werkstatt-GPU-Server mieten (bei mir: 200 €/Monat, socket-activated ab 30 €).
- Ubuntu 24.04 + NVIDIA-Driver 565 + CUDA 12.4 installieren.
- vLLM 0.7 via pip:
pip install "vllm[awq]". - Mistral Small 3.1 von HuggingFace laden:
huggingface-cli download mistralai/Mistral-Small-3.1-24B-Instruct-2503. - AWQ-Quantisierung mit autoawq (optional, für RAM-Einsparung):
python -m autoawq.quantize ...(Anleitung im Repo). - systemd-Socket-Unit für Auto-Sleep (Template schicke ich gerne auf Anfrage).
- Caddy als Reverse-Proxy mit TLS — fertig.
Komplettes Setup-Script ist Teil meiner Lokale-KI-Lieferung und der KI-Werkstatt-Hardware-Pakete.
Warum Mistral Small 3.1 und nicht Llama 3.3?
Beides sind gute Modelle. Mein Pragmatismus:
- Mistral Small 3.1 hat 128 k Kontext nativ, Llama 3.3 nur 8 k (ohne Tricks). Für RAG und lange Dokumente ist das entscheidend.
- EU-Herkunft (Mistral AI sitzt in Paris) passt zur Cloud-Exit-Positionierung der Werkstatt — das ist kein Muss, aber Kunden fragen danach.
- Codestral als Code-Spezialist aus der gleichen Familie — gleiche Tokenizer-Logik, einfacheres Multi-Modell-Setup.
- Voxtral (Voice-to-Text) rundet den Stack nach unten ab.
Llama 3.3 bleibt als Fallback im Werkzeugkasten — falls ein Kunde speziell eine US-Offene-Gewichts-Wahl braucht oder wir spezielle Fine-Tunes auf Llama-Basis finden.
Wann lohnt sich das nicht?
- Unter 50 k Token/Monat → ChatGPT Plus reicht.
- Multimodal mit Bild-Verständnis → aktuell setze ich dafür Claude API ein, Voxtral deckt nur Voice ab.
- GPT-5-Level → im Open-Source noch nicht ganz erreicht, aber die Lücke schrumpft monatlich.
Für die typischen Mittelstands-Use-Cases (Dokumenten-Verarbeitung, RAG, interne Chat-Bots, Email-Hilfe, Code-Assistenz) ist Mistral Small 3.1 in 2026 erstaunlich gut genug — und läuft in Ihrem Haus.