Zum Inhalt springen
stackschmiede.de
EN
· 8 min Lesezeit

Mistral Small 3.1 lokal auf RTX 4090 — mein aktuelles Setup mit echten Zahlen

Wie ich Mistral Small 3.1 auf einer RTX 4090 betreibe — inkl. socket-activation, Latenzen, Token-Throughput und ehrlichem Kostenvergleich zu OpenAI/Anthropic. Schritt-für-Schritt.

#ki#mistral#on-prem#vllm#werkstatt

Setup-Übersicht

  • Hardware: RTX 4090 (24 GB VRAM) in einem selbst konfigurierten Workstation-Gehäuse, 64 GB RAM, AMD Ryzen 9 7950X
  • OS: Ubuntu 24.04 LTS, NVIDIA-Driver 565, CUDA 12.4
  • Inferenz: vLLM 0.7 mit Mistral Small 3.1 (24 B, bfloat16, ~46 GB → quantisiert auf AWQ 8-bit, ~12 GB VRAM)
  • Zweit-Modell: Codestral 22B (AWQ 4-bit, ~6 GB VRAM) — parallel ladbar für Code-Workflows
  • Frontend: Open-WebUI als Chat-Interface, plus direkter API-Zugriff für Tools
  • Aktivierung: systemd socket-activation — GPU-Service startet bei Bedarf, fährt nach 10 Min idle wieder runter

Das Setup entspricht meinem KI-Werkstatt-M-Paket (8.999 € Komplettpreis, RTX 4090 · 128 GB RAM) — die Zahlen hier sind aus meinem privaten Test-System, das auf 64 GB RAM beschränkt ist.

Latenzen (gemessen)

  • Time-to-first-Token: ~0,3 s (cold-start: ~8 s einmalig nach Idle-Aufwachen)
  • Throughput: ~85 Token/Sekunde bei einem Stream
  • Parallele Streams: bis 6 ohne spürbaren Performance-Einbruch
  • Kontext: bis 128 k Token (Mistral Small 3.1 nativ)

Vergleich: GPT-4o liegt typischerweise bei 50–80 Token/s, Claude Sonnet 4.6 bei ~100 Token/s. Mistral Small 3.1 auf einer RTX 4090 ist also spürbar im selben Bereich — und für Dokument-Zusammenfassung, RAG, Email-Drafting, Vertrags-Analyse mehr als ausreichend.

Kosten — die ehrliche Rechnung

Variante A — gemietet auf meinen Werkstatt-Servern (Deutschland): dedizierter GPU-Server ab ~200 €/Monat inkl. Strom, Netz, Backup, stacks-panel. Mit socket-activation und realistischer Last (werktags, ~5 h aktiv) sinkt das auf ~30–50 €/Monat effektiv, weil die GPU zwischen den Anfragen schläft.

Variante B — eigene Hardware im Haus (KI-Werkstatt M, 8.999 € einmalig): amortisiert sich bei typischer KMU-Nutzung (10–30 Mitarbeiter) nach 18–30 Monaten gegenüber ChatGPT-Enterprise (~20 €/User/Monat = 200–600 €/Monat).

Vergleichbare OpenAI-Kosten: bei realer Nutzung in einem Team (~10 Mitarbeiter, ~3 M Token/Monat, davon 1 M Output) wären es bei GPT-4o etwa 60–90 USD/Monat, bei Claude Sonnet 4.6 etwa 80–110 USD/Monat.

Fazit: Für Solo-Betrieb ist on-prem etwa gleichauf mit OpenAI. Bei einer Firma mit 10–30 Nutzer:innen kippt das Verhältnis klar zugunsten on-prem — und die Datensouveränitäts-Vorteile kommen kostenlos dazu. Ab 50+ Mitarbeiter:innen ist die KI-Werkstatt-L-Variante (RTX A6000 Ada, 17.999 €) wirtschaftlich ein No-Brainer.

Schritt-für-Schritt

  1. Hardware bestellen oder Werkstatt-GPU-Server mieten (bei mir: 200 €/Monat, socket-activated ab 30 €).
  2. Ubuntu 24.04 + NVIDIA-Driver 565 + CUDA 12.4 installieren.
  3. vLLM 0.7 via pip: pip install "vllm[awq]".
  4. Mistral Small 3.1 von HuggingFace laden: huggingface-cli download mistralai/Mistral-Small-3.1-24B-Instruct-2503.
  5. AWQ-Quantisierung mit autoawq (optional, für RAM-Einsparung): python -m autoawq.quantize ... (Anleitung im Repo).
  6. systemd-Socket-Unit für Auto-Sleep (Template schicke ich gerne auf Anfrage).
  7. Caddy als Reverse-Proxy mit TLS — fertig.

Komplettes Setup-Script ist Teil meiner Lokale-KI-Lieferung und der KI-Werkstatt-Hardware-Pakete.

Warum Mistral Small 3.1 und nicht Llama 3.3?

Beides sind gute Modelle. Mein Pragmatismus:

  • Mistral Small 3.1 hat 128 k Kontext nativ, Llama 3.3 nur 8 k (ohne Tricks). Für RAG und lange Dokumente ist das entscheidend.
  • EU-Herkunft (Mistral AI sitzt in Paris) passt zur Cloud-Exit-Positionierung der Werkstatt — das ist kein Muss, aber Kunden fragen danach.
  • Codestral als Code-Spezialist aus der gleichen Familie — gleiche Tokenizer-Logik, einfacheres Multi-Modell-Setup.
  • Voxtral (Voice-to-Text) rundet den Stack nach unten ab.

Llama 3.3 bleibt als Fallback im Werkzeugkasten — falls ein Kunde speziell eine US-Offene-Gewichts-Wahl braucht oder wir spezielle Fine-Tunes auf Llama-Basis finden.

Wann lohnt sich das nicht?

  • Unter 50 k Token/Monat → ChatGPT Plus reicht.
  • Multimodal mit Bild-Verständnis → aktuell setze ich dafür Claude API ein, Voxtral deckt nur Voice ab.
  • GPT-5-Level → im Open-Source noch nicht ganz erreicht, aber die Lücke schrumpft monatlich.

Für die typischen Mittelstands-Use-Cases (Dokumenten-Verarbeitung, RAG, interne Chat-Bots, Email-Hilfe, Code-Assistenz) ist Mistral Small 3.1 in 2026 erstaunlich gut genug — und läuft in Ihrem Haus.