Zum Inhalt springen
stackschmiede.de
EN
· 8 min Lesezeit

Llama 3.3 auf Hetzner GPU — mein aktuelles Setup mit echten Zahlen

Wie ich Llama 3.3 70B Q4 auf einer Hetzner GEX44 betreibe — inkl. socket-activation, Latenzen, Token-Throughput und ehrlichem Kostenvergleich zu OpenAI/Anthropic. Schritt-für-Schritt-Anleitung.

#ki#llama#hetzner#on-prem#vllm

Setup-Übersicht

  • Hardware: Hetzner GEX44 Dedicated (RTX 4000 Ada, 20 GB VRAM)
  • OS: Ubuntu 24.04 LTS, NVIDIA-Driver 565
  • Inferenz: vLLM 0.7 mit Llama 3.3 70B Q4 (AWQ quantisiert, ca. 18 GB)
  • Frontend: Open-WebUI als Chat-Interface
  • Aktivierung: systemd socket-activation — GPU-Service startet bei Bedarf, fährt nach 10 Min idle wieder runter

Latenzen (gemessen)

  • Time-to-first-Token: ~0,8s (cold-start: ~12s einmalig nach Idle-Aufwachen)
  • Throughput: ~38 Token/Sekunde bei einem Stream
  • Parallele Streams: bis 4 ohne Performance-Einbruch

Für Vergleichbarkeit: GPT-4o liegt typischerweise bei 50-80 Token/s. Llama 3.3 70B Q4 ist also etwas langsamer, aber spürbar im selben Bereich — und für die meisten Anwendungsfälle (Dokument-Zusammenfassung, RAG, Email-Drafting) mehr als ausreichend.

Kosten — die ehrliche Rechnung

Hetzner GEX44: ~210 €/Monat fixed + Strom ist im Preis drin.

Mit socket-activation und realistischer Last (ich nutze das vor allem werktags): durch Auto-Sleep nach Idle reduziert sich die effektive Auslastung auf etwa 10-25%, ohne dass die User-Erfahrung leidet (12s cold-start ist beim ersten Prompt des Tages OK).

Vergleichbare OpenAI-Kosten: bei meinem realen Nutzungsmuster (~3M Token/Monat, davon 1M Output) wären das bei GPT-4o etwa 60-90 USD/Monat. Bei Claude 3.5 Sonnet 80-110 USD.

Fazit: Bei meiner Nutzung ist On-Prem etwa doppelt so teuer wie OpenAI. Bei einer Firma mit 5-15 Nutzer:innen kippt das Verhältnis schnell zugunsten On-Prem — und die Datensouveränitäts-Vorteile bekommt man kostenlos dazu.

Schritt-für-Schritt

  1. Hetzner GEX44 bestellen, Ubuntu 24.04, SSH-Key.
  2. NVIDIA-Driver + CUDA 12.4 installieren (Standard-Apt-Pakete).
  3. vLLM via pip: pip install vllm[awq].
  4. Llama 3.3 70B AWQ von HuggingFace laden: huggingface-cli download casperhansen/llama-3.3-70b-instruct-awq.
  5. systemd-Socket-Unit für Auto-Sleep (Code im Repo unten).
  6. Open-WebUI als Container für die UI.
  7. Caddy als Reverse-Proxy mit TLS.

Komplettes Setup-Script gerne auf Anfrage — wird Teil der nächsten Souveräne KI-Integration-Lieferung.

Wann lohnt sich das nicht?

  • Sie haben < 50k Token/Monat → ChatGPT-Plus-Abo reicht.
  • Sie brauchen Multimodal (Bild-Verständnis) → Llama 3.3 ist text-only.
  • Sie wollen GPT-5-Level → noch nicht im Open-Source verfügbar.

Aber für die meisten Mittelstands-Use-Cases (Dokumenten-Verarbeitung, RAG, interne Chat-Bots, Email-Hilfe) ist Llama 3.3 70B in 2026 erstaunlich gut genug.