Llama 3.3 auf Hetzner GPU — mein aktuelles Setup mit echten Zahlen
Wie ich Llama 3.3 70B Q4 auf einer Hetzner GEX44 betreibe — inkl. socket-activation, Latenzen, Token-Throughput und ehrlichem Kostenvergleich zu OpenAI/Anthropic. Schritt-für-Schritt-Anleitung.
Setup-Übersicht
- Hardware: Hetzner GEX44 Dedicated (RTX 4000 Ada, 20 GB VRAM)
- OS: Ubuntu 24.04 LTS, NVIDIA-Driver 565
- Inferenz: vLLM 0.7 mit Llama 3.3 70B Q4 (AWQ quantisiert, ca. 18 GB)
- Frontend: Open-WebUI als Chat-Interface
- Aktivierung: systemd socket-activation — GPU-Service startet bei Bedarf, fährt nach 10 Min idle wieder runter
Latenzen (gemessen)
- Time-to-first-Token: ~0,8s (cold-start: ~12s einmalig nach Idle-Aufwachen)
- Throughput: ~38 Token/Sekunde bei einem Stream
- Parallele Streams: bis 4 ohne Performance-Einbruch
Für Vergleichbarkeit: GPT-4o liegt typischerweise bei 50-80 Token/s. Llama 3.3 70B Q4 ist also etwas langsamer, aber spürbar im selben Bereich — und für die meisten Anwendungsfälle (Dokument-Zusammenfassung, RAG, Email-Drafting) mehr als ausreichend.
Kosten — die ehrliche Rechnung
Hetzner GEX44: ~210 €/Monat fixed + Strom ist im Preis drin.
Mit socket-activation und realistischer Last (ich nutze das vor allem werktags): durch Auto-Sleep nach Idle reduziert sich die effektive Auslastung auf etwa 10-25%, ohne dass die User-Erfahrung leidet (12s cold-start ist beim ersten Prompt des Tages OK).
Vergleichbare OpenAI-Kosten: bei meinem realen Nutzungsmuster (~3M Token/Monat, davon 1M Output) wären das bei GPT-4o etwa 60-90 USD/Monat. Bei Claude 3.5 Sonnet 80-110 USD.
→ Fazit: Bei meiner Nutzung ist On-Prem etwa doppelt so teuer wie OpenAI. Bei einer Firma mit 5-15 Nutzer:innen kippt das Verhältnis schnell zugunsten On-Prem — und die Datensouveränitäts-Vorteile bekommt man kostenlos dazu.
Schritt-für-Schritt
- Hetzner GEX44 bestellen, Ubuntu 24.04, SSH-Key.
- NVIDIA-Driver + CUDA 12.4 installieren (Standard-Apt-Pakete).
- vLLM via pip:
pip install vllm[awq]. - Llama 3.3 70B AWQ von HuggingFace laden:
huggingface-cli download casperhansen/llama-3.3-70b-instruct-awq. - systemd-Socket-Unit für Auto-Sleep (Code im Repo unten).
- Open-WebUI als Container für die UI.
- Caddy als Reverse-Proxy mit TLS.
Komplettes Setup-Script gerne auf Anfrage — wird Teil der nächsten Souveräne KI-Integration-Lieferung.
Wann lohnt sich das nicht?
- Sie haben < 50k Token/Monat → ChatGPT-Plus-Abo reicht.
- Sie brauchen Multimodal (Bild-Verständnis) → Llama 3.3 ist text-only.
- Sie wollen GPT-5-Level → noch nicht im Open-Source verfügbar.
Aber für die meisten Mittelstands-Use-Cases (Dokumenten-Verarbeitung, RAG, interne Chat-Bots, Email-Hilfe) ist Llama 3.3 70B in 2026 erstaunlich gut genug.