Lokal laufende LLMs
Llama 3.3 (8B, 70B), Mistral Small/Large, Qwen 2.5 — alle offen gewichtet, lizenzrechtlich für kommerziellen Einsatz freigegeben. Inferenz via Ollama (einfach), vLLM (Performance) oder llama.cpp (minimal).
- • Kontext bis 128k Token (abhängig vom Modell)
- • Streaming-Response für Chat-UX
- • Function-Calling / Tool-Use verfügbar

