Lokal laufende LLMs
Mistral Small 3.1 als Standard-Setup, Codestral für Code-Aufgaben, Voxtral für Voice-to-Text. Alternativ Llama 3.3 (8B, 70B) oder Qwen 2.5 — alle offen gewichtet, kommerziell nutzbar. Inferenz via vLLM (Performance), Ollama (einfach) oder llama.cpp (minimal).
- • Kontext bis 128k Token (abhängig vom Modell)
- • Streaming-Response für Chat-UX
- • Function-Calling / Tool-Use verfügbar