Zum Inhalt springen
stackschmiede.de
EN
Souveräne KI · On-Prem · RAG

KI ist ein Werkzeug. Nicht ein Abonnement bei OpenAI.

Die meisten „AI-Integrationen" sind API-Wrapper um ChatGPT. Das funktioniert — aber schickt jeden Prompt, jedes Dokument, jedes Kunden-Gespräch zu einem US-Anbieter. Für Bereiche wie Recht, Medizin, Public oder F&E ist das keine Option.

Warum nicht einfach OpenAI oder Gemini?

Weil Sie sich einem Anbieter ausliefern, der eigenständig Preise, Nutzungs-Bedingungen, API-Verhalten und Regionen ändern kann — ohne Ihr Zutun. In den letzten zwei Jahren haben alle großen LLM-Anbieter Preisanpassungen, Modell-Abkündigungen und Rate-Limits durchgesetzt, auf die Kunden nicht reagieren konnten außer zu zahlen.

On-Prem-LLMs auf Ihrem Server sind eine Versicherung: Ihre Kosten bleiben planbar (Hosting statt Token-Roulette), Ihre Daten bleiben im Haus, Ihre Features sind nicht über Nacht kündbar. Das ist keine Ideologie — das ist Business Continuity Management.

02 / Souveräne KI

Ihre Dokumente. Ihr Modell. Ihr Server.

Mistral Small 3.1 und Qdrant on-prem, gespeist aus Ihren Verträgen, Tickets und Wiki-Artikeln. Keine Daten an OpenAI, keine Token-Kosten pro Abfrage — nur Ihre Infrastruktur.

Mistral Small 3.1QdrantLlamaIndexFastAPIDocker
neural · forward pass
online
01
Ingest
PDF · MD · SharePoint
02
Chunk
Semantic · 512 tok
03
Embed
BGE-M3 · 1024 dim
04
Retrieve
Hybrid · BM25 + Vec
05
Generate
Mistral · On-Prem
rag.jsonl — stream
Live · latenter Vektorraum
verträge tickets wiki
< 1.4s
p50 Antwortzeit
0
Daten an US-Cloud
100%
DSGVO-konform

Vier Säulen der souveränen KI

Inferenz

Lokal laufende LLMs

Mistral Small 3.1 als Standard-Setup, Codestral für Code-Aufgaben, Voxtral für Voice-to-Text. Alternativ Llama 3.3 (8B, 70B) oder Qwen 2.5 — alle offen gewichtet, kommerziell nutzbar. Inferenz via vLLM (Performance), Ollama (einfach) oder llama.cpp (minimal).

  • • Kontext bis 128k Token (abhängig vom Modell)
  • • Streaming-Response für Chat-UX
  • • Function-Calling / Tool-Use verfügbar
Retrieval

RAG über eigene Dokumente

Dokumente → Chunking → Embeddings → Qdrant → Hybride Suche (BM25 + Vektor) → LLM mit Kontext. Deutsch-optimierte Embeddings (bge-m3, e5-mistral).

  • • PDF, Word, Confluence, Sharepoint, Outlook
  • • Metadata-Filter (Abteilung, Datum, Berechtigung)
  • • Quellen-Zitate in jeder Antwort
Feintuning

Domänen-spezifische Modelle

Unsloth LoRA-Training auf Mistral Small 3.1 oder Codestral — für sehr spezialisierte Aufgaben (Branchen-Sprache, Formate, Stil). Auf einer H100 in wenigen Stunden, auf einer 24-GB-Karte über Nacht.

  • • DPO (Direct Preference Optimization)
  • • QLoRA für Memory-Efficiency
  • • Eval-Suite + Regressions-Tests
Betrieb

Observability + Monitoring

Langfuse self-hosted für Request-Tracing, Token-Tracking, Eval-Runs. Prometheus + Grafana für Infrastruktur. Alerts via ntfy oder Mattermost.

  • • Latenz-Histogramme pro Use-Case
  • • Token-Usage nach Team / Feature
  • • Eval-Drift-Detection

Häufige Fragen

Bedeutet „souveräne KI" wirklich, dass keine Daten zu OpenAI oder Gemini fließen?

Ja — im Standard-Setup läuft das komplette LLM auf Ihrem Server (oder auf einem meiner GPU-Server in Deutschland). Es gibt kein Fallback zu externen APIs, es sei denn, Sie konfigurieren das explizit für unkritische Use-Cases.

Kommt Mistral Small 3.1 an GPT-4 heran?

Für strukturierte Domänen-Aufgaben (Dokumenten-Extraktion, Zusammenfassung, RAG-Antworten) ja — teils besser durch Fine-Tuning. Für kreatives Long-Form-Writing: Knapp dahinter. Wir evaluieren im Projekt-Kontext. Für Code-spezifische Workflows nutze ich Codestral, für Voice-to-Text Voxtral.

Brauche ich eigene Hardware?

Nein. Dedizierte GPU-Server (in Deutschland) ab ~200 €/Monat sind der Standard-Weg. Wer lieber im eigenen Haus betreibt: meine KI-Werkstatt-Pakete liefern fertige On-Prem-Systeme ab 3.499 €. Eigene Hardware nur für sehr hohe Last oder bestimmte Compliance-Anforderungen.

Was kostet der Betrieb nach Launch?

GPU-Hosting 30-300 €/Monat je nach Modell-Größe und Last, mit socket-activation deutlich reduzierbar bei geringer Last. Plus Monitoring und Updates. Typisch günstiger als OpenAI-Rechnungen bei gleichem Volumen — und kosten-predictable.

Integriert sich das in mein bestehendes System?

Über REST, GraphQL oder WebSocket. Standard-Patterns: Chat-Widget, Dokument-Upload, Batch-Verarbeitung, Webhooks. Auch als MCP-Server (Model Context Protocol) möglich.

Was passiert bei EU-AI-Act?

On-Prem-LLMs sind bezüglich Transparenz einfacher zu dokumentieren. Für Hochrisiko-Anwendungen vermittle ich KI-Rechtsanwält:innen — juristische Einschätzung ist nicht mein Metier.

06 / Kontakt

Lass uns reden.

Drei Kanäle, ein Ansprechpartner. Antwort werktags innerhalb von 24 Stunden.

  • Telefon (auf Anfrage per Mail)
    Nummer wird nach kurzer Mail-Vorab-Klärung geteilt.
  • Formular
    Rechts — inkl. Projekt-Kontext
Reaktionszeit: < 24h werktags
Datenübermittlung: verschlüsselt (TLS 1.3)
Spam-Schutz: Cloudflare Turnstile (kein reCAPTCHA)