Zum Inhalt springen
stackschmiede.de
EN
Souveräne KI · On-Prem · RAG

KI ist ein Werkzeug. Nicht ein Abonnement bei OpenAI.

Die meisten „AI-Integrationen" sind API-Wrapper um ChatGPT. Das funktioniert — aber schickt jeden Prompt, jedes Dokument, jedes Kunden-Gespräch zu einem US-Anbieter. Für Bereiche wie Recht, Medizin, Public oder F&E ist das keine Option.

Warum nicht einfach OpenAI oder Anthropic?

Weil Sie sich einem Anbieter ausliefern, der eigenständig Preise, Nutzungs-Bedingungen, API-Verhalten und Regionen ändern kann — ohne Ihr Zutun. In den letzten zwei Jahren haben alle großen LLM-Anbieter Preisanpassungen, Modell-Abkündigungen und Rate-Limits durchgesetzt, auf die Kunden nicht reagieren konnten außer zu zahlen.

On-Prem-LLMs auf Ihrem Server sind eine Versicherung: Ihre Kosten bleiben planbar (Hosting statt Token-Roulette), Ihre Daten bleiben im Haus, Ihre Features sind nicht über Nacht kündbar. Das ist keine Ideologie — das ist Business Continuity Management.

02 / Souveräne KI

Ihr eigenes ChatGPT. Auf Ihrem Server.

Die meisten AI-Features sind API-Wrapper: Ihre Daten fließen an OpenAI, Ihre Kosten an AWS, Ihre Schrems-II-Compliance an den Datenschutzbeauftragten. Es geht auch anders. Local-first, DSGVO-safe, mit voller Kontrolle über Modell und Daten.

US-Cloud EU / On-Prem
OpenAI / Anthropic Llama 3.3 oder Mistral auf Ihrem Server
Pinecone Qdrant self-hosted
ChatGPT-Plugin RAG über Ihre Dokumente
AWS Bedrock vLLM auf Hetzner GPU
demo.stackschmiede.de/ausmalbild
Live

Stable Diffusion XL · Line-Art LoRA · Hetzner GPU · text-prompt-basiert

Vier Säulen der souveränen KI

Inferenz

Lokal laufende LLMs

Llama 3.3 (8B, 70B), Mistral Small/Large, Qwen 2.5 — alle offen gewichtet, lizenzrechtlich für kommerziellen Einsatz freigegeben. Inferenz via Ollama (einfach), vLLM (Performance) oder llama.cpp (minimal).

  • • Kontext bis 128k Token (abhängig vom Modell)
  • • Streaming-Response für Chat-UX
  • • Function-Calling / Tool-Use verfügbar
Retrieval

RAG über eigene Dokumente

Dokumente → Chunking → Embeddings → Qdrant → Hybride Suche (BM25 + Vektor) → LLM mit Kontext. Deutsch-optimierte Embeddings (bge-m3, e5-mistral).

  • • PDF, Word, Confluence, Sharepoint, Outlook
  • • Metadata-Filter (Abteilung, Datum, Berechtigung)
  • • Quellen-Zitate in jeder Antwort
Feintuning

Domänen-spezifische Modelle

Unsloth LoRA-Training auf Llama 3.3 oder Mistral — für sehr spezialisierte Aufgaben (Branchen-Sprache, Formate, Stil). Auf einer H100 in wenigen Stunden, auf einer 24-GB-Karte über Nacht.

  • • DPO (Direct Preference Optimization)
  • • QLoRA für Memory-Efficiency
  • • Eval-Suite + Regressions-Tests
Betrieb

Observability + Monitoring

Langfuse self-hosted für Request-Tracing, Token-Tracking, Eval-Runs. Prometheus + Grafana für Infrastruktur. Alerts via ntfy oder Mattermost.

  • • Latenz-Histogramme pro Use-Case
  • • Token-Usage nach Team / Feature
  • • Eval-Drift-Detection

Häufige Fragen

Bedeutet „souveräne KI" wirklich, dass keine Daten zu OpenAI/Anthropic fließen?

Ja — im Standard-Setup läuft das komplette LLM auf Ihrem Server (oder meiner Hetzner GPU in Falkenstein). Es gibt kein Fallback zu externen APIs, es sei denn, Sie konfigurieren das explizit für unkritische Use-Cases.

Kommt Llama 3.3 an GPT-4 heran?

Für strukturierte Domänen-Aufgaben (Dokumenten-Extraktion, Zusammenfassung, RAG-Antworten) ja — teils besser durch Fine-Tuning. Für kreatives Long-Form-Writing: Knapp dahinter. Wir evaluieren im Projekt-Kontext.

Brauche ich eigene Hardware?

Nein. Hetzner GPU-Dedicated-Server ab ~200 €/Monat sind der Standard-Weg. Eigene Hardware nur für sehr hohe Last oder bestimmte Compliance-Anforderungen.

Was kostet der Betrieb nach Launch?

GPU-Hosting 30-300 €/Monat je nach Modell-Größe und Last, mit socket-activation deutlich reduzierbar bei geringer Last. Plus Monitoring und Updates. Typisch günstiger als OpenAI-Rechnungen bei gleichem Volumen — und kosten-predictable.

Integriert sich das in mein bestehendes System?

Über REST, GraphQL oder WebSocket. Standard-Patterns: Chat-Widget, Dokument-Upload, Batch-Verarbeitung, Webhooks. Auch als MCP-Server (Model Context Protocol) möglich.

Was passiert bei EU-AI-Act?

On-Prem-LLMs sind bezüglich Transparenz einfacher zu dokumentieren. Für Hochrisiko-Anwendungen vermittle ich KI-Rechtsanwält:innen — juristische Einschätzung ist nicht mein Metier.

06 / Kontakt

Lass uns reden.

Drei Kanäle, ein Ansprechpartner. Antwort werktags innerhalb von 24 Stunden.

  • Telefon (auf Anfrage per Mail)
    Nummer wird nach kurzer Mail-Vorab-Klärung geteilt.
  • Formular
    Rechts — inkl. Projekt-Kontext
Reaktionszeit: < 24h werktags
Datenübermittlung: verschlüsselt (TLS 1.3)
Spam-Schutz: Cloudflare Turnstile (kein reCAPTCHA)