Souveräne KI-Integration
On-Prem-LLMs statt OpenAI-API. Vektor-Suche mit Qdrant statt Pinecone. RAG auf Ihren eigenen Dokumenten — mit voller Kontrolle über Modell und Daten. Fair kalkuliert für Einstiegsprojekte.
Was Sie bekommen
Ein produktiv einsetzbares KI-System auf Ihrer Infrastruktur — Hetzner, AWS-EU, Azure-EU oder Ihr eigenes Rechenzentrum. Keine Prompts außer Haus, keine Vendor-Lock-ins, vorhersehbare Kosten.
Offene Ansage
Dies ist mein Flaggschiff-Thema, und ich kombiniere hier zwei Stärken:
- Jahre Erfahrung in klassischer Anwendungsentwicklung und Server-Admin
- Tiefes Hands-on-Verständnis moderner LLM-Stacks — siehe mein öffentliches Ausmalbild-Generator-Experiment als Proof.
Für Ihren ersten KI-Schritt bin ich genau die richtige Mischung aus “versteht das Handwerk” und “ist aktiv in der neuen Welle”.
Wann macht das Sinn?
- Patientendaten / Arztbriefe → § 203 StGB, keine Auslagerung an OpenAI zulässig.
- Mandatsunterlagen / Verträge → Anwaltsgeheimnis schlägt Bequemlichkeit.
- F&E-Dokumente / Patente → Wettbewerbsgeheimnisse bleiben im Haus.
- Public-Sector → IT-Grundschutz, BSI, keine Drittstaatentransfers.
- Mass-Nutzung → ab ~50k Anfragen/Monat wird On-Prem günstiger als pay-per-token.
Technische Optionen
Inferenz-Stack: Ollama (einfach), vLLM (Performance), llama.cpp (minimal) — je nach Server-Größe. Embeddings: intfloat/multilingual-e5-large, BAAI/bge-m3, nomic-embed-text-v2 — deutschsprachig optimiert. Vektor-DB: Qdrant (empfohlen), Weaviate, pgvector (wenn Sie eh Postgres haben). GPU-Hosting: Hetzner GPU (GEX44 ab ~200 €/mtl, socket-activated auf ~30-50 €/mtl reduzierbar), OVH, oder Ihr RZ.
Typischer Ablauf
- Woche 1 — Discovery: Use-Cases, Dokumenten-Inventar, Eval-Kriterien.
- Woche 2 — PoC: Kleiner Datensatz, 2-3 Modelle vergleichen, Auswahl treffen.
- Woche 3-6 — Build: Pipeline, UI, Permissions, Monitoring.
- Woche 7 — Eval + Tuning: Feedback-Schleife, Prompt-Optimierung, ggf. Fine-Tuning.
- Woche 8 — Rollout: Deployment, Schulung, Übergabe oder Retainer.
Preismodell
Fixpreis empfohlen, basierend auf Scope-Memo. Bei unklarem Datenbestand: erst 2-Wochen-Discovery à 2.900 €, dann Scope-Festlegung für das Hauptprojekt.
Inkludiert
- On-Prem-Setup mit Ollama oder vLLM (Llama 3.3, Mistral, Qwen wählbar)
- Vektor-Datenbank (Qdrant) mit Embedding-Pipeline
- RAG-System über Ihre Dokumente (PDF, Word, Confluence, Sharepoint)
- Prompt-Engineering + Eval-Suite mit Ihren Use-Cases
- Streamlit/React-UI oder API-Endpunkt
- Deployment-Dokumentation + Runbook für Modell-Updates
- Optional: Fine-Tuning mit Unsloth auf Ihre Fachdomäne