Zum Inhalt springen
stackschmiede.de
EN
#02 4–8 Wochen 🌟 Empfehlung

Souveräne KI-Integration

On-Prem-LLMs statt OpenAI-API. Vektor-Suche mit Qdrant statt Pinecone. RAG auf Ihren eigenen Dokumenten — mit voller Kontrolle über Modell und Daten. Fair kalkuliert für Einstiegsprojekte.

Preisrahmen
4.900–12.000 €
netto
Dauer
4–8 Wochen
Zahlungsziel
14 Tage
50% Anzahlung

Was Sie bekommen

Ein produktiv einsetzbares KI-System auf Ihrer Infrastruktur — Hetzner, AWS-EU, Azure-EU oder Ihr eigenes Rechenzentrum. Keine Prompts außer Haus, keine Vendor-Lock-ins, vorhersehbare Kosten.

Offene Ansage

Dies ist mein Flaggschiff-Thema, und ich kombiniere hier zwei Stärken:

  • Jahre Erfahrung in klassischer Anwendungsentwicklung und Server-Admin
  • Tiefes Hands-on-Verständnis moderner LLM-Stacks — siehe mein öffentliches Ausmalbild-Generator-Experiment als Proof.

Für Ihren ersten KI-Schritt bin ich genau die richtige Mischung aus “versteht das Handwerk” und “ist aktiv in der neuen Welle”.

Wann macht das Sinn?

  • Patientendaten / Arztbriefe → § 203 StGB, keine Auslagerung an OpenAI zulässig.
  • Mandatsunterlagen / Verträge → Anwaltsgeheimnis schlägt Bequemlichkeit.
  • F&E-Dokumente / Patente → Wettbewerbsgeheimnisse bleiben im Haus.
  • Public-Sector → IT-Grundschutz, BSI, keine Drittstaatentransfers.
  • Mass-Nutzung → ab ~50k Anfragen/Monat wird On-Prem günstiger als pay-per-token.

Technische Optionen

Inferenz-Stack: Ollama (einfach), vLLM (Performance), llama.cpp (minimal) — je nach Server-Größe. Embeddings: intfloat/multilingual-e5-large, BAAI/bge-m3, nomic-embed-text-v2 — deutschsprachig optimiert. Vektor-DB: Qdrant (empfohlen), Weaviate, pgvector (wenn Sie eh Postgres haben). GPU-Hosting: Hetzner GPU (GEX44 ab ~200 €/mtl, socket-activated auf ~30-50 €/mtl reduzierbar), OVH, oder Ihr RZ.

Typischer Ablauf

  1. Woche 1 — Discovery: Use-Cases, Dokumenten-Inventar, Eval-Kriterien.
  2. Woche 2 — PoC: Kleiner Datensatz, 2-3 Modelle vergleichen, Auswahl treffen.
  3. Woche 3-6 — Build: Pipeline, UI, Permissions, Monitoring.
  4. Woche 7 — Eval + Tuning: Feedback-Schleife, Prompt-Optimierung, ggf. Fine-Tuning.
  5. Woche 8 — Rollout: Deployment, Schulung, Übergabe oder Retainer.

Preismodell

Fixpreis empfohlen, basierend auf Scope-Memo. Bei unklarem Datenbestand: erst 2-Wochen-Discovery à 2.900 €, dann Scope-Festlegung für das Hauptprojekt.

Inkludiert

  • On-Prem-Setup mit Ollama oder vLLM (Llama 3.3, Mistral, Qwen wählbar)
  • Vektor-Datenbank (Qdrant) mit Embedding-Pipeline
  • RAG-System über Ihre Dokumente (PDF, Word, Confluence, Sharepoint)
  • Prompt-Engineering + Eval-Suite mit Ihren Use-Cases
  • Streamlit/React-UI oder API-Endpunkt
  • Deployment-Dokumentation + Runbook für Modell-Updates
  • Optional: Fine-Tuning mit Unsloth auf Ihre Fachdomäne