Zum Inhalt springen
stackschmiede.de
EN
#01 4–8 Wochen 🌟 Empfehlung

Lokale KI für Ihr Unternehmen

Ich führe KI in Ihrem Unternehmen ein — passgenau, auf Ihrem Server, nicht bei OpenAI. Mails sortieren, Akten durchsuchen, Diktate transkribieren, Routine-Antworten vorschreiben. So bleiben Patientenakten, Mandantenunterlagen und Personaldaten im Haus.

Preisrahmen
4.900–12.000 €
netto
Dauer
4–8 Wochen
Zahlungsziel
14 Tage
50% Anzahlung

Was ich für Sie mache

Ich führe KI in Ihrem Unternehmen ein — von der ersten Frage „wo lohnt sich das?” bis zum fertig laufenden System. Konkret in vier Schritten:

  • Beratung — wir gehen Ihre Arbeitsabläufe durch und finden die Stellen, an denen KI Routine-Arbeit abnehmen kann. Und die, an denen sie nichts bringt.
  • Auswahl — passendes Modell (Mistral, Llama 3, Qwen, Codestral, Voxtral) und passende Werkzeuge (Ollama für einfache Setups, vLLM für Hochlast) für Ihre Hardware und Ihre Aufgaben.
  • Aufbau — Server einrichten, Modell installieren, an Ihre Daten anbinden, Bedienung bauen, Berechtigungen klären.
  • Übergabe — Schulung, Betriebs-Handbuch, optional weiterlaufende Wartung über Retainer.

Komplett auf Ihrem Server (oder bei mir in Deutschland), nicht bei OpenAI, Google oder Anthropic in den USA. So bleiben Patientenakten, Mandantenunterlagen, Personaldaten und Geschäftsgeheimnisse im Haus.

Wo KI heute Arbeit abnimmt

  • Mail-Flut beherrschen — eingehende Mails einordnen, zusammenfassen, Antwort-Entwürfe im Stil Ihres Teams. Spart im Schnitt 60–90 Min pro Tag pro Sachbearbeiter:in.
  • Dokumente und Wissen durchsuchbar machen — Handbücher, Verträge, Protokolle, Confluence/Sharepoint als durchsuchbare Wissensbasis. Antwort mit Verweis auf die Quelle, keine erfundenen Inhalte.
  • Diktate und Meetings transkribieren — Voxtral wandelt Sprache in Text. Auf dem Gerät oder auf Ihrem Server.
  • Code-Hilfe für Entwickler — wie GitHub Copilot, aber im Haus. Codestral als interner Helfer, kein Code verlässt das Gebäude — auch nicht als Trainings-Material.
  • Datenbank oder Dienstplan auf Deutsch abfragen — „Wer ist am Dienstag-Nachmittag verfügbar?” statt drei Klicks in der Personal-Software.
  • Standard-Antworten an Kunden vorbereiten — eingehende Anfragen erkennen, passende Antwort vorschreiben, Mensch sendet ab. Funktioniert für Service-Anfragen, Termin-Bestätigungen, Status-Auskünfte.

Warum lokal — und nicht einfach ChatGPT?

Wenn Sie ChatGPT, Gemini oder Claude direkt aus der App nutzen, geht jede Frage und jedes hochgeladene Dokument in die USA. Für persönliche Notizen ist das egal. Für Mandantenakten, Patientendaten oder Mitarbeiter-Bewertungen ist das nicht zulässig — und für viele andere Datensätze einfach unklug.

Die gute Nachricht: lokale Modelle (Mistral, Llama 3, Qwen) erreichen heute 80–95 % der Qualität von ChatGPT — bei Routinen wie Zusammenfassen, Sortieren, Übersetzen oder einfache Antwort-Entwürfe sogar gleichauf. Mit Werkzeugen wie Ollama lässt sich so ein System auch ohne tiefes IT-Team auf einem mittelgroßen Server betreiben.

Cloud-KI (OpenAI, Google, Anthropic)Lokale KI (Ihr Server)
DSGVO ohne weiteresnein, Verarbeitung in den USAja, Daten verlassen das Haus nicht
Berufsgeheimnis (§ 203 StGB)problematisch bis unzulässiggewahrt
Kostenpro Anfrage, schwer planbarFestpreis, vorhersehbar
Hersteller-Abhängigkeithoch (Preise, Modell-Wechsel)niedrig (Modell läuft auch in 5 Jahren)
Anpassung an Ihre Sprache, Ihre DokumentebegrenztFine-Tuning möglich
Internet nötigja, immernein

Kostenrechnung — realistisch

ChatGPT Enterprise kostet ~20 €/Nutzer/Monat. Für eine 30-Personen-Firma = 600 €/Monat = 7.200 €/Jahr. Dazu: Ihre Eingaben, E-Mails, Dokumente wandern zu OpenAI.

Meine KI-Werkstatt M (8.999 € einmalig, RTX 4090 · 128 GB RAM, optional 199 €/mo Wartung) rechnet sich gegen ChatGPT Enterprise nach 15–18 Monaten — ab dem 2. Jahr ist es reine Ersparnis. Plus: volle Datenhoheit, kein Kostenrisiko durch OpenAI-Preis-Erhöhungen.

Alternative ohne Hardware-Investition — ein dedizierter Grafikkarten-Slot auf meinen Servern, ab 200 €/Monat inkl. Setup, Updates, Server-Überwachung. Wird nur bei Bedarf gestartet, bei normaler Last oft effektiv 30–50 €/Monat.

Mein Aushängeschild

Dies ist mein Schwerpunkt-Thema, und ich kombiniere hier zwei Stärken:

Für Ihren ersten KI-Schritt bin ich genau die richtige Mischung aus „versteht das Handwerk” und „ist aktiv in der neuen Welle”. Kein Buzzword-Berater, sondern jemand, der das selbst baut und betreibt.

Wann macht das Sinn?

  • Patientendaten / Arztbriefe → § 203 StGB, keine Auslagerung an OpenAI zulässig.
  • Mandatsunterlagen / Verträge → Anwaltsgeheimnis schlägt Bequemlichkeit.
  • F&E-Dokumente / Patente → Wettbewerbsgeheimnisse bleiben im Haus.
  • Behörden / öffentlicher Sektor → IT-Grundschutz, BSI, keine Datentransfers in Drittländer.
  • Hohe Nutzung → ab ~50.000 Anfragen/Monat wird der eigene Server günstiger als Bezahlung pro Anfrage in der Cloud.

Technik-Stack (für IT-Verantwortliche)

Inferenz: vLLM (Performance), Ollama (einfach, mein Favorit für Mittelstand-Setups), llama.cpp (minimal) — je nach Server-Größe. Modelle: Mistral Small 3.1, Llama 3, Qwen, Codestral, Voxtral — Auswahl nach Aufgabe. Embeddings: intfloat/multilingual-e5-large, BAAI/bge-m3, nomic-embed-text-v2 — deutschsprachig optimiert. Vektor-DB: Qdrant (empfohlen), Weaviate, pgvector (wenn Sie eh Postgres haben). GPU-Hosting: meine GPU-Server in Deutschland (ab ~200 €/mtl, mit Bedarfs-Start auf ~30–50 €/mtl reduzierbar) oder Ihr Rechenzentrum. Alternativ: KI-Werkstatt-Komplettpakete mit eigener Hardware ab 3.499 €.

Ablauf

  1. Woche 1 — Klärung: gemeinsam durch Ihre Abläufe gehen, sinnvolle Anwendungen finden, Test-Kriterien festlegen.
  2. Woche 2 — Erstversuch: kleiner Datensatz, 2–3 Modelle vergleichen, Auswahl treffen.
  3. Woche 3–6 — Bauen: Server einrichten, Modelle installieren, an Ihre Daten anbinden, Bedienoberfläche, Berechtigungen, Überwachung.
  4. Woche 7 — Tests + Anpassung: Rückmeldungs-Schleife, Prompt-Optimierung, optional Fine-Tuning auf Ihre Fachdomäne.
  5. Woche 8 — Einführung: Inbetriebnahme, Schulung, Übergabe oder Retainer.

Preismodell

Fixpreis empfohlen, basierend auf einer Scope-Notiz. Bei unklarem Datenbestand: erst 2-Wochen-Klärung à 2.900 €, dann Scope-Festlegung für das Hauptprojekt.

Hardware-Komplettpakete (KI-Werkstatt) separat: S 3.499 € · M 8.999 € · L 17.999 €, jeweils mit optionaler Wartung (99/199/399 €/Monat).

Inkludiert

  • Beratung: gemeinsam durchgehen, wo KI in Ihren Abläufen wirklich Arbeit abnimmt
  • Setup im Haus oder auf Ihrem Server (Mistral, Llama, Qwen, Codestral, Voxtral — passend zur Aufgabe)
  • Anbindung an Ihre Daten: Dokumente, Mails, Datenbanken, bestehende Software
  • Web-Oberfläche oder Programmier-Schnittstelle für Ihre Systeme
  • Test-Set mit Ihren echten Anwendungen, damit Sie sehen wie gut die KI in Ihrem Fall arbeitet
  • Inbetriebnahme-Doku, Schulung, Anleitung für Modell-Updates
  • Optional: Fine-Tuning auf Ihre Fachdomäne (mit Unsloth)