Lokale KI für Ihr Unternehmen
Ich führe KI in Ihrem Unternehmen ein — passgenau, auf Ihrem Server, nicht bei OpenAI. Mails sortieren, Akten durchsuchen, Diktate transkribieren, Routine-Antworten vorschreiben. So bleiben Patientenakten, Mandantenunterlagen und Personaldaten im Haus.
Was ich für Sie mache
Ich führe KI in Ihrem Unternehmen ein — von der ersten Frage „wo lohnt sich das?” bis zum fertig laufenden System. Konkret in vier Schritten:
- Beratung — wir gehen Ihre Arbeitsabläufe durch und finden die Stellen, an denen KI Routine-Arbeit abnehmen kann. Und die, an denen sie nichts bringt.
- Auswahl — passendes Modell (Mistral, Llama 3, Qwen, Codestral, Voxtral) und passende Werkzeuge (Ollama für einfache Setups, vLLM für Hochlast) für Ihre Hardware und Ihre Aufgaben.
- Aufbau — Server einrichten, Modell installieren, an Ihre Daten anbinden, Bedienung bauen, Berechtigungen klären.
- Übergabe — Schulung, Betriebs-Handbuch, optional weiterlaufende Wartung über Retainer.
Komplett auf Ihrem Server (oder bei mir in Deutschland), nicht bei OpenAI, Google oder Anthropic in den USA. So bleiben Patientenakten, Mandantenunterlagen, Personaldaten und Geschäftsgeheimnisse im Haus.
Wo KI heute Arbeit abnimmt
- Mail-Flut beherrschen — eingehende Mails einordnen, zusammenfassen, Antwort-Entwürfe im Stil Ihres Teams. Spart im Schnitt 60–90 Min pro Tag pro Sachbearbeiter:in.
- Dokumente und Wissen durchsuchbar machen — Handbücher, Verträge, Protokolle, Confluence/Sharepoint als durchsuchbare Wissensbasis. Antwort mit Verweis auf die Quelle, keine erfundenen Inhalte.
- Diktate und Meetings transkribieren — Voxtral wandelt Sprache in Text. Auf dem Gerät oder auf Ihrem Server.
- Code-Hilfe für Entwickler — wie GitHub Copilot, aber im Haus. Codestral als interner Helfer, kein Code verlässt das Gebäude — auch nicht als Trainings-Material.
- Datenbank oder Dienstplan auf Deutsch abfragen — „Wer ist am Dienstag-Nachmittag verfügbar?” statt drei Klicks in der Personal-Software.
- Standard-Antworten an Kunden vorbereiten — eingehende Anfragen erkennen, passende Antwort vorschreiben, Mensch sendet ab. Funktioniert für Service-Anfragen, Termin-Bestätigungen, Status-Auskünfte.
Warum lokal — und nicht einfach ChatGPT?
Wenn Sie ChatGPT, Gemini oder Claude direkt aus der App nutzen, geht jede Frage und jedes hochgeladene Dokument in die USA. Für persönliche Notizen ist das egal. Für Mandantenakten, Patientendaten oder Mitarbeiter-Bewertungen ist das nicht zulässig — und für viele andere Datensätze einfach unklug.
Die gute Nachricht: lokale Modelle (Mistral, Llama 3, Qwen) erreichen heute 80–95 % der Qualität von ChatGPT — bei Routinen wie Zusammenfassen, Sortieren, Übersetzen oder einfache Antwort-Entwürfe sogar gleichauf. Mit Werkzeugen wie Ollama lässt sich so ein System auch ohne tiefes IT-Team auf einem mittelgroßen Server betreiben.
| Cloud-KI (OpenAI, Google, Anthropic) | Lokale KI (Ihr Server) | |
|---|---|---|
| DSGVO ohne weiteres | nein, Verarbeitung in den USA | ja, Daten verlassen das Haus nicht |
| Berufsgeheimnis (§ 203 StGB) | problematisch bis unzulässig | gewahrt |
| Kosten | pro Anfrage, schwer planbar | Festpreis, vorhersehbar |
| Hersteller-Abhängigkeit | hoch (Preise, Modell-Wechsel) | niedrig (Modell läuft auch in 5 Jahren) |
| Anpassung an Ihre Sprache, Ihre Dokumente | begrenzt | Fine-Tuning möglich |
| Internet nötig | ja, immer | nein |
Kostenrechnung — realistisch
ChatGPT Enterprise kostet ~20 €/Nutzer/Monat. Für eine 30-Personen-Firma = 600 €/Monat = 7.200 €/Jahr. Dazu: Ihre Eingaben, E-Mails, Dokumente wandern zu OpenAI.
Meine KI-Werkstatt M (8.999 € einmalig, RTX 4090 · 128 GB RAM, optional 199 €/mo Wartung) rechnet sich gegen ChatGPT Enterprise nach 15–18 Monaten — ab dem 2. Jahr ist es reine Ersparnis. Plus: volle Datenhoheit, kein Kostenrisiko durch OpenAI-Preis-Erhöhungen.
Alternative ohne Hardware-Investition — ein dedizierter Grafikkarten-Slot auf meinen Servern, ab 200 €/Monat inkl. Setup, Updates, Server-Überwachung. Wird nur bei Bedarf gestartet, bei normaler Last oft effektiv 30–50 €/Monat.
Mein Aushängeschild
Dies ist mein Schwerpunkt-Thema, und ich kombiniere hier zwei Stärken:
- 8 Jahre IT-Praxis in klassischer Anwendungsentwicklung und Server-Administration
- Tiefes praktisches Verständnis moderner KI-Systeme — siehe den Coloring Stack und die Notiz zu Mistral auf RTX 4090 als Beleg
Für Ihren ersten KI-Schritt bin ich genau die richtige Mischung aus „versteht das Handwerk” und „ist aktiv in der neuen Welle”. Kein Buzzword-Berater, sondern jemand, der das selbst baut und betreibt.
Wann macht das Sinn?
- Patientendaten / Arztbriefe → § 203 StGB, keine Auslagerung an OpenAI zulässig.
- Mandatsunterlagen / Verträge → Anwaltsgeheimnis schlägt Bequemlichkeit.
- F&E-Dokumente / Patente → Wettbewerbsgeheimnisse bleiben im Haus.
- Behörden / öffentlicher Sektor → IT-Grundschutz, BSI, keine Datentransfers in Drittländer.
- Hohe Nutzung → ab ~50.000 Anfragen/Monat wird der eigene Server günstiger als Bezahlung pro Anfrage in der Cloud.
Technik-Stack (für IT-Verantwortliche)
Inferenz: vLLM (Performance), Ollama (einfach, mein Favorit für Mittelstand-Setups), llama.cpp (minimal) — je nach Server-Größe. Modelle: Mistral Small 3.1, Llama 3, Qwen, Codestral, Voxtral — Auswahl nach Aufgabe. Embeddings: intfloat/multilingual-e5-large, BAAI/bge-m3, nomic-embed-text-v2 — deutschsprachig optimiert. Vektor-DB: Qdrant (empfohlen), Weaviate, pgvector (wenn Sie eh Postgres haben). GPU-Hosting: meine GPU-Server in Deutschland (ab ~200 €/mtl, mit Bedarfs-Start auf ~30–50 €/mtl reduzierbar) oder Ihr Rechenzentrum. Alternativ: KI-Werkstatt-Komplettpakete mit eigener Hardware ab 3.499 €.
Ablauf
- Woche 1 — Klärung: gemeinsam durch Ihre Abläufe gehen, sinnvolle Anwendungen finden, Test-Kriterien festlegen.
- Woche 2 — Erstversuch: kleiner Datensatz, 2–3 Modelle vergleichen, Auswahl treffen.
- Woche 3–6 — Bauen: Server einrichten, Modelle installieren, an Ihre Daten anbinden, Bedienoberfläche, Berechtigungen, Überwachung.
- Woche 7 — Tests + Anpassung: Rückmeldungs-Schleife, Prompt-Optimierung, optional Fine-Tuning auf Ihre Fachdomäne.
- Woche 8 — Einführung: Inbetriebnahme, Schulung, Übergabe oder Retainer.
Preismodell
Fixpreis empfohlen, basierend auf einer Scope-Notiz. Bei unklarem Datenbestand: erst 2-Wochen-Klärung à 2.900 €, dann Scope-Festlegung für das Hauptprojekt.
Hardware-Komplettpakete (KI-Werkstatt) separat: S 3.499 € · M 8.999 € · L 17.999 €, jeweils mit optionaler Wartung (99/199/399 €/Monat).
Inkludiert
- Beratung: gemeinsam durchgehen, wo KI in Ihren Abläufen wirklich Arbeit abnimmt
- Setup im Haus oder auf Ihrem Server (Mistral, Llama, Qwen, Codestral, Voxtral — passend zur Aufgabe)
- Anbindung an Ihre Daten: Dokumente, Mails, Datenbanken, bestehende Software
- Web-Oberfläche oder Programmier-Schnittstelle für Ihre Systeme
- Test-Set mit Ihren echten Anwendungen, damit Sie sehen wie gut die KI in Ihrem Fall arbeitet
- Inbetriebnahme-Doku, Schulung, Anleitung für Modell-Updates
- Optional: Fine-Tuning auf Ihre Fachdomäne (mit Unsloth)