KI-Chatbot im eigenen Messenger — 3motiBot-Proof
Matrix-Bot mit LLM-Backend, den ich auf meinem 3motibot-Server betreibe. Wahlweise mit on-prem Mistral Small 3.1 oder angebundener Cloud-API. Konversationsgedächtnis, System-Prompts, Domänen-Tuning — alles selbst implementiert.
Worum geht es?
3motiBot — mein eigener Matrix-Server unter 3motibot.de — hat einen integrierten KI-Chatbot. Jeder Nutzer kann den Bot in einen Raum einladen oder per DM anschreiben und bekommt KI-Antworten auf Fragen. Der Bot nutzt ein großes Sprachmodell als Backend und einen Python-Wrapper, den ich selbst geschrieben habe — für Kontext-Handling, System-Prompts und Rate-Limit.
Was ist technisch drin?
- Matrix-Pipeline — der Bot ist ein reiner Matrix-Client (Python
matrix-nio). Keine Message verlässt den Matrix-Raum unnötig; nur der Nutzer-Text wandert an das LLM-Backend. - Austauschbares LLM-Backend — die Architektur ist so gebaut, dass on-prem Mistral Small 3.1 oder Codestral per vLLM/Ollama direkt eingesetzt werden kann. Alternativ binde ich eine kommerzielle Cloud-LLM-API an, wenn maximale Antwort-Qualität wichtiger ist als Datensouveränität. Entscheidung pro Kundenprojekt.
- Wrapper-Framework (selbst geschrieben):
- Kontext-Handling mit Token-Budget pro Gespräch
- System-Prompts pro Raum/Nutzer konfigurierbar (Persona, Domänen-Wissen, Tonfall)
- Rate-Limit pro Nutzer und Stunde
- Error-Handling mit Fallback auf Zweit-Backend bei API-Ausfall
- Persistenter Gesprächsverlauf in PostgreSQL, pro Matrix-Raum separiert.
- Admin-Befehle per DM:
/reset,/persona <name>,/stats.
Wofür ist das interessant?
Szenario A — Kunden-Support-Bot auf eigener Infrastruktur: Ihr Support beantwortet wiederkehrende Fragen — eine KI übernimmt 70–80 % der Erstanfragen. Auf Matrix läuft der Gesprächsverlauf direkt bei Ihnen, nicht bei einem SaaS-Anbieter.
Szenario B — Interner Wissens-Assistent: Handbücher, Prozesse, FAQs als System-Prompt oder RAG-Kontext. Der Bot beantwortet Mitarbeiter-Fragen, besonders wertvoll für Neueinsteiger und Dokumentations-Navigation.
Szenario C — Branchenspezifischer Assistent: Rechtsberatung (Erstprüfung), Steuer-Vorprüfung, technische Erstdiagnose — Bot mit domänenspezifischem Prompt liefert strukturierte Erstantworten. Menschliche Expertise bleibt im Prozess.
Backend-Wahl: on-prem oder Cloud-API?
| Kriterium | Mistral Small 3.1 on-prem | Kommerzielle Cloud-API |
|---|---|---|
| Antwort-Qualität | gut, je nach Hardware | ausgezeichnet |
| Datenschutz | bleibt vollständig bei Ihnen | Daten gehen an den API-Anbieter |
| Kosten | Hardware + Strom | ca. 0,003–0,015 €/Nachricht |
| Hardware-Anforderung | mind. 24 GB VRAM (z.B. RTX 4090) | keine |
| Verfügbarkeit | intern kontrolliert | Cloud-abhängig |
Meine Empfehlung: wenn Datenhoheit wichtig ist, gleich mit on-prem starten. Wenn maximale Antwort-Qualität oder ein schneller Proof-of-Concept ohne GPU-Investment gefragt ist, startet man mit einer Cloud-API und migriert später. Der Wrapper-Code funktioniert für beide Backends ohne Änderung am Bot-Verhalten.
Das Angebot
Setup eines eigenen KI-Chatbots inkl. Matrix-Integration, Wrapper-Code, System-Prompt-Design, 30 Tage Support.
- Typ. Kosten Setup: 3.900–8.900 € einmalig (je nach Komplexität des Use-Cases)
- Laufend: ab 39 €/Monat (Server + API-Kontingent) oder variabel bei eigenem API-Key
- Optional: Retainer für Prompt-Tuning und Backend-Updates
Status
Produktiv seit 2025 auf meinem eigenen 3motibot-Server. Als Leistung angeboten — auf Anfrage für erste Pilotkunden zu Pilot-Konditionen.
Ergebnisse
- Eigener KI-Chatbot auf 3motibot.de live
- Wrapper-Framework: Kontext-Handling, System-Prompts, Rate-Limit, Fehler-Behandlung
- Austauschbares Backend: on-prem LLM oder Cloud-API per Konfiguration
- Persistenter Gesprächsverlauf je Matrix-Raum
- Admin-Befehle per DM: /reset, /persona, /stats
Eigener KI-Chatbot für Ihr Team?
Egal ob Kunden-Support, interner Knowledge-Bot oder branchenspezifischer Assistent — ich baue den Bot auf Ihrer eigenen Matrix-Infrastruktur. Backend wählen Sie: on-prem Mistral Small 3.1 für strikten Datenschutz oder Cloud-API für maximale Antwort-Qualität.
Kickoff anfragen