- RAG (Retrieval-Augmented Generation) verbindet ein LLM mit einer externen Wissensdatenbank — das Modell antwortet auf Basis abgerufener Dokumente, nicht nur aus dem Training.
- Ergebnis: Dramatisch weniger Halluzinationen, aktuelle Informationen, unternehmensspezifisches Wissen ohne teures Neutraining.
- RAG ist die Standard-Architektur für unternehmenstaugliche KI-Chatbots — auch hinter KYOU Solutions.
Das Problem: LLMs sind eingefroren in der Zeit
Stellen Sie einem LLM wie ChatGPT die Frage: „Was hat die Rechtsanwaltskanzlei Muster heute auf ihrer Website stehen?" — Die Antwort wird falsch oder eine Halluzination sein. Warum?
LLMs werden auf einem festen Datensatz trainiert — mit einem bestimmten Cutoff-Datum (Trainingsende). GPT-4s Training endet Anfang 2024. Alles danach ist dem Modell unbekannt. Außerdem kennen LLMs standardmäßig keine internen Unternehmensdokumente, keine aktuellen Preislisten, keine spezifischen Mandatsdaten.
RAG (Retrieval-Augmented Generation) ist die Lösung für genau dieses Problem.
Was ist RAG?
RAG ist eine Architektur, die ein LLM mit einer externen Wissensdatenbank verbindet. Bei jeder Anfrage läuft ein zweistufiger Prozess:
- Retrieval: Die Anfrage wird genutzt, um relevante Dokumente aus einer Datenbank abzurufen.
- Generation: Das LLM erhält die abgerufenen Dokumente als Kontext und generiert eine Antwort auf Basis dieser Quellen.
Das Modell muss die Informationen nicht mehr aus dem Training „erinnern" — es liest sie in Echtzeit nach. Das ist konzeptionell ähnlich wie ein Mensch, der eine Frage beantwortet, indem er im richtigen Handbuch nachschlägt, statt aus dem Gedächtnis zu antworten.
Die RAG-Pipeline: 4 Schritte
Indexierung
Alle relevanten Dokumente (Website-Inhalte, PDFs, Datenbanken) werden in Chunks aufgeteilt, als Embeddings kodiert und in einer Vektordatenbank gespeichert. Dieser Schritt passiert einmalig und wird bei Aktualisierungen wiederholt.
Query-Embedding
Die Nutzeranfrage wird ebenfalls in einen Vektor (Embedding) umgewandelt — dasselbe mathematische Format wie die gespeicherten Dokumente. Das ermöglicht einen semantischen Vergleich.
Retrieval
Die Vektordatenbank findet die k semantisch ähnlichsten Dokument-Chunks zur Anfrage. „Ähnlich" bedeutet hier inhaltlich relevant — nicht nur gleiche Stichwörter. Typisch: k = 3–10 Chunks.
Augmented Generation
Die abgerufenen Chunks werden zusammen mit der Anfrage als Kontext an das LLM übergeben. Das Modell generiert eine Antwort, die ausschließlich auf diesen Quellen basiert — und kann optional die Quellen zitieren.
Was ist eine Vektordatenbank?
Klassische Datenbanken suchen nach exakten Begriffen (SQL: WHERE text LIKE '%Scheidung%'). Vektordatenbanken suchen nach semantischer Ähnlichkeit.
Ein Text wie „Ich möchte mich von meinem Mann trennen" wird semantisch ähnlich bewertet wie „Scheidungsberatung Familienrecht" — auch wenn kein Wort identisch ist. Das ist möglich, weil Text in mathematische Vektoren (Embeddings) umgewandelt wird, bei denen ähnliche Bedeutungen nahe beieinanderliegen im hochdimensionalen Raum.
Bekannte Vektordatenbanken: Pinecone, Weaviate, Qdrant, pgvector (PostgreSQL-Extension).
RAG vs. Fine-Tuning: Was ist besser?
| Kriterium | RAG | Fine-Tuning |
|---|---|---|
| Wissen aktualisieren | Einfach — neue Dokumente hinzufügen | Teures Neutraining nötig |
| Unternehmensspezifisches Wissen | Sehr gut | Möglich, aber begrenzt |
| Halluzinationen | Stark reduziert | Reduziert, aber vorhanden |
| Transparenz (Quellen) | Quellen abrufbar | Modell-internes Wissen |
| Kosten | Gering bis mittel | Hoch (GPU-Training) |
| Beste für | Fakten, aktuelle Daten, Unternehmenswissen | Sprachstil, Verhalten, Tonalität |
Für die überwiegende Mehrheit der unternehmenstauglichen Chatbot-Anwendungen ist RAG die richtige Wahl — günstiger, aktualisierbarer und transparenter. Fine-Tuning kommt ergänzend in Frage, wenn ein spezifischer Kommunikationsstil erlernt werden soll.
RAG in der Kanzlei: Konkret
KYOU Solutions nutzt RAG als Kern-Technologie für alle Kanzlei-Chatbots. Die Wissensdatenbank wird aufgebaut aus:
- Website-Inhalten der Kanzlei (Tätigkeitsschwerpunkte, Team, Kontakt)
- FAQ-Dokumenten aus dem Onboarding-Gespräch
- Internen Preislisten und Prozessbeschreibungen
Wenn ein Mandant fragt „Was kostet eine Scheidungsberatung bei Ihnen?", ruft das System den relevanten Chunk aus der Kanzlei-Wissensdatenbank ab und generiert eine präzise, auf die Kanzlei zugeschnittene Antwort. Ohne RAG würde ein generisches LLM Durchschnittspreise aus dem Training nennen.
Fazit
RAG ist die Brücke zwischen dem allgemeinen Sprachwissen eines LLMs und dem spezifischen Wissen, das für eine unternehmenstaugliche Anwendung nötig ist. Ohne RAG sind Chatbots generisch und fehleranfällig. Mit RAG werden sie spezifisch, aktuell und deutlich zuverlässiger.
Für Kanzleien bedeutet das: Ein Chatbot, der auf RAG basiert und mit Kanzleidaten trainiert wurde, gibt präzise kanzleispezifische Antworten — und keine generischen Allgemeinaussagen, die möglicherweise sogar falsch sind.
RAG-basierter Chatbot für Ihre Kanzlei
KYOU Solutions nutzt RAG und kanzleispezifische Wissensdatenbanken. Damit kennt Ihr Chatbot Ihre Kanzlei — nicht das Internet.
Demo anfragen