Was ist Retrieval-Augmented Generation (RAG)?

RAG ist eine Architektur, die ein Large Language Model (LLM) mit einer externen Wissendatenbank verbindet. Statt nur aus seinem Training zu antworten, ruft das Modell bei jeder Anfrage relevante Informationen aus der Datenbank ab und nutzt diese als Kontext für die Antwort. Das reduziert Halluzinationen dramatisch und ermöglicht es, aktuelle oder unternehmensspezifische Informationen zu verarbeiten.

Was ist eine Vektordatenbank und wozu braucht man sie bei RAG?

Eine Vektordatenbank speichert Texte als mathematische Vektoren (Embeddings), die semantische Ähnlichkeit abbilden. Wenn eine Anfrage gestellt wird, wird sie ebenfalls in einen Vektor umgewandelt und die Datenbank gibt die semantisch ähnlichsten Dokumente zurück — nicht nach exakten Stichwörtern, sondern nach inhaltlicher Bedeutung. Das ermöglicht präziseres Retrieval als klassische Schlüsselwortsuche.

Was ist besser für Chatbots: RAG oder Fine-Tuning?

Für unternehmensspezifisches Wissen ist RAG in fast allen Fällen besser: einfacher zu aktualisieren (neue Dokumente hinzufügen statt neu trainieren), transparenter (Quellen abrufbar), günstiger und sicherer gegen Datenlecks. Fine-Tuning eignet sich besser, wenn ein Modell einen bestimmten Schreibstil oder spezifische Verhaltensweise lernen soll — nicht für faktisches Wissen.

Eliminiert RAG Halluzinationen vollständig?

Nein, RAG reduziert Halluzinationen stark, eliminiert sie aber nicht vollständig. Das Modell könnte immer noch fehlerhafte Schlüsse aus korrekt abgerufenem Material ziehen. Zudem kann das Retrieval fehlschlagen, wenn die relevante Information nicht in der Datenbank liegt. RAG ist eine starke Verbesserung, ersetzt aber nicht die menschliche Qualitätskontrolle bei kritischen Anwendungen.

RAG erklärt: Wie KI auf aktuelle Informationen zugreift

Kurzfassung

RAG (Retrieval-Augmented Generation) verbindet ein LLM mit einer externen Wissensdatenbank — das Modell antwortet auf Basis abgerufener Dokumente, nicht nur aus dem Training.
Ergebnis: Dramatisch weniger Halluzinationen, aktuelle Informationen, unternehmensspezifisches Wissen ohne teures Neutraining.
RAG ist die Standard-Architektur für unternehmenstaugliche KI-Chatbots — auch hinter KYOU Solutions.

Das Problem: LLMs sind eingefroren in der Zeit

Stellen Sie einem LLM wie ChatGPT die Frage: „Was hat die Rechtsanwaltskanzlei Muster heute auf ihrer Website stehen?" — Die Antwort wird falsch oder eine Halluzination sein. Warum?

LLMs werden auf einem festen Datensatz trainiert — mit einem bestimmten Cutoff-Datum (Trainingsende). GPT-4s Training endet Anfang 2024. Alles danach ist dem Modell unbekannt. Außerdem kennen LLMs standardmäßig keine internen Unternehmensdokumente, keine aktuellen Preislisten, keine spezifischen Mandatsdaten.

RAG (Retrieval-Augmented Generation) ist die Lösung für genau dieses Problem.

Was ist RAG?

RAG ist eine Architektur, die ein LLM mit einer externen Wissensdatenbank verbindet. Bei jeder Anfrage läuft ein zweistufiger Prozess:

Retrieval: Die Anfrage wird genutzt, um relevante Dokumente aus einer Datenbank abzurufen.
Generation: Das LLM erhält die abgerufenen Dokumente als Kontext und generiert eine Antwort auf Basis dieser Quellen.

Das Modell muss die Informationen nicht mehr aus dem Training „erinnern" — es liest sie in Echtzeit nach. Das ist konzeptionell ähnlich wie ein Mensch, der eine Frage beantwortet, indem er im richtigen Handbuch nachschlägt, statt aus dem Gedächtnis zu antworten.

Die RAG-Pipeline: 4 Schritte

Indexierung

Alle relevanten Dokumente (Website-Inhalte, PDFs, Datenbanken) werden in Chunks aufgeteilt, als Embeddings kodiert und in einer Vektordatenbank gespeichert. Dieser Schritt passiert einmalig und wird bei Aktualisierungen wiederholt.

Query-Embedding

Die Nutzeranfrage wird ebenfalls in einen Vektor (Embedding) umgewandelt — dasselbe mathematische Format wie die gespeicherten Dokumente. Das ermöglicht einen semantischen Vergleich.

Retrieval

Die Vektordatenbank findet die k semantisch ähnlichsten Dokument-Chunks zur Anfrage. „Ähnlich" bedeutet hier inhaltlich relevant — nicht nur gleiche Stichwörter. Typisch: k = 3–10 Chunks.

Augmented Generation

Die abgerufenen Chunks werden zusammen mit der Anfrage als Kontext an das LLM übergeben. Das Modell generiert eine Antwort, die ausschließlich auf diesen Quellen basiert — und kann optional die Quellen zitieren.

Was ist eine Vektordatenbank?

Klassische Datenbanken suchen nach exakten Begriffen (SQL: WHERE text LIKE '%Scheidung%'). Vektordatenbanken suchen nach semantischer Ähnlichkeit.

Ein Text wie „Ich möchte mich von meinem Mann trennen" wird semantisch ähnlich bewertet wie „Scheidungsberatung Familienrecht" — auch wenn kein Wort identisch ist. Das ist möglich, weil Text in mathematische Vektoren (Embeddings) umgewandelt wird, bei denen ähnliche Bedeutungen nahe beieinanderliegen im hochdimensionalen Raum.

Bekannte Vektordatenbanken: Pinecone, Weaviate, Qdrant, pgvector (PostgreSQL-Extension).

RAG vs. Fine-Tuning: Was ist besser?

Kriterium	RAG	Fine-Tuning
Wissen aktualisieren	Einfach — neue Dokumente hinzufügen	Teures Neutraining nötig
Unternehmensspezifisches Wissen	Sehr gut	Möglich, aber begrenzt
Halluzinationen	Stark reduziert	Reduziert, aber vorhanden
Transparenz (Quellen)	Quellen abrufbar	Modell-internes Wissen
Kosten	Gering bis mittel	Hoch (GPU-Training)
Beste für	Fakten, aktuelle Daten, Unternehmenswissen	Sprachstil, Verhalten, Tonalität

Für die überwiegende Mehrheit der unternehmenstauglichen Chatbot-Anwendungen ist RAG die richtige Wahl — günstiger, aktualisierbarer und transparenter. Fine-Tuning kommt ergänzend in Frage, wenn ein spezifischer Kommunikationsstil erlernt werden soll.

RAG in der Kanzlei: Konkret

KYOU Solutions nutzt RAG als Kern-Technologie für alle Kanzlei-Chatbots. Die Wissensdatenbank wird aufgebaut aus:

Website-Inhalten der Kanzlei (Tätigkeitsschwerpunkte, Team, Kontakt)
FAQ-Dokumenten aus dem Onboarding-Gespräch
Internen Preislisten und Prozessbeschreibungen

Wenn ein Mandant fragt „Was kostet eine Scheidungsberatung bei Ihnen?", ruft das System den relevanten Chunk aus der Kanzlei-Wissensdatenbank ab und generiert eine präzise, auf die Kanzlei zugeschnittene Antwort. Ohne RAG würde ein generisches LLM Durchschnittspreise aus dem Training nennen.

Fazit

RAG ist die Brücke zwischen dem allgemeinen Sprachwissen eines LLMs und dem spezifischen Wissen, das für eine unternehmenstaugliche Anwendung nötig ist. Ohne RAG sind Chatbots generisch und fehleranfällig. Mit RAG werden sie spezifisch, aktuell und deutlich zuverlässiger.

Für Kanzleien bedeutet das: Ein Chatbot, der auf RAG basiert und mit Kanzleidaten trainiert wurde, gibt präzise kanzleispezifische Antworten — und keine generischen Allgemeinaussagen, die möglicherweise sogar falsch sind.

RAG-basierter Chatbot für Ihre Kanzlei

KYOU Solutions nutzt RAG und kanzleispezifische Wissensdatenbanken. Damit kennt Ihr Chatbot Ihre Kanzlei — nicht das Internet.

Demo anfragen

RAG erklärt:Wie KI auf aktuelle Informationen zugreift