BlogKI Grundlagen
KI Grundlagen 8 min lesen Februar 2026

RAG erklärt:
Wie KI auf aktuelle Informationen zugreift

Retrieval-Augmented Generation — die Technologie, die KI-Chatbots unternehmensspezifisches Wissen gibt und Halluzinationen reduziert. Technisch erklärt, praxisnah.

Kurzfassung
  • RAG (Retrieval-Augmented Generation) verbindet ein LLM mit einer externen Wissensdatenbank — das Modell antwortet auf Basis abgerufener Dokumente, nicht nur aus dem Training.
  • Ergebnis: Dramatisch weniger Halluzinationen, aktuelle Informationen, unternehmens­spezifisches Wissen ohne teures Neutraining.
  • RAG ist die Standard-Architektur für unternehmenstaugliche KI-Chatbots — auch hinter KYOU Solutions.

Das Problem: LLMs sind eingefroren in der Zeit

Stellen Sie einem LLM wie ChatGPT die Frage: „Was hat die Rechtsanwaltskanzlei Muster heute auf ihrer Website stehen?" — Die Antwort wird falsch oder eine Halluzination sein. Warum?

LLMs werden auf einem festen Datensatz trainiert — mit einem bestimmten Cutoff-Datum (Trainingsende). GPT-4s Training endet Anfang 2024. Alles danach ist dem Modell unbekannt. Außerdem kennen LLMs standardmäßig keine internen Unternehmens­dokumente, keine aktuellen Preislisten, keine spezifischen Mandatsdaten.

RAG (Retrieval-Augmented Generation) ist die Lösung für genau dieses Problem.

Was ist RAG?

RAG ist eine Architektur, die ein LLM mit einer externen Wissensdatenbank verbindet. Bei jeder Anfrage läuft ein zweistufiger Prozess:

  1. Retrieval: Die Anfrage wird genutzt, um relevante Dokumente aus einer Datenbank abzurufen.
  2. Generation: Das LLM erhält die abgerufenen Dokumente als Kontext und generiert eine Antwort auf Basis dieser Quellen.

Das Modell muss die Informationen nicht mehr aus dem Training „erinnern" — es liest sie in Echtzeit nach. Das ist konzeptionell ähnlich wie ein Mensch, der eine Frage beantwortet, indem er im richtigen Handbuch nachschlägt, statt aus dem Gedächtnis zu antworten.

Die RAG-Pipeline: 4 Schritte

1

Indexierung

Alle relevanten Dokumente (Website-Inhalte, PDFs, Datenbanken) werden in Chunks aufgeteilt, als Embeddings kodiert und in einer Vektordatenbank gespeichert. Dieser Schritt passiert einmalig und wird bei Aktualisierungen wiederholt.

2

Query-Embedding

Die Nutzeranfrage wird ebenfalls in einen Vektor (Embedding) umgewandelt — dasselbe mathematische Format wie die gespeicherten Dokumente. Das ermöglicht einen semantischen Vergleich.

3

Retrieval

Die Vektordatenbank findet die k semantisch ähnlichsten Dokument-Chunks zur Anfrage. „Ähnlich" bedeutet hier inhaltlich relevant — nicht nur gleiche Stichwörter. Typisch: k = 3–10 Chunks.

4

Augmented Generation

Die abgerufenen Chunks werden zusammen mit der Anfrage als Kontext an das LLM übergeben. Das Modell generiert eine Antwort, die ausschließlich auf diesen Quellen basiert — und kann optional die Quellen zitieren.

Was ist eine Vektordatenbank?

Klassische Datenbanken suchen nach exakten Begriffen (SQL: WHERE text LIKE '%Scheidung%'). Vektordatenbanken suchen nach semantischer Ähnlichkeit.

Ein Text wie „Ich möchte mich von meinem Mann trennen" wird semantisch ähnlich bewertet wie „Scheidungsberatung Familienrecht" — auch wenn kein Wort identisch ist. Das ist möglich, weil Text in mathematische Vektoren (Embeddings) umgewandelt wird, bei denen ähnliche Bedeutungen nahe beieinanderliegen im hochdimensionalen Raum.

Bekannte Vektordatenbanken: Pinecone, Weaviate, Qdrant, pgvector (PostgreSQL-Extension).

RAG vs. Fine-Tuning: Was ist besser?

KriteriumRAGFine-Tuning
Wissen aktualisierenEinfach — neue Dokumente hinzufügenTeures Neutraining nötig
Unternehmensspezifisches WissenSehr gutMöglich, aber begrenzt
HalluzinationenStark reduziertReduziert, aber vorhanden
Transparenz (Quellen)Quellen abrufbarModell-internes Wissen
KostenGering bis mittelHoch (GPU-Training)
Beste fürFakten, aktuelle Daten, UnternehmenswissenSprachstil, Verhalten, Tonalität

Für die überwiegende Mehrheit der unternehmenstauglichen Chatbot-Anwendungen ist RAG die richtige Wahl — günstiger, aktualisierbarer und transparenter. Fine-Tuning kommt ergänzend in Frage, wenn ein spezifischer Kommunikationsstil erlernt werden soll.

RAG in der Kanzlei: Konkret

KYOU Solutions nutzt RAG als Kern-Technologie für alle Kanzlei-Chatbots. Die Wissensdatenbank wird aufgebaut aus:

  • Website-Inhalten der Kanzlei (Tätigkeitsschwerpunkte, Team, Kontakt)
  • FAQ-Dokumenten aus dem Onboarding-Gespräch
  • Internen Preislisten und Prozessbeschreibungen

Wenn ein Mandant fragt „Was kostet eine Scheidungsberatung bei Ihnen?", ruft das System den relevanten Chunk aus der Kanzlei-Wissensdatenbank ab und generiert eine präzise, auf die Kanzlei zugeschnittene Antwort. Ohne RAG würde ein generisches LLM Durchschnittspreise aus dem Training nennen.

Fazit

RAG ist die Brücke zwischen dem allgemeinen Sprachwissen eines LLMs und dem spezifischen Wissen, das für eine unternehmenstaugliche Anwendung nötig ist. Ohne RAG sind Chatbots generisch und fehleranfällig. Mit RAG werden sie spezifisch, aktuell und deutlich zuverlässiger.

Für Kanzleien bedeutet das: Ein Chatbot, der auf RAG basiert und mit Kanzleidaten trainiert wurde, gibt präzise kanzleispezifische Antworten — und keine generischen Allgemeinaussagen, die möglicherweise sogar falsch sind.

RAG-basierter Chatbot für Ihre Kanzlei

KYOU Solutions nutzt RAG und kanzleispezifische Wissensdatenbanken. Damit kennt Ihr Chatbot Ihre Kanzlei — nicht das Internet.

Demo anfragen