- LLMs lernen, indem sie das nächste Wort in einem Satz vorhersagen — über Billionen von Textbeispielen. Das Resultat ist ein System, das Sprache scheinbar „versteht".
- Die Transformer-Architektur (Google, 2017) ist die technische Grundlage aller modernen LLMs: GPT, Claude, Gemini, Llama.
- Halluzinationen sind kein Bug, sondern eine systemische Eigenschaft — LLMs generieren immer eine Antwort, auch wenn sie falsch ist. Verifizierung ist Pflicht.
Was ist ein Large Language Model?
Ein Large Language Model (LLM) ist ein KI-System, das auf einer enormen Menge Text trainiert wurde — typischerweise hunderte Milliarden bis Billionen von Wörtern aus dem Internet, Büchern, wissenschaftlichen Papieren und anderen Textquellen.
Das Training ist konzeptionell einfach: Das Modell bekommt einen Textanfang und soll das nächste Wort vorhersagen. Es macht eine Vorhersage, vergleicht sie mit dem richtigen Wort und passt seine internen Parameter an. Das passiert Milliarden Male. Am Ende hat das Modell die statistischen Muster der menschlichen Sprache internalisiert.
Das Ergebnis: ein System, das Sprache scheinbar „versteht" — grammatikalisch korrekte, kontextuell sinnvolle, inhaltlich kohärente Texte generiert. Wichtig: Das Modell „versteht" nicht im philosophischen Sinne. Es erkennt Muster.
Die Transformer-Architektur: Das Fundament
Der technologische Durchbruch kam 2017 mit dem Google-Paper „Attention is All You Need" (Vaswani et al., 2017). Das Paper stellte die Transformer-Architektur vor — und veränderte die KI-Welt grundlegend.
Der Kernmechanismus: Self-Attention. Beim Verarbeiten eines Worts berechnet das Modell, welche anderen Wörter im Kontext am relevantesten sind. Im Satz „Der Anwalt, der seit 10 Jahren in München praktiziert, berät seinen Mandanten" verknüpft Attention „berät" mit „Anwalt" — nicht mit dem zwischendurch erwähnten „München".
Vorher mussten Sprachmodelle sequentiell lesen (wie ein Mensch). Transformer können alle Tokens gleichzeitig verarbeiten — das ermöglichte erstmals effizientes Training auf riesigen Datenmengen mit moderner Parallelcomputing-Hardware (GPUs, TPUs).
Wie ein LLM trainiert wird
Phase 1: Pre-Training
Das Modell verarbeitet hunderte Milliarden Textbeispiele und lernt, das nächste Token vorherzusagen. Dieser Schritt dauert bei Frontier-Modellen Monate und kostet zig Millionen Dollar (GPT-4 Trainingskosten: geschätzt $100 Mio.+).
Phase 2: Instruction Fine-Tuning (SFT)
Das vortrainierte Modell lernt, Anweisungen zu befolgen. Dafür werden Tausende Beispiele menschlicher Anweisungen und hochwertiger Antworten bereitgestellt. Das Modell lernt: „Wenn jemand fragt, antworte hilfreich und klar."
Phase 3: RLHF (Reinforcement Learning from Human Feedback)
Menschen bewerten verschiedene Modellantworten auf dieselbe Frage. Auf Basis dieser Bewertungen wird ein Belohnungsmodell trainiert. Das Hauptmodell wird dann optimiert, Antworten zu generieren, die das Belohnungsmodell hoch bewertet. Ergebnis: ein hilfreicher, harmloser, ehrlicher Assistent (Constitutional AI bei Anthropic Claude).
Die wichtigsten LLMs 2026
GPT-4o
Stärken: Code, multimodale Eingaben (Text + Bild + Audio). Breite Ecosystem-Integration (Office, Azure). Größte Nutzerbasis weltweit.
Claude 3.5 / 4
Stärken: Nuanciertheit, lange Dokumente, Safety-Fokus. Besonders stark bei komplexen Analysen und Texten mit hohem Qualitätsanspruch.
Gemini 2.0
Stärken: Google-Integration (Search, Drive, Docs), sehr langer Kontextfenster. Stark bei Dokumentenanalyse und Websuche.
Für die meisten praktischen Anwendungen — inklusive Kanzlei-Chatbots — sind die Leistungsunterschiede bei Standardaufgaben gering. Entscheidender als das Modell selbst ist die Qualität des System-Prompts und des Kanzlei-spezifischen Trainings.
Das Halluzinationsproblem
LLMs halluzinieren — sie generieren plausibel klingende, aber faktisch falsche Informationen. Das ist keine Fehlfunktion, sondern eine systemische Eigenschaft: Das Modell generiert immer das statistisch wahrscheinlichste nächste Token, auch wenn es keine zuverlässige Informationsgrundlage hat.
AG Köln (Juli 2025): Ein Anwalt reichte einen Schriftsatz ein, der KI-generierte Zitate von Urteilen enthielt, die nicht existierten. Das Gericht sanktionierte dies als Berufspflichtverletzung. Regel: Jedes KI-generierte Dokument muss von einem zugelassenen Rechtsanwalt auf faktische Korrektheit geprüft werden.
Warum passiert das?
Das Modell hat gelernt, dass auf Fragen nach Urteilen in bestimmtem Format Antworten in einem bestimmten Format folgen. Es generiert dieses Format — auch wenn die konkrete Quelle nicht existiert. Es „weiß" nicht, was es nicht weiß.
Wie man Halluzinationen reduziert
- RAG (Retrieval-Augmented Generation): Verbindet das Modell mit einer verifizierten Wissensdatenbank. Das Modell kann nur antworten, was in der Datenbank steht. (Mehr dazu: RAG erklärt)
- Temperaturparameter: Niedrigere Temperatur = deterministischere, weniger „kreative" Antworten.
- Grounding-Anforderungen: Das Modell wird angewiesen, nur zu antworten, wenn es eine Quelle zitieren kann.
- Menschliche Prüfung: Bei kritischen Anwendungen unverzichtbar.
Das Kontextfenster — die Gedächtnisgrenze
LLMs haben kein dauerhaftes Gedächtnis. Sie erinnern sich nur an das, was sich im aktuellen Kontextfenster befindet — dem Text, der gerade im Modell verarbeitet wird. Moderne Modelle haben Kontextfenster von 128.000 bis 2 Millionen Tokens (1 Token ≈ ¾ Wort auf Deutsch).
Für Chatbots bedeutet das: Ohne externe Speichersysteme vergisst der Chatbot nach einem Gesprächsende alles. Spezialisierte Chatbot-Systeme wie KYOU Solutions nutzen externe Datenbanken und Protokollsysteme, um Kontext zu erhalten.
Fazit
LLMs sind beeindruckend leistungsfähig und gleichzeitig fundamental begrenzt. Wer ihre Funktionsweise versteht, kann sie richtig einsetzen — und weiß, wann menschliche Kontrolle unerlässlich ist.
Für praktische Anwendungen gilt: Ein spezialisiertes System, das LLM-Technologie mit verifizierten Wissensdatenbanken, klaren Grenzen und menschlicher Aufsicht kombiniert, ist immer besser als ein generisches LLM ohne Absicherung.
LLM-Technologie praxisreif für Ihre Kanzlei
KYOU Solutions nutzt LLMs mit kanzleispezifischem Training, DSGVO-konformen EU-Servern und klaren Halluzinations-Grenzen.
Demo anfragen