Was ist ein Large Language Model (LLM)?

Ein Large Language Model (LLM) ist ein KI-System, das auf sehr großen Textmengen trainiert wurde und natürliche Sprache verstehen und generieren kann. 'Large' bezieht sich auf die Anzahl der Parameter — GPT-4 hat schätzungsweise 1,8 Billionen Parameter. LLMs lernen, indem sie die statistische Wahrscheinlichkeit des nächsten Worts in einem Satz vorhersagen — über Milliarden von Trainingsbeispielen.

Was ist die Transformer-Architektur und warum ist sie so wichtig?

Die Transformer-Architektur wurde 2017 von Google-Forschern im Paper 'Attention is All You Need' vorgestellt. Der entscheidende Mechanismus: Attention — das Modell lernt, welche Teile eines Textes für die Vorhersage des nächsten Elements am relevantesten sind. Transformer ermöglichten erstmals effizientes paralleles Training auf großen Datenmengen und legte die Grundlage für alle modernen LLMs (GPT, Claude, Gemini, Llama).

Warum halluzinieren LLMs und was kann man dagegen tun?

LLMs halluzinieren, weil sie nicht 'wissen', was wahr ist — sie generieren statistische Wahrscheinlichkeiten. Wenn ein Modell zu einer Frage keine gute Trainingsdatenabdeckung hat, generiert es dennoch eine plausibel klingende Antwort. Gegenmaßnahmen: Retrieval-Augmented Generation (RAG) verknüpft das Modell mit verifizierten Wissensquellen; Temperaturparameter beeinflussen die 'Kreativität' des Modells; menschliche Nachprüfung bei kritischen Anwendungen ist unerlässlich.

Was ist der Unterschied zwischen GPT-4, Claude und Gemini?

Alle drei sind LLMs der neuesten Generation mit ähnlichen Grundfähigkeiten — der Unterschied liegt in Trainingsphilosophie, Stärken und Einsatzbereich. GPT-4o (OpenAI) ist stark in Code und multimodalen Aufgaben. Claude (Anthropic) betont Safety und Nuanciertheit in langen Texten. Gemini (Google) ist tief in die Google-Produktpalette integriert und stark in der Analyse langer Dokumente. Für praktische Zwecke sind die Unterschiede bei Standardaufgaben gering.

Large Language Models erklärt: Wie ChatGPT & Co. wirklich funktionieren

Kurzfassung

LLMs lernen, indem sie das nächste Wort in einem Satz vorhersagen — über Billionen von Textbeispielen. Das Resultat ist ein System, das Sprache scheinbar „versteht".
Die Transformer-Architektur (Google, 2017) ist die technische Grundlage aller modernen LLMs: GPT, Claude, Gemini, Llama.
Halluzinationen sind kein Bug, sondern eine systemische Eigenschaft — LLMs generieren immer eine Antwort, auch wenn sie falsch ist. Verifizierung ist Pflicht.

Was ist ein Large Language Model?

Ein Large Language Model (LLM) ist ein KI-System, das auf einer enormen Menge Text trainiert wurde — typischerweise hunderte Milliarden bis Billionen von Wörtern aus dem Internet, Büchern, wissenschaftlichen Papieren und anderen Textquellen.

Das Training ist konzeptionell einfach: Das Modell bekommt einen Textanfang und soll das nächste Wort vorhersagen. Es macht eine Vorhersage, vergleicht sie mit dem richtigen Wort und passt seine internen Parameter an. Das passiert Milliarden Male. Am Ende hat das Modell die statistischen Muster der menschlichen Sprache internalisiert.

Das Ergebnis: ein System, das Sprache scheinbar „versteht" — grammatikalisch korrekte, kontextuell sinnvolle, inhaltlich kohärente Texte generiert. Wichtig: Das Modell „versteht" nicht im philosophischen Sinne. Es erkennt Muster.

Die Transformer-Architektur: Das Fundament

Der technologische Durchbruch kam 2017 mit dem Google-Paper „Attention is All You Need" (Vaswani et al., 2017). Das Paper stellte die Transformer-Architektur vor — und veränderte die KI-Welt grundlegend.

Der Kernmechanismus: Self-Attention. Beim Verarbeiten eines Worts berechnet das Modell, welche anderen Wörter im Kontext am relevantesten sind. Im Satz „Der Anwalt, der seit 10 Jahren in München praktiziert, berät seinen Mandanten" verknüpft Attention „berät" mit „Anwalt" — nicht mit dem zwischendurch erwähnten „München".

Vorher mussten Sprachmodelle sequentiell lesen (wie ein Mensch). Transformer können alle Tokens gleichzeitig verarbeiten — das ermöglichte erstmals effizientes Training auf riesigen Datenmengen mit moderner Parallelcomputing-Hardware (GPUs, TPUs).

Wie ein LLM trainiert wird

Phase 1: Pre-Training

Das Modell verarbeitet hunderte Milliarden Textbeispiele und lernt, das nächste Token vorherzusagen. Dieser Schritt dauert bei Frontier-Modellen Monate und kostet zig Millionen Dollar (GPT-4 Trainingskosten: geschätzt $100 Mio.+).

Phase 2: Instruction Fine-Tuning (SFT)

Das vortrainierte Modell lernt, Anweisungen zu befolgen. Dafür werden Tausende Beispiele menschlicher Anweisungen und hochwertiger Antworten bereitgestellt. Das Modell lernt: „Wenn jemand fragt, antworte hilfreich und klar."

Phase 3: RLHF (Reinforcement Learning from Human Feedback)

Menschen bewerten verschiedene Modellantworten auf dieselbe Frage. Auf Basis dieser Bewertungen wird ein Belohnungsmodell trainiert. Das Hauptmodell wird dann optimiert, Antworten zu generieren, die das Belohnungsmodell hoch bewertet. Ergebnis: ein hilfreicher, harmloser, ehrlicher Assistent (Constitutional AI bei Anthropic Claude).

Die wichtigsten LLMs 2026

GPT-4o

OpenAI / Microsoft

Stärken: Code, multimodale Eingaben (Text + Bild + Audio). Breite Ecosystem-Integration (Office, Azure). Größte Nutzerbasis weltweit.

Claude 3.5 / 4

Anthropic

Stärken: Nuanciertheit, lange Dokumente, Safety-Fokus. Besonders stark bei komplexen Analysen und Texten mit hohem Qualitätsanspruch.

Gemini 2.0

Google DeepMind

Stärken: Google-Integration (Search, Drive, Docs), sehr langer Kontextfenster. Stark bei Dokumentenanalyse und Websuche.

Für die meisten praktischen Anwendungen — inklusive Kanzlei-Chatbots — sind die Leistungsunterschiede bei Standardaufgaben gering. Entscheidender als das Modell selbst ist die Qualität des System-Prompts und des Kanzlei-spezifischen Trainings.

Das Halluzinationsproblem

LLMs halluzinieren — sie generieren plausibel klingende, aber faktisch falsche Informationen. Das ist keine Fehlfunktion, sondern eine systemische Eigenschaft: Das Modell generiert immer das statistisch wahrscheinlichste nächste Token, auch wenn es keine zuverlässige Informationsgrundlage hat.

⚠ Konkrete Konsequenz für Anwälte

AG Köln (Juli 2025): Ein Anwalt reichte einen Schriftsatz ein, der KI-generierte Zitate von Urteilen enthielt, die nicht existierten. Das Gericht sanktionierte dies als Berufspflichtverletzung. Regel: Jedes KI-generierte Dokument muss von einem zugelassenen Rechtsanwalt auf faktische Korrektheit geprüft werden.

Warum passiert das?

Das Modell hat gelernt, dass auf Fragen nach Urteilen in bestimmtem Format Antworten in einem bestimmten Format folgen. Es generiert dieses Format — auch wenn die konkrete Quelle nicht existiert. Es „weiß" nicht, was es nicht weiß.

Wie man Halluzinationen reduziert

RAG (Retrieval-Augmented Generation): Verbindet das Modell mit einer verifizierten Wissensdatenbank. Das Modell kann nur antworten, was in der Datenbank steht. (Mehr dazu: RAG erklärt)
Temperaturparameter: Niedrigere Temperatur = deterministischere, weniger „kreative" Antworten.
Grounding-Anforderungen: Das Modell wird angewiesen, nur zu antworten, wenn es eine Quelle zitieren kann.
Menschliche Prüfung: Bei kritischen Anwendungen unverzichtbar.

Das Kontextfenster — die Gedächtnisgrenze

LLMs haben kein dauerhaftes Gedächtnis. Sie erinnern sich nur an das, was sich im aktuellen Kontextfenster befindet — dem Text, der gerade im Modell verarbeitet wird. Moderne Modelle haben Kontextfenster von 128.000 bis 2 Millionen Tokens (1 Token ≈ ¾ Wort auf Deutsch).

Für Chatbots bedeutet das: Ohne externe Speichersysteme vergisst der Chatbot nach einem Gesprächsende alles. Spezialisierte Chatbot-Systeme wie KYOU Solutions nutzen externe Datenbanken und Protokollsysteme, um Kontext zu erhalten.

Fazit

LLMs sind beeindruckend leistungsfähig und gleichzeitig fundamental begrenzt. Wer ihre Funktionsweise versteht, kann sie richtig einsetzen — und weiß, wann menschliche Kontrolle unerlässlich ist.

Für praktische Anwendungen gilt: Ein spezialisiertes System, das LLM-Technologie mit verifizierten Wissensdatenbanken, klaren Grenzen und menschlicher Aufsicht kombiniert, ist immer besser als ein generisches LLM ohne Absicherung.

LLM-Technologie praxisreif für Ihre Kanzlei

KYOU Solutions nutzt LLMs mit kanzleispezifischem Training, DSGVO-konformen EU-Servern und klaren Halluzinations-Grenzen.

Demo anfragen

Large Language Models erklärt:Wie ChatGPT & Co. wirklich funktionieren