Was ist ein LLM – und warum halluziniert es manchmal?
Wie ein KI-Sprachmodell aufgebaut ist, warum es manchmal Dinge erfindet – und was das für deinen Arbeitsalltag bedeutet.

Kostenloses Cheatsheet downloaden:
Claude, ChatGPT, Gemini: Alle basieren auf demselben Prinzip. Wer versteht, wie ein Large Language Model (LLM) aufgebaut ist, kann es gezielter einsetzen – und weiss, wann er die Ausgabe kontrollieren sollte.
Wie ein LLM "lernt"
Ein LLM wird auf Milliarden von Texten trainiert: Webseiten, wissenschaftliche Papers, Bücher, Code, YouTube-Transkripte. Google hatte dabei einen historischen Vorteil über Google Books – 22 Millionen digitalisierte Bücher als Trainingsbasis. Wissenschaftliche Papers flossen ebenfalls ein, besonders viel im Bereich Code.
Dieses Training ist kein Auswendiglernen. Das Modell lernt Muster – statistische Zusammenhänge zwischen Wörtern, Konzepten und Strukturen. Das macht es stark in Bereichen, die gut dokumentiert sind: Sprache, Vertragslogik, Strukturtexte, Code.
Nach dem Training folgt ein Sicherheitsschritt: Testen, Guardrails setzen, Verhalten einschränken. Erst dann kommt eine neue Version öffentlich.
Wichtig: Jedes Modell hat ein Stopp-Datum. Ereignisse danach kennt es nur, wenn es via Tools (z. B. Web-Search) live nachschlagen kann.
Wörter vorhersagen, nicht denken
LLMs generieren Antworten Token für Token. Ein Token entspricht ungefähr 0.75 Wörtern oder 4 Zeichen. Das Modell fragt sich bei jedem Schritt: Welches Wort kommt nach diesem Kontext am wahrscheinlichsten?
Das ist keine Intelligenz im menschlichen Sinn – sondern sehr gute Mustererkennung auf sehr hohem Niveau. Das Sprachzentrum ist gelöst, Rechenoperationen auch – aber sehr viel im Hirn ist noch unverstanden. AGI, also allgemeine künstliche Intelligenz, ist in naher Zukunft unrealistisch – und wird von grossen Anbietern als Marketing-Begriff eingesetzt, um Investoren zu überzeugen.
Praktische Konsequenz: Wenn du einen Text auf exakt 30 Zeichen begrenzen willst, klappt das schlecht. Das Modell zählt intern keine Zeichen, sondern Tokens. Besser: "Schreib etwa 50 Wörter" – landet dann zwischen 45 und 55.
Wenn LLMs etwas erfinden
Halluzinationen sind das bekannteste Problem. Das Modell erfindet Fakten und gibt sie selbstbewusst aus – als wären sie wahr.
Warum passiert das? LLMs sind darauf trainiert, eine Antwort zu liefern. Wenn das Wissen fehlt, füllt das Modell die Lücken. Es erkennt nicht, dass es "nichts weiss" – es erkennt nur das nächstwahrscheinliche Token.
Die häufigsten Ursachen:
Prompt zu vage formuliert
Zu wenig Kontext mitgegeben
Veraltetes Trainingswissen – das Modell kennt Ereignisse nach dem Stopp-Datum nicht
Was hilft:
Präzisere Anfrage statt breite Frage
Kontext mitliefern: Offerte, Protokoll, Planunterlagen als PDF
In den Instruktionen festhalten: "Bei Unsicherheit explizit nachfragen, keine Zahlen erfinden"
Bei aktuellen Themen das LLM forcieren, Web-Search zu nutzen – oder bei komplexeren Recherchen die Deep Research Funktion einsetzen
Bei wichtigen Ergebnissen immer kontrollieren
Halluzinationen sind kein Zeichen eines schlechten Modells – sie sind ein Hinweis darauf, dass Prompt oder Kontext zu dünn waren.
Das Kontext-Fenster
Das Kontext-Fenster ist das Kurzzeit-Gedächtnis des Chatbots. Alles, was im aktuellen Gespräch sichtbar ist, gehört dazu: deine Fragen, die Antworten, hochgeladene Dokumente, Projekt-Anweisungen.
Die Grösse ist über die Jahre massiv gewachsen:
2022 (erste ChatGPT-Version): ca. 4'096 Tokens
2026 (Claude oder Gemini): bis zu 1'000'000 Tokens – das entspricht etwa 5 Romanen
Was das bedeutet:
Bilder und Screenshots verbrauchen viele Tokens – sparsam einsetzen
Sehr lange Chats: Das LLM vergisst irgendwann den Anfang. Wichtiges bei Bedarf wiederholen.
Neuer Chat = leeres Gedächtnis (ausser Projekt-Kontext und Instruktionen, die automatisch wieder geladen werden)
Und ein oft unterschätzter Punkt: Mehr Kontext ist nicht immer besser. Irrelevante PDFs, alte Chats, thematisch fremde Informationen verwirren das Modell. Nur das hochladen, was für diese spezifische Aufgabe relevant ist.
Noch wichtiger ist das Format der Kontextdateien. Ein PDF von 1 MB enthält Bilder, Formatierung und Metadaten – das frisst Tokens und kann das Modell verlangsamen. Dieselben Inhalte als sauberes Markdown benötigen oft nur 3–5 KB. Lohnt sich deshalb: PDFs einmalig in Markdown umwandeln und dann für jede Chatanfrage das Markdown hochladen statt das Original-PDF.
Was du nie eingeben solltest
Selbst mit Pro-Lizenz (kein Training auf deinen Chats) gilt: Bestimmte Daten gehören nicht in eine Cloud-KI.
NDA-Inhalte
Personalien sensibler Personen
Bankdaten und Kreditkarteninformationen
Login-Zugangsdaten und API-Keys
Geheime Verträge oder Patente vor der Anmeldung
Bei solchen Daten gibt es zwei Alternativen: Mistral als europäischen Anbieter (Server in Frankreich, DSGVO-näher) – oder ein lokales Open Source LLM wie Llama oder Gemma via Ollama / LM Studio. Vollständige Datenkontrolle, kein Cloud-Upload, schwächere Leistung.
Wie eine LLM-Anfrage aufgebaut ist
Wenn du eine Frage stellst, sieht das Modell mehr als nur deine Frage. Im Hintergrund baut sich ein grosser Prompt zusammen:
Baustein | Was es ist |
|---|---|
User Prompt | Deine eigentliche Frage |
System Prompts | Vorgaben des LLM-Anbieters (Guardrails, Verhalten, Tool-Nutzung, Outputstil) |
Instructions | Deine persönlichen Dauervorgaben |
Kontext | Hochgeladene Dokumente, Projekt-Files, Chat-Verlauf |
Allgemeinwissen | Was das Modell bis zum Trainings-Cut kannte |
Tools | Web-Search, Rechner, Konnektoren, Bildgenerierung |
Dieser Aufbau erklärt, warum zwei Menschen mit dem gleichen Modell sehr unterschiedliche Ergebnisse bekommen. Instructions und Kontext machen den Unterschied – und das ist beeinflussbar.
Was kommt als Nächstes
Jetzt weisst du, was ein LLM ist und wo seine Grenzen liegen. Im nächsten Beitrag geht es darum, welches Modell wann die bessere Wahl ist: Claude, ChatGPT, Gemini oder Mistral – und wann ein lokales Modell Sinn macht.