·

·

AI / Künstliche Intelligenz

·

LLM

Generative AI

Anthropic/Claude

Was ist ein LLM – und warum halluziniert es manchmal?

Wie ein KI-Sprachmodell aufgebaut ist, warum es manchmal Dinge erfindet – und was das für deinen Arbeitsalltag bedeutet.

Kostenloses Cheatsheet downloaden:

Claude, ChatGPT, Gemini: Alle basieren auf demselben Prinzip. Wer versteht, wie ein Large Language Model (LLM) aufgebaut ist, kann es gezielter einsetzen – und weiss, wann er die Ausgabe kontrollieren sollte.

Wie ein LLM "lernt"

Ein LLM wird auf Milliarden von Texten trainiert: Webseiten, wissenschaftliche Papers, Bücher, Code, YouTube-Transkripte. Google hatte dabei einen historischen Vorteil über Google Books – 22 Millionen digitalisierte Bücher als Trainingsbasis. Wissenschaftliche Papers flossen ebenfalls ein, besonders viel im Bereich Code.

Dieses Training ist kein Auswendiglernen. Das Modell lernt Muster – statistische Zusammenhänge zwischen Wörtern, Konzepten und Strukturen. Das macht es stark in Bereichen, die gut dokumentiert sind: Sprache, Vertragslogik, Strukturtexte, Code.

Nach dem Training folgt ein Sicherheitsschritt: Testen, Guardrails setzen, Verhalten einschränken. Erst dann kommt eine neue Version öffentlich.

Wichtig: Jedes Modell hat ein Stopp-Datum. Ereignisse danach kennt es nur, wenn es via Tools (z. B. Web-Search) live nachschlagen kann.

Wörter vorhersagen, nicht denken

LLMs generieren Antworten Token für Token. Ein Token entspricht ungefähr 0.75 Wörtern oder 4 Zeichen. Das Modell fragt sich bei jedem Schritt: Welches Wort kommt nach diesem Kontext am wahrscheinlichsten?

Das ist keine Intelligenz im menschlichen Sinn – sondern sehr gute Mustererkennung auf sehr hohem Niveau. Das Sprachzentrum ist gelöst, Rechenoperationen auch – aber sehr viel im Hirn ist noch unverstanden. AGI, also allgemeine künstliche Intelligenz, ist in naher Zukunft unrealistisch – und wird von grossen Anbietern als Marketing-Begriff eingesetzt, um Investoren zu überzeugen.

Praktische Konsequenz: Wenn du einen Text auf exakt 30 Zeichen begrenzen willst, klappt das schlecht. Das Modell zählt intern keine Zeichen, sondern Tokens. Besser: "Schreib etwa 50 Wörter" – landet dann zwischen 45 und 55.

Wenn LLMs etwas erfinden

Halluzinationen sind das bekannteste Problem. Das Modell erfindet Fakten und gibt sie selbstbewusst aus – als wären sie wahr.

Warum passiert das? LLMs sind darauf trainiert, eine Antwort zu liefern. Wenn das Wissen fehlt, füllt das Modell die Lücken. Es erkennt nicht, dass es "nichts weiss" – es erkennt nur das nächstwahrscheinliche Token.

Die häufigsten Ursachen:

  • Prompt zu vage formuliert

  • Zu wenig Kontext mitgegeben

  • Veraltetes Trainingswissen – das Modell kennt Ereignisse nach dem Stopp-Datum nicht

Was hilft:

  • Präzisere Anfrage statt breite Frage

  • Kontext mitliefern: Offerte, Protokoll, Planunterlagen als PDF

  • In den Instruktionen festhalten: "Bei Unsicherheit explizit nachfragen, keine Zahlen erfinden"

  • Bei aktuellen Themen das LLM forcieren, Web-Search zu nutzen – oder bei komplexeren Recherchen die Deep Research Funktion einsetzen

  • Bei wichtigen Ergebnissen immer kontrollieren

Halluzinationen sind kein Zeichen eines schlechten Modells – sie sind ein Hinweis darauf, dass Prompt oder Kontext zu dünn waren.

Das Kontext-Fenster

Das Kontext-Fenster ist das Kurzzeit-Gedächtnis des Chatbots. Alles, was im aktuellen Gespräch sichtbar ist, gehört dazu: deine Fragen, die Antworten, hochgeladene Dokumente, Projekt-Anweisungen.

Die Grösse ist über die Jahre massiv gewachsen:

  • 2022 (erste ChatGPT-Version): ca. 4'096 Tokens

  • 2026 (Claude oder Gemini): bis zu 1'000'000 Tokens – das entspricht etwa 5 Romanen

Was das bedeutet:

  • Bilder und Screenshots verbrauchen viele Tokens – sparsam einsetzen

  • Sehr lange Chats: Das LLM vergisst irgendwann den Anfang. Wichtiges bei Bedarf wiederholen.

  • Neuer Chat = leeres Gedächtnis (ausser Projekt-Kontext und Instruktionen, die automatisch wieder geladen werden)

Und ein oft unterschätzter Punkt: Mehr Kontext ist nicht immer besser. Irrelevante PDFs, alte Chats, thematisch fremde Informationen verwirren das Modell. Nur das hochladen, was für diese spezifische Aufgabe relevant ist.

Noch wichtiger ist das Format der Kontextdateien. Ein PDF von 1 MB enthält Bilder, Formatierung und Metadaten – das frisst Tokens und kann das Modell verlangsamen. Dieselben Inhalte als sauberes Markdown benötigen oft nur 3–5 KB. Lohnt sich deshalb: PDFs einmalig in Markdown umwandeln und dann für jede Chatanfrage das Markdown hochladen statt das Original-PDF.

Was du nie eingeben solltest

Selbst mit Pro-Lizenz (kein Training auf deinen Chats) gilt: Bestimmte Daten gehören nicht in eine Cloud-KI.

  • NDA-Inhalte

  • Personalien sensibler Personen

  • Bankdaten und Kreditkarteninformationen

  • Login-Zugangsdaten und API-Keys

  • Geheime Verträge oder Patente vor der Anmeldung

Bei solchen Daten gibt es zwei Alternativen: Mistral als europäischen Anbieter (Server in Frankreich, DSGVO-näher) – oder ein lokales Open Source LLM wie Llama oder Gemma via Ollama / LM Studio. Vollständige Datenkontrolle, kein Cloud-Upload, schwächere Leistung.

Wie eine LLM-Anfrage aufgebaut ist

Wenn du eine Frage stellst, sieht das Modell mehr als nur deine Frage. Im Hintergrund baut sich ein grosser Prompt zusammen:

Baustein

Was es ist

User Prompt

Deine eigentliche Frage

System Prompts

Vorgaben des LLM-Anbieters (Guardrails, Verhalten, Tool-Nutzung, Outputstil)

Instructions

Deine persönlichen Dauervorgaben

Kontext

Hochgeladene Dokumente, Projekt-Files, Chat-Verlauf

Allgemeinwissen

Was das Modell bis zum Trainings-Cut kannte

Tools

Web-Search, Rechner, Konnektoren, Bildgenerierung

Dieser Aufbau erklärt, warum zwei Menschen mit dem gleichen Modell sehr unterschiedliche Ergebnisse bekommen. Instructions und Kontext machen den Unterschied – und das ist beeinflussbar.

Was kommt als Nächstes

Jetzt weisst du, was ein LLM ist und wo seine Grenzen liegen. Im nächsten Beitrag geht es darum, welches Modell wann die bessere Wahl ist: Claude, ChatGPT, Gemini oder Mistral – und wann ein lokales Modell Sinn macht.

Bereit, KI strategisch anzugehen?

30-minütiges Erstgespräch – kostenlos und unverbindlich. Wir schauen gemeinsam wo ihr steht und was der richtige erste Schritt ist.

Bereit, KI strategisch anzugehen?

30-minütiges Erstgespräch – kostenlos und unverbindlich. Wir schauen gemeinsam wo ihr steht und was der richtige erste Schritt ist.

Welche Newsletter möchtest du abonnieren?
Bitte wähle mindestens einen Newsletter.
Deine Anmeldung war erfolgreich.
Deine Anmeldung konnte nicht gespeichert werden. Versuch's bitte nochmals.
Welche Newsletter möchtest du abonnieren?
Bitte wähle mindestens einen Newsletter.
Deine Anmeldung war erfolgreich.
Deine Anmeldung konnte nicht gespeichert werden. Versuch's bitte nochmals.