KI ohne Halluzination: zitierte, deterministische Antworten

Warum Dokumenten-Q&A halluziniert

Wenn du ein LLM zu einem Dokument befragst, setzt du es gleichzeitig zwei Fehlerquellen aus.

Die erste ist Gedächtnis-Bleed: Das Modell ergänzt Lücken im abgerufenen Text mit Wissen aus dem Training. Die Antwort klingt plausibel (oft, weil sie es ist), nur für ein anderes Dokument oder eine allgemeine Wahrheit, die für deins nicht gilt. Ein Rechtsteam, das fragt "Enthält dieser Vertrag eine Haftungsobergrenze in Höhe des dreifachen Jahresentgelts?", kann ein sicheres Ja erhalten, das widerspiegelt, wie Haftungsklauseln typischerweise formuliert sind, nicht was diese Klausel tatsächlich sagt.

Die zweite ist Kontextdegradierung. Lange Dokumente, die als einzelner Block übergeben werden, führen zu stark sinkender Qualität jenseits der ersten und letzten paar tausend Token. Die Mitte eines 60-seitigen PDFs ist für eine naive Pipeline de facto unsichtbar.

Drittens: Chunking zerstört Struktur. Klassisches RAG teilt Dokumente in überlappende Textfenster auf. Eine Klausel, die eine Chunk-Grenze überspannt, kommt fragmentiert an. Eine Tabelle, die auf zwei Chunks aufgeteilt wird, wird als Fließtext gelesen. Das Modell versucht, aus gebrochenen Teilen Sinn zu machen, und füllt aus, was es erwartet, nicht was das Dokument tatsächlich sagt.

Das Ergebnis: Antworten, die flüssig und sicher und nicht nachvollziehbar sind. Das letzte Wort ist das Problem. In einem regulierten Kontext ist eine nicht nachvollziehbare Antwort nicht nur falsch. Sie ist nutzlos.

Die Lösung: jede Antwort in einer Quelldatei verankern

Die strukturelle Lösung besteht darin, jede bedeutungsvolle Einheit eines Dokuments (einen Abschnitt, eine Klausel, eine Tabelle, eine Definition) in eine eigene Konzeptdatei umzuwandeln, bevor überhaupt eine Frage gestellt wird. Die Konzeptdatei enthält den Originaltext, eine stabile Kennung und genug Struktur, damit ein Retrieval-Schritt sie präzise auffinden kann.

Wenn eine Frage eintrifft, ruft das System die relevanten Konzeptdateien ab und übergibt sie dem Modell. Die Aufgabe des Modells ist dann eng gefasst: eine Antwort aus den Dateien im Kontext synthetisieren und die Datei zitieren, aus der sie stammt.

Dieses Zitat ist das, was eine Antwort in einen prüfbaren Nachweis verwandelt. Eine prüfende Person kann die zitierte Konzeptdatei öffnen, die genaue Klausel oder Zeile lesen und die Antwort in Sekunden verifizieren. Die Antwort ist kein Gefühl mehr. Sie ist eine nachvollziehbare Aussage mit einem Verweis auf die Evidenz.

Das ist, was KI mit Quellenangabe auf Architekturebene tatsächlich bedeutet. Es ist keine nachträgliche Formatierungsentscheidung; es ist eine Einschränkung, wie das Modell antworten darf.

Determinismus: wenn die Zahl exakt sein muss

Zitate lösen das Was der Antwort. Ein separater Mechanismus löst das Wie viele.

Zählen über langen Kontext ist eine der zuverlässigsten Methoden, eine falsch-aber-plausible Antwort zu erzeugen. Ein Modell, das 40 Release-Einträge in einem Changelog zählen soll, antwortet mit "ungefähr 40", oder verpasst drei, oder fügt zwei hinzu. Der Fehler ist lautlos, weil die Zahl im selben sicheren Ton ankommt wie die richtige Antwort.

Das zuverlässige Design ist eine klare Arbeitsteilung: Das Modell identifiziert Struktur, der Code führt die Zählung aus. Konzeptdateien machen das unkompliziert: Eine Code-Schicht zählt sie direkt und gibt die Zahl zurück. Das Modell berichtet, was der Code zurückgegeben hat; es schätzt nicht. Das Ergebnis ist "40 Releases", nicht "ungefähr 40". Der Schwesterartikel Das Modell findet die Struktur, der Code zählt arbeitet dieses Muster ausführlich durch.

Ein ehrlicher Hinweis zur Modellgröße

Die verbreitete Annahme lautet, KI ohne Halluzination bei Dokumenten erfordere ein Frontier-Modell. Für grundierte Extraktionsaufgaben (lesen, was das Dokument sagt, und es wiedergeben) zeigen die Belege etwas anderes. Wenn der richtige Text im Kontext steht, schneiden kleine offene Modelle inzwischen fast genauso gut ab wie Frontier-Modelle. Der Engpass ist Retrieval-Qualität, nicht Parameter-Anzahl.

Ein kontraintuitiver Befund: Reasoning-Modi können die Treue zur Quelle bei Extraktionsaufgaben verringern. Erweitertes Denken oder Chain-of-Thought-Prompting veranlasst das Modell, Hintergrundwissen einzubeziehen, um die Antwort zu "verbessern". Für Mehrschritt-Analysen ist das oft gewünscht. Für quelltreue Extraktion ist es genau der Fehler, den du verhindern willst. Die praktische Regel: Reasoning für Analysen aktivieren, für Extraktion deaktivieren.

Frontier-Cloud-Modelle führen weiterhin bei schwierigen Mehrschritt-Schlussfolgerungen über sehr lange Dokumente. Dafür ist eine BYOK-Konfiguration gedacht: das Routing der Aufgaben, die wirklich Frontier-Reasoning benötigen, an ein Modell deiner Wahl, ohne deine Daten in irgendwelche Infrastruktur zu sperren.

Warum das für Recht und Finanzen entscheidend ist

In regulierten Branchen ist eine Antwort ohne Quellenangabe keine Antwort. Sie ist ein Haftungsrisiko. Ein Vertragsteam, das fragt, ob eine bestimmte Klausel existiert, kann auf einem sicheren "Ja" ohne Paragrafen-Verweis nicht handeln. Eine Prüfung, die fragt, wie viele Rechnungen einen Schwellenwert überschreiten, kann "ungefähr 130" nicht als Zahl in einem Bericht verwenden.

Die zitierte, quellverankerte Architektur wandelt ein generatives Werkzeug in ein Referenzwerkzeug um. Sie verändert nicht, was das Modell weiß. Sie verändert, was das Modell sagen darf: es auf die Evidenz vor ihm zu beschränken und es zu zwingen, seine Arbeit zu zeigen.

So setzt pdf2okf das um

pdf2okf konvertiert PDFs in OKF-kompatible Bundles, die um Konzeptdateien herum aufgebaut sind. Jede Datei enthält eine Bedeutungseinheit: eine Klausel, einen Abschnitt, eine Tabellenzeile, eine Definition. Das Retrieval arbeitet auf Dateiebene, nicht auf Chunk-Ebene, sodass Zitate auf prüfbare, menschenlesbare Texte verweisen, die auf dem Laufwerk liegen.

Das Ergebnis ist ein Dokumenten-Q&A-System, bei dem jede Antwort auf ihre Quelle zurückgeführt werden kann, jede Zählung per Code statt per Schätzung erfolgt und die gesamte Pipeline lokal läuft: auf deiner Hardware, unter deiner Datenkontrolle, ohne Aufruf einer externen API. Deterministische KI ist keine Eigenschaft eines bestimmten Modells. Sie ist eine Eigenschaft der Architektur, die du darum herum baust.