Agentisches Retrieval vs. klassisches RAG

Zwei Retrieval-Philosophien

Klassisches RAG ruft einmal ab und antwortet. Ein Agent ruft ab, liest, entscheidet ob er mehr braucht, sucht erneut und antwortet dann. Dieser Unterschied (ein Schritt versus viele) ist der Kern der Debatte zwischen klassischem Vektor-RAG und agentischem Retrieval.

Keines ist universell überlegen. Zu verstehen, wann jedes gewinnt, ist nützlicher als einen Sieger zu küren.

Klassisches RAG: einmal abrufen, einmal antworten

Die ursprüngliche RAG-Architektur ist eine einmalige Retrieval-Schleife. Anfrage embedden, die k ähnlichsten Chunks aus einem Vektorstore holen, in den Prompt packen, Antwort generieren.

Das ist schnell und vorhersehbar. Für einfache Faktenabfragen gegen einen gut indizierten Korpus („Was ist die Rückgaberichtlinie?") funktioniert es zuverlässig. Die Latenz ist gering, weil es nur einen Retrieval-Aufruf und einen Generierungsaufruf gibt.

Das Versagensmuster sind schwierige Anfragen. Wenn die Antwort die Kombination von Informationen aus mehreren Stellen erfordert, wenn die Anfrage mehrdeutig ist und Klärung braucht, wenn die top-k Chunks zufällig Treffer in der Nähe statt echte Treffer sind, hat das Einmal-Modell keinen Wiederherstellungspfad. Es antwortet mit dem, was es abgerufen hat, richtig oder falsch.

Agentisches Retrieval: suchen, verfeinern, erneut suchen

Ein agentisches Retrieval-System gibt dem Modell Kontrolle über den Suchprozess selbst. Statt einen festen Kontext-Block übergeben zu bekommen, kann der Agent:

Mehrere Suchanfragen stellen, nicht nur eine
Ein abgerufenes Ergebnis lesen und entscheiden, dass er ein verwandtes Dokument braucht, bevor er antwortet
Erkennen, wenn Retrieval schwache Ergebnisse geliefert hat, und andere Suchbegriffe versuchen
Über mehrere Quellen hinweg synthetisieren und Konsistenz prüfen, bevor er eine Antwort generiert

Das ist teurer: mehr LLM-Aufrufe, mehr verbrauchte Tokens, mehr Latenz. Aber bei komplexen Anfragen ist die Genauigkeitsverbesserung erheblich. Der Agent kann triangulieren, querverweisen und verifizieren, bevor er eine Antwort gibt.

Der Begriff adaptives RAG formalisiert diesen Ansatz praktisch: Eine Routing-Schicht schickt einfache Anfragen durch den günstigen Einmal-Pfad und leitet komplexe Anfragen durch eine teurere agentische Schleife. Das System optimiert Kosten gegen Qualität basierend auf der geschätzten Anfragekomplexität, statt jede Anfrage identisch zu behandeln.

Wann jeder Ansatz gewinnt

Vektor-RAG gewinnt bei:

Riesigen, unstrukturierten Korpora mit Millionen heterogener Dokumente
Fuzzy-semantischem Matching (Synonyme, Paraphrasen, mehrsprachige Inhalte), wo exakte Suche versagt
Einfachen Faktenabfragen, bei denen top-k fast immer ausreicht
Latenz-kritischen Anwendungen, die einen einzelnen Retrieval-Round-Trip erfordern

Agentisches Retrieval gewinnt bei:

Komplexen mehrstufigen Anfragen, die die Kombination von Informationen über Dokumente hinweg erfordern
Begrenzten, strukturierten Korpora, wo Navigation probabilistisches Ähnlichkeits-Scoring schlägt
Aufgaben, bei denen Antwortgenauigkeit wichtiger ist als Antwortgeschwindigkeit
Wissensbasen mit konsistenter Struktur, die der Agent nach Dateiname und Überschrift navigieren kann statt nach Vektorabstand

Der Unterschied ist nicht nur Größe. Es ist ebenso Struktur. Ein Korpus von Millionen disparater PDFs braucht Fuzzy-Similarity-Suche, um relevante Inhalte zu finden. Ein Korpus aus einigen hundert gut organisierten Konzeptdateien braucht das nicht. Im zweiten Fall ist agentisches Grep-and-Read schneller, günstiger und präziser als jeder Index.

Der iterative Vorteil in der Praxis

Eine Anfrage wie: unter welchen Bedingungen gilt eine bestimmte Klausel, und wie interagieren sie mit den Definitionen in einem anderen Abschnitt?

Ein einmaliges Vektor-Retrieval gibt zurück, welche Chunks bei dieser Anfrage am höchsten bewertet werden, was möglicherweise sowohl die relevante Klausel als auch die relevanten Definitionen enthält oder nicht. Wenn diese Passagen unterschiedlich in einem großen Index bewertet werden, kann eine vom top-k-Limit abgeschnitten sein.

Ein Agent liest die erste relevante Datei, sieht einen Querverweis auf den Definitionsabschnitt, folgt diesem Link, liest die zweite Datei, und konstruiert dann die Antwort mit beiden Quellen im Kontext. Die Antwort ist besser. Das Denken ist transparent. Die verwendeten Quellen sind explizit.

Für dokumentenschwere Anwendungsfälle in regulierten Branchen (Recht, Gesundheitswesen, Finanzen, öffentlicher Sektor) ist die Fähigkeit, genau nachzuverfolgen, welche Dateien welche Antwort informiert haben, kein Nice-to-have. Es ist eine Compliance-Anforderung. Eine Antwort, die ihre Quelle nicht belegen kann, ist keine Antwort. Sie ist ein Haftungsrisiko.

Wie pdf2okf passt

pdf2okf produziert OKF-kompatible Bundles, die für agentisches Retrieval strukturiert sind. Jedes Konzept im Quell-PDF wird zu einer navigierbaren Markdown-Datei. Ein Agent (Claude Code, Hermes Agent, Odysseus, OpenClaw oder ein beliebiges MCP-fähiges Tool) kann dieses Bundle iterativ durchsuchen, Querverweisen folgen und Antworten mit expliziter Quellenangabe synthetisieren.

Das Bundle ist begrenzt und strukturiert: genau das Regime, in dem agentisches Retrieval klassisches Vektor-RAG schlägt. Anfragen, die eine Datei brauchen, lösen sich in einem Lesevorgang. Anfragen, die drei Dateien brauchen, durchqueren drei Dateien. In beiden Fällen ist die Antwort in konkretem, zitierbarem Text verankert, nicht im probabilistischen Ergebnis einer Ähnlichkeitssuche.

Das ist der Unterschied zwischen dem Finden der Antwort und dem Annähern an sie.