RAG ohne Vektordatenbank: grep-basiertes Retrieval

Was klassisches RAG wirklich tut

Klassisches Retrieval-Augmented Generation (RAG) folgt einer Fünf-Schritt-Pipeline. Dokument aufteilen, jeden Chunk durch ein Embedding-Modell in einen numerischen Vektor umrechnen, diese Vektoren in einer Vektordatenbank speichern (Pinecone, Weaviate, Chroma, Qdrant) und bei jeder Anfrage die Frage embedden, die k ähnlichsten Vektoren holen und als Kontext in den Prompt packen. Das Sprachmodell antwortet.

Es funktioniert. Aber die Nähte sieht man.

Die versteckte Betriebslast

Jeder Schritt jenseits von „Frage stellen, Antwort bekommen" hat Kosten, die Anbieter gerne kleinreden.

Eine Vektordatenbank zu betreiben. Ob cloud-gemanagt oder selbst gehostet, es ist ein weiteres bewegliches Teil: Credentials, Verfügbarkeits-SLAs, Preise, die mit der Indexgröße skalieren, Schemamigration wenn sich die Chunk-Strategie ändert.

Re-Embedding bei jeder Aktualisierung. Dokument aktualisiert? Neu chunken, neu embedden, Upsert in den Index. Wer einen Zyklus verpasst, hat einen Index, der still von der Quelle abweicht. Die meisten Setups geben keine „veraltet"-Warnung. Man plant Re-Indexing-Jobs oder fliegt blind.

Undurchsichtige Fehler. Ein numerischer Vektor trägt keine Semantik, die ein Mensch lesen kann. Wenn Retrieval schiefgeht (bei kurzen Anfragen, Fachjargon oder Dokumenten, die dasselbe Konzept in verschiedenen Formulierungen beschreiben), bedeutet Debugging das Vergleichen von Cosine-Similarity-Scores. Der Fehler bleibt unsichtbar, bis die Antwort falsch ist.

Token-Ineffizienz an den Rändern. Top-k-Retrieval holt bei jeder Anfrage gleich viele Chunks, unabhängig von der Komplexität. Eine einfache Faktenfrage bekommt denselben Chunk-Block wie eine mehrstufige Schlussfolgerungsaufgabe.

Die Alternative: den Agenten greppen lassen

Es gibt ein grundlegend anderes Modell. Statt Dokumente vorab in numerische Darstellungen zu verarbeiten, hält man sie als einfache Markdown-Konzeptdateien und lässt den Agenten sie direkt durchsuchen, mit grep, glob und gezielten Lesevorgängen.

Der Agent verhält sich wie ein erfahrener Entwickler, der eine Codebasis liest: Er scannt Dateinamen und Überschriften, liest den relevanten Abschnitt, folgt einem Querverweis wenn nötig und stoppt, sobald er genug Kontext hat. Er holt keinen festen Chunk-Block möglicherweise irrelevanter Texte. Er holt, was die Anfrage wirklich braucht.

Die Vorteile sind konkret:

Nichts zu hosten. Das Wissen lebt in Dateien. Dateien sind portabel, versionierbar, kopierbar.
Kein Re-Embedding. Markdown bearbeiten, speichern. Der Agent sieht die Änderung bei der nächsten Anfrage. Keine Pipeline anzustoßen.
An jeder Ebene menschenlesbar. Eine Konzeptdatei ist einfach eine Datei. Man kann sie öffnen, prüfen, in git nachverfolgen.
Weniger Tokens bei begrenzten Korpora. Auf einer strukturierten, überschaubaren Wissensbasis navigiert der Agent zur richtigen Datei statt einen flachen Chunk-Dump zu laden. Das Kontextfenster bleibt schlank.

Der Wandel 2026: zwei Signale

Zwei öffentliche Signale haben diesen Ansatz Anfang 2026 salonfähig gemacht.

Anthropic beschrieb, wie Claude Code intern funktioniert: Das Werkzeug hat eine Embeddings-und-Vektordatenbank-Pipeline zugunsten von agentischer Dateisuche aufgegeben: grep, glob und direkte Dateilektüre. Das Tool, das täglich große Codebasen für Millionen von Entwicklern bearbeitet, benutzt keinen Vektorindex. Es navigiert.

Ungefähr zur gleichen Zeit veröffentlichte LlamaIndex eine Neuausrichtung der Standard-RAG-Architektur: Naives Top-k-Vektor-Retrieval (einmal abrufen, einmal antworten) ist die falsche Berechnungseinheit für komplexe Anfragen. Ein Agent, der iterativ sucht und sein Retrieval verfeinert bevor er antwortet, übertrifft einen einzelnen Similarity-Lookup bei einer breiten Aufgabenpalette. Die Formulierung „RAG ist tot, es lebe agentisches Retrieval" verbreitete sich schnell, weil sie etwas benannte, was Praktiker bereits beobachtet hatten.

Keiner dieser Punkte bedeutet, dass Vektordatenbanken obsolet sind. Sie bedeuten, dass sich die Standardannahme verschoben hat: Indexing-First ist nicht mehr selbstverständlich richtig.

Wann Vektorsuche noch gewinnt

Embedding-freies RAG (RAG ohne Vektordatenbank) hat eine ehrliche Grenze. Bei sehr großem Maßstab, mit Millionen heterogener, unstrukturierter Dokumente, verbraucht es mehr Tokens und ist langsamer als ein vorberechneter Index. Milvus, Weaviate und ihre Pendants wurden genau für dieses Regime gebaut. Sie rechtfertigen ihre Komplexität in dieser Größenordnung.

Aber ein OKF-Bundle ist nicht dieses Regime. Ein OKF-Bundle ist eine begrenzte, strukturierte Wissensbasis: ein Dokument oder eine Wissensdomäne, in Konzeptdateien mit konsistenten Metadaten gegliedert. In dieser Größenordnung schlägt Struktur Embeddings. Der Agent navigiert nach Dateiname und Überschrift statt nach Cosine-Distanz. Diese Navigation ist exakt, prüfbar und deterministisch.

Nicht jeder Korpus muss ein Heuhaufen sein. Ein gut strukturiertes Bundle ist ein Feature, keine Einschränkung. Maßstab ist nicht immer eine Tugend.

Was das für das Denken über RAG bedeutet

Das Standardmodell (alles embedden, indizieren, per Ähnlichkeit abrufen) ergab Sinn, als Agenten Dateisysteme nicht zuverlässig navigieren konnten und Dokumente keine einheitliche Struktur hatten. Beide Annahmen sind heute schwächer.

Agenten, die direkt lesen und navigieren, sind produktionsreif. Das Open Knowledge Format, im Juni 2026 von Google veröffentlicht, liefert die Standardstruktur. Die Bausteine existieren. Die Frage ist, ob die Komplexität einer Vektor-Pipeline für den konkreten Korpus nötig ist, oder ob ein gut organisierter Satz von Markdown-Dateien ehrlicher passt.

Für die meisten Dokumenten-Q&A-Anwendungsfälle in regulierten Branchen lautet die Antwort: die Markdown-Dateien.

Genau das macht pdf2okf

pdf2okf konvertiert ein PDF in ein OKF-kompatibles Bundle aus strukturierten Markdown-Konzeptdateien. Ein Agent (Claude Code, Cursor, Hermes Agent, Odysseus, OpenClaw oder ein beliebiges MCP-fähiges Tool) durchsucht dieses Bundle direkt. Keine Vektordatenbank. Keine Embedding-Pipeline. Kein Re-Indexing-Job.

Das PDF wird zu etwas, das ein Agent so liest, wie ein Entwickler ein Repository liest: direkt, präzise, ohne einen Zwischenindex zwischen Frage und Antwort.

Das ist embedding-freies RAG, RAG ohne Vektordatenbank. In 2026 ist das kein Workaround. Es ist der Ansatz, den Anthropics eigenes Flagship-Entwicklertool gewählt hat.