pdf2okf·

Wiki

Das LLM-Wiki-Pattern: eine Markdown-Wissensbasis für Agenten

Das Muster in einem Satz

Ein LLM-Wiki ist ein Ordner einfacher Markdown-Dateien, die ein Agent direkt liest: ohne Embeddings, ohne Vektorindex, ohne Vorverarbeitungsschritt zwischen Dokument und Modell.

Das ist das ganze Muster. Die Raffinesse liegt darin, was es ermöglicht.

Woher es kommt

Wissensarbeiter bauen seit Jahren persönliche Wissensbasen in einfachem Markdown. Obsidian, Logseq und ihre Vorläufer haben bewiesen, dass ein flacher Ordner verlinkter .md-Dateien ein überraschend leistungsfähiges Denkwerkzeug ist: durchsuchbar, portabel, versionierbar und ohne die Applikation lesbar, die sie erzeugt hat.

Die LLM-Wiki-Idee überträgt denselben Grundsatz auf agentenlesbare Wissensbasen. Andrej Karpathy und andere in der KI-Community haben die Intuition artikuliert: Statt eine Vektorretrieval-Pipeline zu bauen, gibt man dem Agenten gut strukturierte Markdown-Dateien, die er navigieren kann. Der Agent kann bereits greppen und lesen. Das Dateisystem ist der Index.

Warum Wartbarkeit das entscheidende Merkmal ist

Die versteckten Kosten vektorbasierter Wissenssysteme sind die Wartungsgeschwindigkeit. Ein neues Dokument hinzufügen bedeutet: chunken, embedden, in den Index upserten, prüfen ob der Index korrekt aktualisiert wurde. Einen Fehler korrigieren bedeutet: den richtigen Chunk finden (der möglicherweise über mehrere Vektoren verteilt wurde), die Quelle bearbeiten und die Pipeline erneut durchlaufen.

In einer markdown Wissensbasis bearbeitet man eine Datei. Das ist der gesamte Update-Zyklus. Der Agent sieht die Änderung bei der nächsten Anfrage, weil er die Dateien direkt liest. Kein Job anzustoßen, kein Index zu verifizieren, kein Cache zu invalidieren.

Für Teams, die lebende Wissensbasen pflegen (interne Dokumentation, Regulierungsleitfäden die sich aktualisieren, Produktspezifikationen die sich weiterentwickeln), ist das enorm wichtig. Der Zeitraum von Bearbeitung bis Sichtbarkeit sind Sekunden, nicht Minuten eines Indexierungsjobs. Und weil die Dateien in git liegen, ist jede Änderung prüfbar, rückgängig machbar und zuordenbar.

Das Muster konkret gemacht

Eine gut strukturierte LLM-Wiki folgt typischerweise einigen konsistenten Konventionen:

  • Ein Konzept pro Datei. Jede Markdown-Datei behandelt ein Thema vollständig. Querverweise nutzen Standard-Markdown-Links auf verwandte Dateien.
  • Frontmatter für maschinenlesbare Metadaten. Titel, Tags, verwandte Konzepte und ein Aktualisierungsdatum im YAML-Header jeder Datei.
  • Konsistente interne Struktur. Abschnitte, die der Agent scannen kann: Definitionsabsatz, Haupteigenschaften, Beispiele, bekannte Einschränkungen, verwandte Konzepte. Vorhersehbare Struktur bedeutet vorhersehbare Navigation.
  • Flache oder seichte Hierarchie. Tiefe Ordnerverschachtelung erschwert die Agentennavigation. Die meisten LLM-Wikis funktionieren am besten mit ein oder zwei Ebenen, nach Domäne statt nach Dokumentursprung organisiert.

Ein Agent mit dieser Struktur kann eine Anfrage beantworten, indem er Dateinamen sucht, Überschriften scannt, die passende Datei liest und bei Bedarf einem oder zwei Querverweisen folgt. Das Retrieval ist explizit, transparent und reproduzierbar. Keine undurchsichtigen Ähnlichkeitsscores. Entweder die Datei passt oder nicht.

OKF: die standardisierte, agentenfreundliche Version

Das Open Knowledge Format (OKF), am 2026-06-12 von Google veröffentlicht, formalisiert genau dieses Muster. Es spezifiziert Markdown plus Frontmatter als Standarddarstellung für maschinenlesbare Wissensbasen: ein Konzept pro Datei, konsistente Metadatenfelder, gestaltet für die direkte Nutzung durch Agenten, ohne Vorverarbeitungsschritt.

pdf2okf produziert OKF-kompatible Bundles. Das Werkzeug ist nach dem Standard benannt: PDF zu OKF.

OKFZ erweitert OKF zu einem portablen, teilbaren Bundle: ein eigenständiges Archiv, das Konzeptdateien, Metadaten und Struktur verpackt, sodass die gesamte Wissensdatenbank ohne Neuverarbeitung der Quelle geteilt, versioniert und konsumiert werden kann. Bundle einmal aus dem PDF aufbauen; die .okfz-Datei teilen; der Agent des Empfängers durchsucht sie direkt. Keine Vektordatenbank zum Versenden, keine Embeddings neu zu generieren, keine Infrastrukturabhängigkeit.

Das ist das LLM-Wiki-Muster mit einem standardisierten Schema und einem Versandformat. Der Standard macht das Muster werkzeugübergreifend interoperabel.

Warum das Vektordatenbanken für begrenzte Wissenskorpora schlägt

Für große, heterogene Korpora (Millionen von Dokumenten, unscharfe Domänengrenzen) hat Vektorsuche echte Vorteile: Sie behandelt Teilübereinstimmungen, Synonyme und semantische Drift, die exakte Suche verfehlt. Das ist das richtige Werkzeug für den richtigen Job.

Aber die meisten organisationalen Wissensbestände sind nicht so. Ein Compliance-Handbuch, eine Produktspezifikation, ein behördlicher Leitfaden: diese sind begrenzt, strukturiert und professionell gepflegt. Für diese Art von Wissen dominieren die Vorteile des LLM-Wiki-Musters: an jeder Ebene menschenlesbar, sofort aktualisierbar, kein Infrastrukturaufwand, exaktes Retrieval durch Struktur statt Annäherung durch Distanz.

Eine wissensdatenbank ohne embeddings ist nicht eine primitive Version von RAG. Es ist ein anderer Trade-off, der bei genau den Wissenstypen gewinnt, die für regulierte, compliance-bewusste Teams am wichtigsten sind: begrenzt, prüfbar und nachweislich aktuell.

pdf2okf macht deine PDFs zu einer markdown Wissensbasis

pdf2okf extrahiert ein PDF und strukturiert seinen Inhalt als OKF-kompatible markdown Wissensbasis: ein echtes LLM-Wiki, das jeder Agent direkt über das CLI lesen kann (ein MCP-Weg ist auf der Roadmap). Keine Embedding-Pipeline, keine Vektordatenbank, kein Re-Indexing. Nur strukturierte Markdown-Dateien, die Agenten bereits wissen wie man sie navigiert.

Deine PDF-Bibliothek wird zu einer Wissensdatenbank. Als OKFZ-Bundle teilen. Von Claude Code, Hermes Agent, Odysseus, OpenClaw oder jedem Tool, das MCP unterstützen wird, abfragen. Durch Bearbeiten einer Datei aktualisieren.

pdf2okf.com

Sei dabei, wenn es aufgeht.

pdf2okf entsteht gerade im Privaten, self-hosted, souverän. Hinterlass eine Mail, du bist als Erstes drin.