pdf2okf·

Wiki

Was ist das Open Knowledge Format (OKF)?

Ein Standard für KI-Wissen: veröffentlicht, nicht von uns erfunden

Am 12.06.2026 hat Google Cloud das Open Knowledge Format (OKF) v0.1 veröffentlicht: eine offene, anbieterneutrale Spezifikation für das Wissen, das ein KI-Modell oder ein Agent liest. Das Überraschende daran ist, wie wenig dahintersteckt. Eine OKF-Wissensbasis ist ein Verzeichnis aus Markdown-Dateien mit YAML-Frontmatter. Mehr nicht. Kein proprietäres Konto, kein SDK, keine verwaltete Laufzeitumgebung, die laufen muss, damit die eigenen Daten überhaupt etwas bedeuten. Wer einen Ordner mit Textdateien öffnen kann, kann eine OKF-Markdown-Wissensbasis lesen. Ein Agent ebenso.

Diese Schlichtheit ist Absicht. Das Format ist menschen- und maschinenlesbar über denselben Mechanismus (Klartext mit etwas Struktur obendrauf), sodass die Menschen, die das Wissen schreiben, und die Modelle, die es konsumieren, auf dasselbe Artefakt schauen.

Was die Spezifikation tatsächlich sagt

OKF ist klein genug, um es im Kopf zu behalten. Eine Wissensbasis ist ein Ordner; jedes Konzept ist eine Markdown-Datei; jede Datei beginnt mit einem YAML-Frontmatter-Block, der sie beschreibt.

  • type ist das einzige Pflichtfeld. Es sagt einem Leser, Mensch oder Agent, um welche Art von Inhalt es sich handelt.
  • title, description, tags und timestamp sind empfohlen: genug Metadaten, um ein Korpus zu navigieren, zu filtern und zu ordnen, ohne pro Projekt ein eigenes Schema zu erfinden.
  • Zwei Dateinamen sind reserviert: index.md als Einstiegspunkt einer Wissensbasis und log.md für eine fortlaufende Änderungshistorie.

Keine Datenbank, kein Index-Server, kein Binär-Blob. Die Struktur ist das Dateisystem; die Metadaten sind lesbarer Text. Validierung heißt „lässt sich das Frontmatter parsen, und ist type vorhanden", nicht „hat der Dienst des Anbieters es akzeptiert".

Warum diese Form, und warum sie vertraut wirkt

OKF kommt nicht aus dem Nichts. Es lehnt sich bewusst an Muster an, denen Entwickler längst vertrauen: die LLM-Wiki-Repositories, die Teams für ihre Agenten pflegen, und persönliche Markdown-Wissensbasen wie Obsidian. Die Wette: Der richtige Container für maschinell gelesenes Wissen sieht ziemlich genau so aus wie der Container, der für menschlich gelesenes Wissen längst funktioniert (Markdown plus Frontmatter), und ihn zu standardisieren ist besser, als wenn jedes Produkt sein eigenes Hausformat erfindet.

Diese Vertrautheit macht den Standard nützlich statt zeremoniell. Niemand muss ein neues Denkmodell lernen; man muss sich nur auf eine Handvoll Feldnamen einigen.

Ein Format ist keine Plattform

Worauf es ankommt, ist Datenhoheit, und am deutlichsten wird das im Kontrast. Der Standardweg, Dokumente an eine KI zu geben, lautet: zerstückeln, in Vektoren einbetten und diese Vektoren in eine Vektordatenbank laden. Das funktioniert, aber sieh dir an, was am Ende in deinen Händen liegt: ein undurchsichtiger numerischer Index, gebunden an das Embedding-Modell, das ihn erzeugt hat, gehostet von etwas, das weiterlaufen muss, und für Menschen unlesbar. Wechselst du das Embedding-Modell, musst du alles neu einbetten. Wechselst du den Anbieter, migrierst oder baust du neu. Das Wissen gehört dir in keinem portablen Sinn. Es steckt in der Infrastruktur fest.

Ein Format kehrt das um. Weil OKF nur Dateien sind:

  • Es ist portabel. Ordner kopieren, fertig. Es funktioniert überall. Kein Export-Job, keine Migration.
  • Es ist versionierbar. Es lebt in Git. Du kannst Änderungen diffen, prüfen und zurückrollen.
  • Es hat kein Lock-in. Kein Konto, das bestehen muss, keine Laufzeit, die am Leben bleiben muss, kein Anbieter, dessen Dienst nötig ist, damit deine eigenen Daten lesbar bleiben.

Das Wissen ist die Dateien. Wer einen Ordner lesen kann, kann seine Wissensbasis lesen. Wer einen Ordner kopieren kann, kann sie bewegen. Das ist ein grundlegend anderes Verhältnis zu den eigenen Informationen als „liegt in der Vektordatenbank".

Wo pdf2okf ins Bild kommt

Der Genauigkeit halber: Wir haben OKF nicht erfunden. Google Cloud hat es veröffentlicht, und das ist gut so. Eine anbieterneutrale, öffentliche Spezifikation ist für das ganze Feld mehr wert als das private Format eines einzelnen Produkts. Was pdf2okf tut, ist OKF-kompatible Ausgaben erzeugen.

Richte pdf2okf auf ein PDF, und es baut ein OKF-kompatibles Bundle aus kleinen, verlinkten Konzeptdateien: Text, Tabellen und Diagramme, übersetzt in explizites, durchsuchbares Markdown mit Frontmatter. Und zwar auf deiner Hardware oder gegen deinen eigenen Schlüssel: Keine Seite wird irgendwohin hochgeladen. Der Standard definiert die Form; pdf2okf ist der souveräne, selbstgehostete Weg, deine Dokumente in diese Form zu bringen. Kompatibilität mit dem Standard ist der Punkt; die Hoheit über den Prozess ist der Unterschied.

Vom Format zum Bundle

Ein Format sagt, wie eine einzelne Wissensbasis aussieht. Die nächste Frage ist, was passiert, wenn man sie bewegen will: versionieren, einem Kollegen geben, in ein Repo committen, an einen anderen Agenten übergeben. Genau dort setzt unsere eigene Erweiterung an: das OKFZ, das portable, teilbare Wissens-Bundle, einmal aus deinem PDF gebaut und geteilt, ohne erneute Verarbeitung und ohne Vektordatenbank im Gepäck. Das Format macht dein Wissen lesbar; das Bundle macht es transportabel.

Quellen

pdf2okf.com

Sei dabei, wenn es aufgeht.

pdf2okf entsteht gerade im Privaten, self-hosted, souverän. Hinterlass eine Mail, du bist als Erstes drin.