pdf2okf·

FAQ

Fragen, beantwortet.

Was Leute zu selbst-gehosteter, souveräner Dokumenten-KI fragen.

Produkt

Was ist pdf2okf?

pdf2okf verwandelt jedes PDF in ein OKF-kompatibles Wissens-Bundle, das ein KI-Agent liest: selbst-gehostet auf eigener Hardware mit einem lokalen offenen Modell oder mit deinem eigenen API-Schlüssel. Deine Dokumente verlassen das Haus nie.

Was ist ein OKF-/OKFZ-Bundle?

Es ist dein Dokument als kleine, verlinkte Markdown-Konzeptdateien mit YAML-Frontmatter, OKF-kompatibel (Googles offener Standard), verpackt als portables OKFZ, das du besitzt, versionierst und teilst. Keine Vektordatenbank, kein proprietäres Format.

Muss ich technisch versiert sein, um es zu nutzen?

pdf2okf ist ein Kommandozeilen-Tool, ein gewisser Umgang mit dem Terminal hilft also. Doch das Ergebnis (ein OKF-Bundle aus einfachen Markdown-Dateien) ist für jeden lesbar, und du kannst es nach dem Bauen einem Agenten mit angenehmerer Oberfläche übergeben (Open WebUI, ein Chat-Client).

Welche Dokumente funktionieren am besten?

Alles Textlastige mit Struktur: Handbücher, Verträge, Spezifikationen, Berichte, Forschung, Finanzunterlagen. pdf2okf macht aus Text, Tabellen und Diagrammen kleine verlinkte Konzeptdateien, sodass strukturierte Dokumente für einen Agenten besonders leicht zu navigieren und zu zitieren sind.

Datenschutz & DSGVO

Verlassen meine Daten meinen Rechner?

Nein, selbst-gehostet mit lokalem Modell: das Bauen des Bundles und das Beantworten laufen beide auf deiner Hardware, nichts wird hochgeladen. Bei BYOK gehen nur die Anfragen, die du sendest, an den von dir gewählten Endpunkt, auf deinem eigenen Konto.

Ist es DSGVO-konform?

Lokaler Betrieb beseitigt die schwersten DSGVO-Probleme für KI: keine Drittlandübermittlung und kein externer Auftragsverarbeiter, der deine Dokumente verarbeitet, du bleibst alleiniger Verantwortlicher. Es befreit dich nicht von deinen eigenen Datenschutzpflichten, aber es nimmt die Teile heraus, die Cloud-LLMs nicht sauber lösen können.

Was ist mit dem US CLOUD Act?

Der CLOUD Act erlaubt US-Behörden den Zugriff auf Daten US-amerikanischer Anbieter, egal wo sie liegen, EU-Residenz allein schützt dich also nicht. Weil pdf2okf vollständig auf deiner eigenen Hardware ohne Anbieter laufen kann, gibt es keinen Dritten, der zur Herausgabe gezwungen werden könnte.

Brauche ich einen Auftragsverarbeitungsvertrag (AVV)?

Wenn du mit einem lokalen Modell selbst hostest, verarbeitet kein externer Auftragsverarbeiter deine Daten, der bei Cloud-KI übliche AVV ist für diesen Schritt also nicht nötig. Bei BYOK gegen einen Drittanbieter-Endpunkt gelten die normalen Auftragsverarbeitungs-Regeln für diesen Anbieter. Das ist eine allgemeine Information, keine Rechtsberatung.

Läuft es vollständig offline / air-gapped?

Ja. Mit einem lokalen Modell funktionieren das Bauen eines Bundles und das Beantworten ganz ohne Netzwerkverbindung, nützlich für eingestuftes, reguliertes oder schlicht sensibles Material. Eine air-gapped Maschine bekommt nie den Auftrag, irgendetwas irgendwohin zu senden.

Modelle & Hardware

Welche Modelle kann ich nutzen?

Jedes offene Modell, das lokal läuft (Gemma 4, Qwen, Mistral, OLMo oder EU-Modelle wie EuroLLM) oder per BYOK deinen eigenen Cloud-Endpunkt. Die Struktur steckt im OKF-Bundle, nicht im Modell, daher ist pdf2okf modell-agnostisch.

Läuft es auf meinem Mac?

Ja, auf Apple Silicon kannst du offene Modelle lokal über MLX/oMLX, Ollama oder LM Studio betreiben. Ein 4-bit-quantisiertes Modell braucht grob die Hälfte seiner Parameterzahl in GB RAM (ein 27B-Modell ≈ ~14–16 GB), ein moderner Mac bewältigt geerdete Dokumenten-Fragen also locker.

Sind lokale Modelle gut genug?

Für geerdete Dokumenten-Fragen ja, in den meisten Fällen. Wenn Antworten an Quelltext gebunden sind, bleiben kleine offene Modelle fast so treu wie Spitzenmodelle; die Retrieval-Qualität zählt mehr als die reine Modellgröße. Für das schwerste mehrstufige Reasoning ist BYOK zu einem Frontier-Endpunkt der Notausgang.

Welches Modell empfehlt ihr?

Für ein EU-orientiertes, souveränes Setup ist ein Apache-2.0-Modell wie Gemma 4 oder Qwen3.5 eine starke Voreinstellung, oder ein europäisches Modell wie Mistral oder EuroLLM. Meide Modelle mit einschränkender Lizenz: Llama 4 etwa verbietet die EU-Nutzung. Weil die Struktur im OKF-Bundle steckt, kannst du Modelle frei tauschen.

Welche Hardware brauche ich?

Weniger als du denkst. Ein 4-bit-quantisiertes Modell braucht grob die Hälfte seiner Parameterzahl in Gigabyte RAM, ein fähiges 7B–14B-Modell läuft also auf einem modernen Laptop, ein 27B-Modell passt auf einen 32-GB-Mac oder eine Consumer-GPU. Für das schwerste Reasoning ist BYOK zu einem Frontier-Endpunkt der Notausgang.

Format & Portabilität

Kann ich ein Bundle teilen, wenn es gebaut ist?

Ja, genau dafür ist OKFZ da. Einmal aus dem PDF bauen, dann das portable Bundle an Kolleg:innen geben oder ins Repo committen. Keine erneute Verarbeitung, keine Vektordatenbank zum Mitliefern, kein Konto zum Lesen nötig.

Ist es mit Googles OKF-Standard kompatibel?

Ja. Google Cloud hat das Open Knowledge Format (Markdown + YAML-Frontmatter) am 12.06.2026 veröffentlicht, und pdf2okf erzeugt damit kompatible Bundles. Wir haben OKF nicht erfunden: wir sind der souveräne, selbst-gehostete Weg, es aus deinen PDFs zu erzeugen.

Ist das Format zukunftssicher?

Es sind nur Markdown und YAML: offene, textbasierte Formate, die seit Jahrzehnten lesbar sind und keine Spezialsoftware brauchen. Ein OKF-Bundle öffnet sich noch in jedem Texteditor, lange nachdem irgendein bestimmtes Tool oder eine Vektordatenbank verschwunden ist.

Bin ich an pdf2okf gebunden?

Nein. Das Bundle besteht aus einfachen Dateien, die dir gehören, in Googles anbieterneutralem Open Knowledge Format, keine proprietäre Datenbank. Du kannst es lesen, bearbeiten, verschieben oder einem anderen Tool geben, ganz ohne pdf2okf. Es gibt nichts, was dich bindet.

Kosten

Ist es günstiger als Cloud-RAG?

Im laufenden Betrieb meist ja. Cloud-RAG kostet eine gehostete Vektordatenbank, das Re-Embedding bei Änderungen und die Tokens, die du bei jeder Frage erneut sendest. pdf2okf baut das Bundle einmal, und ein Agent durchsucht nur die wenigen Konzepte, die eine Antwort braucht: ein Bruchteil der Tokens und keine Datenbank zum Hosten.

Gibt es wirklich keine Vektordatenbank zu bezahlen?

Richtig. pdf2okfs ganzer Ansatz ist Grep über einfache Dateien, es gibt also keinen Vektor-Index zum Hosten, Skalieren oder Synchronhalten, und damit keine monatliche Rechnung oder Re-Embedding-Kosten dafür. Das ist einer der größten versteckten Kostenpunkte des klassischen RAG, einfach beseitigt.

Was kostet die Beantwortung einer Frage?

Mit einem lokalen Modell kostet jede Antwort nur deinen Strom und deine Hardware: gar keine Token-Gebühr. Bei BYOK zahlst du den Token-Preis deines Anbieters, aber weil der Agent nur die relevanten Konzepte abruft statt des ganzen Dokuments, gehen pro Frage weit weniger Tokens hinein.

Ist pdf2okf kostenlos?

pdf2okf ist im privaten Aufbau und noch nicht veröffentlicht. Trag dich in die Warteliste ein, um als Erste:r dabei zu sein. Das Designziel ist selbst-gehostet und souverän: du betreibst es auf eigener Hardware oder mit eigenem Schlüssel, statt fremde Cloud dafür zu bezahlen, deine Dokumente zu lesen.

Integration

Funktioniert es mit meinem Agenten / CLI?

Ja, pdf2okf ist ein CLI und erzeugt einfache Dateien, daher funktioniert jedes agentische Tool, das Shell-Befehle ausführen und lokale Dateien lesen kann: Hermes Agent, Odysseus, OpenClaw, Claude Code, Cursor und weitere. Ein MCP-Weg ist auf der Roadmap.

Gibt es einen MCP-Server?

Ein MCP-Server (Model Context Protocol) ist auf der Roadmap. Er ließe jeden MCP-fähigen Agenten ein OKF-Bundle nativ lesen. Heute funktioniert die Integration über das CLI plus Datei-Zugriff, was jeder shell-fähige Agent bereits unterstützt.

Kann ich es über eine Chat-Oberfläche wie Open WebUI nutzen?

Ja. Sobald ein Bundle gebaut ist, kannst du einen lokalen Agenten darauf richten und ihn über eine angenehmere Oberfläche wie Open WebUI bedienen, mit deinem eigenen Modell, auf deiner eigenen Maschine. Das CLI baut das Bundle; wie du damit chattest, bleibt dir überlassen.

Ist das wie ein selbst-gehostetes NotebookLM?

Im Geist ja (belegte Antworten aus deinen eigenen Dokumenten) aber ohne Cloud. NotebookLM läuft mit deinen Dateien auf Googles Servern; pdf2okf erzeugt ein OKF-Bundle, das auf deiner Hardware bleibt, gelesen von deinem eigenen Modell oder Schlüssel.

pdf2okf.com

Sei dabei, wenn es aufgeht.

pdf2okf entsteht gerade im Privaten, self-hosted, souverän. Hinterlass eine Mail, du bist als Erstes drin.