Wiki
Eine lokale Alternative zu ChatPDF
„Chat with your PDF": die Frage ist wo?
ChatPDF und die Welle ähnlicher Tools, die es auslöste, machten Dokumenten-Q&A scheinbar mühelos: Datei rein, Frage stellen, Antwort erhalten. Die Erfahrung ist angenehm, und sie funktioniert. Der Punkt ist nicht, dass diese Tools schlecht sind. Der Punkt ist, was passieren muss, damit sie funktionieren: Deine Datei verlässt deinen Computer.
In dem Moment, in dem du ein PDF bei ChatPDF (oder einem ähnlichen Dienst) hochlädst, reist es über das Internet auf einen Server, der dir nicht gehört, wird verarbeitet, indexiert und liegt in fremder Infrastruktur, bis es gelöscht wird, wann auch immer das ist und zu welchen Bedingungen auch immer du zugestimmt hast. Für eine Speisekarte oder eine Produktbroschüre ist das Risiko nahezu null. Für ein Anwaltsschreiben, eine Krankenakte, eine Investorenpräsentation oder eine Personalakte ist das Hochladen auf einen unkontrollierten Drittanbieter-Server keine Datenschutz-Richtlinien-Frage. Es ist eine Architektur-Frage.
Datenschutz durch Richtlinie vs. Datenschutz durch Architektur
Jedes Cloud-Tool in diesem Bereich hat eine Datenschutzerklärung. Die meisten sind aufrichtig. Keine ist eine strukturelle Garantie.
Eine Datenschutzerklärung ist ein rechtliches Instrument. Sie sagt dir, was das Unternehmen mit deinen Daten zu tun beabsichtigt. Sie verhindert kein Datenleck. Sie blockiert keinen Behördenzugriff nach dem US CLOUD Act. Sie stoppt keine Richtlinienänderung in sechs Monaten. Sie ist ein Versprechen, keine technische Beschränkung, und Versprechen ändern sich, wenn Unternehmen übernommen werden, pivoten, das Geld ausgeht oder Strafverfolgungsanfragen nachgekommen werden muss.
Datenschutz durch Architektur ist anders. Wenn dein Dokument die Maschine nie verlässt, gibt es nichts, worüber eine Datenschutzerklärung etwas versprechen müsste, weil es nichts zu regeln gibt. Die Daten sind nicht gereist. Es gibt keine serverseitige Kopie. Die Aussetzung ist null, nicht „gering". Das ist die eigentliche Bedeutung von PDF mit KI offline: Die Frage, was der Anbieter mit deinen Daten macht, ist buchstäblich nicht beantwortbar, weil der Anbieter sie nie hatte.
Wie man mit einem PDF chattet, ohne es hochzuladen
Der lokale Weg klingt schwieriger als er ist. Das fehlende Stück war nie wirklich das Modell. Es war das Format, das ein PDF abfragbar macht.
PDFs sind programmatisch schwer zu lesen. Sie sind Druck-Layout-Dateien, kein strukturiertes Wissen. Bevor du einem Modell Fragen zu einem PDF stellen kannst, muss der Text extrahiert, aufgeteilt und so geordnet werden, dass das Modell die richtige Stelle findet und die richtige Quelle zitiert. Das ist die eigentliche Arbeit, und genau das erledigt pdf2okf.
pdf2okf wandelt ein PDF in ein OKF-kompatibles Wissens-Bundle um, gemäß dem Open Knowledge Format, das Google im Juni 2026 veröffentlicht hat. Das Ergebnis ist eine Sammlung von Markdown-Dateien mit Frontmatter: Jeder Abschnitt trägt Quelldokument, Abschnittsüberschrift und Seitenreferenz. Alles bleibt auf deiner Festplatte.
Von dort ist die Abfrage einfach. Ein lokales Modell (Ollama, llama.cpp, oMLX auf Apple Silicon oder ein beliebiger OpenAI-kompatibler Server) liest das Bundle und beantwortet deine Frage mit einem Verweis auf die Originalquelle. Kein Upload nötig. Kein Dritter involviert. Die Antwort zitiert genau, wo im Dokument sie herkommt, weil das Frontmatter diese Information in jedem Schritt der Pipeline verfügbar macht. Das ist lokale ChatPDF Alternative in der Praxis: ChatPDF ohne Upload, strukturell gelöst.
Was das für sensible Dokumente verändert
Das Architektur-Argument zählt am meisten bei Dokumenten, die nirgendwo sicher hochgeladen werden können:
- Rechtliche Dokumente: Vertragsentwürfe, M&A-Due-Diligence-Unterlagen, Prozessmaterial. Vertraulichkeitspflichten kennen keine Cloud-Ausnahme.
- Krankenakten: Patientendaten nach Art. 9 DSGVO sind besondere Kategorien. Ihre Verarbeitung über einen Cloud-Upload erfordert eine explizite Rechtsgrundlage, die die meisten Organisationen nicht haben werden.
- Finanzdokumente: Ertragsmodelle, Akquisitionsziele, interne Projektionen. Kursrelevante, nicht-öffentliche Informationen unterliegen in jeder Rechtsordnung eigenen Regeln.
- Personalakten: Gehaltsbänder, Leistungsbeurteilungen, Personalnotizen. In Deutschland oft an Betriebs- oder Tarifvertragsregeln gebunden.
Für all das ist die relevante Frage nicht: „Hat dieser Dienst eine gute Datenschutzerklärung?" Sie lautet: „Empfängt dieser Dienst die Daten überhaupt?" Im lokalen OKF-Workflow lautet die Antwort: Nein.
Der ehrliche Kompromiss
Lokale Inferenz erfordert Einrichtung. Du brauchst eine Maschine mit genug RAM (ein 7-Milliarden-Parameter-Modell bei 4-Bit-Quantisierung passt bequem in 8 GB), eine Möglichkeit, Modelle lokal auszuführen, und die pdf2okf CLI zum Aufbereiten des Bundles. Es ist nicht so sofortig wie ein Browser-Tab. Der Konvertierungsschritt ist Aufwand.
Was es dafür gibt, ist etwas, das ein Browser-Tab nicht kann: Das Dokument bleibt auf deiner Maschine. Punkt. Nicht „bleibt in der EU". Nicht „wird unter unserem Auftragsverarbeitungsvertrag verarbeitet". Auf deiner Maschine. Das ist eine andere Kategorie von Schutz: eine, die standhält, wenn die Richtlinienversprechen auf die Probe gestellt werden.
pdf2okf ist in der privaten Build-Phase: trag dich in die Warteliste ein, wenn du frühen Zugang zur CLI und zum OKF-Bundle-Format willst. Wenn du lokale Dokumenten-KI für ein Team oder einen regulierten Arbeitsablauf evaluierst, ist das genau der Einsatzfall, für den es gebaut wurde.