Wiki
Air-Gapped-Dokumenten-KI: vollständig offline
Wenn „offline" nicht offline genug ist
Die meisten datenschutzbewussten Tools versprechen, dass sie „offline" funktionieren. Klopft man auf dieses Wort, heißt es meist offlinefähig: Das Programm läuft ohne aktive Verbindung, erwartet aber doch hin und wieder eine: eine Lizenzprüfung beim Start, einen Modell-Download beim ersten Lauf, ein Telemetrie-Signal, eine Update-Benachrichtigung. Für die meisten Menschen ist das völlig in Ordnung. Für eine Air-Gap-Umgebung ist es ein Ausschlusskriterium.
Ein Air-Gap ist die strengste Isolation, die es gibt: eine Maschine (oder ein ganzes Netz) ohne jede Verbindung zum Internet und oft ohne jede Verbindung zu irgendeinem nicht vertrauenswürdigen Netz. Nichts kommt herein; häufig geht auch nichts hinaus. Die „Lücke" ist wörtlich gemeint: eine Spanne Luft dort, wo sonst ein Kabel, ein Funksignal oder eine Route wäre. Es ist eine Architektur für Situationen, in denen ein einziges ausgehendes Paket bereits als Sicherheitsvorfall gilt.
Wer wirklich eines braucht
Air-Gaps sind keine Paranoia um ihrer selbst willen. Sie sind gängige Praxis, wo der Schaden eines Datenabflusses katastrophal ist und das Bedrohungsmodell fähige, hartnäckige Angreifer einschließt: eingestufte Arbeit und Verteidigung, die Steuerungssysteme hinter kritischer Infrastruktur (Strom, Wasser, Produktion) sowie die sensibelsten Ecken von Gesundheitswesen, Recht und Industrie. Sie schützen ebenso schlichte Geschäftsgeheimnisse (die Rezeptur, den Quellcode, den noch nicht angekündigten Deal), bei denen ein Leck existenziell ist, selbst wenn keine Aufsichtsbehörde im Spiel ist.
Der gemeinsame Nenner ist einfach. An diesen Orten ist „vermutlich verschlüsselt übertragen" keine akzeptable Antwort. Das einzige Netz, dem man voll vertraut, ist das, das es nicht gibt.
Warum die meiste KI die Lücke nicht überwindet
Cloud-KI fällt per Definition aus: Das ganze Produkt besteht darin, dein Dokument auf den Computer eines anderen zu schicken. Überraschend ist, wie viele lokale Tools ebenfalls durchfallen. „Lokal" und „air-gapped" sind nicht dieselbe Aussage.
Ein Tool kann die Inferenz auf deiner Hardware ausführen und drumherum trotzdem ein Netz voraussetzen: Modellgewichte oder ein Embedding-Modell beim ersten Lauf nachladen, eine Lizenz prüfen, nach Updates suchen, anonyme Nutzungsstatistiken senden, zur Laufzeit eine entfernte Vektordatenbank oder eine externe Embedding-API auflösen. Nichts davon ist böswillig. Alles davon ist in einem echten Air-Gap fatal, weil die Umgebung jedes Netz zur Laufzeit verbietet, nicht nur das offensichtlich riskante.
Hier fällt auch ein beliebtes Souveränitäts-Feature still aus. BYOK (bring your own key) lässt dich ein lokales Tool gegen ein Frontier-Modell auf deinem eigenen API-Schlüssel richten, ein großartiges Muster, um standardmäßig lokal zu arbeiten und nur im Notfall in die Cloud zu greifen. Aber ein API-Schlüssel braucht ein Netz, um die API zu erreichen. In einem echten Air-Gap gilt BYOK schlicht nicht: Es gibt keinen „eigenen Schlüssel" zu einem Dienst, den du nicht erreichen kannst. Air-gapped bedeutet ein lokales Open-Weight-Modell, Punkt.
Wie vollständig offline arbeitende Dokumenten-KI wirklich funktioniert
Heruntergebrochen ist das Rezept kurz:
- Ein lokales Open-Weight-Modell. Das Lesen und das Antworten geschehen auf der Maschine, ohne dass ein API-Aufruf sie verlässt. On-Device-KI in ihrer striktesten Form.
- Kontrollierte Medien für alles, was hereinkommen muss. Modelle, Werkzeuge und Updates kommen über bewusste, auditierte Übertragung, das „Sneakernet": eine geprüfte Datei auf einem kontrollierten Laufwerk, von Hand über die Lücke getragen statt aus einer Registry gezogen.
- Keine Telemetrie, kein Nach-Hause-Telefonieren, keine Hintergrundsynchronisation. Lässt sich eine Komponente im Netz nicht stumm schalten, darf sie nicht in die Lücke.
pdf2okf passt ungewöhnlich gut in diese Form, wegen dem, was es nicht braucht. Es durchsucht OKF-kompatibles Markdown direkt per grep, also gibt es keine Vektordatenbank zu hosten, keinen Index zu synchronisieren und keinen Embedding-Dienst, der zur Laufzeit nach außen telefoniert. Ein OKFZ sind einfach Dateien: ein portables Bündel aus reinem Markdown, das du auf denselben kontrollierten Medien wie alles andere über das Air-Gap tragen und auf der anderen Seite mit nichts als einem lokalen Modell und einer Shell lesen kannst. Das Bündel einmal bauen, bewusst bewegen, und es verhält sich innerhalb und außerhalb der Lücke identisch. (OKF ist Googles offener Standard; pdf2okf ist damit kompatibel, hat ihn aber nicht erfunden.)
Was ein Air-Gap dir bringt
Der Gewinn ist scharf umrissen und verdient es, benannt zu werden. Ohne Netz zur Laufzeit beseitigst du eine ganze Risikoklasse an der Wurzel: Es gibt keinen Pfad für Datenabfluss übers Netz, keine entfernte Kompromittierung des Inferenz-Dienstes, keine ausländische Cloud, deren Rechtshoheit über eine Grenze hinweg nach deinen Dokumenten greifen kann. Das ist Datenhoheit in ihrer wörtlichsten Form (nicht „im richtigen Land gehostet", sondern „von nirgendwo aus erreichbar"), und es erledigt das ganze Geflecht aus Residenz, Rechtshoheit und Stack-Kontrolle, indem es es gegenstandslos macht. Die Daten können nicht abfließen, weil es kein Ziel gibt, zu dem sie könnten.
Was ein Air-Gap dir nicht bringt
Hier zählt Ehrlichkeit mehr als der Verkaufsprospekt. Ein Air-Gap ist eine Architektur, kein Compliance-Zertifikat, und es verlagert Arbeit auf dich, statt sie zu beseitigen.
Wenn nichts automatisch hereinkommt, gehört dir alles davon: das Patchen von Betriebssystem und Werkzeugen, das Aktualisieren der Modelle über kontrollierte Medien, das Anlegen und Testen von Backups und die physische Sicherheit der Maschinen selbst. Dieselbe Lücke, die Angreifer draußen hält, hält auch deine Update-Pipeline draußen, und diese Schleife zu schließen, ist nun deine Aufgabe. Gegen Innentäter-Risiko tut sie ebenfalls nichts. Die Person, die bereits innerhalb der Lücke ist, mit einem Laufwerk in der Tasche, ist genau die Bedrohung, um die herum die Lücke gebaut wurde und die sie doch nicht vollständig löst.
Und Isolation befreit dich nicht von deinen Pflichten. Self-Hosting und Air-Gapping machen aus dir nichts anderes als einen Verantwortlichen im Sinne der DSGVO; sie setzen weder dein internes Compliance-Programm noch die Regeln deiner Branche außer Kraft. Ein Air-Gap kann der sauberste Weg sein, diese Pflichten zu erfüllen (es ist das strenge Ende des Spektrums, das On-Premise vs. deutsche Cloud aufspannt), aber es erledigt sie nie für dich. Den Papierkram machst du weiterhin selbst; du darfst ihn nur zu deinen eigenen Bedingungen machen.
Das ehrliche Fazit
Ein Air-Gap ist die stärkste mögliche Antwort auf „Könnten diese Daten je das Haus verlassen?" Es ist zugleich die anspruchsvollste im Betrieb. Es tauscht die Erreichbarkeit von außen dagegen ein, dass du jeden Vorgang selbst verantwortest. pdf2okf ist dafür gebaut, bequem auf der anderen Seite dieser Lücke zu leben: ein lokales Modell, reines Markdown, kein Index, kein Nach-Hause-Telefonieren. Es ist ein Werkzeug, das gleich funktioniert, ob es ein Netz gibt oder nicht, weil es nie eines gebraucht hat.