Welches offene Modell für deine Dokumente? Gemma 4, Qwen, Mistral, OLMo, EuroLLM

Es gibt kein einziges „bestes", und genau das ist der Punkt

Die ehrliche Antwort auf „welches offene LLM nehme ich für meine Dokumente?" lautet: Mehrere sind gut genug, wähle also nach Lizenz, Sprache und deiner vorhandenen Hardware, nicht nach einem Leaderboard. Für geerdete Dokumenten-Fragen, bei denen das Modell eine bereits abgerufene Passage liest und daraus antwortet, ist das Feld konvergiert. Die Größe ist nicht mehr der Engpass; Retrieval-Qualität und Lizenzbedingungen entscheiden mehr als rohe Modellstärke. Hier ist die Auswahl, und wie du wählst.

Gemma 4: die sichere Standardwahl

Gemma 4 (Google, veröffentlicht 02.04.2026) ist für die meisten die Empfehlung. Es ist Apache-2.0, die kommerzielle Nutzung ist also vorab geklärt; es ist multimodal, mit 128K–256K Kontextfenster; und es reicht von winzigen Edge-Varianten (E2B/E4B) über ein 26B-Mixture-of-Experts bis zu einem 31B-Dense-Modell. Dieselbe Familie läuft auf einem Gerät der Telefon-Klasse und auf einer Workstation, du wählst also die Größe, die deine Hardware erlaubt, und behältst das gleiche Verhalten. Es läuft offline auf Consumer-GPUs und Apple Silicon. Wer Gemma lokal für Dokumente will, ohne Hausaufgaben, nimmt dieses.

Qwen3.5: der Allrounder mit langem Kontext

Qwen3.5 (Alibaba, 03/2026) ist ebenfalls Apache-2.0 und ein starker lokaler Allrounder, mit langem Kontext, der hilft, wenn ein Dokument oder eine abgerufene Passage groß ist. Es gibt Dense-Größen und eine Mixture-of-Experts-Variante, passend für bescheidene wie leistungsfähige Maschinen. Eine solide zweite Wahl, bei langen, strukturierten Dokumenten oft die erste.

Mistral: der europäische Name

Mistral (Frankreich) trägt das Argument der EU-Herkunft, und die kleinen Modelle erschienen historisch unter Apache-2.0. Prüfe die Lizenz auf jeder Modellkarte, da sie in der Reihe variiert. Für Teams, die einen europäischen Anbieter und ein freizügiges kleines Modell schätzen, ist Mistral die vertraute Wahl.

OLMo 3: wenn du prüfen musst

OLMo 3 (Ai2) ist die Fully-Open-Option: Gewichte, Trainingsdaten, Code und Checkpoints veröffentlicht, das Modell also reproduzierbar und prüfbar. Greif zu, wenn „wir können genau belegen, was dieses Modell ist" eine Anforderung ist, kein Nice-to-have: regulierte Branchen, öffentliche Beschaffung, überall, wo Herkunft belastbar sein muss.

EuroLLM und Teuken: der EU-souveräne Stack

Ist das Ziel ein wirklich EU-souveräner Stack, gehören zwei europäische Modelle auf die Liste. EuroLLM-22B ist fully open und deckt alle 24 EU-Sprachen ab, im selben prüfbaren Geist wie OLMo. Teuken-7B (aus der Initiative OpenGPT-X / Fraunhofer) ist Apache-2.0 und so dimensioniert, dass es bequem auf bescheidener Hardware läuft. Ein europäisches LLM passt natürlich zur einen Lizenzregel, die jeder EU-Käufer behalten muss: Die Community-Lizenz von Llama 4 verbietet die EU-Nutzung, bevorzuge also Gemma, Qwen, Mistral, OLMo, EuroLLM oder Teuken. Die Stufen hinter diesen Etiketten erklärt Open Weights vs. Open Source vs. Fully Open.

Was auf Consumer-Hardware läuft

All das läuft auf Hardware, die du kaufen kannst. Nach der Faustregel (ein 4-Bit-Modell braucht etwa die Hälfte seiner Parameterzahl in Gigabyte RAM) passt ein 7B-Modell wie Teuken in rund 4 bis 5 GB, ein Modell der 27B-Klasse landet bei etwa 14 bis 16 GB. Mit einer Q4_K_M-Quantisierung (rund 75% kleiner bei etwa 3% Qualitätsverlust) passt ein leistungsfähiges Modell in einen gut ausgestatteten Laptop, und das Unified Memory von Apple Silicon macht Macs besonders bequem. Die Runtimes, die sie bereitstellen (Ollama, llama.cpp, LM Studio, vLLM, MLX/oMLX), behandelt KI lokal betreiben 2026.

Die Struktur steckt im Bundle, nicht im Modell

Darum musst du dich mit dieser Wahl nicht quälen: Mit pdf2okf lebt die Struktur im OKF-Bundle, nicht im Modell. pdf2okf baut ein OKF-kompatibles Bundle aus einfachen Markdown-Konzeptdateien, und jedes Modell liest aus demselben Bundle. Das Modell ist also austauschbar. Starte mit Gemma 4, wechsle zu EuroLLM für einen reinen EU-Betrieb, wechsle zu OLMo 3, wenn ein Prüfer anruft. Dein Wissen ändert sich nie, und du verarbeitest die Quelle nie neu.

Und für die seltene Frage, die wirklich Frontier-Niveau und mehrstufiges Reasoning braucht, ist BYOK (bring your own key) die Notausgangstür: standardmäßig alles lokal, und nur diese eine Anfrage an ein Frontier-Modell auf deinem eigenen Schlüssel. Modell-agnostisch von Grund auf heißt: nie an das Modell, die Cloud oder die Lizenz eines Anbieters gebunden. Wähle, was passt, tausche, wenn sich etwas ändert, und deine Dokumente bleiben deine.