Glossar
Quantisierung
Quantisierung speichert die Gewichte eines Modells mit geringerer Präzision (etwa 4-bit statt 16-bit), wodurch es deutlich kleiner und schneller wird, bei nur geringem Qualitätsverlust. Der oft genannte Q4_K_M-Sweetspot ist rund 75% kleiner bei etwa 3% Qualitätsverlust, so passt ein 27B-Modell auf eine Consumer-GPU oder einen 32-GB-Mac. Faustregel: ein 4-bit-Modell braucht etwa die Hälfte seiner Parameterzahl in Gigabyte RAM.
pdf2okf.com
Sei dabei, wenn es aufgeht.
pdf2okf entsteht gerade im Privaten, self-hosted, souverän. Hinterlass eine Mail, du bist als Erstes drin.