Glossar

Quantisierung

Quantisierung speichert die Gewichte eines Modells mit geringerer Präzision (etwa 4-bit statt 16-bit), wodurch es deutlich kleiner und schneller wird, bei nur geringem Qualitätsverlust. Der oft genannte Q4_K_M-Sweetspot ist rund 75% kleiner bei etwa 3% Qualitätsverlust, so passt ein 27B-Modell auf eine Consumer-GPU oder einen 32-GB-Mac. Faustregel: ein 4-bit-Modell braucht etwa die Hälfte seiner Parameterzahl in Gigabyte RAM.

← Alle Begriffe

pdf2okf.com

Sei dabei, wenn es aufgeht.

pdf2okf entsteht gerade im Privaten, self-hosted, souverän. Hinterlass eine Mail, du bist als Erstes drin.