TurboQuant: Googles Kompressionsalgorithmus lässt grosse KI-Modelle auf kleinen GPUs laufen

Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne dass die Qualität leidet. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit der fiktiven Kompression aus HBOs «Silicon Valley».

6× weniger Speicher, kein Training nötig

Der am 24. März per Blogpost vorgestellte TurboQuant komprimiert den sogenannten KV-Cache – eine Art Kurzzeitgedächtnis, das KI-Modelle während der Textgenerierung aufbauen – auf 3 Bit pro Kanal. Zum Vergleich: Standard sind 16 Bit. Das Ergebnis ist eine mindestens 6-fache Speicherreduktion und bis zu 8-facher Speedup bei der Attention-Berechnung (dem rechenintensivsten Teil der Textgenerierung).

Das Besondere: TurboQuant ist datenblind. Der Algorithmus braucht kein Training, kein Feintuning und keine Kalibrierungsdaten. Dasselbe Verfahren funktioniert für jedes Modell sofort – ein fundamentaler Vorteil gegenüber Konkurrenten wie KIVI oder KVQuant, die für jedes Modell einzeln angepasst werden müssen.

Cloudflare-CEO Matthew Prince nannte TurboQuant «Google's DeepSeek moment» – und auf Twitter/X erzielte die Ankündigung 11,9 Millionen Views in unter 24 Stunden.

So funktioniert der Trick – einfach erklärt

Stell dir vor, du fotografierst ein Dokument mit dem Handy. Ein normales JPEG komprimiert das Bild, indem es die Farbwerte vereinfacht – aber es muss zuerst das ganze Bild analysieren. TurboQuant macht etwas Clevereres: Es dreht die Daten zuerst in eine mathematisch vorhersagbare Form (per Zufallsrotation), sodass ein universeller Kompressor funktioniert – ohne die Daten überhaupt anzuschauen.

Konkret arbeitet der Algorithmus in zwei Stufen:

Stufe 1 (PolarQuant): Die Daten werden rotiert, sodass ihre Verteilung vorhersagbar wird. Dann wird ein vorgefertigter Quantisierer angewandt – kein Overhead für Normalisierung, kein modellspezifisches Codebook.
Stufe 2 (QJL-Fehlerkorrektur): Der Restfehler aus Stufe 1 wird mit nur 1 Bit pro Komponente korrigiert – mathematisch beweisbar unverzerrt.

Das Ergebnis liegt innerhalb eines Faktors von 2,7 der theoretisch bestmöglichen Kompression nach Shannon. Bei 1 Bit sogar nur Faktor 1,45. Für Mathematik-Nerds: Das ist bemerkenswert nah am Optimum.

160'000 statt 30'000 Tokens auf einer Consumer-GPU

Die praktischen Auswirkungen sind erheblich. Für ein 7B-Modell auf einer GPU mit 16 GB VRAM bedeutet TurboQuant: Statt ~30'000 Context-Tokens passen plötzlich 160'000+ Tokens in den Speicher. Eine Community-Implementierung auf einer RTX 3060 (12 GB) demonstrierte: 289 MB KV-Cache schrumpften auf 58 MB.

Weitere Community-Erfolge:

Gemma 3 4B auf RTX 4090: Zeichenidentische Ausgabe bei 2-Bit-Präzision
35B-Modell auf Apple M5 Max: Via llama.cpp mit 3-Bit TurboQuant KV-Cache lauffähig
Needle-in-a-Haystack-Test: 100% perfekte Recall-Rate bis 104'000 Tokens

Wichtiger Caveat: Der «8× Speedup» bezieht sich nur auf die Attention-Berechnung, nicht auf die gesamte Inferenz. Und «kein Genauigkeitsverlust» bedeutet: auf Benchmark-Ebene nicht messbar – nicht mathematisch verlustfrei. Getestet wurde zudem nur auf Modellen bis 8 Milliarden Parameter. Das Verhalten bei 70B+ Modellen – wo der KV-Cache am relevantesten ist – ist noch nicht verifiziert.

Hacker News zwischen Begeisterung und Zitationsstreit

Die Community-Reaktion war explosiv: 516 Upvotes und 144 Kommentare auf Hacker News innerhalb eines Tages, 11,9 Millionen Views auf X in unter 24 Stunden. Der «Pied Piper»-Vergleich mit HBOs Silicon Valley ging viral – TechCrunch widmete dem Phänomen einen eigenen Artikel.

Aber es gab auch substanzielle Kritik: Der Erstautor des NeurIPS-2021-Papers «DRIVE» warf Google vor, die grundlegende Technik – geometrische Rotation vor extremer Quantisierung mit Bias-Korrektur – nicht zitiert zu haben. Die Community bezeichnete das als «Schmidhuber'd» – eine Anspielung auf den KI-Forscher Jürgen Schmidhuber, der regelmässig fehlende Zitationen anprangert.

An den Finanzmärkten fielen Speicherchip-Aktien: Micron −3%, Western Digital −4,7%, SanDisk −5,7%. Analysten von Morgan Stanley und Wells Fargo bewerteten den Ausverkauf als übertrieben und verwiesen auf das Jevons-Paradoxon: Effizienzgewinne steigern typischerweise die Nachfrage, statt Ausgaben zu senken.

Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht

Stand heute hat Google weder offiziellen Code veröffentlicht noch TurboQuant in einem Produkt bestätigt. Der Blogpost erwähnt Gemini als Anwendungsfall, die Community vermutet eine interne Nutzung. Die ICLR-Präsentation ist für Ende April geplant, Google I/O gilt als wahrscheinlichster Zeitpunkt für Produktankündigungen.

Die Konkurrenz ist ernst zu nehmen: Nvidias KVTC (ebenfalls ICLR 2026) erreicht sogar 20× Kompression – braucht aber eine einmalige Kalibrierung pro Modell. KIVI von der Rice University ist bereits in HuggingFace Transformers integriert. TurboQuants Trumpf bleibt die Universalität: Kein Modell muss angepasst werden, keine Daten müssen analysiert werden.

Lokale KI auf Schweizer Hardware – ein konkreter Enabler

Für die Schweiz ist TurboQuant aus drei Gründen relevant. Erstens: Apertus, der erste offene Schweizer LLM von ETH und EPFL, ist für lokale, auditierbare Nutzung konzipiert. KV-Cache-Kompression ermöglicht es, Apertus-8B auf Consumer-GPUs mit deutlich längerem Kontext zu betreiben – ein direkter Enabler für datensouveräne Inferenz.

Zweitens: Meditron, der Schweizer medizinische LLM, wird ab Mai 2026 am CHUV in Lausanne getestet. Lokale Bereitstellung ohne Datenübertragung an externe Server profitiert direkt – längere Patientenakten-Kontexte auf limitierter Spitalhardware werden möglich.

Drittens treibt der EU AI Act Edge-Deployment voran. Obwohl die Schweiz kein EU-Mitglied ist, orientieren sich Schweizer KI-Projekte an der Regulierung. Meta hat fortgeschrittene Modelle für den EU-Markt zurückgehalten und setzt auf On-Device-KI. Kompression wie TurboQuant senkt die technische Hürde für genau solche lokalen Deployments.

6× weniger Speicher, kein Training nötig

Cloudflare-CEO Matthew Prince nannte TurboQuant «Google's DeepSeek moment» – und auf Twitter/X erzielte die Ankündigung 11,9 Millionen Views in unter 24 Stunden.

So funktioniert der Trick – einfach erklärt

Konkret arbeitet der Algorithmus in zwei Stufen:

Stufe 1 (PolarQuant): Die Daten werden rotiert, sodass ihre Verteilung vorhersagbar wird. Dann wird ein vorgefertigter Quantisierer angewandt – kein Overhead für Normalisierung, kein modellspezifisches Codebook.
Stufe 2 (QJL-Fehlerkorrektur): Der Restfehler aus Stufe 1 wird mit nur 1 Bit pro Komponente korrigiert – mathematisch beweisbar unverzerrt.

160'000 statt 30'000 Tokens auf einer Consumer-GPU

Weitere Community-Erfolge:

Gemma 3 4B auf RTX 4090: Zeichenidentische Ausgabe bei 2-Bit-Präzision
35B-Modell auf Apple M5 Max: Via llama.cpp mit 3-Bit TurboQuant KV-Cache lauffähig
Needle-in-a-Haystack-Test: 100% perfekte Recall-Rate bis 104'000 Tokens

TurboQuant: Googles Kompressionsalgorithmus lässt grosse KI-Modelle auf kleinen GPUs laufen

6× weniger Speicher, kein Training nötig

So funktioniert der Trick – einfach erklärt

160'000 statt 30'000 Tokens auf einer Consumer-GPU

Hacker News zwischen Begeisterung und Zitationsstreit

Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht

Lokale KI auf Schweizer Hardware – ein konkreter Enabler

Quellen

Das könnte dich auch interessieren

Uni Genf entwickelt KI, die Krebsmetastasen mit 80% Genauigkeit vorhersagt

NVIDIA lanciert Nemotron 3 Super und Alpamayo vor der GTC

Yann LeCuns AMI Labs holt 1,03 Milliarden – die grösste Seed-Runde Europas

TurboQuant: Googles Kompressionsalgorithmus lässt grosse KI-Modelle auf kleinen GPUs laufen

6× weniger Speicher, kein Training nötig

So funktioniert der Trick – einfach erklärt

160'000 statt 30'000 Tokens auf einer Consumer-GPU

Hacker News zwischen Begeisterung und Zitationsstreit

Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht

Lokale KI auf Schweizer Hardware – ein konkreter Enabler

Quellen

Das könnte dich auch interessieren

Uni Genf entwickelt KI, die Krebsmetastasen mit 80% Genauigkeit vorhersagt

NVIDIA lanciert Nemotron 3 Super und Alpamayo vor der GTC

Yann LeCuns AMI Labs holt 1,03 Milliarden – die grösste Seed-Runde Europas