Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne Qualitätsverlust. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit HBOs «Silicon Valley».

TurboQuant komprimiert den KV-Cache von KI-Modellen auf 3 Bit – 6× weniger Speicher, kein Training nötig. Das könnte grosse Modelle auf Consumer-GPUs bringen.
Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne dass die Qualität leidet. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit der fiktiven Kompression aus HBOs «Silicon Valley».
Der am 24. März per Blogpost vorgestellte TurboQuant komprimiert den sogenannten KV-Cache – eine Art Kurzzeitgedächtnis, das KI-Modelle während der Textgenerierung aufbauen – auf 3 Bit pro Kanal. Zum Vergleich: Standard sind 16 Bit. Das Ergebnis ist eine mindestens 6-fache Speicherreduktion und bis zu 8-facher Speedup bei der Attention-Berechnung (dem rechenintensivsten Teil der Textgenerierung).
Das Besondere: TurboQuant ist datenblind. Der Algorithmus braucht kein Training, kein Feintuning und keine Kalibrierungsdaten. Dasselbe Verfahren funktioniert für jedes Modell sofort – ein fundamentaler Vorteil gegenüber Konkurrenten wie KIVI oder KVQuant, die für jedes Modell einzeln angepasst werden müssen.
Cloudflare-CEO Matthew Prince nannte TurboQuant «Google's DeepSeek moment» – und auf Twitter/X erzielte die Ankündigung 11,9 Millionen Views in unter 24 Stunden.
Stell dir vor, du fotografierst ein Dokument mit dem Handy. Ein normales JPEG komprimiert das Bild, indem es die Farbwerte vereinfacht – aber es muss zuerst das ganze Bild analysieren. TurboQuant macht etwas Clevereres: Es dreht die Daten zuerst in eine mathematisch vorhersagbare Form (per Zufallsrotation), sodass ein universeller Kompressor funktioniert – ohne die Daten überhaupt anzuschauen.
Konkret arbeitet der Algorithmus in zwei Stufen:
Das Ergebnis liegt innerhalb eines Faktors von 2,7 der theoretisch bestmöglichen Kompression nach Shannon. Bei 1 Bit sogar nur Faktor 1,45. Für Mathematik-Nerds: Das ist bemerkenswert nah am Optimum.
Die praktischen Auswirkungen sind erheblich. Für ein 7B-Modell auf einer GPU mit 16 GB VRAM bedeutet TurboQuant: Statt ~30'000 Context-Tokens passen plötzlich 160'000+ Tokens in den Speicher. Eine Community-Implementierung auf einer RTX 3060 (12 GB) demonstrierte: 289 MB KV-Cache schrumpften auf 58 MB.
Weitere Community-Erfolge:
Wichtiger Caveat: Der «8× Speedup» bezieht sich nur auf die Attention-Berechnung, nicht auf die gesamte Inferenz. Und «kein Genauigkeitsverlust» bedeutet: auf Benchmark-Ebene nicht messbar – nicht mathematisch verlustfrei. Getestet wurde zudem nur auf Modellen bis 8 Milliarden Parameter. Das Verhalten bei 70B+ Modellen – wo der KV-Cache am relevantesten ist – ist noch nicht verifiziert.
Die Community-Reaktion war explosiv: 516 Upvotes und 144 Kommentare auf Hacker News innerhalb eines Tages, 11,9 Millionen Views auf X in unter 24 Stunden. Der «Pied Piper»-Vergleich mit HBOs Silicon Valley ging viral – TechCrunch widmete dem Phänomen einen eigenen Artikel.
Aber es gab auch substanzielle Kritik: Der Erstautor des NeurIPS-2021-Papers «DRIVE» warf Google vor, die grundlegende Technik – geometrische Rotation vor extremer Quantisierung mit Bias-Korrektur – nicht zitiert zu haben. Die Community bezeichnete das als «Schmidhuber'd» – eine Anspielung auf den KI-Forscher Jürgen Schmidhuber, der regelmässig fehlende Zitationen anprangert.
An den Finanzmärkten fielen Speicherchip-Aktien: Micron −3%, Western Digital −4,7%, SanDisk −5,7%. Analysten von Morgan Stanley und Wells Fargo bewerteten den Ausverkauf als übertrieben und verwiesen auf das Jevons-Paradoxon: Effizienzgewinne steigern typischerweise die Nachfrage, statt Ausgaben zu senken.
Stand heute hat Google weder offiziellen Code veröffentlicht noch TurboQuant in einem Produkt bestätigt. Der Blogpost erwähnt Gemini als Anwendungsfall, die Community vermutet eine interne Nutzung. Die ICLR-Präsentation ist für Ende April geplant, Google I/O gilt als wahrscheinlichster Zeitpunkt für Produktankündigungen.
Die Konkurrenz ist ernst zu nehmen: Nvidias KVTC (ebenfalls ICLR 2026) erreicht sogar 20× Kompression – braucht aber eine einmalige Kalibrierung pro Modell. KIVI von der Rice University ist bereits in HuggingFace Transformers integriert. TurboQuants Trumpf bleibt die Universalität: Kein Modell muss angepasst werden, keine Daten müssen analysiert werden.
Für die Schweiz ist TurboQuant aus drei Gründen relevant. Erstens: Apertus, der erste offene Schweizer LLM von ETH und EPFL, ist für lokale, auditierbare Nutzung konzipiert. KV-Cache-Kompression ermöglicht es, Apertus-8B auf Consumer-GPUs mit deutlich längerem Kontext zu betreiben – ein direkter Enabler für datensouveräne Inferenz.
Zweitens: Meditron, der Schweizer medizinische LLM, wird ab Mai 2026 am CHUV in Lausanne getestet. Lokale Bereitstellung ohne Datenübertragung an externe Server profitiert direkt – längere Patientenakten-Kontexte auf limitierter Spitalhardware werden möglich.
Drittens treibt der EU AI Act Edge-Deployment voran. Obwohl die Schweiz kein EU-Mitglied ist, orientieren sich Schweizer KI-Projekte an der Regulierung. Meta hat fortgeschrittene Modelle für den EU-Markt zurückgehalten und setzt auf On-Device-KI. Kompression wie TurboQuant senkt die technische Hürde für genau solche lokalen Deployments.

Forscher der Universität Genf haben ein KI-Tool entwickelt, das vorhersagen kann, ob ein Tumor streuen wird – mit rund 80 Prozent Trefferquote. MangroveGS analysiert hunderte Gensignaturen gleichzeitig und funktioniert bei vier Krebsarten.
MangroveGS der Uni Genf sagt Krebsmetastasen mit 80% Genauigkeit voraus – und könnte Patienten unnötige Chemotherapien ersparen.

NVIDIA stellt zwei neue KI-Modell-Familien vor: Nemotron 3 Super für agentische Systeme mit fünfmal höherem Durchsatz und Alpamayo für autonomes Fahren. Beide sind Open Source.
NVIDIA setzt mit zwei Open-Source-Modell-Familien auf ein Ökosystem-Spiel — Nemotron für Agenten, Alpamayo für selbstfahrende Autos.

Turing-Preisträger Yann LeCun hat mit seinem neuen Startup AMI Labs über eine Milliarde Dollar eingesammelt – die grösste Seed-Runde eines europäischen Unternehmens. AMI Labs entwickelt «Weltmodelle», die physische Realität verstehen statt nur Text vorherzusagen.
Mit 1,03 Milliarden Dollar in einer Seed-Runde beweist AMI Labs, dass Investoren wie Nvidia und Bezos bereit sind, auf KI-Ansätze jenseits von Sprachmodellen zu setzen – und Europa als Standort ernst nehmen.