kinewsletter.chkinewsletter.ch
News
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-Archiv
Search
News
Kategorien
KI-ForschungKI-BusinessRegulierung & EthikKI in der SchweizKI-Tools & AppsNeue Modelle
Newsletter-ArchivÜber unsSuche
Kostenlos abonnieren
kinewsletter.chkinewsletter.ch

Der wöchentliche KI-Newsletter für die Schweiz. Kompakt, relevant, zero Bullshit. 5 Minuten lesen, 1 Woche informiert.

Navigation

Alle NewsNewsletter-ArchivAutorenÜber unsKontakt

Rechtliches

ImpressumDatenschutzAGB

© 2026Inoo GmbH · Altstätten SG · Schweiz

Swiss Made SoftwareEin Produkt vonInooInoo
  1. Home
  2. KI-News
  3. KI-Forschung
  4. TurboQuant: Googles Kompressionsalgorithmus lässt grosse KI-Modelle auf kleinen GPUs laufen
KI-Forschung

TurboQuant: Googles Kompressionsalgorithmus lässt grosse KI-Modelle auf kleinen GPUs laufen

Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne Qualitätsverlust. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit HBOs «Silicon Valley».

Freitag, 27. März 2026~5 Min. Lesezeit
Pascal Eugster
Pascal EugsterGründer & Entwickler
Illustration einer mechanischen Presse die einen Kristall komprimiert, kinewsletter.ch Stil
Illustration einer mechanischen Presse die einen Kristall komprimiert, kinewsletter.ch Stil
Das Wichtigste

TurboQuant komprimiert den KV-Cache von KI-Modellen auf 3 Bit – 6× weniger Speicher, kein Training nötig. Das könnte grosse Modelle auf Consumer-GPUs bringen.

Google Research hat einen Algorithmus vorgestellt, der den Speicherhunger von KI-Modellen um den Faktor 6 senkt – ohne dass die Qualität leidet. Die Community dreht durch, Speicherchip-Aktien fallen, und das Internet zieht Vergleiche mit der fiktiven Kompression aus HBOs «Silicon Valley».

6× weniger Speicher, kein Training nötig

Der am 24. März per Blogpost vorgestellte TurboQuant komprimiert den sogenannten KV-Cache – eine Art Kurzzeitgedächtnis, das KI-Modelle während der Textgenerierung aufbauen – auf 3 Bit pro Kanal. Zum Vergleich: Standard sind 16 Bit. Das Ergebnis ist eine mindestens 6-fache Speicherreduktion und bis zu 8-facher Speedup bei der Attention-Berechnung (dem rechenintensivsten Teil der Textgenerierung).

Das Besondere: TurboQuant ist datenblind. Der Algorithmus braucht kein Training, kein Feintuning und keine Kalibrierungsdaten. Dasselbe Verfahren funktioniert für jedes Modell sofort – ein fundamentaler Vorteil gegenüber Konkurrenten wie KIVI oder KVQuant, die für jedes Modell einzeln angepasst werden müssen.

Cloudflare-CEO Matthew Prince nannte TurboQuant «Google's DeepSeek moment» – und auf Twitter/X erzielte die Ankündigung 11,9 Millionen Views in unter 24 Stunden.

So funktioniert der Trick – einfach erklärt

Stell dir vor, du fotografierst ein Dokument mit dem Handy. Ein normales JPEG komprimiert das Bild, indem es die Farbwerte vereinfacht – aber es muss zuerst das ganze Bild analysieren. TurboQuant macht etwas Clevereres: Es dreht die Daten zuerst in eine mathematisch vorhersagbare Form (per Zufallsrotation), sodass ein universeller Kompressor funktioniert – ohne die Daten überhaupt anzuschauen.

Konkret arbeitet der Algorithmus in zwei Stufen:

  • Stufe 1 (PolarQuant): Die Daten werden rotiert, sodass ihre Verteilung vorhersagbar wird. Dann wird ein vorgefertigter Quantisierer angewandt – kein Overhead für Normalisierung, kein modellspezifisches Codebook.
  • Stufe 2 (QJL-Fehlerkorrektur): Der Restfehler aus Stufe 1 wird mit nur 1 Bit pro Komponente korrigiert – mathematisch beweisbar unverzerrt.

Das Ergebnis liegt innerhalb eines Faktors von 2,7 der theoretisch bestmöglichen Kompression nach Shannon. Bei 1 Bit sogar nur Faktor 1,45. Für Mathematik-Nerds: Das ist bemerkenswert nah am Optimum.

160'000 statt 30'000 Tokens auf einer Consumer-GPU

Die praktischen Auswirkungen sind erheblich. Für ein 7B-Modell auf einer GPU mit 16 GB VRAM bedeutet TurboQuant: Statt ~30'000 Context-Tokens passen plötzlich 160'000+ Tokens in den Speicher. Eine Community-Implementierung auf einer RTX 3060 (12 GB) demonstrierte: 289 MB KV-Cache schrumpften auf 58 MB.

Weitere Community-Erfolge:

  • Gemma 3 4B auf RTX 4090: Zeichenidentische Ausgabe bei 2-Bit-Präzision
  • 35B-Modell auf Apple M5 Max: Via llama.cpp mit 3-Bit TurboQuant KV-Cache lauffähig
  • Needle-in-a-Haystack-Test: 100% perfekte Recall-Rate bis 104'000 Tokens

Wichtiger Caveat: Der «8× Speedup» bezieht sich nur auf die Attention-Berechnung, nicht auf die gesamte Inferenz. Und «kein Genauigkeitsverlust» bedeutet: auf Benchmark-Ebene nicht messbar – nicht mathematisch verlustfrei. Getestet wurde zudem nur auf Modellen bis 8 Milliarden Parameter. Das Verhalten bei 70B+ Modellen – wo der KV-Cache am relevantesten ist – ist noch nicht verifiziert.

Hacker News zwischen Begeisterung und Zitationsstreit

Die Community-Reaktion war explosiv: 516 Upvotes und 144 Kommentare auf Hacker News innerhalb eines Tages, 11,9 Millionen Views auf X in unter 24 Stunden. Der «Pied Piper»-Vergleich mit HBOs Silicon Valley ging viral – TechCrunch widmete dem Phänomen einen eigenen Artikel.

Aber es gab auch substanzielle Kritik: Der Erstautor des NeurIPS-2021-Papers «DRIVE» warf Google vor, die grundlegende Technik – geometrische Rotation vor extremer Quantisierung mit Bias-Korrektur – nicht zitiert zu haben. Die Community bezeichnete das als «Schmidhuber'd» – eine Anspielung auf den KI-Forscher Jürgen Schmidhuber, der regelmässig fehlende Zitationen anprangert.

An den Finanzmärkten fielen Speicherchip-Aktien: Micron −3%, Western Digital −4,7%, SanDisk −5,7%. Analysten von Morgan Stanley und Wells Fargo bewerteten den Ausverkauf als übertrieben und verwiesen auf das Jevons-Paradoxon: Effizienzgewinne steigern typischerweise die Nachfrage, statt Ausgaben zu senken.

Noch kein Code, noch kein Produkt – aber die Konkurrenz schläft nicht

Stand heute hat Google weder offiziellen Code veröffentlicht noch TurboQuant in einem Produkt bestätigt. Der Blogpost erwähnt Gemini als Anwendungsfall, die Community vermutet eine interne Nutzung. Die ICLR-Präsentation ist für Ende April geplant, Google I/O gilt als wahrscheinlichster Zeitpunkt für Produktankündigungen.

Die Konkurrenz ist ernst zu nehmen: Nvidias KVTC (ebenfalls ICLR 2026) erreicht sogar 20× Kompression – braucht aber eine einmalige Kalibrierung pro Modell. KIVI von der Rice University ist bereits in HuggingFace Transformers integriert. TurboQuants Trumpf bleibt die Universalität: Kein Modell muss angepasst werden, keine Daten müssen analysiert werden.

Lokale KI auf Schweizer Hardware – ein konkreter Enabler

Für die Schweiz ist TurboQuant aus drei Gründen relevant. Erstens: Apertus, der erste offene Schweizer LLM von ETH und EPFL, ist für lokale, auditierbare Nutzung konzipiert. KV-Cache-Kompression ermöglicht es, Apertus-8B auf Consumer-GPUs mit deutlich längerem Kontext zu betreiben – ein direkter Enabler für datensouveräne Inferenz.

Zweitens: Meditron, der Schweizer medizinische LLM, wird ab Mai 2026 am CHUV in Lausanne getestet. Lokale Bereitstellung ohne Datenübertragung an externe Server profitiert direkt – längere Patientenakten-Kontexte auf limitierter Spitalhardware werden möglich.

Drittens treibt der EU AI Act Edge-Deployment voran. Obwohl die Schweiz kein EU-Mitglied ist, orientieren sich Schweizer KI-Projekte an der Regulierung. Meta hat fortgeschrittene Modelle für den EU-Markt zurückgehalten und setzt auf On-Device-KI. Kompression wie TurboQuant senkt die technische Hürde für genau solche lokalen Deployments.

Quellen

  • Google Research Blog(wird in neuem Tab geöffnet)
  • arXiv: TurboQuant Paper(wird in neuem Tab geöffnet)
  • TechCrunch(wird in neuem Tab geöffnet)
  • WinBuzzer(wird in neuem Tab geöffnet)
  • The Next Web(wird in neuem Tab geöffnet)
Teilen:

Das könnte dich auch interessieren

Illustration eines Labortischs mit Mikroskop und DNA-Modell, kinewsletter.ch Stil
Illustration eines Labortischs mit Mikroskop und DNA-Modell, kinewsletter.ch Stil
KI in der Schweiz
24. März 2026

Uni Genf entwickelt KI, die Krebsmetastasen mit 80% Genauigkeit vorhersagt

Forscher der Universität Genf haben ein KI-Tool entwickelt, das vorhersagen kann, ob ein Tumor streuen wird – mit rund 80 Prozent Trefferquote. MangroveGS analysiert hunderte Gensignaturen gleichzeitig und funktioniert bei vier Krebsarten.

MangroveGS der Uni Genf sagt Krebsmetastasen mit 80% Genauigkeit voraus – und könnte Patienten unnötige Chemotherapien ersparen.

Weiterlesen
Handgezeichnete Skizze: GPU-Chip mit Rakete und Benchmark-Diagramm – NVIDIA Nemotron 3 Super und Alpamayo
Handgezeichnete Skizze: GPU-Chip mit Rakete und Benchmark-Diagramm – NVIDIA Nemotron 3 Super und Alpamayo
Neue Modelle
12. März 2026

NVIDIA lanciert Nemotron 3 Super und Alpamayo vor der GTC

NVIDIA stellt zwei neue KI-Modell-Familien vor: Nemotron 3 Super für agentische Systeme mit fünfmal höherem Durchsatz und Alpamayo für autonomes Fahren. Beide sind Open Source.

NVIDIA setzt mit zwei Open-Source-Modell-Familien auf ein Ökosystem-Spiel — Nemotron für Agenten, Alpamayo für selbstfahrende Autos.

Weiterlesen
Illustration von Champagnergläsern, Füllfeder und Geldstapel vor einem Fenster mit Eiffelturm – kinewsletter.ch Stil
Illustration von Champagnergläsern, Füllfeder und Geldstapel vor einem Fenster mit Eiffelturm – kinewsletter.ch Stil
KI-Business
11. März 2026

Yann LeCuns AMI Labs holt 1,03 Milliarden – die grösste Seed-Runde Europas

Turing-Preisträger Yann LeCun hat mit seinem neuen Startup AMI Labs über eine Milliarde Dollar eingesammelt – die grösste Seed-Runde eines europäischen Unternehmens. AMI Labs entwickelt «Weltmodelle», die physische Realität verstehen statt nur Text vorherzusagen.

Mit 1,03 Milliarden Dollar in einer Seed-Runde beweist AMI Labs, dass Investoren wie Nvidia und Bezos bereit sind, auf KI-Ansätze jenseits von Sprachmodellen zu setzen – und Europa als Standort ernst nehmen.

Weiterlesen