Google TurboQuant обвалил акции производителей памяти на 25% — разбираемся, что произошло
Новости TprogerGoogle Research опубликовал алгоритм TurboQuant, который сжимает потребление памяти при инференсе LLM в 6 раз и ускоряет вычисления attention в 8 раз — без потери качества. Реакция рынка: акции Micron упали на 25% за неделю, Samsung — на 4,7%, SK Hynix — на 6,2%.
Но паника оказалась преждевременной. Разбираемся, что на самом деле делает TurboQuant и почему аналитики советуют покупать на падении.
Главное: TurboQuant сжимает только KV-кеш при инференсе, не веса модели и не данные обучения. HBM-память, основной драйвер прибыли чипмейкеров, нужна для обучения — а TurboQuant на обучение не влияет вообще. Аналитики Morgan Stanley, JPMorgan и Citigroup называют обвал «возможностью для покупки».
Что такое TurboQuant
TurboQuant — алгоритм сжатия KV-кеша (Key-Value cache) при инференсе больших языковых моделей. KV-кеш — это «рабочая память» модели: промежуточные вычисления механизма внимания, которые хранятся в VRAM GPU. Чем длиннее контекст, тем больше KV-кеш занимает места.
Алгоритм работает в два этапа:
- PolarQuant — переводит векторы из декартовых координат в полярные после случайного вращения, экономя 1–2 бита на число
- QJL (Quantized Johnson-Lindenstrauss) — коррекция ошибок: сводит остаточную ошибку к одному биту, обеспечивая нулевое смещение attention scores
Результат: сжатие KV-кеша до 3 бит на значение (с 16 стандартных), ускорение до 8x на H100, нулевая потеря качества на бенчмарках. Не требует дообучения. Статья принята на ICLR 2026.
Как отреагировал рынок
- Micron (MU) — с $471 до $345, падение ~25% за неделю
- SK Hynix — -6,2% за день
- Samsung — -4,7%, 4 дня падения подряд
- Kioxia — -6% в Токио
- Western Digital, SanDisk — -7%+
- KOSPI -3,2%, NASDAQ -2,4%
Почему паника преждевременна
Аналитики Morgan Stanley, JPMorgan, Citigroup и Goldman Sachs единодушны: реакция чрезмерна. Почему:
- TurboQuant сжимает только KV-кеш, не веса и не данные обучения. HBM нужна для обучения — TurboQuant на обучение не влияет
- Парадокс Джевонса. Дешевле инференс = больше компаний используют ИИ = спрос растёт
- Прецедент DeepSeek. В январе 2025 тоже обвалили чипмейкеров — затем спрос только вырос
- Исследование, не продукт. Нет кода, эксперименты на ~8B моделях
- Фиксация прибыли. Micron +300%, Samsung +200%, Kioxia +700% за год
If TurboQuant cuts AI operating costs to one-sixth of current levels, companies that have hesitated to adopt AI due to cost burdens will enter the AI ecosystem.
Sell-off stemmed from an interpretation error caused by confusing the roles of memory capacity and memory bandwidth.
FAQ
TurboQuant убьёт спрос на память?
Нет. Алгоритм сжимает только KV-кеш при инференсе. HBM для обучения не затронута. Глава SK Group заявил, что дефицит чипов памяти сохранится до 2030 года.
Можно ли уже использовать TurboQuant?
Официального кода от Google нет, но уже появились независимые реализации на PyTorch+Triton, MLX и C/CUDA для llama.cpp.
Чем это отличается от обычной квантизации?
GPTQ/AWQ сжимают веса модели с потерей качества. TurboQuant сжимает KV-кеш (временные вычисления) с математически доказанным нулевым смещением. Подходы комплементарны.
Источники: Google Research, CNBC, Seoul Economic Daily