Unsloth похоронил TQ1_0: что это значит для вас?
Сегодня, 15 марта 2026 года, проект Unsloth официально объявил о прекращении поддержки и выпуска квантований в формате TQ1_0. Для сообщества локального запуска LLM это как гром среди ясного неба. TQ1_0 был тем волшебным пинком, который заставлял многомиллиардные модели работать на видеокартах, выпущенных в эпоху расцвета TikTok.
Если вы качали квантованные модели Unsloth для запуска на слабом железе - у вас проблемы. Но не все потеряно.
Что такое TQ1_0 и почему его все любили
TQ1_0 - это формат квантования, который Unsloth разработал специально для экстремального сжатия. Он жертвовал точностью, но выжимал из моделей все соки, позволяя запускать их на GPU с 4-6 ГБ VRAM. Например, Kimi-K2.5 на домашнем ПК стал возможен именно благодаря TQ1_0.
Технически, TQ1_0 использовал комбинацию 1-битного квантования с динамическими масштабами. Это звучит сложно, но на практике означало, что вы могли гонять 70-миллиардную модель на карточке за 300 долларов. Магия.
Почему Unsloth отказался от TQ1_0
Причины - технические и стратегические. Во-первых, TQ1_0 был хакиком. Он нарушал слишком много правил математики, и качество моделей страдало катастрофически. Вспомните статью "Почему Qwen3-4B-Instruct отвечает «Да» на всё" - это был цветочки по сравнению с тем, что творилось в TQ1_0.
Во-вторых, Unsloth фокусируется на более современных форматах, таких как Q3_K_XL и smol-IQ2_XS, которые дают лучшее качество при том же размере. Зачем поддерживать устаревший хак, когда есть элегантные решения?
Чем заменить TQ1_0: альтернативы на 2026 год
Если вы зависели от TQ1_0, вот что можно сделать сейчас:
- Перейти на Q3_K_M или Q3_K_XL - эти форматы стали стандартом де-факто. Они немного больше, но качество того стоит. Для сравнения, читайте сравнение квантований Unsloth.
- Использовать smol-IQ2_XS - новый формат от llama.cpp, который сжимает еще лучше. Если у вас есть 128GB GPU, посмотрите запуск Qwen3.5-397B на 128GB GPU.
- Попробовать динамическое квантование - Unsloth предлагает динамические методы, которые адаптируются под ваше железо. Подробнее в статье о динамическом квантовании.
| Формат | Размер модели 70B | Минимальная VRAM | Качество |
|---|---|---|---|
| TQ1_0 (устарел) | ~18 ГБ | 4 ГБ | Очень низкое |
| Q3_K_M | ~28 ГБ | 6 ГБ | Хорошее |
| smol-IQ2_XS | ~22 ГБ | 5 ГБ | Отличное |
План действий для владельцев слабого железа
1. Не паниковать. Существующие TQ1_0 модели будут работать, но новых не будет.
2. Обновите llama.cpp до последней версии. Поддержка новых форматов там уже есть.
3. Экспериментируйте с альтернативами. Если качество TQ1_0 вас устраивало, возможно, вы смиритесь с размером Q3_K_M.
4. Рассмотрите апгрейд железа. Да, это болезненно, но цены на GPU в 2026 году упали, и можно найти варианты.
Совет: если вы используете Qwen3.5, ознакомьтесь с Qwen3.5 в llama.cpp для оптимизации производительности.
Что будет дальше?
Unsloth движется к более интеллектуальным методам квантования. TQ1_0 был первым шагом, но сейчас нужны решения, которые не ломают модели. Ожидайте, что в течение 2026 года появятся форматы, которые сравнятся с TQ1_0 по размеру, но превзойдут по качеству.
А пока - прощай, TQ1_0. Ты был грязным хаком, но мы тебя любили.
P.S. Если вы столкнулись с проблемами после обновления, проверьте исправление ошибки Qwen 3.5 - многие баги возникают из-за старых квантований.