10 токенов в секунду – это много или мало? Зависит от того, за что вы платите
Вы скачали две версии Gemma 4 26B в формате GGUF – одну от Bartowski, другую от Unsloth. Файлы весят почти одинаково, настройки в llama.cpp те же. Но одна выдает 45 токенов в секунду, а другая еле вытягивает 35. Где-то в коде спрятана эта разница, и она не в размере модели.
На момент тестирования (апрель 2026) актуальная версия llama.cpp – b3600 с полной поддержкой всех квантований, включая экспериментальные IQ2_XXS и Q2_K_H. Gemma 4 26B – последняя инкарнация 26-миллиардной модели от Google, вышедшая в феврале 2026.
Что такое квантование сегодня? Не просто сжатие, а игра в тетрис с весами
Квантование GGUF в 2026 году – это уже не просто перевод float16 в int8. Это хирургическая операция, где каждый слой модели анализируют на чувствительность к ошибкам. Методы вроде data-driven mixed-precision позволяют использовать разную битность внутри одной модели.
Bartowski и Unsloth – два самых популярных поставщика готовых квантований на Hugging Face. Они используют разные рецепты. И эта разница в рецептуре и дает тот самый разрыв в скорости.
| Параметр | Bartowski Q4_K_M (v2.1) | Unsloth UD-Q4 (april-2026) |
|---|---|---|
| Размер файла (Gemma 4 26B) | ~14.7 GB | ~14.8 GB |
| Скорость (t/s) на RTX 5090, ngl=99 | 44-46 | 34-36 |
| Используемый алгоритм упаковки | Собственный, на основе k-quants v2 | Модифицированный EXL2, адаптированный под GGUF |
| Поддержка новых типов (IQ4_XS) | Да, с марта 2026 | Нет, только классические Q |
Почему Unsloth проигрывает 10 токенов? Секрет в overhead вычислений
Основная причина – разный подход к группировке весов. Bartowski использует агрессивную переупаковку блоков по 32 веса, что идеально ложится на warp-ы в CUDA ядрах llama.cpp. Unsloth сохраняет структуру, близкую к оригинальному EXL2, где группы по 128 весов. Для декодирования в llama.cpp это создает дополнительный overhead на распаковку.
mmq (matrix multiplication quantized) для квантований с блочной структурой 32. Именно она дает прирост для Bartowski.Вторая причина – калибровочный датасет. Unsloth использует общий датасет для всех моделей. Bartowski калибрует квантование на случайной выборке из 10% обучающих данных самой Gemma 4. Это не влияет на скорость напрямую, но влияет на точность – и чтобы ее сохранить, Unsloth, возможно, менее агрессивно квантует некоторые чувствительные слои, что добавляет условных операций при вычислении.
А что с памятью и стабильностью? Тут Unsloth берет реванш
Да, Bartowski быстрее. Но в тестах на длинных контекстах (128k+) его квантование иногда приводит к артефактам в начале генерации. Это известная проблема с гибридными методами, о которой писали еще для Qwen3.5.
Unsloth жертвует скоростью, но дает стабильность. Его квантование – это консервативный выбор для продакшена, где важна предсказуемость. Если вы запускаете Gemma 4 26B с контекстом в 256K, как в этом руководстве, эта стабильность может быть критична.
1 Для кого Bartowski?
- Энтузиасты, гоняющиеся за максимальными цифрами в бенчмарках.
- Те, кто использует короткие диалоги (до 4K токенов) и интерактивный чат.
- Владельцы мощных GPU, где разница в 10 t/s ощутима при потоковой генерации.
2 Для кого Unsloth?
- Разработчики, интегрирующие модель в приложение, где важна стабильность вывода.
- Работа с экстремально длинным контекстом (RAG, анализ документов).
- Системы, где модель работает постоянно и потребление памяти должно быть предсказуемым. Как в homelab-тестах на Strix Halo.
Совет: Не зацикливайтесь на одном провайдере. Для Gemma 4 26B скачайте обе версии – Bartowski для быстрого чата, Unsloth для задач с длинным контекстом. Места на SSD хватит, а вы получите лучшие качества каждого метода.
Что дальше? Экспериментальные квантования и будущее
Оба метода – лишь временные остановки. В разработке уже находятся квантования с адаптивной битностью на уровне отдельных нейронов (не слоев!). Первые тесты, как в статье про IQ2, показывают, что можно выжать еще 15-20% скорости без потерь.
К концу 2026 года, вероятно, появится единый стандарт «умного» квантования, который будет анализировать вашу аппаратную платформу (будь то Apple Silicon или новая архитектура NVIDIA) и подбирать параметры упаковки весов на лету. Пока же выбирайте между скоростью Bartowski и стабильностью Unsloth, зная цену каждого выбора.