Bartowski vs Unsloth: почему разная скорость для Gemma 4 26B GGUF | AiManual
AiManual Logo Ai / Manual.
04 Апр 2026 Инструмент

Сравнение скорости квантований Bartowski и Unsloth для Gemma 4 26B: разбор причин разницы в 10 токенов/сек

Технический разбор: почему квантования Bartowski и Unsloth для Gemma 4 26B дают разницу в 10 токенов/сек при одинаковом размере файлов.

10 токенов в секунду – это много или мало? Зависит от того, за что вы платите

Вы скачали две версии Gemma 4 26B в формате GGUF – одну от Bartowski, другую от Unsloth. Файлы весят почти одинаково, настройки в llama.cpp те же. Но одна выдает 45 токенов в секунду, а другая еле вытягивает 35. Где-то в коде спрятана эта разница, и она не в размере модели.

На момент тестирования (апрель 2026) актуальная версия llama.cpp – b3600 с полной поддержкой всех квантований, включая экспериментальные IQ2_XXS и Q2_K_H. Gemma 4 26B – последняя инкарнация 26-миллиардной модели от Google, вышедшая в феврале 2026.

Что такое квантование сегодня? Не просто сжатие, а игра в тетрис с весами

Квантование GGUF в 2026 году – это уже не просто перевод float16 в int8. Это хирургическая операция, где каждый слой модели анализируют на чувствительность к ошибкам. Методы вроде data-driven mixed-precision позволяют использовать разную битность внутри одной модели.

Bartowski и Unsloth – два самых популярных поставщика готовых квантований на Hugging Face. Они используют разные рецепты. И эта разница в рецептуре и дает тот самый разрыв в скорости.

Параметр Bartowski Q4_K_M (v2.1) Unsloth UD-Q4 (april-2026)
Размер файла (Gemma 4 26B) ~14.7 GB ~14.8 GB
Скорость (t/s) на RTX 5090, ngl=99 44-46 34-36
Используемый алгоритм упаковки Собственный, на основе k-quants v2 Модифицированный EXL2, адаптированный под GGUF
Поддержка новых типов (IQ4_XS) Да, с марта 2026 Нет, только классические Q

Почему Unsloth проигрывает 10 токенов? Секрет в overhead вычислений

Основная причина – разный подход к группировке весов. Bartowski использует агрессивную переупаковку блоков по 32 веса, что идеально ложится на warp-ы в CUDA ядрах llama.cpp. Unsloth сохраняет структуру, близкую к оригинальному EXL2, где группы по 128 весов. Для декодирования в llama.cpp это создает дополнительный overhead на распаковку.

💡
Проверьте свою версию llama.cpp. Начиная с b3500, добавлена оптимизация mmq (matrix multiplication quantized) для квантований с блочной структурой 32. Именно она дает прирост для Bartowski.

Вторая причина – калибровочный датасет. Unsloth использует общий датасет для всех моделей. Bartowski калибрует квантование на случайной выборке из 10% обучающих данных самой Gemma 4. Это не влияет на скорость напрямую, но влияет на точность – и чтобы ее сохранить, Unsloth, возможно, менее агрессивно квантует некоторые чувствительные слои, что добавляет условных операций при вычислении.

А что с памятью и стабильностью? Тут Unsloth берет реванш

Да, Bartowski быстрее. Но в тестах на длинных контекстах (128k+) его квантование иногда приводит к артефактам в начале генерации. Это известная проблема с гибридными методами, о которой писали еще для Qwen3.5.

Unsloth жертвует скоростью, но дает стабильность. Его квантование – это консервативный выбор для продакшена, где важна предсказуемость. Если вы запускаете Gemma 4 26B с контекстом в 256K, как в этом руководстве, эта стабильность может быть критична.

1 Для кого Bartowski?

  • Энтузиасты, гоняющиеся за максимальными цифрами в бенчмарках.
  • Те, кто использует короткие диалоги (до 4K токенов) и интерактивный чат.
  • Владельцы мощных GPU, где разница в 10 t/s ощутима при потоковой генерации.

2 Для кого Unsloth?

  • Разработчики, интегрирующие модель в приложение, где важна стабильность вывода.
  • Работа с экстремально длинным контекстом (RAG, анализ документов).
  • Системы, где модель работает постоянно и потребление памяти должно быть предсказуемым. Как в homelab-тестах на Strix Halo.

Совет: Не зацикливайтесь на одном провайдере. Для Gemma 4 26B скачайте обе версии – Bartowski для быстрого чата, Unsloth для задач с длинным контекстом. Места на SSD хватит, а вы получите лучшие качества каждого метода.

Что дальше? Экспериментальные квантования и будущее

Оба метода – лишь временные остановки. В разработке уже находятся квантования с адаптивной битностью на уровне отдельных нейронов (не слоев!). Первые тесты, как в статье про IQ2, показывают, что можно выжать еще 15-20% скорости без потерь.

К концу 2026 года, вероятно, появится единый стандарт «умного» квантования, который будет анализировать вашу аппаратную платформу (будь то Apple Silicon или новая архитектура NVIDIA) и подбирать параметры упаковки весов на лету. Пока же выбирайте между скоростью Bartowski и стабильностью Unsloth, зная цену каждого выбора.

Подписаться на канал