Когда слышишь «50 миллионов параметров», хочется фыркнуть. В эпоху 500-миллиардных монстров и бесконечных MoE это звучит как игрушка из прошлого десятилетия. Но игрушка эта — не мертвая. SupraLabs выпустили Supra1.5-50M с GGUF-квантованием, и я решил проверить, способен ли такой кроха на что-то полезное, кроме генерации «Привет, мир!». Спойлер: иногда размер имеет значение, но не в ту сторону, которую вы думаете.
Что за зверь: 50 миллионов причин не доверять первой цифре
Supra1.5-50M — это экспериментальная модель от малоизвестной команды SupraLabs, загруженная на HuggingFace ровно месяц назад. Заявлен контекст в 8192 токена (для такого веса — нонсенс, обычно 2048). Архитектура — классический decoder-only transformer с RoPE, без изысков. Но есть нюанс: модель обучали на смеси обычного текста и синтетических данных, специально размечая длинные зависимости. По слухам, использовали технику selective state expansion, чтобы ужать 100-миллионник до 50M без сильной потери качества. Правда это или маркетинг — давайте тестить.
Ключевое: модель существует только в GGUF-формате (оригинальные веса не опубликованы). Это сделано специально — SupraLabs хотят, чтобы пользователи сразу пробовали квантованные версии, а не игрались с float16.
На момент 13 июня 2026 года доступны квантования Q2_K, Q4_K_M и Q8_0. Размеры — от 28 МБ до 52 МБ. Да, это не опечатка: модель весит меньше, чем среднее фото с телефона. Загрузить её можно через HuggingFace.
GGUF — не просто формат, а спаситель для маленьких
Для такой модели GGUF — идеальный кандидат. Не нужны тонны RAM, не нужны видеокарты. Даже старый ноутбук с 4 ГБ оперативки справится. Более того, недавно мы разбирали революцию низкобитного квантования MoQ и GSQ — в Supra1.5, правда, используется классическая схема imatrix, но для 50M это не критично. Если захотите переквантовать под свои задачи, загляните в обзор GGUF Tool Suite Web UI — там можно сделать динамическое квантование прямо в браузере.
Сравнивать Supra1.5-50M с другими крохами — занятие неблагодарное. TinyLlama-1.1B (1.1 млрд параметров) весит в 20 раз больше, но качественно превосходит в логике. Однако для простейших задач — извлечение ключевых слов, классификация коротких текстов, базовая суммаризация — 50M может оказаться быстрее и экономичнее. Вот наглядная таблица:
| Модель | Параметры | Размер GGUF (Q4) | Контекст | Скорость на CPU (токен/с) |
|---|---|---|---|---|
| Supra1.5-50M | 50M | ~32 МБ | 8192 | ~200 |
| Qwen2.5-0.5B | 494M | ~280 МБ | 32768 | ~80 |
| Gemma 3 1B Q4_0 | 1B | ~600 МБ | 8192 | ~40 |
Как видите, Supra1.5 выигрывает в скорости и компактности. Но за это приходится платить качеством осмысленности. Однако, если ваша задача вписать модель в 50 МБ прошивки микроконтроллера или запустить на Raspberry Pi — альтернатив почти нет. Квантование 1-битными методами, которые мы тестировали здесь, для Supra1.5 пока не применялось, но это вопрос времени.
Важно: не ждите от 50M модели связного диалога на абстрактные темы. После 50 токенов текст начинает «уплывать». Это не баг — это природа маленьких моделей. Если вам нужна генерация длинных текстов, лучше посмотрите в сторону Minimax M2.7, но учтите подводные камни квантования.
Как запустить: три команды от установки до первого ответа
Всё, что нужно — llama.cpp (последняя версия, собранная с поддержкой GGUF). Идём по шагам.
1 Скачиваем модель
Откройте терминал и склонируйте репозиторий GGUF с HuggingFace (убедитесь, что у вас установлен git-lfs):
git lfs install
git clone https://huggingface.co/SupraLabs/Supra1.5-50M-GGUF
cd Supra1.5-50M-GGUF
2 Собираем llama.cpp (если ещё нет)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_CUDA=OFF # для CPU лучше без CUDA
make -j4
3 Запускаем инференс
./llama-cli -m ../Supra1.5-50M-GGUF/Supra1.5-50M-Q4_K_M.gguf \
-p "Кратко объясни, что такое эмодзи?" \
-n 100 -t 4 --temp 0.7
Флаг -n 100 ограничивает длину ответа 100 токенами — для 50M это разумный максимум. Если нужен бесконечный поток, используйте -n -1, но будьте готовы к «обсессивной генерации» одних и тех же фраз.
-p "Расскажи историю про дракона" -n 200. Первые 30 токенов будут связными, потом начнётся «дракон купил хлеб, хлеб был синий, потому что...». Забавно, но бесполезно для серьёзных задач.Пример из жизни: классификация отзывов на лету
Я скормил модели 10 коротких отзывов из интернет-магазина с задачей определить тональность (positive/negative). Результат: 7 из 10 верно. Для 50M — отлично. Для production — так себе. Но если запустить модель на краевом устройстве (ESP32 с 8 МБ RAM?), то 70% точности — это уже неплохо. Кстати, на днях вышла статья про TurboQuant от Google — с его экстремальным сжатием можно будет ужать Supra1.5 ещё сильнее без потери в качестве.
Кому это реально нужно?
Не обольщайтесь: для веб-разработчика или аналитика это не инструмент «из коробки». Supra1.5-50M — это:
- Песочница для экспериментов с маленькими LLM (понять, как работают квантования, контекстные окна).
- Встраиваемый движок для простых NLP-задач на устройствах с жёсткими ограничениями по памяти.
- Образовательный стенд: можно «руками» прощупать эффекты расширения контекста и потери качества.
Если вам нужна модель для чат-бота с осмысленными ответами — проходите мимо. Берите MiniMax M2.7 в GGUF или что-то из серии Qwen. Но если у вас в руках Raspberry Pi Zero 2 и задача «распознать спам в SMS» — Supra1.5-50M может стать той самой malloc-палочкой-выручалочкой.
И последнее: несмотря на статус «экспериментальная», модель стабильна. Ни одного краша или segfault за неделю тестов. Команда SupraLabs явно следит за качеством билдов. Советую скачать Q8_0 версию — разница с Q4_K_M в качестве есть, хотя размер всего 52 МБ.