Когда слышишь «50 миллионов параметров», хочется фыркнуть. В эпоху 500-миллиардных монстров и бесконечных MoE это звучит как игрушка из прошлого десятилетия. Но игрушка эта — не мертвая. SupraLabs выпустили Supra1.5-50M с GGUF-квантованием, и я решил проверить, способен ли такой кроха на что-то полезное, кроме генерации «Привет, мир!». Спойлер: иногда размер имеет значение, но не в ту сторону, которую вы думаете.

Что за зверь: 50 миллионов причин не доверять первой цифре

Supra1.5-50M — это экспериментальная модель от малоизвестной команды SupraLabs, загруженная на HuggingFace ровно месяц назад. Заявлен контекст в 8192 токена (для такого веса — нонсенс, обычно 2048). Архитектура — классический decoder-only transformer с RoPE, без изысков. Но есть нюанс: модель обучали на смеси обычного текста и синтетических данных, специально размечая длинные зависимости. По слухам, использовали технику selective state expansion, чтобы ужать 100-миллионник до 50M без сильной потери качества. Правда это или маркетинг — давайте тестить.

Ключевое: модель существует только в GGUF-формате (оригинальные веса не опубликованы). Это сделано специально — SupraLabs хотят, чтобы пользователи сразу пробовали квантованные версии, а не игрались с float16.

На момент 13 июня 2026 года доступны квантования Q2_K, Q4_K_M и Q8_0. Размеры — от 28 МБ до 52 МБ. Да, это не опечатка: модель весит меньше, чем среднее фото с телефона. Загрузить её можно через HuggingFace.

GGUF — не просто формат, а спаситель для маленьких

Для такой модели GGUF — идеальный кандидат. Не нужны тонны RAM, не нужны видеокарты. Даже старый ноутбук с 4 ГБ оперативки справится. Более того, недавно мы разбирали революцию низкобитного квантования MoQ и GSQ — в Supra1.5, правда, используется классическая схема imatrix, но для 50M это не критично. Если захотите переквантовать под свои задачи, загляните в обзор GGUF Tool Suite Web UI — там можно сделать динамическое квантование прямо в браузере.

Сравнивать Supra1.5-50M с другими крохами — занятие неблагодарное. TinyLlama-1.1B (1.1 млрд параметров) весит в 20 раз больше, но качественно превосходит в логике. Однако для простейших задач — извлечение ключевых слов, классификация коротких текстов, базовая суммаризация — 50M может оказаться быстрее и экономичнее. Вот наглядная таблица:

Модель	Параметры	Размер GGUF (Q4)	Контекст	Скорость на CPU (токен/с)
Supra1.5-50M	50M	~32 МБ	8192	~200
Qwen2.5-0.5B	494M	~280 МБ	32768	~80
Gemma 3 1B Q4_0	1B	~600 МБ	8192	~40

Как видите, Supra1.5 выигрывает в скорости и компактности. Но за это приходится платить качеством осмысленности. Однако, если ваша задача вписать модель в 50 МБ прошивки микроконтроллера или запустить на Raspberry Pi — альтернатив почти нет. Квантование 1-битными методами, которые мы тестировали здесь, для Supra1.5 пока не применялось, но это вопрос времени.

Важно: не ждите от 50M модели связного диалога на абстрактные темы. После 50 токенов текст начинает «уплывать». Это не баг — это природа маленьких моделей. Если вам нужна генерация длинных текстов, лучше посмотрите в сторону Minimax M2.7, но учтите подводные камни квантования.

Как запустить: три команды от установки до первого ответа

Всё, что нужно — llama.cpp (последняя версия, собранная с поддержкой GGUF). Идём по шагам.

1 Скачиваем модель

Откройте терминал и склонируйте репозиторий GGUF с HuggingFace (убедитесь, что у вас установлен git-lfs):

git lfs install
git clone https://huggingface.co/SupraLabs/Supra1.5-50M-GGUF
cd Supra1.5-50M-GGUF

2 Собираем llama.cpp (если ещё нет)

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_CUDA=OFF  # для CPU лучше без CUDA
make -j4

3 Запускаем инференс

./llama-cli -m ../Supra1.5-50M-GGUF/Supra1.5-50M-Q4_K_M.gguf \
   -p "Кратко объясни, что такое эмодзи?" \
   -n 100 -t 4 --temp 0.7

Флаг -n 100 ограничивает длину ответа 100 токенами — для 50M это разумный максимум. Если нужен бесконечный поток, используйте -n -1, но будьте готовы к «обсессивной генерации» одних и тех же фраз.

💡

Хотите увидеть, как модель бредит? Запустите с -p "Расскажи историю про дракона" -n 200. Первые 30 токенов будут связными, потом начнётся «дракон купил хлеб, хлеб был синий, потому что...». Забавно, но бесполезно для серьёзных задач.

Пример из жизни: классификация отзывов на лету

Я скормил модели 10 коротких отзывов из интернет-магазина с задачей определить тональность (positive/negative). Результат: 7 из 10 верно. Для 50M — отлично. Для production — так себе. Но если запустить модель на краевом устройстве (ESP32 с 8 МБ RAM?), то 70% точности — это уже неплохо. Кстати, на днях вышла статья про TurboQuant от Google — с его экстремальным сжатием можно будет ужать Supra1.5 ещё сильнее без потери в качестве.

Кому это реально нужно?

Не обольщайтесь: для веб-разработчика или аналитика это не инструмент «из коробки». Supra1.5-50M — это:

Песочница для экспериментов с маленькими LLM (понять, как работают квантования, контекстные окна).
Встраиваемый движок для простых NLP-задач на устройствах с жёсткими ограничениями по памяти.
Образовательный стенд: можно «руками» прощупать эффекты расширения контекста и потери качества.

Если вам нужна модель для чат-бота с осмысленными ответами — проходите мимо. Берите MiniMax M2.7 в GGUF или что-то из серии Qwen. Но если у вас в руках Raspberry Pi Zero 2 и задача «распознать спам в SMS» — Supra1.5-50M может стать той самой malloc-палочкой-выручалочкой.

И последнее: несмотря на статус «экспериментальная», модель стабильна. Ни одного краша или segfault за неделю тестов. Команда SupraLabs явно следит за качеством билдов. Советую скачать Q8_0 версию — разница с Q4_K_M в качестве есть, хотя размер всего 52 МБ.

Подписаться на канал

Supra1.5-50M: карманный мозг для офлайн-задач — тестируем экспериментальную модель с GGUF