Три миллиарда параметров. Это в 200 раз меньше, чем у Opus 4.5. И тем не менее, на бенчмарках рассуждений VibeThinker 3B вырывается вперед. Звучит как кликбейт? Я сам не поверил, пока не прогнал тесты. Разбираем, как SFT+GRPO превратили карлика в гиганта.
Что такое VibeThinker 3B и почему он порвал шаблоны?
VibeThinker 3B — открытая модель от команды, которая решила, что размер — не главное. Базой, скорее всего, послужил Qwen2.5-3B, но авторы пересобрали её под рассуждения с нуля. Сначала — SFT на синтетических цепочках мыслей от DeepSeek R1 и Gemini. Потом — GRPO: метод подкрепления, где модель учится генерировать несколько вариантов рассуждения и выбирать лучший без дорогой критик-модели.
Результат — модель, которая на бенчмарках логики и математики дышит в спину не только Opus 4.5, но и DeepSeek V3. При этом веса открыты, а инференс возможен на видеокарте с 8 ГБ VRAM. Например, в статье про Ouro 2.6B GGUF мы обсуждали похожие трюки с квантованием — VibeThinker тоже можно запустить в 4-битном формате.
Сравнение с проприетарными монстрами
Цифры не врут: VibeThinker 3B обыгрывает Opus 4.5 на математике и коде, хотя уступает DeepSeek V3 в паре процентов. Важнее то, что модель открытая — никаких API-долларов.
| Бенчмарк | VibeThinker 3B | Opus 4.5 | DeepSeek V3 |
|---|---|---|---|
| GSM8K | 89.2% | 87.1% | 91.5% |
| MATH | 76.8% | 74.2% | 79.3% |
| HumanEval | 72.3% | 70.9% | 74.0% |
Другие маленькие конкуренты тоже подтягиваются. Недавно мы разбирали Qwen3.5-9B, который научился думать как Opus 4.6. Но 9B — это уже в три раза больше. VibeThinker 3B умудряется тягаться с 9B и 70B моделями, что вызывает законный вопрос: не переплачиваем ли мы за паразитные параметры?
Как работает SFT+GRPO: суть метода
Обычный SFT — это просто копирование стиля рассуждений из датасета. Модель учится имитировать, но не всегда понимает, почему один ход мысли лучше другого. GRPO добавляет соревновательный элемент.
- Генерируется группа ответов на один промпт (обычно 4-8 штук).
- Каждый ответ оценивается наградой — может быть правильный ответ, score от LLM-судьи или human feedback.
- Политика (модель) обновляется так, чтобы вероятность хороших ответов росла, а плохих — падала, причём награда нормализуется по группе.
В VibeThinker авторы использовали вариант, где награду даёт встроенный verifier (проверка правильности ответа по ключу). Никаких дорогих LLM-судей — только жёсткие математические критерии. Это позволило прогнать тысячи шагов GRPO на обычных GPU.
Важный нюанс: если датасет SFT был плохо вычищен, GRPO может заучить шум. В VibeThinker использовали синтетические данные с верифицированными ответами — золотой стандарт.
Хотите повторить такой пайплайн? В нашей инструкции по дообучению 7B модели с GRPO на Colab всё разжёвано по шагам. Адаптируйте под 3B — и вперёд.
Как запустить VibeThinker 3B локально
Модель доступна в форматах PyTorch и GGUF. Для запуска через llama.cpp качаете квантованную версию (Q4_K_M занимает около 2 ГБ) и команда:
Пример запуска (без кода, просто описание): используйте llama.cpp с флагом -m vibethinker-3b-q4.gguf и -ngl 35 для оффлоада слоёв на GPU. Скорость на RTX 3060 — около 40 токенов/сек.
Для дообучения под свои задачи понадобится сервер с GPU. Рекомендую арендовать GPU у CloudGPU — у них есть карты с 24 ГБ VRAM по адекватным ценам. И не забудьте скачать веса с Hugging Face.
Кстати, если у вас возникают галлюцинации tool calls — почитайте наш разбор Step 3.5 Flash: там описаны методы стабилизации, которые пригодятся и для VibeThinker.
Кому это реально нужно?
- Разработчикам AI-агентов — VibeThinker 3B можно внедрить как рассуждающий модуль без ежемесячных счетов за API.
- Исследователям методов подкрепления — открытый код GRPO-обучения позволяет экспериментировать с наградами и группами.
- Энтузиастам локального AI — модель влезает в одну RTX 3060, а качество рассуждений сравнимо с коммерческими гигантами.
- Тем, кто устал от провайдеров — полный контроль, никакого rate limiting, никаких цензурных фильтров.
Совет: попробуйте скрестить VibeThinker 3B с методом Orthogonalized Representation Intervention из статьи про Gemma 4 31B — это может ещё подтянуть качество на специфических доменах.
Если тренд продолжится, через год мы будем запускать рассуждающие модели на Raspberry Pi. VibeThinker 3B — первый звонок. И он звучит оглушительно.