Выбирать маленькую LLM в 2025 году — это как покупать автомобиль в автосалоне с выключенным светом. Все обещают экономичность и мощность, но пока не включишь двигатель — не поймешь, что на самом деле купил. MiniStral 3 14B, Gemma 3 12B, Qwen3-14B — три модели, которые претендуют на звание лучшей в категории до 15 миллиардов параметров. Но какая из них реально работает, а какая просто хорошо выглядит на бумаге?
Проблема не в том, чтобы найти модель — их тысячи. Проблема в том, чтобы найти модель, которая не сломается в середине агентного пайплайна, не начнет галлюцинировать на простой математике и будет достаточно быстрой для Raycast. Вот почему я потратил неделю на тестирование этих трех моделей в реальных условиях — от сложных агентных сценариев до банального сложения чисел.
Зачем вообще нужны модели до 15B?
Ответ прост: потому что у вас нет 80 ГБ видеопамяти и вы не хотите платить за API. Но есть и более интересная причина — стабильность. Большие модели иногда слишком умны для своих же задач. Они начинают рассуждать о философии, когда нужно просто выполнить инструкцию. Маленькие модели проще, предсказуемее и, что самое главное, быстрее.
Тестирование на агентных задачах: кто не сломается первым?
Я взял три типичных сценария для агентов:
- Сложный многошаговый RAG с поиском по документам и генерацией ответа
- Автоматизация DevOps-пайплайна с вызовами API и обработкой JSON
- Планирование проекта с зависимостями между задачами
Для тестов использовал smolagents — фреймворк, который не прощает ошибок. Если модель не понимает формат вызова инструмента — она вылетает из пайплайна.
| Модель | Успешность выполнения | Среднее время ответа | Ошибки формата |
|---|---|---|---|
| MiniStral 3 14B | 92% | 1.8 сек | 3 |
| Gemma 3 12B | 87% | 2.1 сек | 7 |
| Qwen3-14B | 95% | 2.3 сек | 2 |
Результат удивил. Qwen3-14B показала лучшую успешность, но проиграла по скорости. Почему? Потому что она слишком тщательно обдумывает каждый шаг. MiniStral оказался золотой серединой — быстрым и достаточно точным. А вот Gemma 3 12B разочаровала количеством ошибок формата.
Важный нюанс: все модели тестировались в квантованном формате Q4_K_M. Если использовать более агрессивное квантование (например, Q3_K_S), результаты по успешности падают на 15-20%. Подробнее о том, как квантование влияет на качество кода, читайте в статье про MiniMax M2.1.
Математические способности: когда 2+2=5?
Здесь тестирование было жестким. Я не брал простые арифметические задачи — они всем по плечу. Вместо этого использовал задачи из DeepMath от Intel:
- Решение систем уравнений с тремя переменными
- Геометрические задачи с доказательствами
- Вероятностные расчеты с условными вероятностями
И вот что получилось:
| Модель | Точность | Пошаговое решение | Галлюцинации |
|---|---|---|---|
| MiniStral 3 14B | 68% | Частичное | Много |
| Gemma 3 12B | 74% | Полное | Средне |
| Qwen3-14B | 81% | Полное | Мало |
Qwen снова впереди. Но интереснее другое — как модели ошибаются. MiniStral часто дает правильный ответ без объяснений или с пропущенными шагами. Gemma пытается показать всю цепочку рассуждений, но иногда сбивается. Qwen делает и то, и другое, но медленнее всех.
Raycast и локальное использование: кто не заставит ждать?
Raycast с локальной моделью — это магия. Нажимаешь горячие клавиши, получаешь ответ без отправки данных в облако. Но магия работает только если модель отвечает быстрее, чем вы успеваете заварить кофе.
Тестировал на MacBook Pro M3 с 36 ГБ RAM:
- Быстрый ответ на запросы вроде "напиши commit message для изменений в файле X"
- Генерация кода по описанию
- Рерайт текста с сохранением смысла
| Модель | Время до первого токена | Токенов в секунду | Потребление RAM |
|---|---|---|---|
| MiniStral 3 14B | 0.4 сек | 42 t/s | 9.2 ГБ |
| Gemma 3 12B | 0.5 сек | 38 t/s | 8.1 ГБ |
| Qwen3-14B | 0.7 сек | 31 t/s | 9.8 ГБ |
MiniStral выигрывает по скорости отклика — это критично для Raycast, где каждая секунда на счету. Gemma экономит оперативку, но проигрывает в скорости генерации. Qwen — самый медленный, но дает самые качественные ответы для сложных задач.
Подводные камни, которые никто не обсуждает
Теперь о том, что не пишут в официальных блогах:
Проблема с контекстом у MiniStral
MiniStral 3 14B поддерживает 128К токенов контекста. В теории. На практике после 16К токенов качество ответов резко падает. Модель начинает "забывать" инструкции из начала промпта. Для сравнения, Qwen3-14B держит контекст до 32К без заметной деградации.
Галлюцинации Gemma в математике
Gemma 3 12B любит добавлять лишние шаги в решениях. Не просто лишние — иногда совершенно абсурдные. "Умножим обе части уравнения на i" в задаче про площадь треугольника — это не особенность, это баг.
Медлительность Qwen на старте
Qwen3-14B долго "разгоняется". Первые 5-10 запросов могут идти в 2 раза медленнее, чем последующие. Если вы используете модель в сервисе с холодными стартами — это проблема.
Что выбрать для конкретных задач?
1 Для агентных пайплайнов с вызовами API
Берите Qwen3-14B. Она лучше всех справляется с форматами JSON, у нее меньше ошибок парсинга, она реже ломает цепочки вызовов. Да, она медленнее, но стабильность важнее скорости в агентных системах.
2 Для математических расчетов и анализа данных
Тоже Qwen3-14B. У нее лучшая точность и меньше галлюцинаций. Если нужна максимальная точность — используйте ее вместе с техниками из DeepMath.
3 Для Raycast и быстрых локальных запросов
MiniStral 3 14B. Скорость отклика и низкое потребление памяти делают его идеальным кандидатом. Только не давайте ему сложные многошаговые задачи — упрется в ограничение контекста.
4 Когда важна экономия оперативной памяти
Gemma 3 12B. Она потребляет меньше всех, особенно в квантованном виде. Но будьте готовы к странностям в ответах и проверяйте критичные вычисления.
А что насчет квантования?
Все тесты проводились с Q4_K_M — оптимальным балансом между качеством и размером. Но если у вас совсем мало памяти:
- Q3_K_S сломает математические способности всех трех моделей примерно одинаково
- Q5_K_M почти не дает прироста качества, но увеличивает размер на 25%
- F16 (полная точность) нужна только если вы делаете тонкую настройку
Для большинства задач Q4_K_M — золотой стандарт. Подробнее о том, как квантование влияет на разные типы задач, читайте в сравнении Qwen3-30B и других моделей.
Почему не рассмотрели другие модели?
Потому что эти три — текущие лидеры в своей категории. Phi-4 слишком специализирована, Llama 3.2 3B слишком слаба для агентов, Mistral 7B уже устарела. Если хотите посмотреть полный список альтернатив — используйте Models Explorer.
Не верьте слепо бенчмаркам. Модель может показывать 90% на MMLU и проваливаться на простых агентных задачах. Всегда тестируйте на своих данных. Помните историю с MiniMax M2, которая блестела на тестах и проваливалась в реальном бою?
Что будет через полгода?
Сейчас идет гонка не за размером, а за эффективностью. Следующее поколение моделей до 15B будет:
- Быстрее на 30-50% благодаря улучшенной архитектуре
- Точнее в математике за счет специализированного обучения
- Стабильнее в агентных сценариях
Но пока что выбирайте из того, что есть. И помните: лучшая модель — та, которая решает ваши задачи, а не та, у которой больше звезд на GitHub.
P.S. Если вы запускаете модели на слабом железе, посмотрите статью про ускорение Qwen3-8B. Те же техники работают и для 14B моделей.