Mistral Small 3 действительно лучше 30B-моделей?

В массовом тесте 135 локальных LLM Mistral Small 3 (14B) показал более высокий средний рейтинг, чем многие модели с 30+ миллиардами параметров, особенно в задачах общего диалога и понимания контекста. Однако в узкоспециализированных задачах большие модели могут сохранять преимущество.

Какой инструмент использовался для тестирования?

Тест проводился с помощью open-source инструмента local-lm-arena, который реализует систему слепого сравнения ответов двух моделей (подобно LMSys Chatbot Arena), но фокусируется на моделях, которые можно запустить локально.

Что важнее: размер модели или ее архитектура?

Архитектура становится критически важной. Mistral Small 3 использует эффективную смесь экспертов (MoE), что позволяет активировать только часть параметров для каждого токена. Это дает качество, сравнимое с плотными (dense) моделями в два раза большего размера, при значительно меньших требованиях к вычислительным ресурсам.

Mistral Small 3 vs 30B модели: тест 135 локальных LLM

Когда 14 миллиардов параметров бьют 30 миллиардов

В мире локальных языковых моделей существует аксиома: больше параметров - лучше качество. Пока не появился результат, который эту аксиому разбивает в дребезги.

На прошлой неделе в открытый доступ выгрузили результаты масштабного тестирования 135 моделей, которые можно запустить через Ollama или аналогичные инструменты. Среди них - свежий Mistral Small 3 (14B), который вышел буквально несколько недель назад. И он занял место в топ-15, обогнав десятки моделей размером в 30 миллиардов параметров и больше.

Ключевой факт: Mistral Small 3 с 14B параметров показал более высокий средний балл, чем Qwen2.5 32B, Llama 3.1 70B (в определенных задачах) и многие другие "тяжеловесы". Это не глюк теста, а закономерность нового поколения моделей.

Что за тест и почему ему можно верить

Инструмент называется local-lm-arena. Это не очередной синтетический бенчмарк вроде MMLU или Hellaswag, который модели учатся проходить. Это система голосований, где две случайные модели анонимно отвечают на один и тот же пользовательский запрос, а человек выбирает лучший ответ. Затем строится рейтинг Эло.

Звучит знакомо? Именно так работает знаменитый LMSys Chatbot Arena, только здесь фокус на моделях, которые реально запустить локально на потребительском железе. Тест охватил 135 моделей - от крошечных Phi-4 до монстров в 120B параметров.

💡

Если вы только начинаете работать с локальными LLM, прочитайте наш материал "Локальные LLM в 2025: с чего начать". Там есть базовая настройка Ollama и выбор первых моделей.

Таблица-шок: маленькие против больших

Модель	Параметры	Рейтинг Elo (приблизительно)	Позиция в тесте
Mistral Small 3 14B (Q4_K_M)	14 млрд	~1120	Топ-15
Qwen2.5 32B Instruct (Q4_K_M)	32 млрд	~1080	Топ-25
Llama 3.3 70B Instruct (Q4_K_M)	70 млрд	~1150	Топ-10
DeepSeek-R1 14B (Q4_K_M)	14 млрд	~1050	Топ-30

Обратите внимание: все модели тестировались в квантованном формате Q4_K_M (или аналогичном) для честного сравнения на равном железе. И Mistral Small 3 не просто "где-то рядом" - он стабильно опережает модели в два раза крупнее себя по множеству задач.

Почему так получилось? Архитектура против грубой силы

Здесь нужно понять одну вещь: количество параметров - это не показатель интеллекта, а показатель емкости. Можно иметь огромный склад, но заполнить его хламом. Mistral AI с самого начала фокусировалась на архитектурной эффективности.

Mistral Small 3 использует улучшенную смесь экспертов (Mixture of Experts, MoE). Внутри модели не все 14B параметров активны для каждого токена - включается только часть. Это дает эффект "умной экономии": модель тратит вычислительные ресурсы на сложные части задачи и экономит на простых.

Для сравнения, многие 30B-модели используют плотную архитектуру (dense). Все параметры работают всегда. Это как включать все лампочки в доме, чтобы осветить одну комнату.

Важный нюанс: тест оценивает качество ответов на общие вопросы. В специализированных задачах - например, генерации кода или работе со структурированными данными - соотношение сил может быть другим. О проблемах с JSON можно почитать в статье "JSON-дрейф".

Что это значит для вас? Практические выводы

Если вы выбираете модель для локального запуска на компьютере с 16-32 ГБ оперативной памяти, у вас теперь есть контринтуитивный вариант: взять не самую большую модель, а самую эффективную.

Скорость ответа: Mistral Small 3 (14B) генерирует текст в 1.5-2 раза быстрее, чем 30B-модели на том же железе. Для интерактивного использования это критически важно.
Качество разговора: В тестах на понимание контекста, поддержание логики диалога и креативность 14B модель часто не уступает более крупным.
Место на диске: Файл модели занимает ~8 ГБ против ~20 ГБ у 30B-версий. Разница в целый SSD для некоторых пользователей.

Но не спешите удалять все большие модели. Есть задачи, где размер все еще имеет значение:

Многоэтапные рассуждения (chain-of-thought) - чем сложнее логическая цепочка, тем больше контекста нужно удерживать.
Специализированные знания - в нишевых областях (юриспруденция, медицина, программирование на редких языках) большие модели показывают лучшую глубину.
Работа с длинным контекстом - хотя здесь важнее не количество параметров, а архитектура внимания.

Как тестировать самому и не облажаться

Проблема большинства любительских тестов в том, что люди тестируют не модели, а свои промпты. Спросите глупо - получите глупый ответ от любой модели.

Если хотите провести свое сравнение, используйте коллекцию промптов для тестирования или методологию из статьи "Промпт для сравнения LLM".

Для быстрого старта с local-lm-arena:

git clone https://github.com/lm-sys/local-lm-arena
cd local-lm-arena
pip install -r requirements.txt
# Запуск с двумя моделями через Ollama
python eval.py --model-a mistral-small-3:14b --model-b llama3.3:70b

Система сгенерирует случайные запросы и попросит вас сравнить ответы. Через 20-30 сравнений вы получите персональный рейтинг.

💡

Не забывайте про квантование. Сравнивайте модели в одинаковых форматах (например, Q4_K_M). Если тестируете 70B модель в Q2_K против 14B в Q8, сравнение будет нечестным. Большие модели сильнее страдают от агрессивного квантования.

Ошибки, которые все совершают при выборе модели

Гнаться за максимальным размером: "У меня 64 ГБ ОЗУ, значит, потяну 70B модель". Потяните. Но будет ли она в 5 раз лучше 14B модели? Скорее всего, нет. А скорость генерации будет в 3-4 раза медленнее.
Игнорировать температуру (temperature): Одну и ту же модель можно "испортить" неправильной температурой. Для объективных тестов используйте temperature=0.1-0.3, для творческих - 0.7-0.9.
Тестировать на одной задаче: Модель может блестяще писать поэзию, но проваливать простейшую логику. Используйте разнообразные промпты.

Кстати, если вам интересна работа моделей с инструментами (tool calling), посмотрите бенчмарк 17 локальных LLM на реальном MCP tool calling. Там Mistral Small 2 показывал хорошие результаты, и ожидается, что третья версия будет еще лучше.

Что будет дальше? Прогноз на 2026-2027

Тренд очевиден: эффективность архитектуры начинает превосходить грубый рост параметров. В течение 2026 года мы увидим:

Больше MoE-моделей в диапазоне 10-20B параметров, которые будут конкурировать с dense-моделями 30-40B.
Специализированные "микромодели" вроде LFM2.5 1.2B Instruct, но для конкретных задач: код, математика, медицинские консультации.
Аппаратную оптимизацию - модели будут создаваться с учетом конкретных GPU и нейропроцессоров.

Уже сейчас Mistral Small 3 (14B) - это не просто "еще одна модель". Это доказательство того, что инженерная мысль может обогнать закон Мура в области ИИ. И это хорошие новости для всех, у кого нет дата-центра под кроватью.

Полный код тестовой системы, сырые данные и скрипты для воспроизведения доступны в репозитории local-lm-arena на GitHub. Если хотите проверить результаты самостоятельно - вот где начинается настоящая работа.

Подписаться на канал

Mistral Small 3 (14B) против 30B моделей: разбор масштабного теста 135 локальных LLM