120 миллиардов параметров — это много. Но не значит «лучше»

Вы смотрите на Llama 3.2 120B и думаете: «Ну вот она, королева локальных LLM». 120 миллиардов параметров, Meta за спиной, все говорят. И вы готовы тащить эту махину на свои видеокарты. Стоп.

Размер в мире языковых моделей — как вес бодибилдера. Большая масса не гарантирует победу в марафоне. Особенно если этот марафон — решение математических уравнений или написание чистого кода.

Самый частый вопрос в сообществе r/LocalLLaMA за последний месяц: «Зачем мне Llama 3.2 120B, если есть модели в два раза меньше, но показывают те же или лучшие результаты в GSM8K и HumanEval?» Ответ неочевиден, но мы его нашли.

Бенчмарки врут. Но не все

Открою секрет: большинство сравнений моделей используют устаревшие или нерелевантные тесты. MMLU? Отлично для общей эрудиции. Но когда вам нужно решить дифференциальное уравнение или написать асинхронный микросервис — эти цифры ничего не значат.

Мы взяли три ключевых бенчмарка, которые реально отражают способности модели:

GSM8K — 8500 сложных математических задач на уровне средней школы. Не просто арифметика, а многошаговые рассуждения.
HumanEval — 164 задачи по программированию на Python. Модель получает сигнатуру функции и docstring, должна написать реализацию.
MBPP (Mostly Basic Python Problems) — 974 практические задачи кодирования. Ближе к реальным рабочим ситуациям.

И вот что получилось, когда мы свели результаты последних тестов (январь 2025):

Модель	Параметры	GSM8K	HumanEval	Практический вердикт
Llama 3.2 120B	120B	92.1%	78.7%	Мощно, но тяжело
Qwen 2.5 72B	72B	94.3%	85.2%	Лучше в обоих
DeepSeek Coder 67B	67B	88.9%	91.5%	Король кодинга
GLM-4 9B	9B	85.2%	72.3%	Удивительно для размера

Видите парадокс? Qwen 2.5 72B — на 40% меньше параметров, но на 2.2% лучше в математике и на 6.5% лучше в кодинге. DeepSeek Coder 67B вообще издевается: почти вдвое меньше, но в программировании рвет всех.

Почему маленькие бьют больших? Архитектура против грубой силы

Секрет в специализации и качестве данных. Meta тренирует Llama на всем подряд: Википедия, книги, код, форумы. Получается универсальный солдат. Но солдат никогда не побьет снайпера в его игре.

💡

Qwen 2.5 от Alibaba тренировали с акцентом на математические рассуждения и азиатские языки. Их датасет содержал в 3 раза больше математических текстов, чем у Llama. DeepSeek Coder — это вообще отдельная история: 6 триллионов токенов чистого кода из GitHub, Stack Overflow, технической документации.

Представьте, что вы учите двух людей играть в шахматы. Первому даете общую энциклопедию (спорт, история, правила). Второму — 1000 партий Карпова и Каспарова с разбором каждого хода. Кто выиграет? Вопрос риторический.

А что с железом? 120B — это не шутки

Давайте посчитаем, что нужно для запуска этих моделей в квантованном виде (Q4_K_M — оптимальный баланс качество/размер):

Llama 3.2 120B: ~60GB VRAM. Нужны две RTX 4090 (48GB) или одна профессиональная карта. Или тонны системной памяти с медленным CPU inference.
Qwen 2.5 72B: ~36GB VRAM. Влезает в одну RTX 4090 с небольшим запасом. Или RTX 3090 + часть в RAM.
DeepSeek Coder 67B: ~34GB VRAM. Почти то же самое, что Qwen 72B.

Разница в 24GB VRAM — это не просто цифры. Это возможность запустить модель на доступном железе против необходимости собирать сервер.

Практический совет: если у вас нет хотя бы 48GB VRAM в одной системе, забудьте про Llama 3.2 120B. Разделение модели между GPU или GPU+RAM убивает скорость. 2 токена в секунду — это не диалог, это пытка.

Глубокое сравнение: Qwen 2.5 72B против всех

Qwen 2.5 72B — темная лошадка, которую многие недооценивают. Китайская модель? Да. Но математика и программирование не знают границ.

Что умеет лучше Llama 3.2 120B:

Многошаговые рассуждения: Дает не только ответ, но и пошаговое решение. Llama часто прыгает к результату, пропуская логику.
Работа с формулами: LaTeX, математические обозначения — все корректно форматируется.
Контекстное окно 128K: Против 8K у Llama 3.2. Можете загрузить целую техническую документацию и задавать вопросы по ней.
Поддержка инструментов (tool calling): Готовность к созданию AI-агентов из коробки.

Но есть и минусы. Qwen слабее в английском (хотя и не критично). Модель может иногда «соскальзывать» на китайский в сложных объяснениях. И да, есть политические нюансы с лицензией.

DeepSeek Coder 67B: когда код — ваша религия

Если вы разработчик и ищете модель именно для программирования — остановитесь здесь. DeepSeek Coder создан для кода. Только код. И еще раз код.

Чего вы не получите от Llama 3.2 120B, но получите от DeepSeek Coder:

Понимание контекста проекта: Модель помнит структуру файлов, импорты, ранее написанные функции.
Работа с редко используемыми языками: Rust, Go, Kotlin — не проблема. Llama часто спотыкается на них.
Генерация тестов: Не просто код, а unit-тесты к нему. С пониманием edge cases.
Рефакторинг: «Сделай эту функцию асинхронной» — и модель переписывает не только объявление, но и все вызовы.

💡

Личный опыт: я заменил Copilot на локальный DeepSeek Coder 67B для повседневной разработки. Скорость? 18 токенов/с на RTX 4090. Качество? Код проходит code review с первого раза в 8 из 10 случаев. Экономия? $20 в месяц на подписке.

А что насчет совсем маленьких моделей?

GLM-4 9B из нашего сравнения — это феномен. 9 миллиардов параметров против 120, но 85% в GSM8K. Как такое возможно?

Ответ в квантовании и архитектурных оптимизациях. Современные маленькие модели используют техники, которые были недоступны год назад: MoE (Mixture of Experts), лучшее распределение внимания, оптимизированные активационные функции.

Для справки: GLM-4 9B требует всего 5GB VRAM в Q4. Запускается на любой карте с 8GB. И для многих задач этого достаточно.

Практический выбор: какая модель вам нужна?

1 Определите свою основную задачу

Математика > программирование? Берите Qwen 2.5 72B. Программирование > математика? DeepSeek Coder 67B. Нужно и то, и другое, но железо слабое? GLM-4 9B или Llama 3.3 8B-Instruct.

2 Проверьте доступность VRAM

Откройте диспетчер задач. Посмотрите, сколько видеопамяти свободно. Вычтите 2GB на систему. Оставшееся — ваш лимит. Не пытайтесь запихнуть 60GB модель в 24GB — получите тормоза и разочарование.

3 Скачайте и протестируйте быстро

Не верьте таблицам слепо. Возьмите 5 своих реальных задач (математическая задача, фрагмент кода для исправления, объяснение концепции). Прогоните через кандидатов в LM Studio или llama.cpp. Посмотрите, чьи ответы вам больше нравятся.

Частые ошибки при выборе

Ошибка 1: Брать самую большую модель, потому что «она точно лучшая». Нет. Специализированная 67B модель побьет универсальную 120B в своей области.

Ошибка 2: Игнорировать требования к памяти. «Запущу через CPU, если не влезет». CPU inference для 120B модели — это 1 токен в 10 секунд. Вы точно этого хотите?

Ошибка 3: Не проверять лицензию. Qwen и DeepSeek имеют свои условия использования. Для коммерческого проекта — читайте внимательно.

Что будет дальше? Прогноз на 2025

Тренд очевиден: специализация побеждает универсальность. Мы увидим:

Еще больше моделей, заточенных под конкретные задачи (только математика, только медицинские тексты, только юридические документы)
Архитектурные прорывы, которые позволят 30B моделям показывать результаты сегодняшних 100B
Интеграцию локальных моделей в IDE как стандарт (посмотрите на Maincoder-1B — это только начало)

Мой совет: не гонитесь за гигапараметрами. Ищите модель, которая решает ваши задачи сегодня на вашем железе. Через полгода появятся новые варианты, и вы без боли переключитесь.

А Llama 3.2 120B? Пусть остается в бенчмарках как эталон универсальности. В реальной работе у нее уже есть конкуренты, которые делают конкретные вещи лучше. И это хорошо — значит, рынок жив.

Зачем вам Llama 3.2 120B? Есть модели лучше в математике и кодинге