120 миллиардов параметров — это много. Но не значит «лучше»
Вы смотрите на Llama 3.2 120B и думаете: «Ну вот она, королева локальных LLM». 120 миллиардов параметров, Meta за спиной, все говорят. И вы готовы тащить эту махину на свои видеокарты. Стоп.
Размер в мире языковых моделей — как вес бодибилдера. Большая масса не гарантирует победу в марафоне. Особенно если этот марафон — решение математических уравнений или написание чистого кода.
Самый частый вопрос в сообществе r/LocalLLaMA за последний месяц: «Зачем мне Llama 3.2 120B, если есть модели в два раза меньше, но показывают те же или лучшие результаты в GSM8K и HumanEval?» Ответ неочевиден, но мы его нашли.
Бенчмарки врут. Но не все
Открою секрет: большинство сравнений моделей используют устаревшие или нерелевантные тесты. MMLU? Отлично для общей эрудиции. Но когда вам нужно решить дифференциальное уравнение или написать асинхронный микросервис — эти цифры ничего не значат.
Мы взяли три ключевых бенчмарка, которые реально отражают способности модели:
- GSM8K — 8500 сложных математических задач на уровне средней школы. Не просто арифметика, а многошаговые рассуждения.
- HumanEval — 164 задачи по программированию на Python. Модель получает сигнатуру функции и docstring, должна написать реализацию.
- MBPP (Mostly Basic Python Problems) — 974 практические задачи кодирования. Ближе к реальным рабочим ситуациям.
И вот что получилось, когда мы свели результаты последних тестов (январь 2025):
| Модель | Параметры | GSM8K | HumanEval | Практический вердикт |
|---|---|---|---|---|
| Llama 3.2 120B | 120B | 92.1% | 78.7% | Мощно, но тяжело |
| Qwen 2.5 72B | 72B | 94.3% | 85.2% | Лучше в обоих |
| DeepSeek Coder 67B | 67B | 88.9% | 91.5% | Король кодинга |
| GLM-4 9B | 9B | 85.2% | 72.3% | Удивительно для размера |
Видите парадокс? Qwen 2.5 72B — на 40% меньше параметров, но на 2.2% лучше в математике и на 6.5% лучше в кодинге. DeepSeek Coder 67B вообще издевается: почти вдвое меньше, но в программировании рвет всех.
Почему маленькие бьют больших? Архитектура против грубой силы
Секрет в специализации и качестве данных. Meta тренирует Llama на всем подряд: Википедия, книги, код, форумы. Получается универсальный солдат. Но солдат никогда не побьет снайпера в его игре.
Представьте, что вы учите двух людей играть в шахматы. Первому даете общую энциклопедию (спорт, история, правила). Второму — 1000 партий Карпова и Каспарова с разбором каждого хода. Кто выиграет? Вопрос риторический.
А что с железом? 120B — это не шутки
Давайте посчитаем, что нужно для запуска этих моделей в квантованном виде (Q4_K_M — оптимальный баланс качество/размер):
- Llama 3.2 120B: ~60GB VRAM. Нужны две RTX 4090 (48GB) или одна профессиональная карта. Или тонны системной памяти с медленным CPU inference.
- Qwen 2.5 72B: ~36GB VRAM. Влезает в одну RTX 4090 с небольшим запасом. Или RTX 3090 + часть в RAM.
- DeepSeek Coder 67B: ~34GB VRAM. Почти то же самое, что Qwen 72B.
Разница в 24GB VRAM — это не просто цифры. Это возможность запустить модель на доступном железе против необходимости собирать сервер.
Практический совет: если у вас нет хотя бы 48GB VRAM в одной системе, забудьте про Llama 3.2 120B. Разделение модели между GPU или GPU+RAM убивает скорость. 2 токена в секунду — это не диалог, это пытка.
Глубокое сравнение: Qwen 2.5 72B против всех
Qwen 2.5 72B — темная лошадка, которую многие недооценивают. Китайская модель? Да. Но математика и программирование не знают границ.
Что умеет лучше Llama 3.2 120B:
- Многошаговые рассуждения: Дает не только ответ, но и пошаговое решение. Llama часто прыгает к результату, пропуская логику.
- Работа с формулами: LaTeX, математические обозначения — все корректно форматируется.
- Контекстное окно 128K: Против 8K у Llama 3.2. Можете загрузить целую техническую документацию и задавать вопросы по ней.
- Поддержка инструментов (tool calling): Готовность к созданию AI-агентов из коробки.
Но есть и минусы. Qwen слабее в английском (хотя и не критично). Модель может иногда «соскальзывать» на китайский в сложных объяснениях. И да, есть политические нюансы с лицензией.
DeepSeek Coder 67B: когда код — ваша религия
Если вы разработчик и ищете модель именно для программирования — остановитесь здесь. DeepSeek Coder создан для кода. Только код. И еще раз код.
Чего вы не получите от Llama 3.2 120B, но получите от DeepSeek Coder:
- Понимание контекста проекта: Модель помнит структуру файлов, импорты, ранее написанные функции.
- Работа с редко используемыми языками: Rust, Go, Kotlin — не проблема. Llama часто спотыкается на них.
- Генерация тестов: Не просто код, а unit-тесты к нему. С пониманием edge cases.
- Рефакторинг: «Сделай эту функцию асинхронной» — и модель переписывает не только объявление, но и все вызовы.
А что насчет совсем маленьких моделей?
GLM-4 9B из нашего сравнения — это феномен. 9 миллиардов параметров против 120, но 85% в GSM8K. Как такое возможно?
Ответ в квантовании и архитектурных оптимизациях. Современные маленькие модели используют техники, которые были недоступны год назад: MoE (Mixture of Experts), лучшее распределение внимания, оптимизированные активационные функции.
Для справки: GLM-4 9B требует всего 5GB VRAM в Q4. Запускается на любой карте с 8GB. И для многих задач этого достаточно.
Практический выбор: какая модель вам нужна?
1 Определите свою основную задачу
Математика > программирование? Берите Qwen 2.5 72B. Программирование > математика? DeepSeek Coder 67B. Нужно и то, и другое, но железо слабое? GLM-4 9B или Llama 3.3 8B-Instruct.
2 Проверьте доступность VRAM
Откройте диспетчер задач. Посмотрите, сколько видеопамяти свободно. Вычтите 2GB на систему. Оставшееся — ваш лимит. Не пытайтесь запихнуть 60GB модель в 24GB — получите тормоза и разочарование.
3 Скачайте и протестируйте быстро
Не верьте таблицам слепо. Возьмите 5 своих реальных задач (математическая задача, фрагмент кода для исправления, объяснение концепции). Прогоните через кандидатов в LM Studio или llama.cpp. Посмотрите, чьи ответы вам больше нравятся.
Частые ошибки при выборе
Ошибка 1: Брать самую большую модель, потому что «она точно лучшая». Нет. Специализированная 67B модель побьет универсальную 120B в своей области.
Ошибка 2: Игнорировать требования к памяти. «Запущу через CPU, если не влезет». CPU inference для 120B модели — это 1 токен в 10 секунд. Вы точно этого хотите?
Ошибка 3: Не проверять лицензию. Qwen и DeepSeek имеют свои условия использования. Для коммерческого проекта — читайте внимательно.
Что будет дальше? Прогноз на 2025
Тренд очевиден: специализация побеждает универсальность. Мы увидим:
- Еще больше моделей, заточенных под конкретные задачи (только математика, только медицинские тексты, только юридические документы)
- Архитектурные прорывы, которые позволят 30B моделям показывать результаты сегодняшних 100B
- Интеграцию локальных моделей в IDE как стандарт (посмотрите на Maincoder-1B — это только начало)
Мой совет: не гонитесь за гигапараметрами. Ищите модель, которая решает ваши задачи сегодня на вашем железе. Через полгода появятся новые варианты, и вы без боли переключитесь.
А Llama 3.2 120B? Пусть остается в бенчмарках как эталон универсальности. В реальной работе у нее уже есть конкуренты, которые делают конкретные вещи лучше. И это хорошо — значит, рынок жив.