Зачем вообще эти малыши? 8 миллиардов — это много или мало?

Все гонятся за гигантами на 70B параметров, а потом плачут, когда их RTX 4060 с 8GB VRAM начинает трещать по швам. Парадокс: чем мощнее железо, тем больше хочется запустить огромную модель. Но реальность такова, что 95% задач — переписка, написание кода, анализ логов — прекрасно решаются скромными моделями до 8 миллиардов параметров.

Почему? Они влезают в память среднестатистической видеокарты. Их можно запустить на CPU без ощущения, что мир остановился. Они отзываются за секунды, а не за минуты. И главное — за последний год их качество выросло настолько, что разница с "большими братьями" в повседневных задачах часто незаметна.

Забудьте про слепую веру в бенчмарки. Модель с высшим баллом в тесте на логику может ползать на вашем железе или требовать танцев с бубном для запуска. Мы будем говорить о практической полезности.

Пятерка лидеров: кто есть кто в мире компактных LLM

Отбор жесткий. Берем только модели 2024 года выпуска (или их значительные апдейты). Смотрим на поддержку сообществом, наличие квантованных версий в формате GGUF и, конечно, на субъективное впечатление от работы. Если модель не запускается одной командой в Ollama или llama.cpp — мимо.

1 Qwen2.5 7B — универсальный солдат из Китая

Alibaba не спит. Qwen2.5 7B — это не просто апдейт, это качественный скачок. Модель отлично понимает контекст, поддерживает длинные диалоги (128к токенов, но реально работает с 8-16к), и что важно — не сходит с ума на технических вопросах.

Сильные стороны: Баланс между знанием фактов и рассуждениями. Хорошо справляется с кодом (но не специализированно). Отличная многоязычность, включая русский.
Слабые места: Иногда слишком "вежливая" и многословная. Может уйти в философские размышления вместо прямого ответа.
Память: Q4_K_M версия занимает ~4.5 GB. Влезает в 6 GB VRAM с запасом для контекста.

# Запуск через Ollama (самый простой способ)
ollama run qwen2.5:7b

# Или прямая загрузка GGUF для llama.cpp
curl -L https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf -o model.gguf

2 DeepSeek Coder 6.7B — ваш личный ассистент для программирования

Если вы пишете код больше, чем говорите, — это ваш выбор. DeepSeek Coder заточен под понимание и генерацию кода на десятках языков. Он знает про актуальные фреймворки, понимает контекст репозитория и не предлагает использовать устаревшие методы.

💡

Модель обучалась на большом объеме кода (до 2024 года), поэтому она знает про свежие версии React, Python 3.11+ фичи и современные best practices. В отличие от общих моделей, она не предложит вам использовать устаревший `var` в JavaScript.

Сильные стороны: Генерация чистого, работающего кода. Понимание ошибок и предложение фиксов. Работа с длинным контекстом (128к).
Слабые места: В общих беседах может быть слишком сухой и технической. Не ждите от нее поэзии.
Память: Q4_K_M — около 4 GB. Идеально для разработки на ноутбуке.

3 Llama 3.1 8B — проверенный временем (относительно) вариант

Meta продолжает совершенствовать свою линейку. Llama 3.1 8B — это эволюция, а не революция. Модель стабильная, предсказуемая, с хорошей английской речью. Сообщество ее обожает за то, что под нее написана тонна инструментов и оберток.

Сильные стороны: Экосистема. Поддержка во всех фреймворках, от llama.cpp до vLLM. Хорошо документирована. Стабильные ответы.
Слабые места: Не самый сильный в коде. Многоязычность хуже, чем у Qwen. Иногда чувствуется "корпоративная осторожность" в ответах.
Память: Q4_K_M — ~5 GB. Чуть прожорливее конкурентов.

4 Phi-3.5 Mini 3.8B — маленький, но дерзкий

Microsoft сделала невероятное: упаковала ум в 3.8 миллиарда параметров. Эта модель часто обходит 7B-конкурентов в тестах на рассуждение. Секрет — в качестве данных для обучения. Она быстрая, острая на язык и удивительно сообразительная для своего размера.

Сильные стороны: Соотношение размер/качество. Быстрая генерация даже на CPU. Отличные логические цепочки.
Слабые места: Маленький контекстное окно (по умолчанию 4к, расширяется до 128к с особыми методами). Может быть слишком краткой.
Память: Q4_K_M — всего ~2.5 GB. Мечта для слабого железа.

5 Gemma 2 7B — темная лошадка от Google

Google наконец-то выпустила модель, которую не стыдно запускать локально. Gemma 2 7B — это переосмысление подхода: хорошая инструктивная следование, безопасные ответы по умолчанию и неплохие знания в технических областях.

Сильные стороны: Безопасность и предсказуемость. Хорошо структурированные ответы. Неплохая работа с кодом.
Слабые места: Может показаться "скучной" или слишком отфильтрованной. Сообщество еще не накопило столько опыта, сколько с Llama.
Память: Q4_K_M — ~4.7 GB.

Цифры на столе: сравниваем яблоки с яблоками

Модель	Параметры	VRAM (Q4_K_M)	Скорость* (токен/с)	Лучшая для	Слабое место
Qwen2.5 7B	7.1B	~4.5 GB	25-35	Общий чат, многоязычные задачи	Многословие
DeepSeek Coder 6.7B	6.7B	~4.0 GB	30-40	Программирование, ревью кода	Общие беседы
Llama 3.1 8B	8.0B	~5.0 GB	20-30	Исследования, интеграции	Код, неанглийские языки
Phi-3.5 Mini 3.8B	3.8B	~2.5 GB	40-60	Слабое железо, логические задачи	Краткость, контекст
Gemma 2 7B	7.0B	~4.7 GB	22-32	Безопасные приложения, обучение	Осторожность, сообщество

*Скорость указана для GPU уровня RTX 4060 (8GB) с использованием llama.cpp с CUDA. На CPU будет в 3-5 раз медленнее.

Какую модель загрузить прямо сейчас? Алгоритм выбора

Не смотрите на таблицу и не тыкайте пальцем в небо. Задайте себе три вопроса:

Сколько у вас VRAM? Если 6 GB или меньше — ваш круг сужается до Phi-3.5 Mini и квантованных Q2_K версий других моделей. 8 GB — уже свобода, берите Q4_K_M любой из списка. 12 GB+ — можете даже поэкспериментировать с Q6_K.
Что вы будете делать? Код — DeepSeek Coder. Общая переписка и анализ — Qwen2.5 или Llama 3.1. Игры в логику и быстрые эксперименты — Phi-3.5 Mini. Если вы делаете что-то для компании, где важна безопасность — Gemma 2.
Насколько вы терпеливы? Если ненавидите ждать — Phi-3.5 Mini и DeepSeek Coder самые шустрые. Если готовы ждать 2-3 секунды за глубокий ответ — Llama 3.1 и Qwen2.5.

Мой субъективный совет: начните с Qwen2.5 7B. Это золотая середина. Если не понравится — вы за час попробуете другую. Все они скачиваются и запускаются по схожим схемам.

Пошагово: от нуля до работающей модели за 5 минут

Забудьте про сложные установки Python, виртуальные окружения и борьбу с версиями CUDA. В 2024 году есть один доминирующий способ — Ollama. Это как Docker для LLM.

1 Установите Ollama

Идете на ollama.com, качаете установщик под вашу ОС. Запускаете. Всё. Сервис будет работать в фоне.

# Для Linux/macOS можно также установить через скрипт
curl -fsSL https://ollama.com/install.sh | sh

2 Выберите и загрузите модель

Откройте терминал. Решите, что хотите попробовать. Например, Qwen2.5 7B.

ollama pull qwen2.5:7b
# Подождите 2-10 минут в зависимости от интернета.

3 Запустите чат

ollama run qwen2.5:7b
>>> Напиши Dockerfile для Python-приложения на FastAPI

Всё. Вы в диалоге. Для выхода наберите /bye.

Типичные грабли, на которые наступают все

Ошибка: "CUDA out of memory". Вы пытаетесь запустить модель, которая не влезает в VRAM. Решение: скачайте более агрессивно квантованную версию (не Q4_K_M, а Q2_K или Q3_K_S). Или заставьте модель частично использовать системную RAM (в llama.cpp флаг --ngl 0).
Ошибка: модель говорит ерунду или повторяется. Скорее всего, вы используете старую или плохо квантованную версию. Качайте модели только с официальных страниц на Hugging Face или через Ollama.
Ошибка: медленная генерация на CPU. Это не ошибка, это реальность. Убедитесь, что используете llama.cpp с поддержкой AVX2/AVX-512. И подумайте о покупке видеокарты.
Ошибка: модель не понимает контекст длинного диалога. Многие модели по умолчанию имеют ограниченное окно внимания. Проверьте настройки контекста (флаг -c в llama.cpp). Или используйте модели, заточенные под длинный контекст, как DeepSeek Coder.

Что дальше? Неочевидный тренд, который все пропустили

Все ждут моделей на 10B, 12B, 15B параметров. Но настоящая революция будет в другом — в специализированных микромоделях под 1B параметра, которые делают одну задачу, но идеально. Уже появляются модели, которые только исправляют грамматику, только переводят код с языка на язык, только ищут уязвимости в конфигах.

Следующий шаг — не одна универсальная LLM на вашем компе, а целый зоопарк узких экспертов, которых вы будете вызывать по мере необходимости. И для этого как раз нужны небольшие, эффективные модели, которые не жрут всю память.

Поэтому присмотритесь к Phi-3.5 Mini. Это прообраз будущего — максимальная отдача при минимальном размере. Остальные, конечно, тоже не исчезнут, но их ниша — задачи, где нужен широкий кругозор.

А пока — скачайте одну из пятерки и попробуйте. Теория это хорошо, но только в практике понимаешь, какая модель "ваша". Как говорится, почувствуйте разницу.

Топ-5 локальных LLM до 8B параметров: сравнительный обзор моделей для чата, кода и исследований