Парадокс аппетитов: почему мы хотели 24 ГБ, а получили 8

Помню первые недели после выхода Llama 2. Сообщество r/LocalLLaMA горело. Треды множились с геометрической прогрессией. Основной вопрос: "На какой карте запустить 13B модель?" Ответы стандартные: "RTX 3090, 24 ГБ минимум". Я тоже так думал. Ошибался.

Забавный факт: в 2023 году считалось, что для комфортной работы с 7B-моделью нужно 16 ГБ VRAM. Сегодня те же модели запускаются на 6 ГБ с лучшей производительностью. Что изменилось? Не железо. Софт.

Хроники переоценки: три фазы психоза VRAM

Фаза первая: Эпоха наивных расчетов. Берем количество параметров, умножаем на 2 байта (FP16), добавляем кэш контекста. 13B × 2 = 26 ГБ. Логично? Только если игнорировать существование квантования, оптимизаций и архитектурных улучшений.

Фаза вторая: Открытие GGUF. Появление llama.cpp и формата GGUF перевернуло всё. Внезапно оказалось, что 4-битное квантование работает почти так же хорошо, как 16-битное. Математика поменялась: 13B × 0.5 = 6.5 ГБ. Уже ближе к реальности.

Фаза третья: Гонка контекста. "Мне нужно 128K токенов контекста!" - кричали в тредах. Пока не выяснилось, что для 99% задач хватает 4K. А память под длинный контекст съедает драгоценные гигабайты.

💡

Самый частый просчет новичков: они считают VRAM только для весов модели, забывая про кэш ключей-значений (KV cache). При длинном контексте эта память может превысить объем самих весов. Но есть хак: использовать сжатый кэш или flash attention.

Реальная математика: сколько на самом деле нужно в 2025

Забудьте теоретические расчеты. Вот практические цифры, проверенные на десятках карт:

Сценарий использования	Рекомендуемая VRAM	Что получится	Типичная ошибка
Эксперименты, обучение	8-10 ГБ	7B модели в fp16, луна-тюнинг	Пытаться запихнуть 13B без квантования
Продуктивное использование	12-16 ГБ	13B в Q4, хорошая скорость	Гнаться за 70B на одной карте
RAG системы	16-24 ГБ	Две модели: эмбеддинг + LLM	Запускать всё в одной памяти
Мультимодальные модели	20+ ГБ	LLaVA, Qwen-VL комфортно	Не учитывать память под изображения

Ключевой момент: больше VRAM ≠ лучше производительность. Важнее пропускная способность памяти и вычислительные ядра. RTX 4060 Ti 16GB медленнее, чем RTX 4070 Super 12GB в большинстве LLM-задач. Просто потому, что у второй выше bandwidth и больше CUDA ядер.

Психология "про запас" и её цена

"Возьму 24 ГБ, чтобы наверняка" - знакомо? Проблема в том, что за эти лишние 8 ГБ вы переплачиваете 2-3x. RTX 4090 стоит как три RTX 4060 Ti 16GB. А три карты дадут 48 ГБ и параллелизм.

На практике 90% пользователей локальных LLM используют модели не больше 13B параметров. Для них 16 ГБ - золотая середина. Оставшиеся 10% делятся на две группы: те, кто действительно работает с 70B+ моделями (исследователи, компании), и те, кто просто хочет похвастаться в тредах.

Если вы только начинаете, прочитайте наше руководство "Можно ли запустить локальную LLM на 10 ГБ видеопамяти?". Там разобраны конкретные кейсы и настройки.

Три революции, которые уменьшили аппетиты

1 Квантование перестало быть компромиссом

Ранние Q4_0 теряли заметно в качестве. Современные Q4_K_M часто превосходят fp16 в perplexity. Почему? Улучшились алгоритмы, появились смешанные режимы. 3-битное квантование (Q3_K_XL) сегодня работает там, где раньше требовалось Q5.

Пример: GLM-4.7 в Q3_K_M занимает ~5.5 ГБ вместо 9.4 ГБ в fp16. Потери качества? 2-3% на сложных задачах. Для чата незаметно.

2 Архитектурный прорыв: маленькие модели стали умнее

Llama 3.1 8B справляется с задачами, для которых год назад нужен был 13B. Mistral 7B перевернул представление о соотношении размер/качество. Phi-3 мини доказал, что 3.8B параметров достаточно для большинства повседневных задач.

Результат: вам не нужно гнаться за 70B моделями. 13B в 2025 году - это как 30B в 2023.

3 Оптимизации рантаймов

vLLM, TensorRT-LLM, llama.cpp с CUDA - все они научились эффективнее использовать память. PagedAttention в vLLM уменьшает фрагментацию. Continuous batching позволяет обслуживать несколько запросов без пропорционального роста памяти.

Практический эффект: на тех же 16 ГБ теперь можно запустить не одну, а 3-4 копии 7B модели для параллельной обработки.

Конкретные рекомендации: что покупать в 2025

Забудьте про абстрактные "чем больше, тем лучше". Вот матрица решений:

Бюджет до 500$: RTX 4060 Ti 16GB или RX 7700 XT 12GB. 16 ГБ позволят работать с 13B моделями в Q4. Важно: проверьте поддержку ROCm для AMD.
Бюджет 500-1000$: RTX 4070 Super 12GB или RTX 4070 Ti Super 16GB. Лучшая производительность на доллар. 12 ГБ хватит для 99% случаев.
Бюджет 1000-2000$: Две RTX 4060 Ti 16GB или RTX 4080 Super 16GB. Параллелизм против единой мощности.
Бюджет 2000$+: Собирайте мульти-GPU систему. Три RTX 3090 (24GB каждая) обойдутся дешевле одной RTX 6000 Ada. Гайд по сборке есть в статье "Собираем ПК для локальных LLM за копейки".

💡

Сравнение RTX 5060 Ti и RX 9060 XT для локальных LLM мы подробно разбирали в отдельном руководстве. Главный вывод: не смотрите только на объем памяти. Пропускная способность (bandwidth) часто важнее, особенно для больших контекстов.

Ошибки, которые совершают все (и как их избежать)

Ошибка 1: Запускать модель в fp16, когда доступно квантование. Решение: всегда начинайте с Q4_K_M. Переходите к более высоким битностям только если видите проблемы с качеством.

Ошибка 2: Выставлять контекст 128K "на всякий случай". Решение: используйте динамическое выделение памяти под контекст. В llama.cpp: --ctx-size 4096 для начала.

Ошибка 3: Игнорировать системную RAM. Решение: для offloading слоев на CPU нужна быстрая оперативка. DDR5 6000MHz даст +30% к скорости compared с DDR4 3200MHz.

Самая коварная ошибка: думать, что больше VRAM решит все проблемы. Нет. Медленный CPU станет бутылочным горлышком при загрузке модели. Медленный SSD увеличит время инициализации. Плохое охлаждение вызовет троттлинг.

Что будет дальше: прогноз на 2026

Тренд очевиден: требования к VRAM будут снижаться, а не расти. Почему?

Модели станут эффективнее: 3B параметров будут делать то, что сегодня делают 8B
Квантование дойдет до 2 бит: с приемлемым качеством для большинства задач
Специализированные ускорители: NPU в потребительских CPU возьмут на себя часть нагрузки
Оптимизации компиляции: статическое распределение памяти вместо динамического

Мой прогноз: к концу 2026 стандартом для локальных LLM станут карты с 12 ГБ VRAM. Этого хватит для 95% пользователей. Остальным понадобятся мульти-GPU конфигурации, но их стоимость упадет в разы.

Если вы планируете систему для серьезной работы, изучите стратегии масштабирования. Там разобраны кейсы от одной карты до небольших кластеров.

Финальный совет: как не переплатить

Перед покупкой железа сделайте три вещи:

# 1. Протестируйте свои workflow на облаке
# Арендуйте инстанс с нужной картой на час
# Стоит $2-5, экономит тысячи

# 2. Используйте бенчмарки реальных задач, а не synthetic
# Не tokens/sec, а время ответа на ваш типичный промпт

# 3. Проверьте совместимость софта
# Особенно для AMD карт и экзотических архитектур

Самый ценный ресурс в локальных LLM - не VRAM, а время. Время на настройку, отладку, оптимизацию. Выбирайте железо, которое минимизирует это время, а не просто имеет большие цифры в спецификациях.

Сообщество прошло путь от "нужны терабайты" до "хватит и восьми гигабайт". Следующий шаг - отказ от GPU для большинства задач. Но это уже тема для другой статьи.

Сколько VRAM реально нужно для локальных LLM: история переоценки запросов сообщества