Парадокс аппетитов: почему мы хотели 24 ГБ, а получили 8
Помню первые недели после выхода Llama 2. Сообщество r/LocalLLaMA горело. Треды множились с геометрической прогрессией. Основной вопрос: "На какой карте запустить 13B модель?" Ответы стандартные: "RTX 3090, 24 ГБ минимум". Я тоже так думал. Ошибался.
Забавный факт: в 2023 году считалось, что для комфортной работы с 7B-моделью нужно 16 ГБ VRAM. Сегодня те же модели запускаются на 6 ГБ с лучшей производительностью. Что изменилось? Не железо. Софт.
Хроники переоценки: три фазы психоза VRAM
Фаза первая: Эпоха наивных расчетов. Берем количество параметров, умножаем на 2 байта (FP16), добавляем кэш контекста. 13B × 2 = 26 ГБ. Логично? Только если игнорировать существование квантования, оптимизаций и архитектурных улучшений.
Фаза вторая: Открытие GGUF. Появление llama.cpp и формата GGUF перевернуло всё. Внезапно оказалось, что 4-битное квантование работает почти так же хорошо, как 16-битное. Математика поменялась: 13B × 0.5 = 6.5 ГБ. Уже ближе к реальности.
Фаза третья: Гонка контекста. "Мне нужно 128K токенов контекста!" - кричали в тредах. Пока не выяснилось, что для 99% задач хватает 4K. А память под длинный контекст съедает драгоценные гигабайты.
Реальная математика: сколько на самом деле нужно в 2025
Забудьте теоретические расчеты. Вот практические цифры, проверенные на десятках карт:
| Сценарий использования | Рекомендуемая VRAM | Что получится | Типичная ошибка |
|---|---|---|---|
| Эксперименты, обучение | 8-10 ГБ | 7B модели в fp16, луна-тюнинг | Пытаться запихнуть 13B без квантования |
| Продуктивное использование | 12-16 ГБ | 13B в Q4, хорошая скорость | Гнаться за 70B на одной карте |
| RAG системы | 16-24 ГБ | Две модели: эмбеддинг + LLM | Запускать всё в одной памяти |
| Мультимодальные модели | 20+ ГБ | LLaVA, Qwen-VL комфортно | Не учитывать память под изображения |
Ключевой момент: больше VRAM ≠ лучше производительность. Важнее пропускная способность памяти и вычислительные ядра. RTX 4060 Ti 16GB медленнее, чем RTX 4070 Super 12GB в большинстве LLM-задач. Просто потому, что у второй выше bandwidth и больше CUDA ядер.
Психология "про запас" и её цена
"Возьму 24 ГБ, чтобы наверняка" - знакомо? Проблема в том, что за эти лишние 8 ГБ вы переплачиваете 2-3x. RTX 4090 стоит как три RTX 4060 Ti 16GB. А три карты дадут 48 ГБ и параллелизм.
На практике 90% пользователей локальных LLM используют модели не больше 13B параметров. Для них 16 ГБ - золотая середина. Оставшиеся 10% делятся на две группы: те, кто действительно работает с 70B+ моделями (исследователи, компании), и те, кто просто хочет похвастаться в тредах.
Если вы только начинаете, прочитайте наше руководство "Можно ли запустить локальную LLM на 10 ГБ видеопамяти?". Там разобраны конкретные кейсы и настройки.
Три революции, которые уменьшили аппетиты
1 Квантование перестало быть компромиссом
Ранние Q4_0 теряли заметно в качестве. Современные Q4_K_M часто превосходят fp16 в perplexity. Почему? Улучшились алгоритмы, появились смешанные режимы. 3-битное квантование (Q3_K_XL) сегодня работает там, где раньше требовалось Q5.
Пример: GLM-4.7 в Q3_K_M занимает ~5.5 ГБ вместо 9.4 ГБ в fp16. Потери качества? 2-3% на сложных задачах. Для чата незаметно.
2 Архитектурный прорыв: маленькие модели стали умнее
Llama 3.1 8B справляется с задачами, для которых год назад нужен был 13B. Mistral 7B перевернул представление о соотношении размер/качество. Phi-3 мини доказал, что 3.8B параметров достаточно для большинства повседневных задач.
Результат: вам не нужно гнаться за 70B моделями. 13B в 2025 году - это как 30B в 2023.
3 Оптимизации рантаймов
vLLM, TensorRT-LLM, llama.cpp с CUDA - все они научились эффективнее использовать память. PagedAttention в vLLM уменьшает фрагментацию. Continuous batching позволяет обслуживать несколько запросов без пропорционального роста памяти.
Практический эффект: на тех же 16 ГБ теперь можно запустить не одну, а 3-4 копии 7B модели для параллельной обработки.
Конкретные рекомендации: что покупать в 2025
Забудьте про абстрактные "чем больше, тем лучше". Вот матрица решений:
- Бюджет до 500$: RTX 4060 Ti 16GB или RX 7700 XT 12GB. 16 ГБ позволят работать с 13B моделями в Q4. Важно: проверьте поддержку ROCm для AMD.
- Бюджет 500-1000$: RTX 4070 Super 12GB или RTX 4070 Ti Super 16GB. Лучшая производительность на доллар. 12 ГБ хватит для 99% случаев.
- Бюджет 1000-2000$: Две RTX 4060 Ti 16GB или RTX 4080 Super 16GB. Параллелизм против единой мощности.
- Бюджет 2000$+: Собирайте мульти-GPU систему. Три RTX 3090 (24GB каждая) обойдутся дешевле одной RTX 6000 Ada. Гайд по сборке есть в статье "Собираем ПК для локальных LLM за копейки".
Ошибки, которые совершают все (и как их избежать)
Ошибка 1: Запускать модель в fp16, когда доступно квантование. Решение: всегда начинайте с Q4_K_M. Переходите к более высоким битностям только если видите проблемы с качеством.
Ошибка 2: Выставлять контекст 128K "на всякий случай". Решение: используйте динамическое выделение памяти под контекст. В llama.cpp: --ctx-size 4096 для начала.
Ошибка 3: Игнорировать системную RAM. Решение: для offloading слоев на CPU нужна быстрая оперативка. DDR5 6000MHz даст +30% к скорости compared с DDR4 3200MHz.
Самая коварная ошибка: думать, что больше VRAM решит все проблемы. Нет. Медленный CPU станет бутылочным горлышком при загрузке модели. Медленный SSD увеличит время инициализации. Плохое охлаждение вызовет троттлинг.
Что будет дальше: прогноз на 2026
Тренд очевиден: требования к VRAM будут снижаться, а не расти. Почему?
- Модели станут эффективнее: 3B параметров будут делать то, что сегодня делают 8B
- Квантование дойдет до 2 бит: с приемлемым качеством для большинства задач
- Специализированные ускорители: NPU в потребительских CPU возьмут на себя часть нагрузки
- Оптимизации компиляции: статическое распределение памяти вместо динамического
Мой прогноз: к концу 2026 стандартом для локальных LLM станут карты с 12 ГБ VRAM. Этого хватит для 95% пользователей. Остальным понадобятся мульти-GPU конфигурации, но их стоимость упадет в разы.
Если вы планируете систему для серьезной работы, изучите стратегии масштабирования. Там разобраны кейсы от одной карты до небольших кластеров.
Финальный совет: как не переплатить
Перед покупкой железа сделайте три вещи:
# 1. Протестируйте свои workflow на облаке
# Арендуйте инстанс с нужной картой на час
# Стоит $2-5, экономит тысячи
# 2. Используйте бенчмарки реальных задач, а не synthetic
# Не tokens/sec, а время ответа на ваш типичный промпт
# 3. Проверьте совместимость софта
# Особенно для AMD карт и экзотических архитектур
Самый ценный ресурс в локальных LLM - не VRAM, а время. Время на настройку, отладку, оптимизацию. Выбирайте железо, которое минимизирует это время, а не просто имеет большие цифры в спецификациях.
Сообщество прошло путь от "нужны терабайты" до "хватит и восьми гигабайт". Следующий шаг - отказ от GPU для большинства задач. Но это уже тема для другой статьи.