4 ГБ VRAM — это не приговор, а повод для хитростей

Ваш ноутбук с RTX 3050 Ti и 32 ГБ ОЗУ — идеальный полигон для локальных нейросетей, если знать где нажимать. Производители моделей будто сговорились: каждый релиз требует на 2 ГБ VRAM больше предыдущего. Но мы не будем играть по их правилам.

Главная ошибка — пытаться запускать стандартные модели в лоб. SDXL (7 ГБ) или Llama 3 8B (16 ГБ в FP16) просто не влезут. Нам нужны обходные пути.

Stable Diffusion на 4 ГБ VRAM: выбираем оружие

Стандартный AUTOMATIC1111 с SD 1.5 съест все 4 ГБ и попросит добавки. Но есть три стратегии, которые работают.

1 Выбор модели: маленькие, но злые

Забудьте про SDXL. Наш выбор — оптимизированные версии SD 1.5:

Модель	Размер	Качество	Потребление VRAM
SD 1.5 Pruned	1.7 ГБ	Хорошее	2.1-2.5 ГБ
TinySD	800 МБ	Приемлемое	1.5-2.0 ГБ
Realistic Vision V5.1	2.0 ГБ	Отличное	2.3-2.8 ГБ

💡

Realistic Vision V5.1 — золотая середина. Дает качественные результаты при разумном потреблении памяти. Качайте с Civitai с пометкой "pruned" или "optimized".

2 Настройка AUTOMATIC1111: выжимаем каждый мегабайт

Даже с оптимизированной моделью нужны правильные настройки. Открываем webui-user.bat и добавляем:

set COMMANDLINE_ARGS=--lowvram --opt-split-attention --disable-nan-check --no-half-vae

Что это дает:

--lowvram — загружает модель по частям в VRAM (медленнее, но работает)
--opt-split-attention — оптимизирует внимание, снижает пиковое потребление
--disable-nan-check — убирает проверки, которые тоже едят память
--no-half-vae — VAE в FP32, стабильнее на слабых картах

3 Альтернатива: ComfyUI с луковой загрузкой

ComfyUI эффективнее распределяет память. Скачайте портативную версию, поместите модель в models/checkpoints. Создайте workflow с такими настройками:

Не используйте Sampler с "Karras" — это добавляет шаги и память. Возьмите DPM++ 2M Karras или обычный Euler a.

Разрешение — максимум 768x768. Шаги — 20-25. Batch size — только 1. С этими ограничениями генерация займет 15-25 секунд.

Текстовые LLM: квантование или смерть

Здесь все жестче. Полноценная Llama 3 8B в FP16 требует 16 ГБ VRAM. Нам доступны только квантованные версии.

1 Ollama vs LM Studio: битва за 4 ГБ

Параметр	Ollama	LM Studio
Установка	Одна команда	Скачать .exe
Управление памятью	Автоматическое	Ручное
Поддержка GPU слоев	Ограниченная	Полная
Для 4 ГБ VRAM	Лучше	Требует настройки

Ollama проще. Устанавливаем и запускаем модель одной командой:

ollama run llama3.1:8b

Но по умолчанию он загрузит модель в память как есть. Нужно создать Modelfile с настройками:

FROM llama3.1:8b
PARAMETER num_gpu 20
PARAMETER num_ctx 2048

num_gpu 20 означает, что 20 слоев уйдут на GPU, остальные — в ОЗУ. На 4 ГБ VRAM можно выставить 25-30 слоев.

2 LM Studio: ручная настройка каждого байта

Скачайте Q4_K_M квантованную версию Llama 3.1 8B (примерно 4.5 ГБ). В настройках:

GPU Offload Layers: 28-32 (экспериментируйте)
Context Length: 2048 (не больше)
Batch Size: 512
Threads: 4-6 (в зависимости от процессора)

Если вылетает с ошибкой памяти, уменьшайте GPU Offload Layers на 2 и пробуйте снова.

💡

Q4_K_M — оптимальный формат. Q3_K_M сэкономит еще 1 ГБ, но качество заметно упадет. Q5_K_M даст лучшее качество, но может не влезть.

3 Какие модели реально работают

Тестировал на RTX 3050 Ti 4 ГБ:

Llama 3.1 8B Q4_K_M — 12-15 токенов/сек, контекст 2048
Mistral 7B v0.3 Q4_K_M — 14-18 токенов/сек, чуть быстрее
Qwen2.5 7B Q4_K_M — 13-16 токенов/сек, лучше с кодом
Phi-3.5 Mini 3.8B Q4_K_M — 20-25 токенов/сек, но менее способная

Больше 8B параметров не пытайтесь — даже квантованные версии 13B моделей требуют 6+ ГБ VRAM.

Одновременный запуск: возможно ли?

Теоретически можно запустить и Stable Diffusion, и LLM одновременно. Практически — они подерутся за память.

Рабочая схема:

Запустите LLM с 20-22 слоями на GPU (займет ~2.5 ГБ)
В Stable Diffusion используйте --medvram вместо --lowvram
Установите разрешение 512x512, 20 шагов
Не генерируйте изображения, пока LLM обрабатывает запрос

Система будет работать на пределе, но работать. Если нужна стабильность — выбирайте что-то одно.

Частые ошибки и как их избежать

"CUDA out of memory" в Stable Diffusion — уменьшайте разрешение, отключайте ControlNet, используйте --lowvram.

LLM падает при длинных ответах — уменьшайте max_tokens, устанавливайте контекст 2048 вместо 4096.

Медленная генерация в Ollama — проверьте, что модель использует GPU. Запустите `ollama ps` и посмотрите на столбец GPU.

Что в итоге можно получить

На RTX 3050 Ti 4 ГБ реально:

Генерация изображений 512x512 за 10-20 секунд
Текстовые ответы от 7B-8B моделей со скоростью 12-20 токенов/сек
Работа с контекстом до 2048 токенов
Параллельная работа двух нейросетей с оговорками

Это не топовое железо, но и не мусор. Просто нужно знать, где находятся скрытые настройки и какие модели действительно оптимизированы. Большинство проблем с памятью решаются квантованием и правильным распределением слоев между GPU и RAM.

Если хочется большего — присмотритесь к C++ фронтендам для Stable Diffusion или экспериментам с маленькими LLM. Но для начала хватит и стандартных инструментов с правильными настройками.

Как запустить Stable Diffusion и текстовые LLM на ноутбуке с 4 ГБ VRAM: полное руководство