Мозги против Экономии: Почему ваш выбор архитектуры ломает все
Вы загружаете Qwen 3.5 для помощи в коде. Ждете волшебства. А получаете либо скорость черепахи, либо ответы уровня студента-первокурсника. Проблема не в модели. Проблема в том, что вы неправильно выбрали между dense и MoE архитектурой. В 2026 году это уже не абстрактные термины - это вопрос "впихнуть 70B параметров в 16GB VRAM или сдохнуть".
Факт на 18.03.2026: Новейшая версия llama.cpp (на момент написания) стабильно работает с MoE, но требует компиляции с определенными флагами. Без них - падение производительности на 40%.
Dense модели: вся мощь, все ваши деньги
Dense (плотная) архитектура - это классика. Каждый нейрон связан с каждым. Qwen3-30B-Chat - яркий пример. Загрузил, запустил, работает. Пока не упрешься в лимит видеопамяти.
Плюсы dense для кодинга:
- Предсказуемое потребление памяти. 30B модель в FP16 = ~60GB. Делите на коэффициент квантования.
- Стабильная производительность. Нет внезапных просадок из-за routing'а экспертов.
- Лучшая поддержка в старых инструментах. Не все обновились под MoE.
Минусы, которые заставят вас плакать:
- Чтобы запустить Qwen3-72B (dense) на полной точности, нужно 144GB VRAM. Это 4x RTX 5090. Или одна H100. Шутки кончились.
- Квантование убивает тонкие навыки. 3-bit квантование может превратить эксперта по Python в любителя, который путает list comprehension с генератором.
MoE модели: гений с провалами в памяти
Mixture of Experts (Смесь экспертов) - архитектура, где модель состоит из множества "экспертов", но для каждого токена активируются только некоторые. Qwen3.5-MoE-A2.5-32B - ультимативный пример. Заявлено 32B параметров, но в память грузится примерно как 14B. Волшебство? Почти.
Почему все бросились на MoE для кодинга:
- Экономия памяти в 2-3 раза при сравнимом качестве. 32B MoE = производительность как у 24B dense, а памяти ест как 14B.
- Специализация экспертов. Один эксперт знает Python, другой - SQL, третий - архитектурные паттерны. Для многозадачного кодинга - идеально.
Подводные камни, о которых молчат маркетологи:
- Пиковая нагрузка на VRAM. Когда активируются "тяжелые" эксперты, потребление памяти скачет. Ваша система должна иметь запас.
- Сложная оптимизация. Не все квантователи умеют работать с MoE. Неправильное квантование - и модель превращается в тыкву.
- Требования к пропускной способности памяти. Если у вас медленная память (или вы используете RAM вместо VRAM), MoE будет тормозить сильнее dense.
Глубокий технический нюанс: в MoE моделях routing network (маршрутизатор) решает, каких экспертов активировать. Если он квантован слишком агрессивно (например, в 2-bit), он начинает ошибаться и активирует не тех экспертов. Результат - бредовый код. Всегда проверяйте, как квантователь обработал routing layers.
Если вы столкнулись с тормозами MoE, вам пригодится этот гайд по оптимизации llama.cpp.
Железо 2026: NVIDIA все еще король, но AMD дышит в спину
Выбор между зеленым и красным лагерем в 2026 году сводится к одному вопросу: готовы ли вы мириться с меньшей производительностью ради экономии или хотите максимум скорости за любые деньги?
NVIDIA RTX 50xx серия: монстры для тех, кто не считает деньги
На 18.03.2026 флагман - RTX 5090. 32GB GDDR7, пропускная способность памяти ~1.5 TB/s, поддержка FP8 в железе. Для локального LLM - это рай.
| Модель | VRAM | Что потянет для кодинга |
|---|---|---|
| RTX 5090 | 32GB | Qwen3.5-MoE-32B в 4-bit, Qwen3-72B в 3-bit |
| RTX 5080 | 16GB | Qwen3-14B в 4-bit, Qwen3.5-MoE-A2.5 в 5-bit |
| RTX 5070 Ti | 12GB | Только мелкие модели или сильное квантование |
Преимущества NVIDIA в 2026:
- CUDA и cuDNN. 90% инструментов оптимизированы под них. Llama.cpp, vLLM, TensorRT-LLM - все "из коробки" летает.
- FP8 precision. Новая формата с аппаратной поддержкой. Для inference - ускорение в 1.5-2x без потери качества по сравнению с FP16.
- Лучшая поддержка MoE. Начиная с драйверов 560.xx, routing в MoE моделях аппаратно ускоряется.
AMD Radeon RX 8000/9000 серия: бюджетный выбор с оговорками
AMD в 2026 году предлагает RX 8900 XT с 24GB памяти и RX 8800 XT с 16GB. Цены на 30-40% ниже аналогов NVIDIA. Но.
ROCm 6.0 (актуальная версия на март 2026) наконец-то стабильно работает на Windows. Но поддержка в инструментах все еще отстает.
Плюсы AMD:
- Цена за GB памяти. Больше VRAM за те же деньги.
- Open-source стек. Можно докопаться до любой проблемы.
- Хорошая производительность в llama.cpp через Vulkan backend.
Минусы, которые все портят:
- Скорость inference на 15-25% ниже, чем у NVIDIA на аналогичных моделях. Особенно заметно на MoE.
- Сложная настройка. Нужно компилировать llama.cpp с поддержкой ROCm, танцевать с драйверами.
- Ограниченная поддержка новых фич. FP8? Ждите обновления ROCm. Аппаратное ускорение MoE? Возможно, в следующем году.
Пошаговый план: как не облажаться с выбором в 2026
1 Оцените свой бюджет и толерантность к боли
Сколько вы готовы потратить на видеокарту? Сколько на оперативку? Помните: для больших моделей нужна не только VRAM, но и быстрая RAM (DDR5-6400+). Иначе вы упретесь в bandwidth.
2 Определите свой workflow кодинга
Вы пишете промпты типа "напиши CRUD API на FastAPI" (требует большого контекста и понимания архитектуры) или "исправь баг в этой функции" (короткий контекст, но нужна точность)?
- Для больших задач с контекстом 32K+ токенов: MoE модель с большим контекстом. Но проверьте проблемы с превышением контекста.
- Для точечных исправлений: dense модель с высоким качеством квантования (4-bit или выше).
3 Выберите конкретную модель и квантование
На 18.03.2026 я рекомендую такие комбинации для кодинга:
| Бюджет VRAM | Dense выбор | MoE выбор | Квантование |
|---|---|---|---|
| 8-12GB | Qwen3-7B-Chat | Qwen3.5-MoE-A2-7B | Q4_K_M или IQ3_XS |
| 12-16GB | Qwen3-14B-Chat | Qwen3.5-MoE-A2.5-14B | Q5_K_M или IQ4_XS |
| 16-24GB | Qwen3-32B-Chat | Qwen3.5-MoE-A2.5-32B | Q6_K или IQ4_XS |
| 24GB+ | Qwen3-72B-Chat | Qwen3.5-MoE-A3-72B | Q8 или FP16 (если хватит памяти) |
Про квантования от AesSedai и CatalystSec читайте в отдельном обзоре. Их IQ3_XS и Q4_K_S часто дают лучшее качество при том же размере.
4 Соберите систему с запасом
Не покупайте видеокарту впритык по VRAM. Оставьте 20-30% запаса:
- Для модели, которая занимает 14GB, берите карту с 16GB минимум.
- Оперативная память: 32GB для систем с 12-16GB VRAM, 64GB+ для 24GB+ VRAM.
- SSD: только NVMe Gen5. Загрузка 30B модели с диска не должна занимать 5 минут.
Типичные ошибки, которые сломают вашу систему
Я видел эти ошибки десятки раз. Не повторяйте их.
Ошибка 1: Покупка RTX 5070 Ti (12GB) для запуска Qwen3.5-MoE-32B. Даже в 3-bit она займет 13-14GB. Плюс overhead системы. Результат - постоянные свапы и скорость 1 токен/сек.
Ошибка 2: Использование агрессивного квантования (2-bit) для MoE моделей. Routing network теряет точность, модель начинает генерировать синтаксически правильный, но семантически бредовый код. Всегда тестируйте квантование на ваших типовых задачах.
Ошибка 3: Запуск больших моделей через CPU+RAM без проверки скорости RAM. DDR4-3200 будет bottleneck'ом. Вы получите 0.5 токена/сек и решите, что локальные LLM - это сказки.
Если сомневаетесь в выборе модели под конкретный объем памяти, посмотрите сравнение для 12GB VRAM.
Мой вердикт на 2026 год
Для большинства разработчиков, которые хотят AI-помощника в кодинге прямо сейчас, я рекомендую:
- Бюджет до 1000$: AMD RX 8800 XT (16GB) + Qwen3.5-MoE-A2.5-14B в Q5_K_M квантовании. Экономично и достаточно умно.
- Бюджет до 2000$: NVIDIA RTX 5080 (16GB) + Qwen3.5-MoE-A2.5-32B в Q6_K. Скорость и качество.
- Бюджет не ограничен: 2x NVIDIA RTX 5090 (64GB суммарно) + Qwen3-72B-Chat в FP16. Или Qwen3.5-MoE-A3-72B в Q8. Богам - богово.
Dense модели берите только если:
- Вам критически важна стабильность (деплой в продакшн).
- Вы работаете с очень специфическим кодом, где MoE еще не натренирована.
- Ваши инструменты не поддерживают MoE (но в 2026 году таких уже мало).
Тренд 2026 года очевиден: MoE становятся стандартом для локального запуска. Они экономят память, а с новыми квантованиями почти не теряют в качестве. Но требуют более умного подхода к выбору железа и настройке.
И последний совет: не гонитесь за самыми большими моделями. Часто Qwen3.5-MoE-A2.5-14B в хорошем квантовании решает 90% задач кодинга лучше, чем 72B модель, которая не влезает в память и тормозит. Тестируйте на своих задачах. Сравнивайте. И помните - в 2027 году все снова поменяется.