Почему Qwen 3.5-35B-A3B — это боль, но вы хотите его запустить
Вы видели тесты. Вы читали, что Qwen 3.5-35B-A3B бьет бесплатные облака. И теперь вам кажется, что запустить эту 35-миллиардную модель на своем ноутбуке — идея. Это не идея. Это квест на выживание железа. Но если сделать все правильно, то работает. И даже довольно шустро.
Проблема в цифрах: оригинальная модель весит ~70 ГБ в FP16. Даже с квантованием до 4-бит (Q4_K_M) — это ~20 ГБ. И это только вес модели. Еще нужна память под контекст, под кеш, под ваше самоуважение, когда вы ждете ответа 30 секунд. В облаке это решается деньгами. На ноутбуке — головной болью и правильным выбором компонентов.
На 15.03.2026 Qwen 3.5-35B-A3B остается одной из самых сбалансированных open-source моделей для локального запуска. Но "локальный" не значит "на чем попало".
Минимальные требования: где заканчивается теория и начинается реальность
Официальные требования — это сказка для оптимистов. На бумаге нужно 16 ГБ VRAM для FP16. В реальности, никто в здравом уме не станет грузить 35B модель без квантования на ноутбук. Мы живем в эпоху агрессивного квантования.
Вот что действительно нужно на 2026 год:
- Видеопамять (VRAM): 8 ГБ — абсолютный минимум. Для Q4_K_M квантования. Хотите Q5? Приготовьте 10-12 ГБ. Мечтаете о большом контексте (32k токенов)? 16 ГБ не помешают. Но мы говорим о бюджетном варианте. 8 ГБ — это порог входа.
- Оперативная память (ОЗУ): 64 ГБ. Серьезно. Почему так много? Потому что даже с 8 ГБ VRAM, большая часть модели будет жить в оперативке через оффлоадинг. 32 ГБ — это впритык, система будет постоянно свопиться. 64 ГБ дают дыхание.
- CPU: Современный, 8+ ядер. Не для вычислений (их делает GPU), а для управления памятью и оффлоадингом. Intel 12+ Gen или AMD Ryzen 5000+ серии.
- Накопитель: NVMe SSD, 1 ТБ. Модель загружается с диска. HDD убьет все удовольствие.
- Охлаждение: Это не шутка. Ноутбук будет грузиться на 100% минут по 10-15. Если кулеры звучат как взлетающий истребитель — это нормально. Если ноутбук выключается от перегрева — нет.
Пошаговый план: как не купить бесполезный кирпич
1Определите бюджет и найдите GPU с 8+ ГБ VRAM
В 2026 году на бюджетном рынке (до 1500$) царят мобильные NVIDIA RTX 4060 (8 ГБ), RTX 4070 (8 ГБ) и их обновленные версии. AMD Radeon RX 7600M XT (8 ГБ) тоже работает, но с ней больше геморроя из-за менее зрелой поддержки в llama.cpp и Ollama. Выбирайте NVIDIA — скучно, зато предсказуемо.
2Найдите ноутбук с 64 ГБ ОЗУ (или слотом для апгрейда)
Вот здесь начинается ад. Большинство бюджетных ноутбуков продаются с 16 ГБ, реже с 32 ГБ. 64 ГБ — удел игровых или рабочих станций. Ищите модели, где два слота SO-DIMM и максимальный поддерживаемый объем — 64 ГБ. Часто это Lenovo Legion, ASUS TUF, Acer Nitro серии. Не верьте на слово — проверяйте спецификации на сайте производителя.
3Проверьте систему охлаждения
Найдите обзоры на YouTube. Если в играх ноутбук держит 85°C на GPU и CPU, то под долгой нагрузкой LLM он, скорее всего, будет троттлить. Ищите фразы "хорошее охлаждение", "не греется". Игнорируйте тонкие ультрабуки — они для этой задачи не годятся.
4Соберите конфигурацию и протестируйте
Допустим, вы нашли ASUS TUF с RTX 4060 (8 ГБ), 32 ГБ ОЗУ (с возможностью апгрейда до 64 ГБ). Это хорошая база. Сразу докупите вторую планку на 32 ГБ. Обойдется дешевле, чем покупать готовый ноут с 64 ГБ.
| Компонент | Минимум | Рекомендуется (бюджет) | Идеал (но дорого) |
|---|---|---|---|
| GPU (VRAM) | RTX 3060 6 ГБ (сложно) | RTX 4060 8 ГБ | RTX 4080 Mobile 12 ГБ |
| ОЗУ | 32 ГБ (будет своп) | 64 ГБ | 96 ГБ (редко) |
| CPU | Intel i5-12450H | AMD Ryzen 7 7840HS | Intel Core i9-14900HX |
| Накопитель | 512 ГБ SSD | 1 ТБ NVMe SSD | 2 ТБ NVMe PCIe 4.0 |
Реальные тесты: что получилось на железе за 1200$
Я взял ноутбук MSI Katana 15 (2025 года), купленный по акции за ~1150$: RTX 4060 8 ГБ, 32 ГБ ОЗУ (апгрейднул до 64 ГБ за 80$), Intel Core i7-13650HX, 1 ТБ SSD. Установил Ollama версии 0.5.0 (актуально на 15.03.2026) и попробовал запустить Qwen 3.5-35B-A3B в квантовании Q4_K_M.
ollama run qwen2.5:35b-a3b-q4_K_M
# Да, в 2026 году модель в Ollama называется qwen2.5, это последняя доступная версия.Результаты:
- Загрузка модели: ~45 секунд. 20 ГБ с SSD загрузились в память (часть в VRAM, часть в ОЗУ).
- Скорость генерации (tokens/s): 8-12 токенов в секунду при контексте 4096. Это медленно, но читабельно. Для сравнения, на ASUS GX10 с RTX 4090 скорость была бы 40+ токенов.
- Потребление памяти: VRAM заполнена полностью (7.8/8 ГБ). ОЗУ используется 48 ГБ из 64 ГБ. Без апгрейда до 64 ГБ система бы ушла в своп, и скорость упала бы до 1-2 токенов в секунду.
- Температура: GPU стабильно 86°C, CPU 78°C. Кулеры работают на максимум. Через 30 минут троттлинга не было.
8-12 токенов в секунду — это не для чата в реальном времени. Это для автономных задач: генерация кода, анализ документов, планирование. Если нужен быстрый диалог, смотрите в сторону маленьких, но эффективных 3B моделей.
Лайфхаки, которые спасут ваши нервы и железо
1. Оффлоадинг — ваш друг. В llama.cpp (а Ollama использует его под капотом) настройте количество слоев для GPU. По умолчанию он загрузит в VRAM столько, сколько сможет. Но если у вас 8 ГБ VRAM и 64 ГБ ОЗУ, можно поиграться, чтобы снизить нагрузку на видеопамять и немного разгрузить температуру, ценой небольшого падения скорости.
# Пример запуска через llama.cpp напрямую с указанием слоев для GPU
./main -m qwen2.5-35b-a3b-q4_K_M.gguf -ngl 28 -c 4096 -n 512 -t 16
# -ngl 28 означает загрузить 28 слоев на GPU (экспериментируйте)2. Квантование — это магия. Не стесняйтесь использовать Q3_K_S или даже Q2_K, если задача не требует максимальной точности. Некоторые модели держат удар даже при Q2. Разница в размере: Q4_K_M — 20 ГБ, Q2_K — ~12 ГБ. Это может быть гранью между "влезает в VRAM" и "нужен оффлоадинг".
3. Поднимите ноутбук. Буквально. Купите охлаждающую подставку или хотя бы поставьте на две книги, чтобы воздух поступал снизу. Снижение температуры на 5 градусов может предотвратить троттлинг.
4. Закрепите частоту GPU. С помощью MSI Afterburner или NVIDIA Profile Inspector зафиксируйте частоту GPU на среднем значении, чтобы избежать резких скачков и перегрева. Это не добавит скорости, но сделает температуру стабильной.
Типичные ошибки, которые все совершают (и как их избежать)
Ошибка 1: Покупка ноутбука с 16 ГБ ОЗУ в надежде, что "и так сойдет". Не сойдет. Даже с 32 ГБ будет тяжело. 64 ГБ — это новый минимум для 35B моделей в 2026.
Ошибка 2: Выбор ноутбука с GPU RTX 3050 (4 ГБ) или RTX 4050 (6 ГБ). Этого мало. 8 ГБ VRAM — порог. Меньше — и вы будете мучиться с оффлоадингом на CPU, где скорость упадет до 1-2 токенов в секунду.
Ошибка 3: Игнорирование тепловыделения. Ноутбук, который перегревается в играх за 10 минут, под нагрузкой LLM отключится через полчаса. Ищите обзоры с температурными тестами.
Стоит ли оно того в 2026?
Если вам нужен локальный ассистент для работы с кодом или анализа документов, и вы готовы мириться со скоростью 10 токенов в секунду — да. Qwen 3.5-35B-A3B показывает впечатляющие результаты в multi-agent задачах. Если же вы хотите быстрый чат, лучше арендовать облако или использовать меньшую модель.
Бюджетный ноутбук за 1200-1500$ с RTX 4060 и 64 ГБ ОЗУ — это рабочая лошадка для локального ИИ. Не ждите чудес, но и не списывайте со счетов. А если хочется монстра, который не поместится ни в один дом, посмотрите на Qwen 3.5 Plus на 397 миллиардов параметров. Там уже нужен не ноутбук, а целый сервер.
И последний совет: покупайте ноутбук с возможностью возврата. Протестируйте его с реальной моделью в течение недели. Если что-то не так — отдавайте назад. Это железо, а не брак, который надо терпеть.