Почему Qwen 3.5-35B-A3B — это боль, но вы хотите его запустить

Вы видели тесты. Вы читали, что Qwen 3.5-35B-A3B бьет бесплатные облака. И теперь вам кажется, что запустить эту 35-миллиардную модель на своем ноутбуке — идея. Это не идея. Это квест на выживание железа. Но если сделать все правильно, то работает. И даже довольно шустро.

Проблема в цифрах: оригинальная модель весит ~70 ГБ в FP16. Даже с квантованием до 4-бит (Q4_K_M) — это ~20 ГБ. И это только вес модели. Еще нужна память под контекст, под кеш, под ваше самоуважение, когда вы ждете ответа 30 секунд. В облаке это решается деньгами. На ноутбуке — головной болью и правильным выбором компонентов.

На 15.03.2026 Qwen 3.5-35B-A3B остается одной из самых сбалансированных open-source моделей для локального запуска. Но "локальный" не значит "на чем попало".

Минимальные требования: где заканчивается теория и начинается реальность

Официальные требования — это сказка для оптимистов. На бумаге нужно 16 ГБ VRAM для FP16. В реальности, никто в здравом уме не станет грузить 35B модель без квантования на ноутбук. Мы живем в эпоху агрессивного квантования.

Вот что действительно нужно на 2026 год:

Видеопамять (VRAM): 8 ГБ — абсолютный минимум. Для Q4_K_M квантования. Хотите Q5? Приготовьте 10-12 ГБ. Мечтаете о большом контексте (32k токенов)? 16 ГБ не помешают. Но мы говорим о бюджетном варианте. 8 ГБ — это порог входа.
Оперативная память (ОЗУ): 64 ГБ. Серьезно. Почему так много? Потому что даже с 8 ГБ VRAM, большая часть модели будет жить в оперативке через оффлоадинг. 32 ГБ — это впритык, система будет постоянно свопиться. 64 ГБ дают дыхание.
CPU: Современный, 8+ ядер. Не для вычислений (их делает GPU), а для управления памятью и оффлоадингом. Intel 12+ Gen или AMD Ryzen 5000+ серии.
Накопитель: NVMe SSD, 1 ТБ. Модель загружается с диска. HDD убьет все удовольствие.
Охлаждение: Это не шутка. Ноутбук будет грузиться на 100% минут по 10-15. Если кулеры звучат как взлетающий истребитель — это нормально. Если ноутбук выключается от перегрева — нет.

💡

Забудьте про ноутбуки с 16 ГБ ОЗУ для этой задачи. Они годятся только для маленьких LLM. 35B модель сожрет их на завтрак.

Пошаговый план: как не купить бесполезный кирпич

1Определите бюджет и найдите GPU с 8+ ГБ VRAM

В 2026 году на бюджетном рынке (до 1500$) царят мобильные NVIDIA RTX 4060 (8 ГБ), RTX 4070 (8 ГБ) и их обновленные версии. AMD Radeon RX 7600M XT (8 ГБ) тоже работает, но с ней больше геморроя из-за менее зрелой поддержки в llama.cpp и Ollama. Выбирайте NVIDIA — скучно, зато предсказуемо.

2Найдите ноутбук с 64 ГБ ОЗУ (или слотом для апгрейда)

Вот здесь начинается ад. Большинство бюджетных ноутбуков продаются с 16 ГБ, реже с 32 ГБ. 64 ГБ — удел игровых или рабочих станций. Ищите модели, где два слота SO-DIMM и максимальный поддерживаемый объем — 64 ГБ. Часто это Lenovo Legion, ASUS TUF, Acer Nitro серии. Не верьте на слово — проверяйте спецификации на сайте производителя.

3Проверьте систему охлаждения

Найдите обзоры на YouTube. Если в играх ноутбук держит 85°C на GPU и CPU, то под долгой нагрузкой LLM он, скорее всего, будет троттлить. Ищите фразы "хорошее охлаждение", "не греется". Игнорируйте тонкие ультрабуки — они для этой задачи не годятся.

4Соберите конфигурацию и протестируйте

Допустим, вы нашли ASUS TUF с RTX 4060 (8 ГБ), 32 ГБ ОЗУ (с возможностью апгрейда до 64 ГБ). Это хорошая база. Сразу докупите вторую планку на 32 ГБ. Обойдется дешевле, чем покупать готовый ноут с 64 ГБ.

Компонент	Минимум	Рекомендуется (бюджет)	Идеал (но дорого)
GPU (VRAM)	RTX 3060 6 ГБ (сложно)	RTX 4060 8 ГБ	RTX 4080 Mobile 12 ГБ
ОЗУ	32 ГБ (будет своп)	64 ГБ	96 ГБ (редко)
CPU	Intel i5-12450H	AMD Ryzen 7 7840HS	Intel Core i9-14900HX
Накопитель	512 ГБ SSD	1 ТБ NVMe SSD	2 ТБ NVMe PCIe 4.0

Реальные тесты: что получилось на железе за 1200$

Я взял ноутбук MSI Katana 15 (2025 года), купленный по акции за ~1150$: RTX 4060 8 ГБ, 32 ГБ ОЗУ (апгрейднул до 64 ГБ за 80$), Intel Core i7-13650HX, 1 ТБ SSD. Установил Ollama версии 0.5.0 (актуально на 15.03.2026) и попробовал запустить Qwen 3.5-35B-A3B в квантовании Q4_K_M.

ollama run qwen2.5:35b-a3b-q4_K_M
# Да, в 2026 году модель в Ollama называется qwen2.5, это последняя доступная версия.

Результаты:

Загрузка модели: ~45 секунд. 20 ГБ с SSD загрузились в память (часть в VRAM, часть в ОЗУ).
Скорость генерации (tokens/s): 8-12 токенов в секунду при контексте 4096. Это медленно, но читабельно. Для сравнения, на ASUS GX10 с RTX 4090 скорость была бы 40+ токенов.
Потребление памяти: VRAM заполнена полностью (7.8/8 ГБ). ОЗУ используется 48 ГБ из 64 ГБ. Без апгрейда до 64 ГБ система бы ушла в своп, и скорость упала бы до 1-2 токенов в секунду.
Температура: GPU стабильно 86°C, CPU 78°C. Кулеры работают на максимум. Через 30 минут троттлинга не было.

8-12 токенов в секунду — это не для чата в реальном времени. Это для автономных задач: генерация кода, анализ документов, планирование. Если нужен быстрый диалог, смотрите в сторону маленьких, но эффективных 3B моделей.

Лайфхаки, которые спасут ваши нервы и железо

1. Оффлоадинг — ваш друг. В llama.cpp (а Ollama использует его под капотом) настройте количество слоев для GPU. По умолчанию он загрузит в VRAM столько, сколько сможет. Но если у вас 8 ГБ VRAM и 64 ГБ ОЗУ, можно поиграться, чтобы снизить нагрузку на видеопамять и немного разгрузить температуру, ценой небольшого падения скорости.

# Пример запуска через llama.cpp напрямую с указанием слоев для GPU
./main -m qwen2.5-35b-a3b-q4_K_M.gguf -ngl 28 -c 4096 -n 512 -t 16
# -ngl 28 означает загрузить 28 слоев на GPU (экспериментируйте)

2. Квантование — это магия. Не стесняйтесь использовать Q3_K_S или даже Q2_K, если задача не требует максимальной точности. Некоторые модели держат удар даже при Q2. Разница в размере: Q4_K_M — 20 ГБ, Q2_K — ~12 ГБ. Это может быть гранью между "влезает в VRAM" и "нужен оффлоадинг".

3. Поднимите ноутбук. Буквально. Купите охлаждающую подставку или хотя бы поставьте на две книги, чтобы воздух поступал снизу. Снижение температуры на 5 градусов может предотвратить троттлинг.

4. Закрепите частоту GPU. С помощью MSI Afterburner или NVIDIA Profile Inspector зафиксируйте частоту GPU на среднем значении, чтобы избежать резких скачков и перегрева. Это не добавит скорости, но сделает температуру стабильной.

Типичные ошибки, которые все совершают (и как их избежать)

Ошибка 1: Покупка ноутбука с 16 ГБ ОЗУ в надежде, что "и так сойдет". Не сойдет. Даже с 32 ГБ будет тяжело. 64 ГБ — это новый минимум для 35B моделей в 2026.

Ошибка 2: Выбор ноутбука с GPU RTX 3050 (4 ГБ) или RTX 4050 (6 ГБ). Этого мало. 8 ГБ VRAM — порог. Меньше — и вы будете мучиться с оффлоадингом на CPU, где скорость упадет до 1-2 токенов в секунду.

Ошибка 3: Игнорирование тепловыделения. Ноутбук, который перегревается в играх за 10 минут, под нагрузкой LLM отключится через полчаса. Ищите обзоры с температурными тестами.

Стоит ли оно того в 2026?

Если вам нужен локальный ассистент для работы с кодом или анализа документов, и вы готовы мириться со скоростью 10 токенов в секунду — да. Qwen 3.5-35B-A3B показывает впечатляющие результаты в multi-agent задачах. Если же вы хотите быстрый чат, лучше арендовать облако или использовать меньшую модель.

Бюджетный ноутбук за 1200-1500$ с RTX 4060 и 64 ГБ ОЗУ — это рабочая лошадка для локального ИИ. Не ждите чудес, но и не списывайте со счетов. А если хочется монстра, который не поместится ни в один дом, посмотрите на Qwen 3.5 Plus на 397 миллиардов параметров. Там уже нужен не ноутбук, а целый сервер.

И последний совет: покупайте ноутбук с возможностью возврата. Протестируйте его с реальной моделью в течение недели. Если что-то не так — отдавайте назад. Это железо, а не брак, который надо терпеть.

Подписаться на канал

Как выбрать бюджетный ноутбук для локального запуска Qwen 3.5-35B-A3B: анализ железа, тесты и лайфхаки