ASUS GX10 для LLM: тесты с моделями до 230B, сравнение с GPT5-mini, экономия

Почему облачные LLM в 2026 году - это кабала

Вы платите $0.12 за 1K токенов вывода у GPT5-mini. Claude Sonnet просит $0.18. В месяц на код-ревью и дизайн уходит 5-7 миллионов токенов. Счет приходит на $800. Каждый месяц. Год - и вы могли купить мощный ноутбук. Но страшнее не деньги, а лимиты. В 3 часа ночи, когда приходит озарение, API возвращает 429 ошибку. Cloud-провайдеры снизили лимиты запросов в минуту для индивидуальных разработчиков. Вы зависите от их щедрости.

Облачные модели с каждым годом становятся умнее, но и дороже. GPT5-mini, выпущенная в начале 2026, дает качество на уровне GPT-4 2024 года, но цена снизилась лишь на 15%. Экономия иллюзорна.

ASUS GX10: что внутри этого монстра

Распаковываю коробку. Ноутбук весит 3.8 кг - сразу понятно, что это не для кофеен. Ключевая спецификация на 2026 год: мобильный NVIDIA GeForce RTX 5000 Laptop GPU с 24 ГБ GDDR7 памяти. Да, в ноутбуке. Плюс 64 ГБ DDR5-6400 ОЗУ и процессор Intel Core Ultra 9 285K. Это не игровой ноутбук. Это портативная AI-станция.

Компонент	Спецификация ASUS GX10 (2026)	Важно для LLM
GPU	NVIDIA RTX 5000 Laptop (24 ГБ GDDR7)	Объем VRAM определяет максимальный размер модели. 24 ГБ - это 70B параметров в 4-битном квантовании или 120B в 3-битном.
ОЗУ	64 ГБ DDR5-6400 (2 слота, апгрейд до 128 ГБ)	Для оффлоадинга слоев модели из VRAM в RAM. Без этого большие модели не запустить.
Процессор	Intel Core Ultra 9 285K (24 ядра, 5.8 ГГц)	Обрабатывает часть вычислений, когда GPU перегружен. В llama.cpp загружает CPU, если не хватает VRAM.
Охлаждение	Двойная система с паровыми камерами и 4 вентиляторами	LLM нагружают систему часами. Без хорошего охлаждения начнется троттлинг через 15 минут.

Главный конкурент для такой сборки - не другие ноутбуки, а мини-ПК или стационарные системы вроде тех, что описаны в статье "Две RTX 4090 против Гигачата". Но там нет портативности.

Настройка за 30 минут: от коробки до генерации

Windows 11 Pro уже установлена. Первое, что делаю - ставлю WSL2 с Ubuntu 24.04. Почему не чистой Linux? Потому что драйверы для RTX 5000 в Linux еще сырые на март 2026. В WSL2 CUDA работает стабильнее.

1Установка CUDA и llama.cpp

Скачиваю CUDA Toolkit 13.5 - последнюю стабильную для WSL2. Потом компилирую llama.cpp с поддержкой CUDA и CUBLAS.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUDA=1 -j24

Флаг -j24 использует все 24 ядра процессора. Компиляция занимает 4 минуты.

2Загрузка моделей

Беру три актуальные на 2026 год модели: Llama 3.3 70B в GGUF формате (Q4_K_M), Qwen3.5 122B (Q3_K_S) и MiniMax-M2.5 230B MoE (Q2_K). Последняя - настоящий зверь, о котором мы писали в разборе для Mac M3 Max. Файлы весят от 40 до 65 ГБ. Жду час на скачивание.

💡

Не используйте встроенный Wi-Fi для скачивания моделей. Подключите Ethernet-кабель или USB-C адаптер. На скорости 1 Гбит/с модель 65 ГБ скачается за 10 минут, а не за час.

Цифры не врут: тесты на реальных задачах

Методика простая: запускаю каждую модель на трех задачах - генерация кода на Python (1000 токенов), суммаризация технического текста (500 токенов вход, 200 выход), и решение математической задачи (200 токенов). Измеряю время до первого токена (TTFT) и общее время генерации. Температура 0.7, контекст 4096 токенов.

Модель (GGUF квантование)	Скорость (токенов/с)	Потребление VRAM	Качество кода (1-10)	Примечание
Llama 3.3 70B (Q4_K_M)	42.5	21.8 ГБ	8.5	Стабильно, но немного устарела к 2026
Qwen3.5 122B (Q3_K_S)	18.7	23.5 ГБ	9.2	Почти полностью в VRAM, оффлоад минимальный
MiniMax-M2.5 230B MoE (Q2_K)	7.3	24 ГБ + 32 ГБ ОЗУ	9.8	Медленно, но качество близко к облачным гигантам

Что видим? Qwen3.5 122B - лучший компромисс. 18 токенов в секунду - это читаемая скорость. Можно вести диалог без раздражения. Для сравнения, в статье про оптимизацию памяти на системе с 48 ГБ ОЗУ та же модель давала 5 токенов/с. Здесь GPU решает.

Не верьте бенчмаркам, где тестируют только маленькие модели. Разница между 7B и 70B параметрами - как между велосипедом и Ferrari. На маленьких моделях любой ноутбук будет летать, но они бесполезны для сложных задач.

Лицом к лицу: локальный 122B против облачных монстров

Беру одну задачу: "Напиши микросервис на FastAPI для обработки PDF с очередями Redis и кэшированием в MongoDB. Код должен быть production-ready". Даю ее Qwen3.5 122B на GX10, GPT5-mini через API и Claude Sonnet. Оцениваю по четырем критериям: корректность кода, полнота решения, наличие тестов, время ответа.

Qwen3.5 122B (локально): Генерация заняла 2 минуты 17 секунд. Код рабочий, но нет обработки ошибок для Redis. Тесты только базовые. Качество: 7/10.
GPT5-mini (облако): Ответ за 12 секунд. Код идеальный, с кастомными исключениями, конфигурацией через Pydantic, и нагрузочным тестом в комплекте. 9/10.
Claude Sonnet: 15 секунд. Код хорош, но слишком академичен - используются паттерны, которые усложняют поддержку. 8/10.

Облачные модели все еще умнее. Но разрыв сокращается. Для 80% повседневных задач - запросы к БД, рефакторинг, написание документации - локальная 122B модель справляется на твердую восьмерку. А главное - нет лимитов. Можно гонять 10 часов подряд, тестируя промпты.

Сколько вы сэкономите за год: реальные цифры

Стоимость ASUS GX10 на март 2026 года - 450 000 рублей. Допустим, берем в кредит на 3 года. Ежемесячный платеж - 15 000 рублей. Плюс электричество: ноутбук под нагрузкой потребляет 330 Вт. При 8 часах работы в день, 22 дня в месяц, по тарифу 8 руб/кВт·ч - это 465 рублей в месяц.

Итого: 15 465 рублей в месяц.

Теперь облако. Мои исторические данные за 2025 год: в среднем 6 млн токенов в месяц на код и дизайн. GPT5-mini берет $0.08 за 1K входных и $0.12 за 1K выходных токенов. В среднем получается $0.10 за 1K. 6 млн токенов = $600. По курсу 95 руб/доллар - это 57 000 рублей в месяц.

Экономия: 57 000 - 15 465 = 41 535 рублей в месяц. За год - почти полмиллиона. Но это если использовать модель интенсивно. Если вы генерируете меньше 2 млн токенов в месяц, экономия стремится к нулю. Считайте свой объем.

💡

Не забывайте про стоимость своей настройки и времени. Если вы потратите неделю на то, чтобы заставить модель работать стабильно, это тоже деньги. Но для Senior DevOps это обычно 2-3 часа работы.

Подводные камни, о которых молчат продавцы

Первая неделя с GX10 - это не только восторг. Вот что раздражает:

Шум. Под нагрузкой вентиляторы выдают 55 дБ. Это как разговор средней громкости. В офисе терпимо, дома - бесит. Нужны наушники с шумоподавлением.
Тепловыделение. Корпус над клавиатурой нагревается до 48°C. Пальцам не больно, но неприятно. Решение - внешняя клавиатура.
Вес и блок питания. Блок на 330Вт весит 1.2 кг. Сумка с ноутбуком - 5 кг. Это не для ежедневных поездок в офис.
Драйверы. NVIDIA еще не отточила драйверы для RTX 5000 в мобильном варианте. Раз в две недели выходит обновление, которое ломает CUDA. Приходится откатываться.

И главное: апгрейд невозможен. GPU впаян в материнскую плату. Через 2 года, когда выйдут модели с 500B параметрами, этот ноутбук устареет. В отличие от стационарной сборки, где можно заменить видеокарту, как в уникальном Mini PC с 68 ГБ VRAM.

Вердикт: кому выгодно, а кому нет

Берите ASUS GX10, если:

Генерируете больше 3 млн токенов в месяц через облачные API.
Работаете с конфиденциальными данными, которые нельзя отправлять в облако.
Часто упираетесь в лимиты запросов у OpenAI или Anthropic.
Вам нужна мобильность, но стационарная сборка с двумя RTX 4090 не подходит.

Не тратьте деньги, если:

Ваш токеновый бюджет меньше 50 000 рублей в месяц - окупаться будет годами.
Вы не готовы возиться с WSL2, компиляцией llama.cpp и поиском рабочих GGUF файлов.
Нужна максимальная производительность - тогда смотрите в сторону DGX Spark с 128 ГБ памяти или стационарных решений.

Мой прогноз на конец 2026: NVIDIA выпустит мобильный GPU с 32 ГБ VRAM. ASUS сделает GX11 на его основе. И тогда порог войдет модели размером 150-170B параметров без сильного квантования. Локальные LLM догонят облачные по качеству для большинства задач. А пока GX10 - это лучший портативный компромисс на рынке. Дорогой, шумный, но работающий.

P.S. Не покупайте эту модель для игр. За эти деньги можно взять ноутбук с таким же GPU, но с лучшим экраном и клавиатурой. GX10 создан для одной цели - запускать большие языковые модели. И он справляется.

Подписаться на канал

ASUS GX10 для локальных LLM: анализ производительности, сравнение с GPT5-mini и Claude Sonnet