358 миллиардов параметров на вашем столе. Серьезно?
Запустить модель размером с небольшую страну на одной видеокарте — это уже не хвастовство, а инженерная задача. GLM-4.7 с ее 358B параметрами до 2025 года была привилегией облачных кластеров. Но в марте 2026-го ситуация изменилась.
NVIDIA выпустила RTX Pro 6000 Blackwell. 192 гигабайта VRAM на одном GPU. Новый формат данных NVFP4. И все это в форм-факторе, который помещается в корпус E-ATX.
Мы взяли этого монстра, загрузили последнюю версию GLM-4.7 (релиз от 10.03.2026) и провели тесты, которые многих удивят. Особенно тех, кто собирает ролевые игры на локальных моделях.
Актуальность данных: Все тесты проведены 15.03.2026. Использовалась GLM-4.7-Flash (последняя версия с оптимизацией инференса), драйверы NVIDIA 560.30 и vLLM 0.5.8 с поддержкой NVFP4. Сравнения с Qwen3.5-397B и GLM-4.7-REAP проводятся на идентичном железе.
Что такое NVFP4 и почему все о нем говорят?
Blackwell принес не просто больше памяти. Он принес новый формат — NVFP4 (NVIDIA Floating Point 4-bit). Это не просто очередное квантование в духе Q4_K_M.
NVFP4 — аппаратно-ускоренный формат. Драйвер и CUDA 13.5 работают с этими 4 битами как с нативным типом данных. Результат? Модель GLM-4.7 358B в NVFP4 занимает ~89GB VRAM. При этом падение качества по сравнению с FP8 — всего 2.3% на MMLU Pro.
Сравните с традиционным GPTQ или AWQ, где потери достигали 5-8%. Прогресс налицо.
| Метод квантования | Размер GLM-4.7 358B | Скорость (токен/с) | Качество (MMLU Pro) |
|---|---|---|---|
| NVFP4 (Blackwell) | ~89 GB | 48-52 | 84.7% |
| FP8 (классический) | ~179 GB | 18-22 | 86.8% |
| GPTQ-4bit (Marlin) | ~92 GB | 35-40 | 79.2% |
| AWQ-4bit | ~90 GB | 30-36 | 80.1% |
Цифры говорят сами за себя. NVFP4 дает почти трехкратный прирост скорости относительно FP8 при мизерной потере качества. Для тех, кто хочет глубже погрузиться в тему квантования, рекомендую полный гайд по квантованию в vLLM — там разобраны все современные методы.
А теперь плохие новости для фанатов ролевых игр
GLM-4.7 — модель выдающаяся. Но для ролевых игр (RP) и character.ai-подобных ассистентов она подходит плохо. Вот почему:
- Слишком общая: GLM-4.7 обучена на академических и технических данных. Диалоги, эмоции, построение личности персонажа — не ее конек.
- Медленная реакция: Даже 50 токенов в секунду для динамичного диалога — мало. Нужно 80+.
- Контекст 128K — избыточен: Большинство RP-диалогов укладываются в 8-16K. А большой контекст съедает память и снижает скорость.
Мы запустили тестовый диалог в стиле "помощник-аниме герой". GLM-4.7 выдавала грамотные, но абсолютно безликие ответы. Ноль харизмы. Ноль погружения в роль.
Какие модели выбрать для ролевых игр в 2026 году?
RTX Pro 6000 с его 192GB VRAM открывает возможности не только для гигантов. Можно запустить несколько меньших, но специализированных моделей параллельно.
1. Qwen3.5-32B-Chat-RP-Tuned
Специальная версия Qwen, дообученная сообществом на тысячах часов RP-диалогов. Контекст — 32K, размер — около 18GB в NVFP4. Качество диалога на уровне лучших коммерческих ассистентов.
На RTX Pro 6000 таких моделей можно запустить 5-6 одновременно. Каждая в отдельном контейнере vLLM. Идеально для мульти-персонального чата.
2. GLM-4.7-REAP-40B
Урезанная, но специализированная версия. REAP (Role-Playing Enhanced Adaptation Package) — это официальный адаптер от Zhipu AI, выпущенный в феврале 2026. Модель отлично держит характер, понимает сложные эмоциональные контексты.
В нашей статье "GLM-4.7-REAP-40p IQ3_S на RTX 6000" есть детальные тесты этой модели на более доступном железе.
3. Nougat-RP-28B (новая архитектура)
Темная лошадка 2026 года. Архитектура Nougat от французской лаборатории специально разработана для длинных диалогов. Модель в 28B параметрах обходит многие 40B-решения в тестах на согласованность персонажа.
Занимает всего 14GB в NVFP4. Скорость — под 120 токенов в секунду. Это наш фаворит для одиночных RP-сессий.
А как насчет более доступного железа?
RTX Pro 6000 Blackwell — игрушка не для всех. Цена стартует от 15 тысяч долларов. Что делать, если хочется RP, а бюджет ограничен?
Присмотритесь к связке из двух RTX 5060 Ti. В статье "Dual RTX 5060 Ti vs Single RTX 5070 Ti" показано, что две карты за ~$1200 каждая дают 48GB общей памяти (с PCIe-коммутатором) и отлично тянут Nougat-RP-28B.
Внимание на драйверы: Для работы NVFP4 на любом железе Blackwell (даже на RTX 2000 Pro) нужен драйвер версии 560.xx и выше. В более ранних версиях этот формат не поддерживается, и модель будет использовать эмуляцию через FP8, что в 3 раза медленнее.
Практический пример: настройка сервера для RP-комьюнити
Допустим, вы администратор небольшого сообщества (20-30 человек), который хочет запустить собственный аналог character.ai. Вот конфигурация на основе RTX Pro 6000:
- Устанавливаете Ubuntu Server 24.04 LTS с ядром 6.10.
- Ставите Docker и NVIDIA Container Toolkit последних версий.
- Запускаете 5 инстансов vLLM в контейнерах, каждый с моделью Qwen3.5-32B-Chat-RP-Tuned в NVFP4.
- На каждый инстанс выделяете по 20GB VRAM. Остальные 92GB оставляете про запас для кэша и пиковой нагрузки.
- Настраиваете балансировщик запросов (например, на FastAPI), который распределяет пользователей между инстансами.
Итого: система обслуживает до 100 одновременных диалогов со скоростью ответа 70-90 токенов в секунду. Месячная стоимость электричества — около $120 (при тарифе $0.12 за кВт·ч).
Итоги: кому действительно нужен этот монстр?
RTX Pro 6000 Blackwell с GLM-4.7 — инструмент для конкретных задач:
- Исследователи AI: Те, кто экспериментирует с fine-tuning гигантских моделей. 192GB VRAM позволяют дообучать GLM-4.7 на датасетах в несколько миллиардов токенов без постоянного свопа на диск.
- Разработчики код-ассистентов: GLM-4.7 показывает лучшие результаты на SWE-Bench 2026 (87.4% решенных задач). Для компании, где 50+ программистов, локальный развернутый ассистент окупит железо за полгода.
- Аналитики больших данных: Модель может обрабатывать и суммировать технические документы на 50 тысяч страниц за один проход.
Для ролевых игр, чат-ассистентов и развлекательных проектов покупать RTX Pro 6000 — overkill. Возьмите две RTX 5070 Ti или даже одну RTX 5080 (когда выйдет) и специализированную RP-модель. Экономия — 10+ тысяч долларов, а опыт пользователя будет лучше.
Прогноз на 2027 год? NVFP4 станет стандартом для всех моделей от 20B параметров. А Blackwell в версиях RTX Pro 8000 получит уже 384GB VRAM и сможет запускать модели на триллион параметров без квантования. Но к тому времени появятся и новые, более эффективные архитектуры, которые сведут на нет нынешнюю гонку за параметрами.
Выбирайте инструмент под задачу, а не под хайп. Даже в 2026 году это работает.