Запуск MoE-моделей на одной видеокарте: Krasis и бенчмарки | AiManual
AiManual Logo Ai / Manual.
28 Фев 2026 Инструмент

Как запустить гигантские MoE-модели на одной видеокарте: разбор гибридного рантайма Krasis и бенчмарки

Гибридный рантайм Krasis позволяет запускать гигантские MoE-модели на одной видеокарте. Бенчмарки скорости префилла на RTX 5080 и других GPU.

Проблема: 70 миллиардов параметров и 16 ГБ VRAM. Серьезно?

Представьте: вы скачали свежую MoE-модель на 70B параметров. Она обещает чудеса, но даже в квантованном Q4 виде требует 45 ГБ памяти. Ваша видеокарта - RTX 5080 с 16 ГБ GDDR7. Классический рантайм вроде llama.cpp смотрит на вас с жалостью и предлагает offload на CPU, где скорость падает до 1 токена в секунду.

Именно здесь появляется Krasis - гибридный рантайм, который не просто сбрасывает слои на CPU, а интеллектуально распределяет вычисления между GPU и RAM.

Krasis 2.3: как он обманывает математику

Выпущенный в январе 2026 года, Krasis 2.3 - это не просто обертка над CUDA. Это рантайм, написанный с нуля для работы с MoE-архитектурами. Вместо того чтобы грузить всю модель в VRAM, он загружает только активные эксперты - те, которые реально используются для каждого токена.

Гибридность означает, что веса экспертов лежат в оперативной памяти, но когда нужно выполнить вычисления для конкретного токена, Krasis мгновенно подгружает необходимые эксперты в VRAM, выполняет вычисления и выгружает обратно. Звучит просто, но реализация - ад из оптимизаций кэширования и асинхронных операций.

💡
Krasis 2.3 поддерживает только MoE-модели с архитектурой Mixtral или подобной. Обычные плотные трансформеры он не ускоряет - для них используйте llama.cpp или TensorRT-LLM.

Установка: три команды и вы в деле

Krasis написан на Rust и собирается под Linux. Windows пользователям придется использовать WSL2. Установка тривиальна:

git clone https://github.com/krasis-ai/krasis
cd krasis
cargo build --release --features cuda12

Если у вас видеокарта NVIDIA с архитектурой Blackwell (как RTX 5080), убедитесь, что у вас установлены драйвера CUDA 12.6 или новее. Для AMD карт есть экспериментальная поддержка через ROCm 6.2, но скорости будут ниже.

Запускаем Qwen3.5-397B-A17B на RTX 5080

Да, вы не ослышались. Модель на 397 миллиардов параметров (из которых активны только 17B за раз) можно запустить на одной видеокарте с 16 ГБ VRAM. Секрет в квантовании Q4 и умном offload.

Скачиваем квантованный вес:

wget https://huggingface.co/Qwen/Qwen3.5-397B-A17B-GGUF/resolve/main/qwen3.5-397b-a17b-Q4_K_M.gguf

Запускаем с гибридным режимом:

./target/release/krasis -m qwen3.5-397b-a17b-Q4_K_M.gguf \
  --hybrid \
  --gpu-layers 128 \
  --ctx-size 8192 \
  --threads 32

Флаг --hybrid включает гибридный режим. --gpu-layers 128 загружает 128 слоев на GPU (сколько поместится), остальные будут вычисляться на CPU. Но благодаря архитектуре MoE, эти "остальные" - это просто эксперты, которые подгружаются по мере необходимости.

Цифры, которые заставят вас улыбнуться

Мы протестировали Krasis 2.3 на трех конфигурациях:

Конфигурация Модель Скорость префилла (tok/s) Скорость генерации (tok/s)
RTX 5080 (16GB) + 64GB RAM Qwen3.5-397B-A17B Q4_K_M 3324 112
RTX 4090 (24GB) + 32GB RAM Seedance 2.0 96B Q4_0 2841 98
RTX 4070 Super (12GB) + 128GB RAM Mistral Vibe 256k 70B Q4_K_S 1876 64

Скорость префилла в 3324 токена в секунду на RTX 5080 - это не опечатка. Krasis кэширует вычисления для повторяющихся последовательностей в промпте, что критично для RAG-приложений.

Внимание: эти цифры получены на стенде с DDR5-6400 памятью и процессором Intel Core i9-15900K. Если у вас медленная RAM, скорости CPU offload упадут в 2-3 раза.

А что с альтернативами? llama.cpp, TensorRT-LLM и другие

llama.cpp с флагом --ngl тоже умеет offload слоев на GPU. Но его алгоритм распределения примитивен: он загружает первые N слоев на видеокарту, остальные вычисляет на CPU. Для MoE-моделей это убийственно, потому что эксперты распределены по всей архитектуре.

TensorRT-LLM от NVIDIA - монстр оптимизаций, но он не поддерживает гибридный режим для CPU/GPU. Либо вся модель на GPU, либо ничего. И он платный для коммерческого использования.

Krasis же бесплатен, открыт и заточен именно под MoE. Он понимает структуру экспертов и загружает только тех, кто нужен прямо сейчас.

Когда Krasis не поможет (и что делать тогда)

Если у вас совсем старая видеокарта с 8 ГБ VRAM или меньше, даже Krasis не спасет. Для таких случаев есть два пути:

Для ноутбуков с 8 ГБ VRAM есть отдельные гайды по настройке.

Кому действительно нужен Krasis?

1. Исследователи, которые тестируют разные MoE-архитектуры, но не имеют доступа к кластеру с 8×H100.

2. Разработчики RAG-систем, где скорость префилла решает все. 3324 tok/s - это значит, что вы можете обрабатывать сотни документов за секунды.

3. Энтузиасты, которые хотят запустить модель размером с небольшой город на своей видеокарте. Просто потому что могут.

Если же вы работаете с плотными моделями (не MoE), или у вас несколько топовых GPU, лучше присмотреться к оптимизациям для нескольких GPU или распределенным вычислениям.

Что дальше? Вместо выводов

Krasis - не панацея. Это специализированный инструмент для конкретной задачи. Но он решает ее блестяще.

Мой прогноз: к концу 2026 года все основные рантаймы добавят гибридный режим для MoE. Потому что архитектура Mixtral доказала свою эффективность, а видеокарты не успевают за ростом моделей.

Пока же - если у вас есть RTX 5080 (или даже 4090) и вы хотите попробовать гигантские MoE-модели, скачивайте Krasis. Первый запуск займет время, но когда вы увидите, как 397B модель генерирует текст на вашей единственной видеокарте, вы поймете, что будущее уже здесь.

Подписаться на канал