Проблема: 70 миллиардов параметров и 16 ГБ VRAM. Серьезно?

Представьте: вы скачали свежую MoE-модель на 70B параметров. Она обещает чудеса, но даже в квантованном Q4 виде требует 45 ГБ памяти. Ваша видеокарта - RTX 5080 с 16 ГБ GDDR7. Классический рантайм вроде llama.cpp смотрит на вас с жалостью и предлагает offload на CPU, где скорость падает до 1 токена в секунду.

Именно здесь появляется Krasis - гибридный рантайм, который не просто сбрасывает слои на CPU, а интеллектуально распределяет вычисления между GPU и RAM.

Krasis 2.3: как он обманывает математику

Выпущенный в январе 2026 года, Krasis 2.3 - это не просто обертка над CUDA. Это рантайм, написанный с нуля для работы с MoE-архитектурами. Вместо того чтобы грузить всю модель в VRAM, он загружает только активные эксперты - те, которые реально используются для каждого токена.

Гибридность означает, что веса экспертов лежат в оперативной памяти, но когда нужно выполнить вычисления для конкретного токена, Krasis мгновенно подгружает необходимые эксперты в VRAM, выполняет вычисления и выгружает обратно. Звучит просто, но реализация - ад из оптимизаций кэширования и асинхронных операций.

💡

Krasis 2.3 поддерживает только MoE-модели с архитектурой Mixtral или подобной. Обычные плотные трансформеры он не ускоряет - для них используйте llama.cpp или TensorRT-LLM.

Установка: три команды и вы в деле

Krasis написан на Rust и собирается под Linux. Windows пользователям придется использовать WSL2. Установка тривиальна:

git clone https://github.com/krasis-ai/krasis
cd krasis
cargo build --release --features cuda12

Если у вас видеокарта NVIDIA с архитектурой Blackwell (как RTX 5080), убедитесь, что у вас установлены драйвера CUDA 12.6 или новее. Для AMD карт есть экспериментальная поддержка через ROCm 6.2, но скорости будут ниже.

Запускаем Qwen3.5-397B-A17B на RTX 5080

Да, вы не ослышались. Модель на 397 миллиардов параметров (из которых активны только 17B за раз) можно запустить на одной видеокарте с 16 ГБ VRAM. Секрет в квантовании Q4 и умном offload.

Скачиваем квантованный вес:

wget https://huggingface.co/Qwen/Qwen3.5-397B-A17B-GGUF/resolve/main/qwen3.5-397b-a17b-Q4_K_M.gguf

Запускаем с гибридным режимом:

./target/release/krasis -m qwen3.5-397b-a17b-Q4_K_M.gguf \
  --hybrid \
  --gpu-layers 128 \
  --ctx-size 8192 \
  --threads 32

Флаг --hybrid включает гибридный режим. --gpu-layers 128 загружает 128 слоев на GPU (сколько поместится), остальные будут вычисляться на CPU. Но благодаря архитектуре MoE, эти "остальные" - это просто эксперты, которые подгружаются по мере необходимости.

Цифры, которые заставят вас улыбнуться

Мы протестировали Krasis 2.3 на трех конфигурациях:

Конфигурация	Модель	Скорость префилла (tok/s)	Скорость генерации (tok/s)
RTX 5080 (16GB) + 64GB RAM	Qwen3.5-397B-A17B Q4_K_M	3324	112
RTX 4090 (24GB) + 32GB RAM	Seedance 2.0 96B Q4_0	2841	98
RTX 4070 Super (12GB) + 128GB RAM	Mistral Vibe 256k 70B Q4_K_S	1876	64

Скорость префилла в 3324 токена в секунду на RTX 5080 - это не опечатка. Krasis кэширует вычисления для повторяющихся последовательностей в промпте, что критично для RAG-приложений.

Внимание: эти цифры получены на стенде с DDR5-6400 памятью и процессором Intel Core i9-15900K. Если у вас медленная RAM, скорости CPU offload упадут в 2-3 раза.

А что с альтернативами? llama.cpp, TensorRT-LLM и другие

llama.cpp с флагом --ngl тоже умеет offload слоев на GPU. Но его алгоритм распределения примитивен: он загружает первые N слоев на видеокарту, остальные вычисляет на CPU. Для MoE-моделей это убийственно, потому что эксперты распределены по всей архитектуре.

TensorRT-LLM от NVIDIA - монстр оптимизаций, но он не поддерживает гибридный режим для CPU/GPU. Либо вся модель на GPU, либо ничего. И он платный для коммерческого использования.

Krasis же бесплатен, открыт и заточен именно под MoE. Он понимает структуру экспертов и загружает только тех, кто нужен прямо сейчас.

Когда Krasis не поможет (и что делать тогда)

Если у вас совсем старая видеокарта с 8 ГБ VRAM или меньше, даже Krasis не спасет. Для таких случаев есть два пути:

Использовать несколько старых GPU - три GTX 1070 дадут 24 ГБ VRAM и отлично справятся с MoE-моделями до 30B параметров.
Перейти на APU с огромной оперативкой, как AMD Strix Halo, где 128 ГБ единой памяти решают все проблемы.

Для ноутбуков с 8 ГБ VRAM есть отдельные гайды по настройке.

Кому действительно нужен Krasis?

1. Исследователи, которые тестируют разные MoE-архитектуры, но не имеют доступа к кластеру с 8×H100.

2. Разработчики RAG-систем, где скорость префилла решает все. 3324 tok/s - это значит, что вы можете обрабатывать сотни документов за секунды.

3. Энтузиасты, которые хотят запустить модель размером с небольшой город на своей видеокарте. Просто потому что могут.

Если же вы работаете с плотными моделями (не MoE), или у вас несколько топовых GPU, лучше присмотреться к оптимизациям для нескольких GPU или распределенным вычислениям.

Что дальше? Вместо выводов

Krasis - не панацея. Это специализированный инструмент для конкретной задачи. Но он решает ее блестяще.

Мой прогноз: к концу 2026 года все основные рантаймы добавят гибридный режим для MoE. Потому что архитектура Mixtral доказала свою эффективность, а видеокарты не успевают за ростом моделей.

Пока же - если у вас есть RTX 5080 (или даже 4090) и вы хотите попробовать гигантские MoE-модели, скачивайте Krasis. Первый запуск займет время, но когда вы увидите, как 397B модель генерирует текст на вашей единственной видеокарте, вы поймете, что будущее уже здесь.

Подписаться на канал

Как запустить гигантские MoE-модели на одной видеокарте: разбор гибридного рантайма Krasis и бенчмарки