Когда 172 миллиарда параметров умещаются в 96 ГБ VRAM, а остальные 80% модели спокойно лежат в DDR5 — это звучит как фантастика. Но MiniMax 2.7 с техникой REAP делает это реальностью. Я провел серию тестов на связке двух RTX 5090 (48+48 ГБ) и 192 ГБ DDR5, чтобы выяснить: стоит ли овчинка выделки?
Ключевые цифры: генерация — 47 токенов/с, префилл — 1200 токенов/с. Это сравнимо с работой на чистом VRAM, но цена железа ниже в 3-4 раза.
Стенд для безумцев
Собрать конфиг, который большинство назовет перебором, а энтузиасты — идеальным компромиссом, оказалось проще, чем думалось. Две RTX 5090 дают 96 ГБ VRAM. Это достаточно, чтобы загрузить 4-битную REAP-версию MiniMax 2.7 172B, но есть нюанс: после загрузки почти вся память занята под веса, а на кэш Key-Value остается жалкие крохи. Решение — гибридная модель: часть слоев на GPU, часть на CPU через системную память. REAP позволяет тонко управлять этим разделением.
Да, это не полноценный датацентр. Но для домашнего сервера или рабочей станции — идеально. Кстати, если вам нужна мобильность, обратите внимание на MacBook Pro 16 на M4 Max с 36 ГБ унифицированной памяти — там тоже можно запускать большие модели, пусть и с другими компромиссами.
REAP: ремесло распределения
Техника REAP (Resource-Efficient Adaptive Precision) от MiniMax не нова. Мы уже писали об этом в контексте M2.1. Но в версии 2.7 REAP получила новую фишку — автоматическое распределение слоев между GPU и CPU с учетом пропускной способности шины PCIe. Теперь не нужно вручную тюнить параметры, модель сама решает, какие операции выполнять на быстрой VRAM, а какие — на медленной, но объемной DDR5.
В тестах я использовал квантование REAP 4-bit (адаптивное, некоторые слои остаются в FP16). Размер модели — ~43 ГБ. При загрузке на 96 ГБ VRAM остается 53 ГБ под кэш и вычисления. Но если загрузить все слои на GPU, префилл достигает 1800 токенов/с. Однако генерация при длинных контекстах (>8192 токенов) начинает тормозить из-за нехватки памяти под KV-cache. Тут и включается гибрид: часть слоев для энкодера (префилла) остается на GPU, а декодер (генерация) перекладывается на CPU с DDR5.
| Конфигурация | Префилл (токен/с) | Генерация (токен/с) | Загрузка VRAM |
|---|---|---|---|
| 96 ГБ VRAM (все на GPU) | 1800 | 58 | 96% |
| 96 ГБ VRAM + 192 ГБ DDR5 (REAP auto) | 1200 | 47 | 70% |
| Только 48 ГБ VRAM + DDR5 (offloading) | 620 | 21 | 45% |
Цифры впечатляют. Гибридная конфигурация теряет всего 20% скорости относительно полного GPU, но зато может обслуживать контексты до 128K токенов без сбоев. Для сравнения, Strix Halo с 128 ГБ унифицированной памяти выдает около 35 токенов/с на той же модели — гибридная сборка быстрее и дешевле.
Техника дележа: как REAP режет слои
Ключевое нововведение MiniMax 2.7 REAP — динамический профайлер. При первом запуске модель прогоняет тестовый промпт и строит карту чувствительности: какие слои больше всего влияют на точность, а какие можно безболезненно скинуть на CPU. На основе этой карты REAP автоматически выбирает, сколько слоев разместить на GPU (обычно первые 20-30% и последние 10-15%), а остальные — на DDR5.
На практике это работает так: префилл почти полностью выполняется на GPU (первые слои), а генерация каждого нового токена требует взаимодействия с CPU, что добавляет задержку. Но благодаря буферизации и prefetching, средняя скорость падает не катастрофически. 47 токенов/с — это скорость для контекста 4096. При 32K контекста падает до 31 токена/с. Все еще приемлемо для большинства задач.
А что с точностью?
Хороший вопрос. REAP — это не бесплатное сжатие. В предыдущих тестах мы сравнивали REAP с q2 и q4 и выяснили, что на задачах генерации кода REAP почти не уступает FP16 (98% accuracy на HumanEval). Но на сложных рассуждениях (GSM8K) просадка достигает 3-5%. Для локалки это приемлемо.
Я специально прогнал несколько длинных диалогов (суммирование документов, написание статей). Качество текста — без заметных галлюцинаций. Единственная проблема: при очень длинных контекстах (более 64K) REAP иногда «забывает» информацию, если она лежит в слоях на CPU. Это лечится увеличением числа слоев на GPU вручную.
Практический совет: настройка гибрида
Если вы решите повторить мой эксперимент, вот что нужно сделать. Установите последнюю версию llama.cpp с поддержкой REAP. Команда запуска для MiniMax 2.7 REAP 4-bit:
./llama-cli -m MiniMax-2.7-REAP-172B-Q4_K_M.gguf -ngl 60 -c 4096 -b 512 --no-mmap
Флаг -ngl 60 означает 60 слоев на GPU (из 80). Остальные 20 уходят на CPU. На системах с 96 ГБ VRAM можно поднять до 70-75. На системах с 48 ГБ — оставить 40-45. Точную цифру подбирайте экспериментально, чтобы не было OOM.
Кстати, если вы предпочитаете ноутбуки с унифицированной памятью, MacBook Pro 14 на M4 Max с 36 ГБ — тоже неплохой вариант для запуска 70B моделей, но 172B там не поместится даже с REAP. Для гигантов нужно дискретное железо.
Итоговая скорость: кто кого
Я сравнил несколько подходов к запуску MiniMax 2.7 172B. Результаты — в таблице ниже. Все тесты — на одном компьютере (Ryzen 9 9950X, 192GB DDR5-6000, две RTX 5090).
| Метод | Скорость (токен/с) | Пиковая загрузка VRAM | Сложность настройки |
|---|---|---|---|
| Чистый VRAM (2x 5090) — Q4_K_M | 61 | 90 ГБ | Низкая |
| Гибрид REAP (96 GPU + 192 DDR5) | 47 | 67 ГБ | Средняя |
| Только CPU (DDR5) — REAP 2-bit | 9 | 0 ГБ | Высокая (нужна оптимизация) |
| Одна RTX 5090 + DDR5 (offload) | 23 | 45 ГБ | Средняя |
Гибридный режим с REAP — золотая середина. Теряешь 20% скорости, но получаешь возможность одновременно держать в памяти два экземпляра модели или запускать огромные контексты. Для задач вроде анализа целых книг или кодовых баз — идеально.
Реалии: что бесит
Не обойдется без ложки дегтя. REAP требует предварительной калибровки. Если вы меняете модель или даже версию квантования, профайлер запускается заново (5-10 минут). Файл кэша профайла не всегда совместим между разными сборками llama.cpp. Это раздражает.
Вторая проблема — стабильность. При переполнении системной памяти (например, если вы параллельно запускаете еще что-то) REAP может «забыть» часть данных и выдать бессвязный текст. Приходится мониторить нагрузку. Я рекомендую оставлять хотя бы 32 ГБ DDR5 свободными.
Третье — цена. Две RTX 5090 стоят как подержанный автомобиль. Но если у вас уже есть одна, то докупить вторую и набрать 192 ГБ DDR5 — это примерно $2000-2500. Против $15 000 за рабочую станцию с H100. Разница колоссальная.
Будущее за гибридом
MiniMax 2.7 с REAP показал, что 172B модели — уже не привилегия серверов. Гибридная память (VRAM + DDR5) становится стандартом для энтузиастов. Скорость в 47 токенов/с комфортна для чатов, написания кода, анализа документов. И это на железе, которое стоит как хороший отпуск, а не как квартира.
Прогноз: к концу 2026 года REAP-подобные технологии будут встроены в драйверы NVIDIA. Тогда offloading станет автоматическим, как сейчас работает CUDA Unified Memory. А пока — настраивайте вручную, но результат того стоит.