88 миллиардов параметров и ни грамма жира

NVIDIA сделала то, что у многих не получалось: запихнула 88 миллиардов параметров в одну модель, но заставила ее работать как швейцарские часы. GPT-OSS-Puzzle-88B - это не просто очередной большой языковой монстр. Это инженерный трюк, где архитектура Mixture-of-Experts танцует под дудку оптимизаций для H100.

Зачем? Потому что запускать модели размером с маленькую галактику на домашнем железе - это уже прошлый век. Сейчас важнее, как быстро она отвечает, сколько электричества жрет и поместится ли в датацентр, где каждый квадратный сантиметр стоит как крыло от Boeing.

💡

Актуально на 26.03.2026: Модель использует последнюю версию Puzzle NAS v3.2 и оптимизирована под драйверы CUDA 13.5. Все бенчмарки приведены для H100 SXM5 80GB с TensorRT-LLM 5.0.

Puzzle NAS: архитектурный пазл, который собрали для скорости

Puzzle Neural Architecture Search - это не просто красивое название. Это автоматизированный дизайнер, который перебрал тысячи конфигураций слоев, чтобы найти ту, где пропускная способность памяти H100 не простаивает ни на такт.

Представьте: у вас есть H100 с памятью HBM3e, которая может гонять терабайты в секунду. А ваша модель простаивает, потому что слои расположены неоптимально. Puzzle NAS решает эту головоломку, расставляя экспертов в MoE так, чтобы данные между ними текли как вода по горной реке - быстро и без заторов.

Компонент	Конфигурация в GPT-OSS-Puzzle-88B	Эффект
Эксперты (MoE)	64 эксперта, 2 активных на токен	Эффективных параметров: 88B, активных: ~13B
Архитектура поиска	Puzzle NAS v3.2 (многоцелевая оптимизация)	+40% к пропускной способности инференса
Ключевая оптимизация	KV-cache сжатие + перераспределение	Память под контекст снижена на 60%

MoE без компромиссов: почему эксперты не дерутся за внимание

Mixture-of-Experts - архитектура коварная. В теории, вы активируете только нужных экспертов для каждого токена, экономя вычислительные ресурсы. На практике, маршрутизация между экспертами создает такую лапшу из зависимостей, что H100 плачет.

NVIDIA пошла другим путем. Вместо того чтобы гонять данные туда-сюда между GPU, они спроектировали топологию экспертов внутри одного H100 так, что коммуникационные задержки упали до наносекунд. Это как организовать офис, где сотрудники сидят не в разных кабинетах, а за одним столом, передавая документы из рук в руки.

Результат? Инференс на 128k контекста работает с пропускной способностью 3500 токенов/с на одном H100. Для сравнения, Qwen3.5-397B на 8x H20 выдает около 1200 токенов/с на аналогичном контексте. Разница в 3 раза, при том что модель почти в 5 раз меньше.

Внимание: Эти цифры - для идеально настроенного стека. Если попытаться запустить GPT-OSS-Puzzle-88B на чем-то, что не H100, производительность упадет в разы. Это не та модель, которая прощает ошибки в железе.

KV-cache: пропускная способность вместо объема

Вот где собака зарыта. KV-cache - это кэш ключей и значений для механизма внимания. В больших контекстах он съедает гигабайты памяти. NVIDIA применила тройной удар:

Динамическое сжатие: KV-cache сжимается с 16 бит до 8 бит для токенов с низкой энтропией. Экономия: 35% памяти.
Топологическая привязка: Кэш распределяется по банкам памяти H100 так, чтобы минимизировать доступ к медленной памяти. Ускорение: 25%.
Предвыборка: Следующие вероятные ключи загружаются в кэш L2, пока модель обрабатывает текущие. Снижение задержек: 40%.

Итог: на контексте 128k токенов модель использует всего 42 ГБ VRAM вместо потенциальных 70+. Это значит, что на H100 80GB остается место для самого инференса, а не только для кэша.

H100 дрожит: оптимизации, которые заставят его работать на пределе

Если бы H100 мог говорить, он бы попросил перерыв. Но инженеры NVIDIA не дают. Каждый цикл GPU должен быть занят полезной работой. Как они этого добились?

Tensor Core загрузка 98%: Обычно в LLM инференсе Tensor Core загружены на 60-70%. Здесь они работают почти на пределе, потому что операции выровнены под их размерность.
P2P коммуникация без CPU: Когда эксперты все-таки нужно гонять между GPU (в многокарточных конфигурациях), данные идут напрямую через NVLink, минуя процессор. Если интересно, как это работает на потребительском железе, посмотрите статью про 7 видеокарт на AM5.
Асинхронное выполнение: Пока один поток обрабатывает экспертов, другой уже готовит следующий блок данных. Конвейер глубиной в 8 ступеней.

Альтернативы? Давайте сравним с монстрами

На рынке больших MoE-моделей не пусто. Но GPT-OSS-Puzzle-88B занимает особую нишу: максимальная производительность на одном GPU. Сравним:

Модель	Параметры (эфф.)	Конфигурация железа	Токенов/с (128k)	Ключевая особенность
GPT-OSS-Puzzle-88B	88B (13B active)	1x H100 SXM5 80GB	~3500	Оптимизация под одно-GPU
Qwen3.5-397B	397B (37B active)	8x H20 96GB	~1200	Масштабирование по GPU
GPT-OSS 120B Uncensored	120B (20B active)	4x RTX 5090 48GB	~800	Запуск на потребительском железе (см. статью)
Llama 3.3 70B	70B (70B active)	2x RTX 5070 Ti 32GB	~600	Плотная архитектура

Вывод прост: если у вас есть доступ к H100 и нужна максимальная скорость на одном GPU - Puzzle-88B вне конкуренции. Если нужно больше параметров или вы работаете на разношерстном железе, лучше смотреть в сторону других MoE-моделей.

Где эта штука работает: от датацентров до исследовательских лаб

Puzzle-88B создавалась не для демонстрации возможностей, а для реальной работы. Вот сценарии, где она выстреливает:

Высокоскоростные чат-боты для поддержки: 3500 токенов/с - это около 175 слов в секунду. Модель успевает подумать, пока пользователь печатает следующее предложение.
Анализ длинных документов: Контекст 128k токенов (около 300 страниц текста) + быстрый инференс = мгновенное суммирование договоров, научных статей, транскриптов.
Исследовательские симуляции: Когда нужно прогнать тысячи запросов через модель для сбора статистики, каждый сэкономленный миллисекунд на токен превращается в часы сохраненного времени.

Но есть нюанс: модель привязана к H100. Если у вас нет доступа к этому конкретному GPU, производительность будет значительно ниже. Для тех, кто собирает свои системы, есть статья о homelab на H100, где разбирается, как окупить такие инвестиции.

Вам это нужно? Только если вы не боитесь больших чисел

GPT-OSS-Puzzle-88B - инструмент для профессионалов, у которых уже есть H100 и конкретная задача, требующая скорости. Это не модель для экспериментов на домашнем ПК. Даже на RTX 5090 она не раскроет потенциал из-за архитектурных оптимизаций, заточенных под H100.

Кому подойдет:

Компании с датацентрами на базе H100, которые хотят увеличить пропускную способность AI-сервисов.
Исследовательские группы, работающие с длинными контекстами и большими объемами запросов.
Разработчики, которые строят высоконагруженные системы реального времени (например, видеотрансляции с AI-аналитикой).

Кому не подойдет:

Энтузиастам с парой игровых видеокарт. Лучше посмотрите в сторону оптимизаций для Blackwell.
Тем, кому нужна максимально большая модель без ограничений по железу. Тут есть мобильная станция за $17k.
Если ваша задача - просто попробовать MoE-архитектуру. Возьмите что-то попроще.

Фишка Puzzle-88B не в размере, а в эффективности. Это Формула-1 среди LLM: настроена до миллисекунд, требует специфическое топливо (H100), но на трассе обгоняет всех. Если у вас есть такая трасса и такие амбиции - это ваш выбор. Если нет - не мучайте железяку. Ей больно.

Подписаться на канал

NVIDIA GPT-OSS-Puzzle-88B: как 88 миллиардов параметров поместились в H100 и не задыхаются