GPT-OSS-120b на RTX 3090: стоит ли покупать и что ждать в 2026 | AiManual
AiManual Logo Ai / Manual.
07 Янв 2026 Новости

GPT-OSS-120b на двух RTX 3090: гонка за железом или разумная инвестиция?

Практический разбор: запустим ли GPT-OSS-120b на двух RTX 3090 в 2025? Стоит ли инвестировать в железо сейчас или ждать новых моделей? Прогнозы развития LLM до

Запустить 120 миллиардов параметров на двух картах? Серьёзно?

Идея выглядит как технический фетиш. Две RTX 3090, 48 ГБ VRAM в связке через NVLink (если повезёт найти мост), и гигантская модель GPT-OSS-120b. В теории всё сходится. На практике вы столкнётесь с реальностью, которая бьёт по голове сильнее, чем падение цены на видеокарты после анонса нового поколения.

Прямо сейчас, в 2025 году, запустить нативное, неквантованное ядро GPT-OSS-120b на двух RTX 3090 невозможно. Модель требует около 240 ГБ памяти в формате BF16. Даже с агрессивным распределением слоёв и оффлоудом на CPU — это путь в никуда. Скорость инференса будет измеряться минутами на токен.

Так что мы можем сделать на самом деле?

Всё упирается в квантование. Сильно квантование.

  • 4-битное квантование (GPTQ/AWQ): Сжимает модель до ~60 ГБ. Теоретически помещается в 48 ГБ виртуального пространства двух связанных 3090. На практике часть данных уйдёт в оперативку через CUDA Unified Memory, что убьёт скорость. Вы получите работающую модель, но диалог будет напоминать переписку с космонавтом на Луне — с задержкой в несколько секунд на ответ.
  • 3-битное и ниже: Здесь начинается магия (или отчаяние). Модель сожмётся до 45 ГБ и ниже. Она запустится. Но качество ответов для сложных задач — аналитики кода, STEM-рассуждений — просядет заметно. Вы купили Ferrari, но ездите на ней по грунтовой дороге.
  • Инференс по частям с оффлоудом: Загружаем часть слоёв на карты, часть — в системную RAM. Это работает в llama.cpp и подобных инструментах. Скорость? Забудьте о скорости. Это вариант для однократного запуска, чтобы просто сказать «я это сделал».
💡
Если ваша цель — практическая работа с большими моделями (анализ частных документов, RAG), а не технический эксгибиционизм, смотрите в сторону более мелких, но качественных моделей. Llama 3.1 70B в 4-битном формате на двух 3090 чувствует себя гораздо увереннее и даёт осмысленные результаты быстрее.

Инвестировать в две RTX 3090 в 2025 году? Только если...

Рынок б/у 3090 завален. Цены падают. Звонок от здравого смысла.

Сценарий Стоит брать? Альтернатива
Хочу потестить GPT-OSS-120b любой ценой Нет. Арендуйте облако (Lambda, Vast.ai) на день. Аренда инстанса с 2x A100 80GB.
Нужна стабильная платформа для локальных экспериментов с моделями до 70B Да, но ищите карты с гарантией и проверенным NVLink. Одна RTX 4090 24GB + облако для больших задач.
Собираю ферму для инференса или тонкой настройки Скорее нет. Пропускная способность PCIe станет узким местом. Сборка на профессиональных или китайских GPU с большей VRAM.

Главный вопрос не в железе, а в софте. Оптимизации фреймворков (vLLM, TensorRT-LLM) развиваются быстрее, чем мы покупаем карты. Модель, которая сегодня еле дышит, через полгода может запуститься в два раза быстрее благодаря новой версии CUDA или квантованию. Инвестируйте в железо, которое не устареет морально за 12 месяцев.

Что принесут нам 2025-2026? Модели, которые изменят правила

Забудьте про простое увеличение параметров. Будущее за архитектурными хитростями.

1 Модели-«хамелеоны» с динамической структурой

Представьте модель, которая для простого вопроса «какая погода» активирует маленькое, быстрое ядро, а для решения дифференциального уравнения — запускает весь свой 120-миллиардный потенциал. Такие sparse mixture-of-experts (MoE) архитектуры уже есть (как Mixtral), но они станут умнее. Это значит, что даже огромная модель сможет эффективно работать на ограниченном железе, экономно тратя ресурсы.

2 Квантование без потерь (или почти)

Исследователи из MIT и Google уже показывают методы 2-битного квантования с минимальной деградацией качества. К 2026 году 3-битная версия GPT-OSS-120b может по качеству догнать сегодняшнюю 8-битную. А это уже ~45 ГБ. Две RTX 3090 с NVLink будут именно тем, что нужно. Ирония в том, что когда это случится, RTX 3090 будут считать раритетом.

3 Специализированные STEM-монстры

Всеобщие модели типа GPT-OSS — это швейцарский нож. Будущее за скальпелями. Ожидайте взрывной рост open-source моделей, дообученных на гигантских корпусах научных статей, коде и инженерной документации. Они будут меньше (20-40B параметров), но в своей области заткнут за пояс любого гиганта. И что важно — они идеально впишутся в память одной мощной карты следующего поколения.

Прогноз от инсайдеров: к середине 2026 года флагманской open-source моделью для локального запуска станет архитектура на 60-80 миллиардов параметров с продвинутой MoE-структурой. Она будет работать в 4-битном формате на одной видеокарте с 36-48 ГБ VRAM, предлагая качество, сравнимое с сегодняшними 120B моделями. Подробнее в нашем большом прогнозе.

Итог: покупать, ждать или смотреть в сторону облаков?

Если у вас уже есть одна RTX 3090 и горит желание — докупайте вторую. Но только если найдёте её по действительно низкой цене и будете готовы к танцам с бубном вокруг NVLink и квантования. Это инвестиция в хобби, в эксперименты, в понимание того, как всё работает изнутри.

Если вам нужен инструмент для работы здесь и сейчас — смотрите на связку RTX 4090 (для моделей до 34B) + облачные инстансы для тяжёлых задач. Или изучите варианты сборки сервера на специализированных картах.

Если вы планируете на годы вперёд — копите бюджет на новое поколение железа, которое выйдет как раз к расцвету тех самых эффективных моделей 2026 года. RTX 5090 (или её аналог от AMD) с 32+ ГБ памяти и улучшенной поддержкой квантования в железе станет гораздо лучшей инвестицией, чем две устаревающие 3090.

Самое ценное железо — то, которое позволяет вам работать, а не бороться с ним. Иногда лучшая инвестиция — это подписка на облачный сервис и время, сэкономленное на настройке.