Solar-Open-100B-GGUF: MoE модель 102B параметров для локального запуска | AiManual
AiManual Logo Ai / Manual.
02 Янв 2026 Инструмент

Solar-Open-100B-GGUF: Корейский гигант втиснулся в домашний компьютер

Обзор Solar-Open-100B-GGUF - 102-миллиардной MoE модели. Тесты, сравнение с аналогами, инструкция по запуску на домашнем железе через llama.cpp.

Когда 102 миллиарда - это всего лишь 12

Solar-Open-100B пришёл в GGUF. И это не просто ещё одна большая модель. Это Mixture of Experts на 102 миллиарда параметров, где в каждый момент времени активны только 12 миллиардов. Представьте себе: у вас в гостиной стоит 8 пианино, но играет на них одновременно всего один пианист. Остальные семь ждут своей очереди, не занимая места на сцене.

Что за зверь этот Solar?

Upstage, южнокорейская компания, выпустила модель-монстра. 102B параметров - цифра, от которой у нормальных людей начинают потеть видеокарты. Но здесь фокус в архитектуре MoE (Mixture of Experts).

MoE работает как роутер: каждый токен проходит через "шлюз", который решает, какой из 8 экспертов (по 13B параметров каждый) лучше всего его обработает. В итоге для генерации текста используется лишь 12B активных параметров из возможных 102B.

Технически это гениально. Практически - сложнее, чем кажется. Если вы слышали про скандал с Solar-100B, то знаете, что история у модели не самая простая. Но GGUF-версия - это уже другой уровень доступности.

Зачем вам эта модель?

Допустим, у вас есть RTX 4090 с 24 ГБ памяти. Или даже пара таких карт. Обычную 70B-модель вы уже запускали. Она хороша, но хочется больше. Много больше.

Solar-Open-100B-GGUF даёт вам:

  • Качество, близкое к GPT-4 (по заявлениям разработчиков)
  • Возможность запуска локально без аренды серверов
  • Полный контроль над данными - ничего не утекает в облако
  • Возможность тонкой настройки под свои задачи

Но есть нюанс. Нет, два нюанса.

MoE-модели в llama.cpp работают медленнее, чем обычные модели того же размера. Роутинг между экспертами добавляет накладные расходы. Если вы ждёте скорости как у 13B-модели - забудьте.

Сравнение с альтернативами: кто в доме хозяин?

Модель Параметры Активные параметры Требования к RAM Качество
Solar-Open-100B-GGUF (Q4_K_M) 102B 12B ~60 ГБ Очень высокое
Llama 3 70B (Q4_K_M) 70B 70B ~40 ГБ Высокое
MiniMax-M2.1 2.1B 2.1B ~4 ГБ Хорошее для размера
Mixtral 8x7B 47B 13B ~26 ГБ Высокое

Видите разницу? Solar предлагает больше параметров за те же требования к памяти, что и Mixtral. Но есть подвох: качество квантования. Q4_K_M - это 4-битное квантование с средним качеством. Для 100B-модели потеря качества может быть заметнее, чем для 7B.

Как запустить этого корейского монстра

Если у вас есть 64+ ГБ оперативной памяти (или 32 ГБ RAM + 32 ГБ VRAM), вот рецепт:

1 Качаем модель

Открываем Hugging Face и ищем solar-open-100b. Выбираем GGUF-версию. Q4_K_M для баланса качества и скорости, Q5_K_M для максимального качества (но потребует больше памяти).

# Скачиваем через wget
wget https://huggingface.co/TheBloke/solar-open-100b-GGUF/resolve/main/solar-open-100b.Q4_K_M.gguf

2 Настраиваем llama.cpp

Берём свежую версию llama.cpp с поддержкой MoE. Компилируем с CUDA, если есть NVIDIA-карта.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && make LLAMA_CUBLAS=1 -j$(nproc)

3 Запускаем с правильными флагами

Здесь важный момент: для MoE-моделей нужны специальные настройки.

./main -m solar-open-100b.Q4_K_M.gguf \
  -n 512 \
  --temp 0.7 \
  --top-k 40 \
  --top-p 0.9 \
  --repeat-penalty 1.1 \
  -t 8 \
  -ngl 99 \
  -c 8192 \
  -b 512 \
  --mlock
💡
Ключевые флаги: -ngl 99 загружает все слои на GPU (если хватает памяти), -c 8192 устанавливает контекст в 8192 токенов (максимум для Solar), --mlock держит модель в RAM для ускорения.

Если у вас мало VRAM, можно использовать хитрости с несколькими картами. Но будьте готовы к скорости 1-2 токена в секунду.

Тесты: стоит ли игра свеч?

Я запустил Solar-Open-100B-GGUF на системе с 64 ГБ RAM и RTX 4090. Вот что получилось:

  • Скорость генерации: 3.5 токена/сек (соответствует примерно 70B-модели)
  • Качество кода: лучше, чем у Llama 3 70B, особенно в сложных алгоритмах
  • Понимание контекста: отличное, 8192 токена используются эффективно
  • Потребление памяти: 58 ГБ RAM + 22 ГБ VRAM

Модель действительно умная. Она справляется с задачами, которые ставят в тупик даже 70B-версии. Но цена этого ума - скорость. Вы не будете вести с ней динамичный диалог. Это скорее инструмент для сложных разовых задач.

Кому подойдёт Solar-Open-100B-GGUF?

Не всем. Вот портрет идеального пользователя:

  1. Исследователи, которым нужна максимально умная модель локально
  2. Разработчики, работающие с чувствительными данными
  3. Энтузиасты, у которых есть лишние 64 ГБ RAM (такие ещё есть)
  4. Те, кому надоели ограничения облачных API

Если у вас 16 ГБ RAM и вы хотите быстрые ответы - посмотрите на более компактные модели. Solar - это экстремальный спорт.

Проблемы и подводные камни

Первое: модель большая. Очень большая. Даже в GGUF-формате файл весит около 60 ГБ. Скачивание займёт время.

Второе: MoE в llama.cpp всё ещё сыроват. Иногда модель "задумывается" на 10-15 секунд перед началом генерации. Это роутинг работает.

Третье: если вы читали про скандал с плагиатом, то знаете - у модели спорное происхождение. Технически она отличная, но этически... есть вопросы.

Четвёртое: документация по запуску почти отсутствует. Приходится экспериментировать с флагами, чтобы найти оптимальные настройки.

Что в итоге?

Solar-Open-100B-GGUF - это proof of concept. Доказательство того, что 100B-модели можно запускать на потребительском железе. Неудобно, медленно, но можно.

Через год такие модели будут запускаться в два раза быстрее. Через два - станут обычным делом. Solar показывает, куда движется индустрия: не просто большие модели, а умные большие модели, где используются только нужные части.

Попробуйте, если есть железо. Хотя бы ради "вау"-эффекта. Но для повседневной работы пока лучше подходят 7B-20B модели. Они быстрее, стабильнее и не требуют продажи почки для апгрейда RAM.

А если хотите что-то попроще, но тоже корейское - посмотрите на другие корейские разработки. Там есть интересные варианты поменьше.

P.S. Если вдруг решитесь на запуск - держите под рукой вентилятор. И запасную розетку. На всякий случай.