EXAONE MoE 236B в llama.cpp: запуск корейской модели локально | AiManual
AiManual Logo Ai / Manual.
14 Янв 2026 Инструмент

EXAONE MoE в llama.cpp: как запустить 236B модель локально и в чём её уникальность

Гайд по запуску EXAONE MoE 236B модели в llama.cpp. Mixture-of-Experts, 256K контекст, мультиязычность, self-speculative decoding. Системные требования, сравнен

Корейский гигант приходит в llama.cpp

Разработчики llama.cpp наконец-то добавили поддержку EXAONE MoE - 236-миллиардной модели от LG AI Research. Это не просто очередная большая языковая модель. Это Mixture-of-Experts с архитектурными хитростями, которые заставляют пересмотреть представление о том, как должны работать локальные LLM.

Пока все обсуждали Llama 3.1 и Claude, корейские инженеры тихо сделали модель, которая понимает 6 языков, работает с 256 тысячами токенов контекста и использует self-speculative decoding для ускорения генерации. И теперь её можно запустить на своём компьютере.

Важно: EXAONE MoE - это не плотная 236B модель. В каждый момент времени активируется только 36B параметров благодаря архитектуре Mixture-of-Experts. На практике это значит, что она работает быстрее, чем обычная 36B модель, но требует больше памяти для хранения всех экспертов.

Что особенного в EXAONE MoE?

Давайте сразу к делу. Чем эта модель отличается от десятков других, которые уже есть в llama.cpp?

Особенность Что это значит
Mixture-of-Experts (64 эксперта) В каждый момент времени работает только часть модели. Экономит вычисления, но требует больше памяти для хранения весов
256K контекст Можно загрузить целую книгу или несколько часов переписки. Работает через RoPE scaling
Self-speculative decoding Модель сама предсказывает несколько токенов вперёд, проверяет их и принимает или отбрасывает. Ускоряет генерацию в 1.5-2 раза
6 языков Корейский, английский, немецкий, французский, испанский, китайский. Не просто перевод - понимание культурного контекста

Архитектура MoE здесь не просто для галочки. В EXAONE используется 64 эксперта, каждый - 4.6B параметров. Маршрутизатор выбирает 8 экспертов на слой. Получается 36B активных параметров при 236B общих. Умно? Да. Сложно для запуска? Тоже да.

💡
Self-speculative decoding - это когда модель использует свою же мелкую версию для предсказания нескольких токенов, а потом проверяет их полной версией. Если все предсказания верны - принимает сразу пачку токенов. Если нет - откатывается и генерирует заново. Как будто вы сначала набрасываете черновик, а потом правите.

Что нужно для запуска? Железные требования

Забудьте про запуск на ноутбуке с 8 ГБ ОЗУ. Здесь нужны серьёзные ресурсы:

  • Полная версия (FP16): 472 ГБ VRAM. Да, вы не ослышались. Это для загрузки всех весов в память видеокарт.
  • Квантованная версия (Q4_K_M): ~130 ГБ. Уже лучше, но всё равно нужно несколько RTX 4090 или A100.
  • Смешанный режим (CPU+GPU): 64-128 ГБ ОЗУ + 24+ ГБ VRAM. Самый реалистичный вариант для большинства.

Если у вас нет такого железа, не расстраивайтесь. В llama.cpp есть режим частичной загрузки слоёв и оффлоадинг на CPU. Скорость будет неидеальной, но модель заработает. Кстати, если вы сталкивались с ошибками при запуске больших LLM, приготовьтесь - здесь их будет в два раза больше.

Внимание: Даже с квантованной версией модель занимает больше 100 ГБ на диске. Убедитесь, что у вас есть место. И терпение - скачивание может занять несколько часов даже на быстром интернете.

EXAONE MoE против конкурентов: кто кого?

Давайте сравним с тем, что уже есть на рынке. Не в теории, а на практике.

Модель Параметры Контекст Особенность Сложность запуска
EXAONE MoE 236B (36B active) 256K 6 языков, self-speculative Очень высокая
Llama 3.1 405B 405B 128K Лучший английский Экстремальная
Qwen 2.5 32B 32B 128K Хороший китайский Средняя
Granite 4 Small 30B MoE 32K Запускается на ноутбуке Низкая

Видите разницу? EXAONE MoE занимает нишу между монстрами вроде Llama 405B и более доступными моделями. Она предлагает уникальную комбинацию мультиязычности и длинного контекста. Если вам нужно работать с корейскими текстами или переводами между несколькими языками - альтернатив почти нет.

Кстати, если вы думаете о запуске MoE-моделей поменьше, посмотрите гайд по Granite 4 Small. Там принципы те же, но масштаб человеческий.

Кому вообще нужна эта модель?

Честно? Не всем. Если вы работаете только с английским и вам хватает 8K контекста - забудьте про EXAONE. Возьмите Llama 3 8B и живите спокойно.

Но есть случаи, когда она бесценна:

  • Локализация проектов на корейский: Модель понимает культурные нюансы, сленг, исторические ссылки. Гугл-переводчик рядом не стоял.
  • Анализ длинных мультиязычных документов: Юридические контракты, техническая документация, исследовательские статьи. 256K контекста позволяют загрузить целый документ со всеми приложениями.
  • Многоязычные чат-боты: Один бот, шесть языков. Пользователь может переключаться между языками в середине диалога - модель поймёт.
  • Академические исследования MoE: Хотите понять, как работают смеси экспертов на практике? Здесь можно покрутить все настройки.

Для корпоративных проектов с мультиязычными требованиями EXAONE может стать killer feature. Особенно если учесть, что локальные LLM часто выигрывают у традиционного машинного перевода в контекстных задачах.

А что с производительностью? Цифры

Тут интересно. Благодаря MoE и self-speculative decoding, EXAONE показывает неожиданные результаты:

  • Скорость генерации: 2-4 токена в секунду на 2x RTX 4090 с Q4_K_M квантованием. Медленно? Для 236B модели - очень даже быстро.
  • Качество корейского: На уровне специализированных корейских моделей. Английский - как у Llama 3 70B.
  • Память контекста: Реально работает с 200K+ токенами. Не теряет нить разговора даже после часового диалога.
  • Self-speculative decoding: Даёт прирост 1.7-2x на длинных генерациях. На коротких ответах эффекта почти нет.
💡
Self-speculative decoding в llama.cpp включается флагом --speculative. Но работает только с определёнными версиями модели. Проверяйте документацию перед использованием.

Стоит ли игра свеч?

Если коротко: зависит от ваших задач.

EXAONE MoE - это специализированный инструмент для специфических нужд. Это не модель для ежедневного использования или экспериментов. Настройка займёт день. Поиск оптимальных параметров - ещё день. Первые запуски будут падать с ошибками памяти.

Но если вам действительно нужна мультиязычная модель с огромным контекстом - альтернатив нет. Ни Llama, ни Qwen, ни Claude не предлагают такого сочетания характеристик.

Корейские инженеры сделали что-то уникальное. И теперь, благодаря llama.cpp, это уникальное можно запустить у себя. Пусть и не на каждом компьютере.

P.S. Если решитесь на запуск, сначала почитайте про аргументы llama.cpp. С этой моделью слепое копирование команд точно не сработает.