Корейский гигант приходит в llama.cpp
Разработчики llama.cpp наконец-то добавили поддержку EXAONE MoE - 236-миллиардной модели от LG AI Research. Это не просто очередная большая языковая модель. Это Mixture-of-Experts с архитектурными хитростями, которые заставляют пересмотреть представление о том, как должны работать локальные LLM.
Пока все обсуждали Llama 3.1 и Claude, корейские инженеры тихо сделали модель, которая понимает 6 языков, работает с 256 тысячами токенов контекста и использует self-speculative decoding для ускорения генерации. И теперь её можно запустить на своём компьютере.
Важно: EXAONE MoE - это не плотная 236B модель. В каждый момент времени активируется только 36B параметров благодаря архитектуре Mixture-of-Experts. На практике это значит, что она работает быстрее, чем обычная 36B модель, но требует больше памяти для хранения всех экспертов.
Что особенного в EXAONE MoE?
Давайте сразу к делу. Чем эта модель отличается от десятков других, которые уже есть в llama.cpp?
| Особенность | Что это значит |
|---|---|
| Mixture-of-Experts (64 эксперта) | В каждый момент времени работает только часть модели. Экономит вычисления, но требует больше памяти для хранения весов |
| 256K контекст | Можно загрузить целую книгу или несколько часов переписки. Работает через RoPE scaling |
| Self-speculative decoding | Модель сама предсказывает несколько токенов вперёд, проверяет их и принимает или отбрасывает. Ускоряет генерацию в 1.5-2 раза |
| 6 языков | Корейский, английский, немецкий, французский, испанский, китайский. Не просто перевод - понимание культурного контекста |
Архитектура MoE здесь не просто для галочки. В EXAONE используется 64 эксперта, каждый - 4.6B параметров. Маршрутизатор выбирает 8 экспертов на слой. Получается 36B активных параметров при 236B общих. Умно? Да. Сложно для запуска? Тоже да.
Что нужно для запуска? Железные требования
Забудьте про запуск на ноутбуке с 8 ГБ ОЗУ. Здесь нужны серьёзные ресурсы:
- Полная версия (FP16): 472 ГБ VRAM. Да, вы не ослышались. Это для загрузки всех весов в память видеокарт.
- Квантованная версия (Q4_K_M): ~130 ГБ. Уже лучше, но всё равно нужно несколько RTX 4090 или A100.
- Смешанный режим (CPU+GPU): 64-128 ГБ ОЗУ + 24+ ГБ VRAM. Самый реалистичный вариант для большинства.
Если у вас нет такого железа, не расстраивайтесь. В llama.cpp есть режим частичной загрузки слоёв и оффлоадинг на CPU. Скорость будет неидеальной, но модель заработает. Кстати, если вы сталкивались с ошибками при запуске больших LLM, приготовьтесь - здесь их будет в два раза больше.
Внимание: Даже с квантованной версией модель занимает больше 100 ГБ на диске. Убедитесь, что у вас есть место. И терпение - скачивание может занять несколько часов даже на быстром интернете.
EXAONE MoE против конкурентов: кто кого?
Давайте сравним с тем, что уже есть на рынке. Не в теории, а на практике.
| Модель | Параметры | Контекст | Особенность | Сложность запуска |
|---|---|---|---|---|
| EXAONE MoE | 236B (36B active) | 256K | 6 языков, self-speculative | Очень высокая |
| Llama 3.1 405B | 405B | 128K | Лучший английский | Экстремальная |
| Qwen 2.5 32B | 32B | 128K | Хороший китайский | Средняя |
| Granite 4 Small | 30B MoE | 32K | Запускается на ноутбуке | Низкая |
Видите разницу? EXAONE MoE занимает нишу между монстрами вроде Llama 405B и более доступными моделями. Она предлагает уникальную комбинацию мультиязычности и длинного контекста. Если вам нужно работать с корейскими текстами или переводами между несколькими языками - альтернатив почти нет.
Кстати, если вы думаете о запуске MoE-моделей поменьше, посмотрите гайд по Granite 4 Small. Там принципы те же, но масштаб человеческий.
Кому вообще нужна эта модель?
Честно? Не всем. Если вы работаете только с английским и вам хватает 8K контекста - забудьте про EXAONE. Возьмите Llama 3 8B и живите спокойно.
Но есть случаи, когда она бесценна:
- Локализация проектов на корейский: Модель понимает культурные нюансы, сленг, исторические ссылки. Гугл-переводчик рядом не стоял.
- Анализ длинных мультиязычных документов: Юридические контракты, техническая документация, исследовательские статьи. 256K контекста позволяют загрузить целый документ со всеми приложениями.
- Многоязычные чат-боты: Один бот, шесть языков. Пользователь может переключаться между языками в середине диалога - модель поймёт.
- Академические исследования MoE: Хотите понять, как работают смеси экспертов на практике? Здесь можно покрутить все настройки.
Для корпоративных проектов с мультиязычными требованиями EXAONE может стать killer feature. Особенно если учесть, что локальные LLM часто выигрывают у традиционного машинного перевода в контекстных задачах.
А что с производительностью? Цифры
Тут интересно. Благодаря MoE и self-speculative decoding, EXAONE показывает неожиданные результаты:
- Скорость генерации: 2-4 токена в секунду на 2x RTX 4090 с Q4_K_M квантованием. Медленно? Для 236B модели - очень даже быстро.
- Качество корейского: На уровне специализированных корейских моделей. Английский - как у Llama 3 70B.
- Память контекста: Реально работает с 200K+ токенами. Не теряет нить разговора даже после часового диалога.
- Self-speculative decoding: Даёт прирост 1.7-2x на длинных генерациях. На коротких ответах эффекта почти нет.
--speculative. Но работает только с определёнными версиями модели. Проверяйте документацию перед использованием.Стоит ли игра свеч?
Если коротко: зависит от ваших задач.
EXAONE MoE - это специализированный инструмент для специфических нужд. Это не модель для ежедневного использования или экспериментов. Настройка займёт день. Поиск оптимальных параметров - ещё день. Первые запуски будут падать с ошибками памяти.
Но если вам действительно нужна мультиязычная модель с огромным контекстом - альтернатив нет. Ни Llama, ни Qwen, ни Claude не предлагают такого сочетания характеристик.
Корейские инженеры сделали что-то уникальное. И теперь, благодаря llama.cpp, это уникальное можно запустить у себя. Пусть и не на каждом компьютере.
P.S. Если решитесь на запуск, сначала почитайте про аргументы llama.cpp. С этой моделью слепое копирование команд точно не сработает.