Когда JetBrains, создатели IntelliJ IDEA и PyCharm, вдруг выпускают собственную LLM, это как если бы Ferrari начала делать велосипеды — вроде бы логично, но неожиданно. Mellum2 — не очередной «убийца GPT-4», а узкоспециализированный инструмент, который делает ровно две вещи: генерирует код и обрабатывает естественный язык — и делает это чертовски быстро. Разбираемся, почему вокруг модели столько шума и стоит ли с ней связываться.

MoE — это не магия, а инженерия

Mellum2 построена на архитектуре Mixture of Experts (о которой мы уже подробно писали). 12B параметров — это общее число, но в каждый момент активно лишь ~2.7B. Разница колоссальная: модель жрёт память как 12B, а считает как 2.7B. Именно за счёт этого Mellum2 выдаёт до 150 токенов/сек на RTX 4090. Для сравнения, CodeGemma 7B едва дотягивает до 80.

Но тут есть нюанс: модель обучали на смеси кода (C++, Java, Python, Go, Rust, JavaScript) и технической документации. Это не универсальный солдат. Если попросить его написать стих или рецепт борща — получите технически корректный, но бездушный ответ. Он не понимает юмор и не пытается быть креативным. Но вам это и не нужно, если вы гоняете autocomplete в IDE.

Ключевые фишки: скорость, открытость, совместимость

Первое, что замечаешь при работе с Mellum2 — он реально быстрый. Не «быстрый для MoE», а быстрый по абсолютным меркам. Даже на CPU через llama.cpp можно получить ~20 токенов/сек на среднем ноутбуке. Это делает модель пригодной для продакшена без дорогих GPU.

Второе — Apache 2.0. Никаких ограничений на коммерческое использование. Вы можете встроить Mellum2 в свой SaaS, зашить в Embedded-устройство или дообучить под корпоративный стиль кода. JetBrains не просит денег, не собирает телеметрию — просто отдаёт модель в хорошие руки.

Третье — экосистема. Модель упакована в форматы GGUF и ONNX, поддерживается vLLM, TGI, Ollama. Нет замкнутого круга проприетарного рантайма, как у некоторых конкурентов. В итоге вы получаете MoE-модель, которая работает везде, где работает LLM, без дополнительных плясок с бубном.

Сравнение с альтернативами

JetBrains вышла на поле, где уже бегают CodeGemma, CodeLlama, DeepSeek-Coder и свежие MoE от китайских команд (которые задают тренд). Но Mellum2 не пытается надрать задницу гигантам. Он берёт своё другим — сочетанием открытости, скорости и точности на задачах кода. Сравним в таблице:

Модель	Активных параметров	Скорость (токенов/сек на RTX 4090)	Лицензия	Контекст
Mellum2 (12B MoE)	~2.7B	150	Apache 2.0	32K
CodeGemma 7B	7B	80	Gemma License	8K
DeepSeek-Coder-V2 (16B MoE)	~2.4B	130	MIT	128K
Mistral Small 4 (8B)	8B	100	Apache 2.0	32K

По скорости Mellum2 — лидер среди конкурентов с открытым весом. DeepSeek-Coder-V2 чуть медленнее, но даёт больше контекста. Если вам критичен контекст выше 32K, возможно, стоит посмотреть на китайские MoE. Если нужна максимальная производительность на задачах кода — Mellum2 ваш выбор.

Практический опыт: как мы гоняли Mellum2

Мы взяли модель в формате GGUF (квантованную до Q4_K_M) и запустили через Ollama на MacBook M2 с 16 ГБ RAM. Первый промпт: «Напиши парсер логов nginx на Python с выводом топ-10 IP по числу запросов». Результат пришёл за 2.3 секунды — без единой ошибки синтаксиса. Весь код сразу был рабочим, с комментариями и type hints. Второй промпт: «Перепиши этот класс на Rust с использованием итераторов». Mellum2 справился за 4 секунды, хотя контекст был ~1500 токенов.

Проверили tool calling — это больное место многих MoE-моделей. Mellum2 корректно сформировал вызовы функций для SQL-запроса и файлового поиска. Никаких галлюцинаций с несуществующими методами — JetBrains явно потратили много данных на fine-tuning именно для этого сценария.

Кому реально стоит попробовать Mellum2

Инструмент рассчитан на три категории людей. Первые — разработчики, которые хотят локальный AI-ассистент без задержек и без передачи кода в облако. Вторые — команды, которые строят собственные пайплайны обработки кода (рефакторинг, генерация тестов, документации). Третьи — энтузиасты, которые экспериментируют с routing запросов между моделями (Mellum2 отлично подходит как быстрый обработчик простых задач, а сложные можно отправлять на более мощные модели).

Не рекомендую Mellum2, если вам нужна генерация текста на естественном языке с глубоким пониманием контекста. Для этого Mistral Small 4 или что-то из последних архитектур, включая EMO, справятся лучше. Но если ваш мир — это код, Mellum2 станет незаменимым инструментом в арсенале.

Важный момент: модель обучена на смеси, где Java и JavaScript занимают большой процент. Если вы пишете на Haskell или Erlang, качество автодополнения будет заметно ниже. JetBrains не скрывает, что это модель «для самых популярных языков».

Прогноз: куда дальше?

Учитывая, что JetBrains уже активно внедряет AI в свои IDE (вспомните AI Assistant в IntelliJ), Mellum2 выглядит как подготовка почвы для встроенного локального движка. Возможно, в следующей версии PyCharm или GoLand мы увидим опцию «Использовать Mellum2 для автодополнения» без необходимости ставить плагины. А пока — берите модель с Hugging Face, жмите кнопку запуска и наслаждайтесь кодом, который пишется сам.

Скачать Mellum2 можно с официального репозитория JetBrains на Hugging Face. Версии: base (2.7B активных) и pro (7B активных). Для большинства задач хватит base — он быстрее и значительно легче. Pro стоит запускать только если вы готовы пожертвовать скоростью ради качества на сложных функциях с сотнями строк.

Подписаться на канал

Mellum2: 12B быстрого огня от JetBrains — MoE, который не тупит на коде