Когда JetBrains, создатели IntelliJ IDEA и PyCharm, вдруг выпускают собственную LLM, это как если бы Ferrari начала делать велосипеды — вроде бы логично, но неожиданно. Mellum2 — не очередной «убийца GPT-4», а узкоспециализированный инструмент, который делает ровно две вещи: генерирует код и обрабатывает естественный язык — и делает это чертовски быстро. Разбираемся, почему вокруг модели столько шума и стоит ли с ней связываться.
MoE — это не магия, а инженерия
Mellum2 построена на архитектуре Mixture of Experts (о которой мы уже подробно писали). 12B параметров — это общее число, но в каждый момент активно лишь ~2.7B. Разница колоссальная: модель жрёт память как 12B, а считает как 2.7B. Именно за счёт этого Mellum2 выдаёт до 150 токенов/сек на RTX 4090. Для сравнения, CodeGemma 7B едва дотягивает до 80.
Но тут есть нюанс: модель обучали на смеси кода (C++, Java, Python, Go, Rust, JavaScript) и технической документации. Это не универсальный солдат. Если попросить его написать стих или рецепт борща — получите технически корректный, но бездушный ответ. Он не понимает юмор и не пытается быть креативным. Но вам это и не нужно, если вы гоняете autocomplete в IDE.
Ключевые фишки: скорость, открытость, совместимость
Первое, что замечаешь при работе с Mellum2 — он реально быстрый. Не «быстрый для MoE», а быстрый по абсолютным меркам. Даже на CPU через llama.cpp можно получить ~20 токенов/сек на среднем ноутбуке. Это делает модель пригодной для продакшена без дорогих GPU.
Второе — Apache 2.0. Никаких ограничений на коммерческое использование. Вы можете встроить Mellum2 в свой SaaS, зашить в Embedded-устройство или дообучить под корпоративный стиль кода. JetBrains не просит денег, не собирает телеметрию — просто отдаёт модель в хорошие руки.
Третье — экосистема. Модель упакована в форматы GGUF и ONNX, поддерживается vLLM, TGI, Ollama. Нет замкнутого круга проприетарного рантайма, как у некоторых конкурентов. В итоге вы получаете MoE-модель, которая работает везде, где работает LLM, без дополнительных плясок с бубном.
Сравнение с альтернативами
JetBrains вышла на поле, где уже бегают CodeGemma, CodeLlama, DeepSeek-Coder и свежие MoE от китайских команд (которые задают тренд). Но Mellum2 не пытается надрать задницу гигантам. Он берёт своё другим — сочетанием открытости, скорости и точности на задачах кода. Сравним в таблице:
| Модель | Активных параметров | Скорость (токенов/сек на RTX 4090) | Лицензия | Контекст |
|---|---|---|---|---|
| Mellum2 (12B MoE) | ~2.7B | 150 | Apache 2.0 | 32K |
| CodeGemma 7B | 7B | 80 | Gemma License | 8K |
| DeepSeek-Coder-V2 (16B MoE) | ~2.4B | 130 | MIT | 128K |
| Mistral Small 4 (8B) | 8B | 100 | Apache 2.0 | 32K |
По скорости Mellum2 — лидер среди конкурентов с открытым весом. DeepSeek-Coder-V2 чуть медленнее, но даёт больше контекста. Если вам критичен контекст выше 32K, возможно, стоит посмотреть на китайские MoE. Если нужна максимальная производительность на задачах кода — Mellum2 ваш выбор.
Практический опыт: как мы гоняли Mellum2
Мы взяли модель в формате GGUF (квантованную до Q4_K_M) и запустили через Ollama на MacBook M2 с 16 ГБ RAM. Первый промпт: «Напиши парсер логов nginx на Python с выводом топ-10 IP по числу запросов». Результат пришёл за 2.3 секунды — без единой ошибки синтаксиса. Весь код сразу был рабочим, с комментариями и type hints. Второй промпт: «Перепиши этот класс на Rust с использованием итераторов». Mellum2 справился за 4 секунды, хотя контекст был ~1500 токенов.
Проверили tool calling — это больное место многих MoE-моделей. Mellum2 корректно сформировал вызовы функций для SQL-запроса и файлового поиска. Никаких галлюцинаций с несуществующими методами — JetBrains явно потратили много данных на fine-tuning именно для этого сценария.
Кому реально стоит попробовать Mellum2
Инструмент рассчитан на три категории людей. Первые — разработчики, которые хотят локальный AI-ассистент без задержек и без передачи кода в облако. Вторые — команды, которые строят собственные пайплайны обработки кода (рефакторинг, генерация тестов, документации). Третьи — энтузиасты, которые экспериментируют с routing запросов между моделями (Mellum2 отлично подходит как быстрый обработчик простых задач, а сложные можно отправлять на более мощные модели).
Не рекомендую Mellum2, если вам нужна генерация текста на естественном языке с глубоким пониманием контекста. Для этого Mistral Small 4 или что-то из последних архитектур, включая EMO, справятся лучше. Но если ваш мир — это код, Mellum2 станет незаменимым инструментом в арсенале.
Важный момент: модель обучена на смеси, где Java и JavaScript занимают большой процент. Если вы пишете на Haskell или Erlang, качество автодополнения будет заметно ниже. JetBrains не скрывает, что это модель «для самых популярных языков».
Прогноз: куда дальше?
Учитывая, что JetBrains уже активно внедряет AI в свои IDE (вспомните AI Assistant в IntelliJ), Mellum2 выглядит как подготовка почвы для встроенного локального движка. Возможно, в следующей версии PyCharm или GoLand мы увидим опцию «Использовать Mellum2 для автодополнения» без необходимости ставить плагины. А пока — берите модель с Hugging Face, жмите кнопку запуска и наслаждайтесь кодом, который пишется сам.
Скачать Mellum2 можно с официального репозитория JetBrains на Hugging Face. Версии: base (2.7B активных) и pro (7B активных). Для большинства задач хватит base — он быстрее и значительно легче. Pro стоит запускать только если вы готовы пожертвовать скоростью ради качества на сложных функциях с сотнями строк.