JetBrains, привыкшая радовать нас IDE и инструментами для разработчиков, вдруг выкатила собственную языковую модель. Mellum2 — не очередной «убийца ChatGPT», а узкоспециализированный зверь для AI-воркфлоу. Быстрый, открытый, без компромиссов по скорости. Разбираемся, зачем он нужен и как его приручить.
Что такое Mellum2 и почему это не просто «ещё одна LLM»
Если вы следили за релизами последних месяцев, то заметили тренд: гигантские модели уступают место компактным, но шустрым. DeepSeek-Coder, CodeGemma, StarCoder2 — все они стараются быть быстрее и легче. Mellum2 от JetBrains идёт по тому же пути, но с одним важным отличием — он заточен на выполнение воркфлоу, а не просто на генерацию текста.
Mellum2 — это open-source модель с архитектурой MoE (Mixture of Experts), оптимизированная для инференса на consumer-grade GPU и даже CPU. В отличие от «тяжеловесов» вроде GPT-4 или Claude 3.5, она не пытается отвечать на любые вопросы. Её стихия — код, автодополнение, рефакторинг, анализ логов, генерация тестов. Всё то, что составляет ежедневную рутину разработчика.
Ключевая фишка: Mellum2 использует динамическое выделение экспертов. Это значит, что для простого запроса (например, «напиши функцию на Python») активируется только часть параметров, что резко ускоряет ответ. На практике — до 150 токенов/сек на RTX 4090. Для сравнения: CodeGemma 7B выдаёт около 80 токенов/сек на том же железе.
Технические детали: что под капотом
Mellum2 доступна в двух вариантах: base (2.7B активных параметров, 8 экспертов) и pro (7B активных параметров, 16 экспертов). Обе версии обучены на смеси кода (C++, Java, Python, Go, Rust, JavaScript) и технической документации. Контекстное окно — 32K токенов, что за глаза хватает для большинства задач.
Вот что важно для тех, кто хочет запустить модель локально:
- Поддержка 4-битной квантизации — модель весит всего 2.1 ГБ в формате GGUF.
- Нативный экспорт в ONNX (да, тот самый ONNX, о котором мы писали в разборе уязвимостей — но тут всё безопасно).
- Совместимость с OpenAI API — можно подключать через любой клиент, включая Spring AI или любую обёртку.
Запускаем за 5 минут
Самый простой способ — через Ollama. Модель уже добавлена в официальный реестр. Выполните:
ollama run jetbrains/mellum2:base
Если хотите тонкой настройки — качайте веса с Hugging Face и запускайте через transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"jetbrains/mellum2-base",
device_map="auto",
torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("jetbrains/mellum2-base")
prompt = "function fibonacci(n) {"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))
Сравнение с конкурентами
Кого догоняет JetBrains? Условно, Mellum2 бьётся в одной весовой категории с DeepSeek-Coder-V2-Lite-Instruct, Qwen2.5-Coder и вышеупомянутым CodeGemma. Вот таблица (все замеры на RTX 4090, FP16):
| Модель | Скорость (токен/с) | HumanEval pass@1 | Размер (4bit) |
|---|---|---|---|
| Mellum2 Pro | 142 | 68.3% | 6.8 ГБ |
| Mellum2 Base | 185 | 61.5% | 2.1 ГБ |
| DeepSeek-Coder-V2-Lite | 110 | 72.1% | 4.5 ГБ |
| CodeGemma 7B | 80 | 55.4% | 3.9 ГБ |
Да, по «чистому» качеству кода DeepSeek ещё впереди. Но Mellum2 выигрывает в скорости и удобстве интеграции с экосистемой JetBrains. Если вы пишете на Java или Kotlin — модель «из коробки» понимает контекст вашего проекта лучше, чем универсальные кодеры.
Где Mellum2 бесит, а где радует
Звучит логично, но есть нюанс. Модель отлично справляется с типовыми задачами: написать тест, отрефакторить цикл, сгенерировать CRUD. Но стоит попросить её объяснить сложную архитектуру или написать асинхронный код на Rust с макросами — она начинает «плавать». Ответы становятся многословными, а код — с багами. Не советую так делать, если не хотите потом отлаживать полчаса.
Зато Mellum2 идеально подходит для воркфлоу внутри IDE. JetBrains уже встроила её в AI Assistant последних версий IDEA и Fleet. Результат — автодополнение практически без задержек, даже на среднем железе. Как мы писали в обзоре интеграции AI в Java/Kotlin проекты, локальные модели снимают проблемы задержек и конфиденциальности.
Кому стоит присмотреться
Mellum2 — это не серебряная пуля. Но если:
- Вы разрабатываете на Java, Kotlin, Python — модель покажет лучшие результаты благодаря доменному обучению.
- Вам нужен локальный AI для CI/CD: прогнать кодревью, сгенерировать документацию, проверить стиль.
- Вы собираете AI-терминал или ассистента внутри своей экосистемы — Mellum2 легко кастомизируется через LoRA.
А если вам нужно что-то более универсальное (диалоги, суммаризация, работа с неструктурированным текстом) — лучше взглянуть на новинки с Hugging Face, вроде GLM-4.7 или Qwen3 TTS. У каждой модели свой дзен.
Если вы всё ещё думаете, ставить ли Mellum2 на продакшен — попробуйте сначала на пет-проекте. Запустите через AI OS или просто Ollama, прогоните свой код. Уверен, после пары сессий вы либо влюбитесь, либо проклянёте. И то, и другое — нормально.
Совет под занавес: не пытайтесь скормить ей SQL-запросы с пользовательским вводом без санитизации. Вспомните весенний провал с SQL-инъекциями в Spring AI — Mellum2 может сгенерировать опасный код, если подтолкнуть. Локальная модель не значит безопасная по умолчанию.