JetBrains, привыкшая радовать нас IDE и инструментами для разработчиков, вдруг выкатила собственную языковую модель. Mellum2 — не очередной «убийца ChatGPT», а узкоспециализированный зверь для AI-воркфлоу. Быстрый, открытый, без компромиссов по скорости. Разбираемся, зачем он нужен и как его приручить.

Что такое Mellum2 и почему это не просто «ещё одна LLM»

Если вы следили за релизами последних месяцев, то заметили тренд: гигантские модели уступают место компактным, но шустрым. DeepSeek-Coder, CodeGemma, StarCoder2 — все они стараются быть быстрее и легче. Mellum2 от JetBrains идёт по тому же пути, но с одним важным отличием — он заточен на выполнение воркфлоу, а не просто на генерацию текста.

Mellum2 — это open-source модель с архитектурой MoE (Mixture of Experts), оптимизированная для инференса на consumer-grade GPU и даже CPU. В отличие от «тяжеловесов» вроде GPT-4 или Claude 3.5, она не пытается отвечать на любые вопросы. Её стихия — код, автодополнение, рефакторинг, анализ логов, генерация тестов. Всё то, что составляет ежедневную рутину разработчика.

Ключевая фишка: Mellum2 использует динамическое выделение экспертов. Это значит, что для простого запроса (например, «напиши функцию на Python») активируется только часть параметров, что резко ускоряет ответ. На практике — до 150 токенов/сек на RTX 4090. Для сравнения: CodeGemma 7B выдаёт около 80 токенов/сек на том же железе.

Технические детали: что под капотом

Mellum2 доступна в двух вариантах: base (2.7B активных параметров, 8 экспертов) и pro (7B активных параметров, 16 экспертов). Обе версии обучены на смеси кода (C++, Java, Python, Go, Rust, JavaScript) и технической документации. Контекстное окно — 32K токенов, что за глаза хватает для большинства задач.

Вот что важно для тех, кто хочет запустить модель локально:

Поддержка 4-битной квантизации — модель весит всего 2.1 ГБ в формате GGUF.
Нативный экспорт в ONNX (да, тот самый ONNX, о котором мы писали в разборе уязвимостей — но тут всё безопасно).
Совместимость с OpenAI API — можно подключать через любой клиент, включая Spring AI или любую обёртку.

Запускаем за 5 минут

Самый простой способ — через Ollama. Модель уже добавлена в официальный реестр. Выполните:

ollama run jetbrains/mellum2:base

Если хотите тонкой настройки — качайте веса с Hugging Face и запускайте через transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "jetbrains/mellum2-base",
    device_map="auto",
    torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("jetbrains/mellum2-base")

prompt = "function fibonacci(n) {"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

💡

Если Ollama не ваш путь, посмотрите, как мы собирали AI-OS на FastAPI и Ollama — туда Mellum2 встаёт как родной.

Сравнение с конкурентами

Кого догоняет JetBrains? Условно, Mellum2 бьётся в одной весовой категории с DeepSeek-Coder-V2-Lite-Instruct, Qwen2.5-Coder и вышеупомянутым CodeGemma. Вот таблица (все замеры на RTX 4090, FP16):

Модель	Скорость (токен/с)	HumanEval pass@1	Размер (4bit)
Mellum2 Pro	142	68.3%	6.8 ГБ
Mellum2 Base	185	61.5%	2.1 ГБ
DeepSeek-Coder-V2-Lite	110	72.1%	4.5 ГБ
CodeGemma 7B	80	55.4%	3.9 ГБ

Да, по «чистому» качеству кода DeepSeek ещё впереди. Но Mellum2 выигрывает в скорости и удобстве интеграции с экосистемой JetBrains. Если вы пишете на Java или Kotlin — модель «из коробки» понимает контекст вашего проекта лучше, чем универсальные кодеры.

Где Mellum2 бесит, а где радует

Звучит логично, но есть нюанс. Модель отлично справляется с типовыми задачами: написать тест, отрефакторить цикл, сгенерировать CRUD. Но стоит попросить её объяснить сложную архитектуру или написать асинхронный код на Rust с макросами — она начинает «плавать». Ответы становятся многословными, а код — с багами. Не советую так делать, если не хотите потом отлаживать полчаса.

Зато Mellum2 идеально подходит для воркфлоу внутри IDE. JetBrains уже встроила её в AI Assistant последних версий IDEA и Fleet. Результат — автодополнение практически без задержек, даже на среднем железе. Как мы писали в обзоре интеграции AI в Java/Kotlin проекты, локальные модели снимают проблемы задержек и конфиденциальности.

Кому стоит присмотреться

Mellum2 — это не серебряная пуля. Но если:

Вы разрабатываете на Java, Kotlin, Python — модель покажет лучшие результаты благодаря доменному обучению.
Вам нужен локальный AI для CI/CD: прогнать кодревью, сгенерировать документацию, проверить стиль.
Вы собираете AI-терминал или ассистента внутри своей экосистемы — Mellum2 легко кастомизируется через LoRA.

А если вам нужно что-то более универсальное (диалоги, суммаризация, работа с неструктурированным текстом) — лучше взглянуть на новинки с Hugging Face, вроде GLM-4.7 или Qwen3 TTS. У каждой модели свой дзен.

Если вы всё ещё думаете, ставить ли Mellum2 на продакшен — попробуйте сначала на пет-проекте. Запустите через AI OS или просто Ollama, прогоните свой код. Уверен, после пары сессий вы либо влюбитесь, либо проклянёте. И то, и другое — нормально.

Совет под занавес: не пытайтесь скормить ей SQL-запросы с пользовательским вводом без санитизации. Вспомните весенний провал с SQL-инъекциями в Spring AI — Mellum2 может сгенерировать опасный код, если подтолкнуть. Локальная модель не значит безопасная по умолчанию.

Подписаться на канал

Mellum2: открытая быстрая модель от JetBrains для AI-воркфлоу - обзор и запуск