Vibe coding без подписки: что вышло у Mistral
Mistral выпустила Devstral 2 — автономного агента для кодинга с открытыми весами. Модель на 123B параметров, CLI под Apache 2.0 и результаты на SWE-bench, которые заставляют присмотреться. Это не просто очередная кодовая модель. Это инструмент, который сам решает задачи, а не ждет ваших подсказок.
Devstral 2 — это автономный агент, а не чат-бот. Он анализирует код, запускает тесты, исправляет ошибки и пишет новые функции без постоянного вмешательства человека.
Как работает этот автономный кодер
Devstral 2 построен на Mistral Vibe — архитектуре, специально заточенной под автономное выполнение задач. Модель не просто генерирует код. Она:
- Читает и анализирует существующую кодовую базу
- Запускает тесты и проверяет результаты
- Исправляет ошибки на основе выводов тестов
- Пишет документацию и коммитит изменения
- Работает через CLI — никаких веб-интерфейсов
В теории это звучит как магия. На практике — это цепочка решений, где модель сама решает, что делать дальше. Не нужно писать промпты типа "сначала сделай это, потом то". Вы даете задачу, а модель разбирается сама.
Цифры, которые имеют значение
SWE-bench — стандартный тест для автономных кодинг-агентов. Devstral 2 показывает 31.2% решенных задач. Цифра не бьет рекорды, но учитывая открытые веса и размер модели — это серьезно.
| Модель | SWE-bench (%) | Веса | Размер |
|---|---|---|---|
| Devstral 2 | 31.2 | Открытые | 123B |
| Claude 3.5 Sonnet | ~44.5 | Закрытые | Неизвестно |
| GPT-4o | ~48.1 | Закрытые | Неизвестно |
| Gemini 1.5 Pro | ~35.0 | Закрытые | Неизвестно |
31.2% против 48.1% у GPT-4o. Разница есть, но не катастрофическая. Особенно если учесть, что Devstral 2 можно запустить локально, модифицировать и не платить за токены.
CLI, который не стыдно показать
Интерфейс Devstral 2 — это командная строка. Никаких графических оберток. Установка через pip, конфигурация в YAML-файле, запуск одной командой.
1Установка и настройка
pip install devstral2 — и все. Модель весит много, но можно использовать квантованную версию. Конфигурационный файл определяет, какие инструменты доступны агенту: запуск тестов, работа с git, анализ логов.
2Работа с задачами
Вызываете devstral2 solve path/to/issue.md. Агент читает описание задачи, анализирует код, запускает тесты, вносит изменения. Весь процесс логируется. Можно прервать в любой момент.
3Что делать с результатами
Devstral 2 создает патчи, коммиты, иногда даже пулл-реквесты. Но финальное решение — за вами. Агент предлагает изменения, а вы решаете, применять их или нет.
Не ждите, что Devstral 2 решит все задачи с первого раза. Модель иногда зацикливается или предлагает странные решения. Всегда проверяйте изменения перед коммитом.
С чем сравнивать: открытые vs проприетарные
Devstral 2 — не единственный автономный агент. Но у него есть особенности, которые выделяют его на фоне конкурентов.
Против проприетарных решений (GPT-4o, Claude, Gemini): Devstral 2 работает локально, не отправляет код в облако, не требует подписки. Но уступает в точности и требует мощного железа для запуска полной версии.
Против других открытых моделей: Многие opensource-модели для кодинга (CodeLlama, DeepSeek-Coder) — это просто чат-боты. Они не умеют автономно выполнять задачи. Devstral 2 — именно агент, с планированием и выполнением действий.
Если вам интересно, как другие модели справляются с многошаговыми задачами, посмотрите статью про проблемы GLM 4.7 и Kimi K2 в автономном кодинге. Там разобраны типичные ошибки, которые допускают даже крупные модели.
Кому подойдет Devstral 2
Этот инструмент — не для всех. Но есть сценарии, где он блестяще себя показывает.
- Команды с ограниченным бюджетом: Нет денег на Claude или GPT-4 Enterprise? Devstral 2 дает 70% функциональности за 0% стоимости.
- Проекты с требованиями к конфиденциальности: Код не покидает ваш сервер. Никаких соглашений о неразглашении не нарушается.
- Разработчики, которые любят ковыряться: Веса открыты под Apache 2.0. Можете дообучить модель на своем коде, изменить поведение, адаптировать под свои нужды.
- Поддержка legacy-кода: Автоматическое исправление устаревших функций, миграция с одной версии библиотеки на другую.
Если вы уже работали с чем-то вроде CodeMender от DeepMind, то Devstral 2 покажется более универсальным. CodeMender заточен под безопасность, а Devstral 2 — под общие задачи разработки.
Где споткнетесь: подводные камни
Идеальных инструментов не бывает. Devstral 2 — не исключение.
Требования к железу: Полная версия на 123B параметров требует минимум 80 ГБ VRAM. Это не для слабых видеокарт. Квантованные версии (4-бит, 8-бит) экономят память, но теряют в качестве.
Скорость работы: Генерация кода — не мгновенная. Особенно если агент запускает тесты между итерациями. На сложных задачах можно ждать несколько минут.
Ошибки планирования: Иногда агент выбирает странный путь решения. Вместо простого исправления одной функции начинает рефакторить полпроекта. Нужно следить за логированием.
Контекстное окно: 128K токенов — много, но не бесконечно. Очень большие проекты могут не поместиться. Придется разбивать задачи на части.
Что дальше: прогноз на 2025
Devstral 2 — важный шаг. Но не последний. Ожидайте, что через полгода появятся:
- Более компактные версии (7B, 13B) с похожей функциональностью
- Интеграции с популярными IDE (VS Code, JetBrains)
- Специализированные агенты для конкретных языков или фреймворков
- Улучшенное планирование — меньше глупых ошибок в логике действий
Автономные агенты становятся стандартом. Не как замена разработчикам, а как инструмент, который берет на себя рутину. Devstral 2 показывает, что это можно делать с открытыми весами. Без привязки к крупным корпорациям.
Попробуйте запустить его на своей задаче. Не на продакшене, а на тестовом проекте. Посмотрите, как модель справляется. Даже если результат будет неидеальным — вы поймете, куда движется индустрия. И будете готовы, когда следующий Devstral 3 решит уже 50% задач на SWE-bench.