Почему локальные агенты для кодирования все еще выглядят как игрушки
Запустил я на днях очередной автономный агент для бенчмаркинга LLM. Получил результаты. И снова тот же вывод: большинство локальных систем кодирования работают либо медленно, либо тупо, либо и то и другое сразу. Особенно когда пытаешься заставить их работать с реальными проектами, а не с синтетическими тестами из HumanEval.
К марту 2026 года ситуация изменилась, но не кардинально. У нас появились Qwen Coder Next от Alibaba (обновленная версия Qwen Coder), GLM-4.7-Flash от Zhipu AI (специально оптимизированная для быстрого inference) и десятки мелких моделей, которые обещают чудеса на 7 миллиардах параметров. Агенты по-прежнему любят генерировать код, который не компилируется.
Проблема в трех слоях: модели, квантования и логика агента. Можно взять отличную модель, но сломать ее неоптимальным квантованием. Или идеально настроить квантование, но запихнуть модель в тупой агентный фреймворк, который не умеет работать с инструментами.
Модели 2026 года: что реально работает на локальном железе
Забудьте про разговоры о "лучшей модели вообще". Для локального стека важнее "лучшая модель для вашего железа и задач". После тестов на RTX 6000 Pro Blackwell 96GB стало ясно: 96 гигабайт VRAM - это не счастливый билет, а ловушка выбора.
| Модель | Размер (параметры) | Плюсы | Минусы | Для кого |
|---|---|---|---|---|
| Qwen Coder Next 34B | 34 млрд | Отличное понимание кода, обновленная кодовая база (2025-2026), поддерживает 128K контекст | Требует минимум 24 ГБ VRAM в FP16, китайский акцент в тренировочных данных | Профессиональные разработчики с мощными картами |
| GLM-4.7-Flash 32B | 32 млрд | Специально оптимизирована для inference, быстрее аналогов на 15-20% | Меньший контекст (64K), хуже с редкими языками программирования | Те, кому важна скорость ответа |
| OpenCode 12B | 12 млрд | Специализирована только на коде, малый размер, работает на 8 ГБ VRAM | Слабее в общих рассуждениях, может пропускать edge cases | Обладатели средних видеокарт |
Личный выбор? Qwen Coder Next 34B в 4-битном квантовании. Почему? Потому что разница в качестве между 4-bit и 8-bit для кодирования почти незаметна, а экономия памяти колоссальная. GLM-4.7-Flash быстрее, но иногда выдает странные решения для сложных архитектурных задач.
Квантование в 2026: новые методы и старые проблемы
Вот что бесит: каждый месяц появляется новый метод квантования, который обещает "почти без потерь". На практике все сводится к трем методам, которые реально работают.
1 AWQ против GPTQ против GGUF
- AWQ (Activation-aware Weight Quantization) - стал стандартом для большинства новых моделей. Меньше деградации качества, особенно для маленьких моделей. Но требует специфической поддержки в рантаймах.
- GPTQ - все еще жив, особенно для моделей на архитектуре Llama. Более агрессивное сжатие, но на некоторых задачах выдает артефакты.
- GGUF - формат от llama.cpp. Универсальный, но не всегда самый эффективный. Зато запускается везде, даже на CPU.
На 11 марта 2026 года: для Qwen моделей используйте AWQ. Для GLM - тоже AWQ, если найдете. OpenCode лучше всего работает в родном формате разработчиков. Не верьте обещаниям "2-bit квантования без потерь" - для кодирования это пока фантастика.
2 Практический выбор квантования
Ваше железо диктует правила:
# Пример: проверка доступной VRAM
nvidia-smi --query-gpu=memory.total --format=csv
# Результат определяет выбор:
# 8-12 ГБ: OpenCode 12B в 4-bit или Q2_K
# 16-20 ГБ: GLM-4.7-Flash 32B в 4-bit AWQ
# 24+ ГБ: Qwen Coder Next 34B в 4-bit или 8-bit
Самый частый вопрос: "Почему не FP16? У меня же есть память!" Потому что разница в качестве между 4-bit AWQ и FP16 для кодирования составляет 2-5% в синтетических тестах. В реальных задачах вы не заметите разницы. Зато заметите, что модель думает в 2 раза быстрее.
Собираем стек: инструменты, которые не сломаются через неделю
Тут история грустная. 80% open-source агентных фреймворков забрасываются через 3 месяца после релиза. Я перепробовал десятки. Выжили единицы.
3 Базовый стек: проверенный временем
- Ollama - для запуска моделей. Поддержка AWQ пришла только в конце 2025, но теперь стабильна. Альтернатива - llama.cpp для GGUF.
- OpenCode Framework - не путать с моделью OpenCode. Это агентный фреймворк, который умеет работать с git, запускать тесты, читать документацию. Из коробки поддерживает все популярные модели.
- Persistent REPL - навык для агентов, который сохраняет состояние между сессиями. Без этого агент забывает контекст после каждого перезапуска.
4 Пошаговая установка (работает на 11.03.2026)
# 1. Устанавливаем Ollama (последняя версия)
curl -fsSL https://ollama.ai/install.sh | sh
# 2. Создаем модифицированную модель с правильными настройками
cat > Modfile << EOF
FROM qwen2.5-coder-next:34b
PARAMETER temperature 0.1
PARAMETER top_p 0.95
PARAMETER num_ctx 131072
EOF
ollama create qwen-coder-next-custom -f Modfile
# 3. Устанавливаем OpenCode Framework
pip install opencode-framework
# 4. Базовая конфигурация
opencode init --model ollama:qwen-coder-next-custom --tools git,pytest,file_reader
Важный нюанс: temperature 0.1 для кодирования - это не опечатка. Более высокие значения приводят к креативным, но нерабочим решениям. Агент должен быть консервативным.
Настройка агента: заставляем модель работать, а не болтать
Стандартная ошибка: скопировать промпты из интернета, удивиться, почему агент генерирует эссе вместо кода. Современные модели (2025-2026 года) стали слишком разговорчивыми.
Секрет в system prompt. Не пишите "Ты - helpful assistant". Пишите "Ты - инструмент для генерации кода. Отвечай только кодом или JSON для вызова инструментов. Никаких объяснений, если не запрошено явно."
5 Пример рабочей конфигурации OpenCode
# config/agent.yaml
model:
provider: ollama
name: qwen-coder-next-custom
parameters:
temperature: 0.1
top_p: 0.95
max_tokens: 4096
system_prompt: |
Ты - автономный агент для программирования.
Твоя задача: выполнять инструкции, связанные с кодом.
Формат ответа:
- Если нужно сгенерировать код: только код, без комментариев
- Если нужно использовать инструмент: валидный JSON
- Если нужны уточнения: один короткий вопрос
Не объясняй свои действия. Не предлагай альтернативы, если не указано.
tools:
- git
- pytest
- file_reader
- command_executor
skills:
- persistent_repl # Критически важно для долгих сессий
- code_analyzer
Обратите внимание на skills. Persistent REPL - это не просто "фича", а необходимость. Без этого агент каждый раз начинает с чистого листа. Прочитайте детали в статье про Persistent REPL для локальных LLM.
Тестирование и метрики: как понять, что все работает
Самый бесполезный тест - HumanEval. Самый полезный - ваш собственный код.
- Дайте агенту задачу из вашего текущего проекта
- Измерьте не только правильность, но и время ответа
- Проверьте, как агент работает с длинным контекстом (10+ файлов)
- Тестируйте вызов инструментов: git commit, pytest, чтение документации
Мои замеры на RTX 4090 (24 ГБ) с Qwen Coder Next 34B в 4-bit AWQ:
# Генерация функции средней сложности: 3.2 секунды
# Анализ кодовой базы (10 файлов): 8.7 секунды
# Исправление бага с вызовом pytest: 12.4 секунды (включая время тестов)
Если ваши цифры сильно отличаются в худшую сторону - что-то не так с квантованием или настройками.
Ошибки, которые совершают все (и вы, вероятно, тоже)
Ошибка 1: Слишком высокая temperature. Для кодирования 0.1-0.3 максимум. Выше - начинается креатив с ошибками.
Ошибка 2: Неверный выбор квантования для модели. AWQ для Qwen, но не для всех старых моделей.
Ошибка 3: Экономия на контексте. 32K для реальных проектов мало. Минимум 64K, лучше 128K.
Ошибка 4: Отсутствие навыков (skills) в агенте. Без Persistent REPL и code analyzer это просто чат-бот.
Что дальше? Будущее локальных кодовых агентов
К концу 2026 года, по моим прогнозам, появятся специализированные модели под 10 миллиардов параметров, которые будут сравнимы с сегодняшними 34B. Произойдет это за счет лучших данных для тренировки и архитектурных оптимизаций.
Главный тренд - вертикальная интеграция. Не просто "модель + фреймворк", а специализированные стеки под конкретные языки или фреймворки. Представьте агента, который знает ваш кодекс стиля, часто используемые библиотеки и даже баги, которые вы обычно допускаете.
Но уже сегодня, в марте 2026, стек на основе Qwen Coder Next 34B + OpenCode Framework + правильное квантование дает 80% возможностей коммерческих решений вроде GitHub Copilot Workspace. Бесплатно. Локально. Без отправки кода на чужие сервера.
Остальные 20% - это полировка и интеграция в ваш workflow. Что, честно говоря, самая интересная часть.