Зачем вообще это нужно? (Проблема дорогого железа)
Вы открываете Claude Code в браузере. Набираете промпт. Получаете идеальный код за 2 секунды. И тут вспоминаете - этот код улетает в облако Anthropic, а вы платите $20 в месяц или работаете с лимитами. Или у вас просто нет интернета. Или данные конфиденциальные.
Знакомо? Я тоже через это проходил. Но самое интересное начинается, когда пытаешься запустить что-то локально на обычном компьютере. Не на RTX 4090 с 24 ГБ VRAM. Не на Mac M3 Max. На обычном процессоре с 32 ГБ оперативки. Тот самый случай, когда в статье "Claude Code теперь можно запустить локально" все выглядит просто, пока не доходишь до системных требований.
Мой тестовый стенд - GMK EVO-X2 с Ryzen 5 5600G (без дискретной видеокарты) и 32 ГБ DDR4. Типичный офисный компьютер за $500. Если у вас есть хотя бы это - читайте дальше. Если меньше... ну, попробуем что-нибудь придумать.
Три претендента на трон (и почему они все не идеальны)
Я отобрал трех кандидатов, которые реально работают на CPU. Не обещания, не маркетинг - конкретные тесты на реальных задачах:
| Модель | Размер | Потребление RAM | Скорость (токенов/с) | Главный плюс | Главный минус |
|---|---|---|---|---|---|
| DeepSeek-Coder-6.7B-Instruct-Q4_K_M | 4.1 ГБ | ~6 ГБ | 12-15 | Лучшее понимание контекста | Иногда "умничает" слишком |
| Qwen2.5-Coder-7B-Instruct-Q4_K_M | 4.3 ГБ | ~7 ГБ | 10-13 | Отличная работа с API | Слабоват в рефакторинге |
| Codestral-7B-v0.1-Q4_K_M | 4.3 ГБ | ~7 ГБ | 8-11 | Французский стиль (точность) | Медленнее всех |
Заметили суффикс Q4_K_M? Это не случайность. Это квантование - магия, которая позволяет 7-миллиардной модели уместиться в 4 ГБ. Цена - небольшая потеря точности. Но на практике разницу заметите только в очень сложных задачах.
1 Готовим окружение: меньше магии, больше практики
Забудьте про сложные установки с vLLM и кучей зависимостей. На слабом железе это самоубийство. Вместо этого - Ollama. Просто, глупо, работает.
# Установка Ollama (Linux/macOS)
curl -fsSL https://ollama.ai/install.sh | sh
# Или Windows - скачайте с сайта
# Только не ставьте в Program Files, пути с пробелами ломают всё
Теперь загружаем модели. Не все сразу - выбирайте одну для теста:
# DeepSeek
ollama pull deepseek-coder:6.7b-instruct-q4_K_M
# Qwen2.5
ollama pull qwen2.5-coder:7b-instruct-q4_K_M
# Codestral
ollama pull codestral:7b-v0.1-q4_K_M
2 Тестируем на реальных задачах (а не на "Hello World")
Я дал всем трем моделям одинаковые задачи. Не синтетические тесты из бенчмарков, а то, с чем сталкиваюсь каждый день:
- Задача 1: "Напиши функцию на Python, которая принимает список словарей и возвращает словарь с группировкой по ключу"
- Задача 2: "Найди баг в этом коде (дал реальный кусок с ошибкой обработки None)"
- Задача 3: "Переведи этот SQL-запрос в SQLAlchemy ORM"
- Задача 4: "Сгенерируй Dockerfile для Python-приложения с зависимостями"
Результаты удивили. DeepSeek выиграл в задачах 1 и 3 - его код был самым чистым и идиоматичным. Qwen2.5 победил в задаче 4 - его Dockerfile был production-ready с multi-stage build. Codestral нашел баг в задаче 2 быстрее всех, но его решение для задачи 1 было... странным. Слишком академичным.
Важный нюанс: все модели иногда "галлюцинируют" - придумывают несуществующие методы библиотек. Особенно Codestral любит inventer des choses (изобретать вещи). Всегда проверяйте код перед запуском.
Интеграция в рабочий процесс: Aider vs Continue vs OpenHands
Модель в консоли - это хорошо. Но хочется IDE-интеграции как у Claude Code. Вот три варианта, которые реально работают на слабом железе:
- Aider - работает через командную строку, минимальные требования. Но нужно привыкать к workflow.
- Continue - расширение для VS Code, подключается к локальному Ollama. Ест немного RAM, но удобно.
- OpenHands - новичок, но уже показывает хорошие результаты. Правда, иногда глючит.
Мой выбор - Continue. Установка за 2 минуты:
// В settings.json VS Code
{
"continue.models": [
{
"title": "Local DeepSeek",
"provider": "ollama",
"model": "deepseek-coder:6.7b-instruct-q4_K_M"
}
],
"continue.showTerminal": false
}
Теперь у вас в редакторе есть чат с моделью. Выделяете код - получаете объяснение. Пишете комментарий - получаете реализацию. Почти как Claude Code, только медленнее (15 секунд вместо 2).
Почему Codestral проигрывает на слабом железе (и это обидно)
Codestral от Mistral AI - прекрасная модель. В статьях "Лучшие локальные LLM 2025 года" ее хвалят. Но на CPU она тормозит. Не просто медленнее - она ощутимо медленнее.
Проблема в архитектуре. Codestral оптимизирована для GPU inference. На CPU ее матричные умножения работают неэффективно. Qwen2.5 и DeepSeek явно лучше адаптированы для процессорных вычислений.
Но есть один кейс, где Codestral выстреливает: работа с устаревшим кодом. Ее "французская педантичность" идеально подходит для анализа legacy-систем. Если вам нужно разобраться в проекте 10-летней давности - Codestral справится лучше конкурентов. Просто приготовьтесь ждать.
Квантование: как не превратить модель в овощ
Самая частая ошибка новичков - скачать самую маленькую квантованную версию (Q2_K) и удивляться, почему модель генерирует ерунду. Q2_K - это 2 бита на вес. Представьте, что сжимаете фотографию в JPEG с качеством 10%. Да, файл маленький. Но детали потеряны.
Мои рекомендации для слабого железа:
| RAM | Квантование | Качество | Что получите |
|---|---|---|---|
| 8 ГБ | Q4_K_S | Приемлемое | Базовые задачи, объяснения кода |
| 16 ГБ | Q4_K_M | Хорошее | Почти все задачи, кроме самых сложных |
| 32 ГБ+ | Q5_K_M | Отличное | Сложный рефакторинг, архитектурные решения |
Если у вас 8 ГБ RAM и вы пытаетесь запустить Q5_K_M - компьютер начнет свопиться на диск. Скорость упадет до 1 токена в секунду. Вы будете ждать ответа 5 минут. Не делайте так.
Сценарии использования: когда что выбирать
После недели тестов я выработал простые правила:
- DeepSeek-Coder - ваш ежедневный драйвер. Для генерации кода, рефакторинга, объяснений. Самый сбалансированный.
- Qwen2.5-Coder - когда работаете с API, микросервисами, Docker. Его понимание системного контекста лучше.
- Codestral - для code review и анализа legacy-кода. Или когда нужна максимальная точность (и есть время ждать).
А что с Claude Code? Он все еще лучше. Быстрее, умнее, удобнее. Но он в облаке. И стоит денег. И ваши данные уходят к Anthropic.
Локальные модели - это компромисс. Вы жертвуете скоростью и иногда качеством, но получаете приватность, независимость от интернета и нулевую стоимость после загрузки модели.
Ошибки, которые все совершают (и как их избежать)
Ошибка 1: Запускать модель без указания контекста. Всегда начинайте промпт с "Ты - опытный Python-разработчик. Напиши код для..." Это снижает количество галлюцинаций на 30%.
Ошибка 2: Давать слишком сложные задачи одним запросом. Разбивайте на части. "Сначала опиши архитектуру, потом реализуй модуль A, потом модуль B".
Ошибка 3: Не проверять сгенерированный код. Особенно импорты и вызовы API. Модели любят придумывать несуществующие методы.
Что будет дальше? (Прогноз от того, кто это тестирует каждый день)
Через год ситуация изменится. Модели станут меньше и умнее. Уже сейчас появляются 3B-модели, которые почти не уступают 7B. Процессоры получат специфичные инструкции для LLM (как когда-то получили для AES).
Но главное - изменится подход. Вместо одной модели-универсаса будем использовать ансамбли. Как в статье "Owlex MCP-сервер" - несколько моделей спорят за ваш код, а вы выбираете лучшее.
А пока что - скачайте DeepSeek-Coder:6.7b-instruct-q4_K_M. Настройте Continue в VS Code. И попробуйте прожить день без Claude Code. Получится. Медленнее, но получится. И ваши данные останутся у вас.