Claude ушел в отпуск? Ищем замену
Каждый раз, когда Anthropic поднимает цены или ограничивает доступ, у разработчиков начинается легкая паника. Платить $20 за модель, которая еще вчера стоила $10? Нет уж. Хорошая новость: можно не платить вообще. Плохая: придется немного поковыряться с настройками.
Локальные модели уже давно не шутка. Но как заставить их работать в привычных инструментах вроде Claude Code или Cursor? Ответ — MCP (Model Context Protocol). Это не магическая таблетка, а скорее универсальный адаптер, который превращает вашу локальную нейросеть в «почти Claude».
Не обольщайтесь — локальные модели слабее Claude 3.5 Sonnet. Они могут тупить на сложных задачах, путаться в контексте и требовать в 10 раз больше времени. Но они бесплатны и работают без интернета.
MCP: ваш билет в мир локальных моделей
Представьте, что MCP — это переводчик между вашим код-редактором и локальной нейросетью. Вы говорите: «Эй, я хочу использовать эту модель вместо Claude». MCP кивает и настраивает совместимый эндпоинт.
Технически это протокол, который стандартизирует общение между клиентами (вроде Claude Desktop) и серверами (вашей локальной моделью). Если интересны детали, посмотрите статью про PlexMCP — универсальный шлюз. Там все разжевано.
1 Выбираем движок: VLLM или Ollama?
VLLM — это монстр. Он быстрый, жадный до видеопамяти и умеет работать с десятками моделей одновременно. Ollama — скромный труженик, который запускает модели одной командой, но иногда тормозит на больших контекстах.
Для замены Claude нужен Anthropic-совместимый эндпоинт. VLLM умеет это из коробки. Ollama — нет (придется допиливать).
# Запускаем VLLM сервер с совместимостью Claude
python -m vllm.entrypoints.openai.api_server \
--model codellama/CodeLlama-7b-Instruct-hf \
--api-key token-abc123 \
--served-model-name claude-3-haiku \
--max-model-len 8192
Флаг --served-model-name говорит VLLM: «Притворись, что ты Claude». Теперь к этому серверу можно подключиться как к настоящему API Anthropic.
Opencode vs searchNG: битва эндпоинтов
Допустим, сервер запущен. Теперь нужен клиент, который будет говорить с ним по MCP. Вот два основных игрока:
| Инструмент | Плюсы | Минусы | Для кого |
|---|---|---|---|
| Opencode | Простая настройка, работает из коробки, хорошая документация | Ограниченная кастомизация, только базовые функции MCP | Новички, кто хочет быстро попробовать |
| searchNG/context7 | Гибкость, расширенные возможности, поддержка плагинов | Сложная настройка, нужно редактировать конфиги вручную | Продвинутые пользователи, которым не хватает функциональности |
Opencode — это как IKEA: собрал за вечер и работает. SearchNG — как индивидуальный заказ у столяра: ждешь месяц, платишь втрое больше, но получаешь именно то, что хотел.
Лично я начинал с Opencode, а потом перешел на searchNG, когда надоели ограничения. Но если вы не готовы разбираться с JSON-конфигами, оставайтесь на Opencode.
2 Подключаем все к Claude Code
Claude Code (о котором мы подробно писали здесь) умеет работать с MCP из коробки. Нужно только прописать настройки в конфигурационный файл.
// ~/.config/Claude/claude_desktop_config.json
{
"mcpServers": {
"my-local-llm": {
"command": "npx",
"args": ["@modelcontextprotocol/server-opencode", "--model", "http://localhost:8000/v1"]
}
}
}
Перезапускаете Claude Code — и в меню выбора моделей появляется ваша локальная нейросеть. Если что-то не работает, поможет MCP Doctor — инструмент для автоматической отладки конфигов.
Не используйте Claude Code? MCP работает и в Cursor, и в других редакторах с поддержкой протокола. Принцип тот же — меняете конфиг и подключаете сервер.
«А зачем мне это?» — спрашивает менеджер
Локальные модели через MCP подходят не всем. Вот кому стоит попробовать:
- Разработчикам с ограниченным бюджетом — когда нет $20/месяц на Claude, но есть RTX 4070 с 12 ГБ памяти.
- Командам с требованиями к безопасности — код не улетает в облако, остается на вашем железе.
- Энтузиастам, которые любят ковыряться в настройках — здесь есть где развернуться.
- Тем, кому нужна специализированная модель — дообучили Llama на своем коде? Подключайте через MCP и используйте в привычной среде.
А кому не подойдет:
- Тем, кто ценит время больше денег — настройка отнимет часы, а модель будет работать медленнее.
- Новичкам без технического бэкграунда — если вы не знаете, что такое эндпоинт или JSON, лучше заплатите за Claude.
- Всем, кому нужна state-of-the-art качество — локальные модели отстают от облачных гигантов на 1-2 поколения.
Что в итоге? Держите чеклист
- Выберите модель под свое железо (посмотрите требования к памяти на Hugging Face).
- Запустите VLLM сервер с флагом совместимости с Anthropic.
- Установите MCP-сервер (Opencode для простоты, searchNG для гибкости).
- Настройте клиент (Claude Code, Cursor) через конфигурационный файл.
- Проверьте соединение — если модель отвечает, вы молодец.
И помните: локальные нейросети — это как старый автомобиль. Требует ухода, иногда ломается, едет медленнее нового. Но он ваш, и бензин вы заливаете когда хотите. А еще можете перекрасить в любой цвет и приделать спойлер (читай: дообучить на своих данных).
Если все это кажется слишком сложным, но хочется попробовать MCP — начните с готовых решений вроде MCP-сервера ВкусВилла. Там уже все настроено, нужно только подключиться.