Что такое MCP?

MCP (Model Context Protocol) — это протокол, который позволяет подключать локальные модели к клиентам вроде Claude Desktop, создавая совместимый с Anthropic API эндпоинт.

Какая локальная модель лучше всего заменяет Claude?

Зависит от задач и железа. Для кодинга подходят CodeLlama 7B/13B, DeepSeek-Coder. Для общего общения — Mistral, Llama 3. Но ни одна локальная модель не догоняет по качеству Claude 3.5 Sonnet.

Сложно ли настроить MCP?

Для базовой настройки с Opencode потребуется 15-30 минут. Для продвинутой конфигурации с searchNG может уйти несколько часов. Если не знакомы с командной строкой и JSON — будет тяжело.

Локальные альтернативы Claude: Opencode, MCP, VLLM сервер

Claude ушел в отпуск? Ищем замену

Каждый раз, когда Anthropic поднимает цены или ограничивает доступ, у разработчиков начинается легкая паника. Платить $20 за модель, которая еще вчера стоила $10? Нет уж. Хорошая новость: можно не платить вообще. Плохая: придется немного поковыряться с настройками.

Локальные модели уже давно не шутка. Но как заставить их работать в привычных инструментах вроде Claude Code или Cursor? Ответ — MCP (Model Context Protocol). Это не магическая таблетка, а скорее универсальный адаптер, который превращает вашу локальную нейросеть в «почти Claude».

Не обольщайтесь — локальные модели слабее Claude 3.5 Sonnet. Они могут тупить на сложных задачах, путаться в контексте и требовать в 10 раз больше времени. Но они бесплатны и работают без интернета.

MCP: ваш билет в мир локальных моделей

Представьте, что MCP — это переводчик между вашим код-редактором и локальной нейросетью. Вы говорите: «Эй, я хочу использовать эту модель вместо Claude». MCP кивает и настраивает совместимый эндпоинт.

Технически это протокол, который стандартизирует общение между клиентами (вроде Claude Desktop) и серверами (вашей локальной моделью). Если интересны детали, посмотрите статью про PlexMCP — универсальный шлюз. Там все разжевано.

1 Выбираем движок: VLLM или Ollama?

VLLM — это монстр. Он быстрый, жадный до видеопамяти и умеет работать с десятками моделей одновременно. Ollama — скромный труженик, который запускает модели одной командой, но иногда тормозит на больших контекстах.

Для замены Claude нужен Anthropic-совместимый эндпоинт. VLLM умеет это из коробки. Ollama — нет (придется допиливать).

# Запускаем VLLM сервер с совместимостью Claude
python -m vllm.entrypoints.openai.api_server \
    --model codellama/CodeLlama-7b-Instruct-hf \
    --api-key token-abc123 \
    --served-model-name claude-3-haiku \
    --max-model-len 8192

Флаг --served-model-name говорит VLLM: «Притворись, что ты Claude». Теперь к этому серверу можно подключиться как к настоящему API Anthropic.

💡

Не хватает памяти? Возьмите модель поменьше. DeepSeek-Coder-1.3B-Instruct работает даже на интегрированной видеокарте, но и пишет код соответственно — медленно и с ошибками.

Opencode vs searchNG: битва эндпоинтов

Допустим, сервер запущен. Теперь нужен клиент, который будет говорить с ним по MCP. Вот два основных игрока:

Инструмент	Плюсы	Минусы	Для кого
Opencode	Простая настройка, работает из коробки, хорошая документация	Ограниченная кастомизация, только базовые функции MCP	Новички, кто хочет быстро попробовать
searchNG/context7	Гибкость, расширенные возможности, поддержка плагинов	Сложная настройка, нужно редактировать конфиги вручную	Продвинутые пользователи, которым не хватает функциональности

Opencode — это как IKEA: собрал за вечер и работает. SearchNG — как индивидуальный заказ у столяра: ждешь месяц, платишь втрое больше, но получаешь именно то, что хотел.

Лично я начинал с Opencode, а потом перешел на searchNG, когда надоели ограничения. Но если вы не готовы разбираться с JSON-конфигами, оставайтесь на Opencode.

2 Подключаем все к Claude Code

Claude Code (о котором мы подробно писали здесь) умеет работать с MCP из коробки. Нужно только прописать настройки в конфигурационный файл.

// ~/.config/Claude/claude_desktop_config.json
{
  "mcpServers": {
    "my-local-llm": {
      "command": "npx",
      "args": ["@modelcontextprotocol/server-opencode", "--model", "http://localhost:8000/v1"]
    }
  }
}

Перезапускаете Claude Code — и в меню выбора моделей появляется ваша локальная нейросеть. Если что-то не работает, поможет MCP Doctor — инструмент для автоматической отладки конфигов.

Не используйте Claude Code? MCP работает и в Cursor, и в других редакторах с поддержкой протокола. Принцип тот же — меняете конфиг и подключаете сервер.

«А зачем мне это?» — спрашивает менеджер

Локальные модели через MCP подходят не всем. Вот кому стоит попробовать:

Разработчикам с ограниченным бюджетом — когда нет $20/месяц на Claude, но есть RTX 4070 с 12 ГБ памяти.
Командам с требованиями к безопасности — код не улетает в облако, остается на вашем железе.
Энтузиастам, которые любят ковыряться в настройках — здесь есть где развернуться.
Тем, кому нужна специализированная модель — дообучили Llama на своем коде? Подключайте через MCP и используйте в привычной среде.

А кому не подойдет:

Тем, кто ценит время больше денег — настройка отнимет часы, а модель будет работать медленнее.
Новичкам без технического бэкграунда — если вы не знаете, что такое эндпоинт или JSON, лучше заплатите за Claude.
Всем, кому нужна state-of-the-art качество — локальные модели отстают от облачных гигантов на 1-2 поколения.

Что в итоге? Держите чеклист

Выберите модель под свое железо (посмотрите требования к памяти на Hugging Face).
Запустите VLLM сервер с флагом совместимости с Anthropic.
Установите MCP-сервер (Opencode для простоты, searchNG для гибкости).
Настройте клиент (Claude Code, Cursor) через конфигурационный файл.
Проверьте соединение — если модель отвечает, вы молодец.

И помните: локальные нейросети — это как старый автомобиль. Требует ухода, иногда ломается, едет медленнее нового. Но он ваш, и бензин вы заливаете когда хотите. А еще можете перекрасить в любой цвет и приделать спойлер (читай: дообучить на своих данных).

Если все это кажется слишком сложным, но хочется попробовать MCP — начните с готовых решений вроде MCP-сервера ВкусВилла. Там уже все настроено, нужно только подключиться.

Claude дорожает? Берите локальные модели и MCP