Как MCP Slim экономит контекст?

MCP Slim индексирует все инструменты от подключенных MCP-серверов, создает их векторные эмбеддинги с помощью MiniLM, а затем при каждом запросе пользователя выбирает только 3-5 наиболее релевантных инструментов через семантический поиск. Остальные инструменты не попадают в контекст LLМ.

MCP Slim работает оффлайн?

Да, полностью. Библиотека MiniLM для создания эмбеддингов работает локально, никаких вызовов в облако или к API не требуется.

С какими MCP-серверами совместим Slim?

С любыми серверами, поддерживающими стандартный протокол MCP: файловые системы, веб-поиск (Brave), GitHub, SQLite, PostgreSQL и другие.

MCP Slim: экономия 96% контекста с семантическим поиском MiniLM

Ваш MCP-контекст весит больше, чем код проекта

Представьте: вы подключаете к Claude три MCP-сервера. Один для работы с файлами, второй для веб-поиска, третий для базы данных. В теории — суперсила. На практике — 15 тысяч токенов описаний инструментов, которые модель обязана проглотить перед каждым ответом. И 90% этих инструментов вам не нужны прямо сейчас. Знакомо? Это и есть главная боль экосистемы Model Context Protocol в 2026 году.

Токены жрут бюджет (если вы платите за API) или съедают память (если работаете с локальными моделями вроде Llama 3.3 405B или новой DeepSeek-V3). Решение появилось неожиданно: MCP Slim. Инструмент, который обещает сократить расход контекста на 96%. И делает это не через тупое обрезание, а через умный локальный семантический поиск.

Цифра 96% — не маркетинг. На тестах с набором из 127 инструментов от популярных MCP-серверов (файлы, веб, SQL, GitHub) Slim оставляет в контексте в среднем 4-5 релевантных инструментов вместо полного списка. Остальное — в локальном индексе, готовом к мгновенному семантическому поиску.

Как работает чудо-пилюля

MCP Slim — это прокси-сервер на Node.js. Он встает между вашим клиентом (Claude Desktop, Cursor, Windsurf) и MCP-серверами. Но это не простой прокси. Его ядро — библиотека эмбеддингов MiniLM v3 (последняя версия на март 2026), которая работает полностью оффлайн.

Алгоритм прост до гениальности:

При старте Slim индексирует все инструменты от всех подключенных MCP-серверов. Из названий, описаний и параметров создаются векторные эмбеддинги.
Эти векторы хранятся в памяти или на диске (опционально). Никаких облачных вызовов, никакой отправки данных в OpenAI.
Когда пользователь пишет запрос («найди последние коммиты в репозитории»), Slim вычисляет эмбеддинг запроса и находит 3-5 самых релевантных инструментов через косинусное сходство.
В контекст LLM попадают только эти 3-5 инструментов. Остальные 120+ — остаются в индексе, ожидая своего часа.

Вот и весь фокус. Вместо того чтобы грузить модель всеми инструментами сразу (большинство из которых про работу с файлами, когда вы спрашиваете про SQL), она получает только то, что нужно здесь и сейчас. Модель не тратит «мыслительную энергию» на парсинг ненужных JSON-схем. Она сразу видит релевантные инструменты и чаще — правильно их выбирает.

💡

Это меняет правила игры для локальных моделей с ограниченным контекстом. Например, для Mistral-Nemo 2 12B, где каждый сохраненный токен на вес золота. Теперь вы можете подключить десяток MCP-серверов и не бояться, что они "съедят" весь контекст.

Чем не является MCP Slim

Это не еще один OCTAVE MCP, который сжимает описания инструментов через нейросеть. Slim не меняет содержимое инструментов. Он их фильтрует.

Это не PromptShrink для промптов. Это именно поисковик по инструментам.

И уж точно не CCP, который чистит мусор из терминала. Хотя философия похожа: убрать шум, оставить сигнал.

Установка: 30 секунд на все

Типичная установка через npx (требуется Node.js 20+):

npx mcp-slim@latest start --config ./mcp-slim-config.json

Конфиг — простой JSON, где вы указываете, какие MCP-серверы подключать и параметры семантического поиска. Поддерживаются все популярные серверы: файловые системы, веб-поиск через Brave, GitHub, SQLite, PostgreSQL. Даже экзотические вроде сервера для работы с Figma.

Параметр	Значение по умолчанию	Что делает
topK	5	Сколько инструментов возвращать в контекст
similarityThreshold	0.3	Порог схожести (ниже — инструмент не включается)
cacheEmbeddings	true	Кэшировать эмбеддинги на диске для ускорения

А что с альтернативами?

Другие инструменты для оптимизации MCP-контекста существуют, но решают другие проблемы.

mcp-context-proxy: режет «болтовню» в ответах MCP-серверов, но не трогает список инструментов.
mcp-compressor (устарел к 2026 году): пытался сжимать описания инструментов через GPT-4, но каждый вызов стоил денег и времени. Slim работает оффлайн и бесплатно.
TokenShrink: сжимает промпты, но не инструменты. Может работать в паре со Slim.
MCPX: фокус на ускорение работы MCP для локальных моделей, но без интеллектуального отбора инструментов.

Главное преимущество Slim — семантический поиск. Он понимает, что «show me commits» и «get latest repository history» — это запросы к инструменту GitHub. Даже если в описании инструмента нет слова «commits», а есть «get git history». MiniLM v3 справляется с синонимами на ура.

Тест на 1000 случайных запросов: точность поиска (precision@5) — 94%. Это значит, в 94% случаев все 5 возвращенных инструментов были релевантны запросу. Для оффлайн-алгоритма — впечатляет.

Кому обязательно попробовать

1. Разработчикам, которые используют Claude Code или Cursor с MCP. Вы наконец-то подключите все серверы, которые хотели, без страха «сломать» контекстное окно.

2. Энтузиастам локальных LLM. Особенно если вы экспериментируете с новыми моделями 2026 года вроде Qwen2.5-32B или Command-R+. Каждый сохраненный токен — возможность дать модели больше информации из вашего проекта.

3. Тем, кто строит сложные MCP-воркфлоу. Например, связка Context7 MCP для документации + GitHub + SQL. Slim предотвращает «войну инструментов» в контексте.

4. Бюджетным пользователям GPT-4o API или Gemini 2.0 Flash. Токены стоят денег. 96% экономии на служебном контексте — это прямые сбережения.

Подводные камни (куда без них)

Семантический поиск — не идеален. Если запрос очень абстрактный («помоги с кодом»), Slim может вернуть случайные инструменты. Решение: настройка similarityThreshold. Поднимите до 0.5, и инструменты будут возвращаться только при высокой уверенности.

Еще один нюанс: начальная индексация десятков инструментов занимает 2-3 секунды. Но это один раз при старте. Дальше все работает в памяти мгновенно.

И да, MCP Slim — проект с открытым исходным кодом (MIT лицензия). Лежит на GitHub. Можно форкнуть и доработать под себя. Например, заменить MiniLM на другой модель эмбеддингов (скажем, на новую BGE v4 2026 года). Архитектура позволяет.

Финал истории прост. Пока MCP-серверы плодятся как кролики, а модели все еще ограничены контекстом, инструменты вроде Slim — не опция, а must-have. Особенно если вы устали смотреть, как Gemini сжирает токены в 15 раз быстрее Claude. Остановите безумие. Начните с npx.

Подписаться на канал

MCP Slim: как сократить расход контекста на 96% с помощью локального семантического поиска инструментов