Счёт за Cursor растёт быстрее, чем ваш бэклог? 50, 100, 500 долларов в месяц — и это только за то, что AI-болванка в сотый раз переписывает импорты, пытаясь угадать, что вы имели в виду. Знакомо. Я сам прошёл через это: платил за Premium-подписку и тратил тысячи токенов на пустые размышления модели. Пока не разобрался, как поставить MCP-серверы на короткий поводок.

В этой статье — три конкретных инструмента, которые за месяц срезали мой счёт на 85-90%. Без потери качества кода. Почти. Спойлер: вы будете меньше платить за то, что AI не делает лишней работы.

Если вы ещё не в курсе: MCP (Model Context Protocol) — это стандарт подключения инструментов к AI-моделям. Cursor, Claude Code и многие другие его поддерживают. Изначально MCP задумывался как расширение возможностей, но оказалось, что грамотные серверы — ключ к экономии токенов.

Почему Cursor сжирает ваш бюджет впустую

Давайте честно: Cursor в базовой комплектации — это ковровая бомбардировка токенами. Каждый запрос:

тащит весь контекст открытых файлов (даже если они не нужны);
заставляет модель пересчитывать одни и те же куски кода снова и снова;
использует дорогие модели (Claude Sonnet 4 или GPT-5o на момент апреля 2026) для тривиальных задач вроде автодополнения скобок.

Но главная проблема — «разговорчивость» AI. Модель любит объяснять, почему она написала цикл именно так, а не иначе. Эти объяснения — чистые токены, за которые вы платите.

Три сервера, которые режут счёт до костей

Я перебрал десятки MCP-серверов и оставил только те, что дают реальную экономию. Никакой магии — только хардкорная оптимизация.

Сервер	Что делает	Экономия токенов
mcp-context-proxy	Фильтрует болтовню модели, оставляя только код	30-40%
mcpx (Model Context Proxy)	Управляет окном контекста: сжимает и выгружает лишнее	40-60%
Kindly	Умный веб-поиск: вместо полной страницы — только нужный фрагмент	до 80% на запросах с web search

В сумме — 90% и даже больше. Если настроить их вместе, Cursor перестаёт быть роскошью.

Шаг 1. mcp-context-proxy — отключите болтовню AI

Первый сервер в моем арсенале. Он перехватывает ответы модели перед отправкой в редактор и вырезает всё, что не является кодом или прямым действием. Никаких «я вижу твою проблему и предлагаю решение…» — только сгенерированный код.

Предупреждение: этот сервер может отрезать важные комментарии от модели (например, предупреждения о побочных эффектах). Но для 95% задач они не нужны — вы и так знаете, что делает строчка кода.

1 Установка mcp-context-proxy

Проект, кстати, недавно обновился до версии 1.4.2 (релиз марта 2026) и научился фильтровать ещё токены разметки markdown. Установка через npm:

npm install -g mcp-context-proxy@latest

Добавьте в конфиг Cursor (.cursor/config.json):

{
  "mcpServers": {
    "context-proxy": {
      "command": "mcp-context-proxy",
      "args": ["--filter", "no-narrative"],
      "disabled": false,
      "autoApprove": []
    }
  }
}

Флаг --filter no-narrative — ключевой. Он запрещает любые объяснения модели, кроме кода и терминальных команд. Проверьте: после перезапуска Cursor попробуйте попросить написать функцию — в ответ вы получите только сигнатуру и тело, ни слова про сложность O(n).

Шаг 2. mcpx — контроль контекстного окна

Второй сервер — mcpx (Model Context Proxy). Он решает проблему «утопания в контексте». Cursor передаёт модели до 200 тысяч токенов истории диалога, файлов и метаданных. mcpx сжимает старые сообщения в саммари, выгружает неиспользуемые файлы и динамически ограничивает окно.

💡

По моим замерам, mcpx снижает количество токенов, отправляемых на генерацию, на 40-60%. Особенно эффективно, если в проекте много файлов — сервер держит в активном контексте только те, к которым вы обращались в последние 5 минут.

2 Установка mcpx

Установка через Cargo (Rust). Если у вас нет Rust — curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh.

cargo install mcpx --version 2.3.1

Конфигурация для Cursor:

{
  "mcpServers": {
    "mcpx": {
      "command": "mcpx",
      "args": ["--max-context", "32000", "--compress-after", "10"],
      "disabled": false,
      "autoApprove": []
    }
  }
}

--max-context 32000 — жёсткий лимит окна (по умолчанию модель может занять 200K). --compress-after 10 — после 10 сообщений диалога старые сворачиваются в краткое резюме. Настройте под свой стиль: я для code review оставляю 50K, для написания нового кода — 20K.

Шаг 3. Kindly — умный веб-поиск без перегрузки

В Cursor есть функция «web search» — модель может выйти в интернет за актуальной документацией или API. Беда в том, что она тащит всю страницу, включая шапку, футер, рекламу и комментарии. Особенно дорого обходятся статьи с кучей примеров — модель перечитывает их целиком.

Kindly — MCP-сервер для веб-поиска, который разбивает страницу на chunk-и, отбирает только релевантные по вашей задаче и возвращает их сумму в 500-1000 токенов вместо 10-20 тысяч.

3 Установка Kindly

Ставится через pip:

pip install kindly-mcp

Конфиг Cursor:

{
  "mcpServers": {
    "kindly": {
      "command": "kindly",
      "args": ["--api-key", "$KINDLY_API_KEY", "--max-tokens", "800"],
      "disabled": false,
      "autoApprove": ["search"]
    }
  }
}

API-ключ Kindly бесплатный для 1000 запросов в месяц (регистрация на kindly.dev). Параметр --max-tokens 800 — сколько токенов отдавать на одну страницу. Этого хватает для ответа на вопрос про синтаксис или параметр API.

Типичная ошибка: не ставить лимит токенов. Если оставить дефолтное значение 4000, экономия будет незначительной. Всегда режьте до 600-1000 — модель редко требует больше для понимания.

Как собрать всё вместе и не сломать Cursor

В идеале все три сервера работают параллельно. Финальный конфиг .cursor/config.json:

{
  "mcpServers": {
    "context-proxy": {
      "command": "mcp-context-proxy",
      "args": ["--filter", "no-narrative"],
      "disabled": false,
      "autoApprove": []
    },
    "mcpx": {
      "command": "mcpx",
      "args": ["--max-context", "32000", "--compress-after", "10"],
      "disabled": false,
      "autoApprove": []
    },
    "kindly": {
      "command": "kindly",
      "args": ["--api-key", "$KINDLY_API_KEY", "--max-tokens", "800"],
      "disabled": false,
      "autoApprove": ["search"]
    }
  }
}

Перезагрузите Cursor. Теперь каждый запрос будет проходить цепочку: mcpx сжимает контекст -> context-proxy отрезает лишние слова -> если нужен поиск, Kindly возвращает только суть.

Грабли, которые я набил своей головой

Не включайте сразу все автоаппрувы — особенно у context-proxy. Если модель не может объяснить код, она может выдать бессмысленный сниппет. Оставляйте autoApprove пустым для первых двух серверов.
mcpx с очень низким max-context (меньше 10K) ломает длинные обсуждения рефакторинга — модель забывает, что обсуждали 5 сообщений назад. Найдите баланс: для сложных задач 50K, для быстрых правок 16K.
Kindly без API-ключа работает в ограниченном режиме — возвращает первые 500 символов страницы, что часто бессмысленно. Лучше зарегистрироваться и получить ключ.
Проверяйте версии серверов — в апреле 2026 вышли обновления mcp-context-proxy и mcpx. Если что-то не работает, обновите через npm/pip/cargo.

Сколько я сэкономил: реальные цифры

До настройки — $120/мес за Cursor Pro + дополнительные токены (ещё около $80). После внедрения трёх серверов — $20/мес (подписка Pro осталась, но расходы на токены упали до $10-15). Экономия — 87%.

Конечно, я пожертвовал частью «разговорчивости» AI. Иногда хочется, чтобы модель объяснила архитектурное решение. Для таких случаев я держу в запасе отдельный режим без контекст-прокси (переключаю через профили MCP в Cursor). Но в 90% рабочих задач — код, код, код. И теперь он стоит копейки.

💡

Кстати, недавно вышла утилита MCP Doctor, которая автоматически проверяет ваши конфиги MCP и находит ошибки. Очень рекомендую прогнать после настройки — сэкономит нервы.

Ещё один лайфхак: используйте mcp-context-proxy в связке с mcpx. Именно эта комбинация даёт максимальную экономию. Если вы работаете с локальными LLM, обратите внимание на PlexMCP — он позволяет подключать локальные модели к тем же инструментам без лишних токенов.

Часто задаваемые вопросы (и мои честные ответы)

Не замедлит ли это работу Cursor?

Скорее наоборот — меньше токенов обрабатывается, ответ приходит быстрее. Каждый сервер добавляет 5-15 мс на проксирование, но выигрыш от сжатия перекрывает.

Могу ли я отключать серверы по ситуации?

Да. В Cursor есть раздел MCP в настройках — там вы можете включать/выключать отдельные серверы. Или создать несколько профилей конфигурации.

Что делать, если модель перестала давать объяснения и я не понимаю код?

Отключите context-proxy на время review. Или напишите в промпте «объясни кратко» — модель иногда игнорирует фильтр, можно настроить исключения.

Есть ли риск, что Cursor заблокирует меня за «хитрости»?

Нет, это публичные MCP-серверы. Cursor официально поддерживает протокол. Вы просто контролируете, сколько токенов тратить на каждый запрос.

Обновлено 30.04.2026. Все конфиги актуальны на момент публикации. Если вы используете более новую версию Cursor, сверьтесь с документацией — возможно, изменился путь к файлу конфига.

Подписаться на канал

Как я сократил счёт за Cursor в 10 раз: MCP-серверы на страже бюджета