Что скрывают ваши промпты?

Вы отправляете запрос в GPT-5-Turbo или Claude-4. Цена - 3 цента за 1K токенов. Через месяц счет - $500. Откуда? Может, ваш кодогенератор случайно вкладывает весь дамп базы в контекст? А промпт для анализа ончейн-данных тайком отправляется в OpenAI вместо локальной Llama? Tokentap - это человек-посередине, который ставит под контроль этот хаос.

💡

Tokentap на 29.03.2026 работает с последними моделями, включая GPT-5-Turbo, Gemini-3.0, Claude-4 и открытые Llama-4. Он поддерживает мультимодальные запросы и новые API-форматы от Anthropic и Google.

Что делает этот шпионский гаджет?

Tokentap - легковесный прокси на Python, который вы подсовываете между вашим приложением и API LLM. Он не просто считает токены. Он показывает, куда именно летит каждый запрос, что в нем лежит и сколько за него возьмут.

Детальный подсчет токенов в режиме реального времени - входные, выходные, общие, с разбивкой по моделям.
Инспекция промптов - видите полный текст запроса и ответа, даже если ваше приложение его логирует в бинарном виде.
Маршрутизация - понимает, идет ли запрос в облако (OpenAI, Anthropic) или на локальную ферму (через Ollama, vLLM).
Бюджетные алерты - можно настроить лимиты, и прокси начнет орать, когда расход за день превысит порог.
Экспорт метрик в Prometheus для интеграции в дашборды Grafana - как в нашем гайде по мониторингу LLM.

Tokentap видит все, включая системные промпты и данные в JSON-обертках. Если ваше приложение для криптоаналитики нечаянно отправит приватные ключи - вы узнаете первым.

1Установка за 60 секунд

Разработчики сделали установку до неприличия простой. Не нужно возиться с виртуальными окружениями - используйте pipx, который изолирует пакет.

pipx install tokentap

Если pipx нет, сначала установите его (brew install pipx или apt-get). После установки проверьте версию - на 29.03.2026 актуальна Tokentap 2.3.1 с поддержкой новых моделей Meta и Mistral.

tokentap --version

2Запуск и перехват трафика

Запускаете прокси на локальном порту. Он будет слушать запросы и перенаправлять их к настоящему API, попутно все записывая.

tokentap start --port 8080 --target-base-url https://api.openai.com/v1

В вашем приложении меняете endpoint с api.openai.com на localhost:8080. Все. Теперь Tokentap сидит посередине.

Для локальных моделей, запущенных через Ollama, укажите --target-base-url http://localhost:11434. Прокси разберется с форматом.

3Что вы увидите в терминале

После запуска в консоль пойдет поток событий. Каждый запрос - отдельная строчка с моделью, количеством токенов и стоимостью.

[2026-03-29 10:15:33] INFO: Request to gpt-5-turbo | Input: 1245 tokens | Output: 89 tokens | Total: 1334 | Cost: $0.042
[2026-03-29 10:15:34] WARNING: Large context detected (12,455 tokens) in request to claude-4

Но консоль - для дебага. Настоящая сила в веб-интерфейсе. Откройте http://localhost:8080/dashboard и увидите хитрый дашборд с графиками расхода, топом промптов и даже картой маршрутов запросов.

А что если Tokentap сам съест все токены?

Не съест. Прокси добавляет мизерную задержку (1-3 мс) и не модифицирует тело запроса - только читает. Он как подслушивающее устройство в телефонной линии. Но это же и его главный минус: если ваше приложение использует шифрование end-to-end (редкость для LLM-клиентов), Tokentap увидит только шифрокучу.

Чем Tokentap не похож на других

Инструмент	Фокус	Почему Tokentap другое
LiteLLM	Унификация API разных провайдеров	Tokentap не абстрагирует, а показывает "голые" запросы. Не заменит LiteLLM в роутинге, но покажет, что именно он отправляет.
eBPF-трассировщики	Ядерный мониторинг сетевых вызовов	Инструменты вроде того, что мы разбирали, сложнее в настройке, но отследят любой трафик. Tokentap проще и сразу дает семантику LLM.
Ktop	Мониторинг ресурсов локальной LLM	Ktop показывает загрузку GPU и память. Tokentap - финансовую сторону и содержимое.
TraceML	Отладка тренировочных прогонов	TraceML для тюнинга. Tokentap - для инференса и продакшена.

Кому впишется в стек

Разработчики AI-агентов, которые используют несколько моделей и провайдеров. Один просчет в агенте - и утечка данных обойдется в тысячи долларов. Tokentap покажет, какой модуль агента жрет токены.

Команды с ограниченным бюджетом на облачные LLM. Установите лимит в $50 в день, и прокси остановит трафик при превышении. Дешевле, чем неожиданный счет от Azure.

Инженеры, тестирующие промпты. Когда вы экспериментируете с коллекцией промптов, важно понимать, как меняется длина контекста и стоимость. Tokentap даст цифры сразу, без калькуляторов.

А вот интеграторам, которые уже используют тяжелые системы мониторинга (Datadog, New Relic с кастомными интрументами), Tokentap может показаться игрушкой. Но его можно как источник метрик для тех же Prometheus.

Главный риск - ложное чувство безопасности

Tokentap отслеживает только трафик, который через него проходит. Если ваше приложение ходит в API LLM напрямую (например, из фронтенда), прокси не поможет. И он не защитит от уязвимостей в самих клиентских библиотеках. Это инструмент видимости, а не бронежилет.

Установите Tokentap на неделю в режиме логгера. Посмотрите, какие запросы уходят в облако, а какие остаются локальными. Посчитайте, сколько вы реально тратите на GPT-5. Потом решите - оставить его в проде как сторожевого пса или убрать, потому что он вам ничего нового не показал. (Спойлер: покажет).

Подписаться на канал

Tokentap: MitM-прокси для мониторинга токенов и запросов к LLM — установка и использование