Что скрывают ваши промпты?
Вы отправляете запрос в GPT-5-Turbo или Claude-4. Цена - 3 цента за 1K токенов. Через месяц счет - $500. Откуда? Может, ваш кодогенератор случайно вкладывает весь дамп базы в контекст? А промпт для анализа ончейн-данных тайком отправляется в OpenAI вместо локальной Llama? Tokentap - это человек-посередине, который ставит под контроль этот хаос.
Что делает этот шпионский гаджет?
Tokentap - легковесный прокси на Python, который вы подсовываете между вашим приложением и API LLM. Он не просто считает токены. Он показывает, куда именно летит каждый запрос, что в нем лежит и сколько за него возьмут.
- Детальный подсчет токенов в режиме реального времени - входные, выходные, общие, с разбивкой по моделям.
- Инспекция промптов - видите полный текст запроса и ответа, даже если ваше приложение его логирует в бинарном виде.
- Маршрутизация - понимает, идет ли запрос в облако (OpenAI, Anthropic) или на локальную ферму (через Ollama, vLLM).
- Бюджетные алерты - можно настроить лимиты, и прокси начнет орать, когда расход за день превысит порог.
- Экспорт метрик в Prometheus для интеграции в дашборды Grafana - как в нашем гайде по мониторингу LLM.
Tokentap видит все, включая системные промпты и данные в JSON-обертках. Если ваше приложение для криптоаналитики нечаянно отправит приватные ключи - вы узнаете первым.
1Установка за 60 секунд
Разработчики сделали установку до неприличия простой. Не нужно возиться с виртуальными окружениями - используйте pipx, который изолирует пакет.
pipx install tokentapЕсли pipx нет, сначала установите его (brew install pipx или apt-get). После установки проверьте версию - на 29.03.2026 актуальна Tokentap 2.3.1 с поддержкой новых моделей Meta и Mistral.
tokentap --version2Запуск и перехват трафика
Запускаете прокси на локальном порту. Он будет слушать запросы и перенаправлять их к настоящему API, попутно все записывая.
tokentap start --port 8080 --target-base-url https://api.openai.com/v1В вашем приложении меняете endpoint с api.openai.com на localhost:8080. Все. Теперь Tokentap сидит посередине.
Для локальных моделей, запущенных через Ollama, укажите --target-base-url http://localhost:11434. Прокси разберется с форматом.
3Что вы увидите в терминале
После запуска в консоль пойдет поток событий. Каждый запрос - отдельная строчка с моделью, количеством токенов и стоимостью.
[2026-03-29 10:15:33] INFO: Request to gpt-5-turbo | Input: 1245 tokens | Output: 89 tokens | Total: 1334 | Cost: $0.042
[2026-03-29 10:15:34] WARNING: Large context detected (12,455 tokens) in request to claude-4Но консоль - для дебага. Настоящая сила в веб-интерфейсе. Откройте http://localhost:8080/dashboard и увидите хитрый дашборд с графиками расхода, топом промптов и даже картой маршрутов запросов.
А что если Tokentap сам съест все токены?
Не съест. Прокси добавляет мизерную задержку (1-3 мс) и не модифицирует тело запроса - только читает. Он как подслушивающее устройство в телефонной линии. Но это же и его главный минус: если ваше приложение использует шифрование end-to-end (редкость для LLM-клиентов), Tokentap увидит только шифрокучу.
Чем Tokentap не похож на других
| Инструмент | Фокус | Почему Tokentap другое |
|---|---|---|
| LiteLLM | Унификация API разных провайдеров | Tokentap не абстрагирует, а показывает "голые" запросы. Не заменит LiteLLM в роутинге, но покажет, что именно он отправляет. |
| eBPF-трассировщики | Ядерный мониторинг сетевых вызовов | Инструменты вроде того, что мы разбирали, сложнее в настройке, но отследят любой трафик. Tokentap проще и сразу дает семантику LLM. |
| Ktop | Мониторинг ресурсов локальной LLM | Ktop показывает загрузку GPU и память. Tokentap - финансовую сторону и содержимое. |
| TraceML | Отладка тренировочных прогонов | TraceML для тюнинга. Tokentap - для инференса и продакшена. |
Кому впишется в стек
Разработчики AI-агентов, которые используют несколько моделей и провайдеров. Один просчет в агенте - и утечка данных обойдется в тысячи долларов. Tokentap покажет, какой модуль агента жрет токены.
Команды с ограниченным бюджетом на облачные LLM. Установите лимит в $50 в день, и прокси остановит трафик при превышении. Дешевле, чем неожиданный счет от Azure.
Инженеры, тестирующие промпты. Когда вы экспериментируете с коллекцией промптов, важно понимать, как меняется длина контекста и стоимость. Tokentap даст цифры сразу, без калькуляторов.
А вот интеграторам, которые уже используют тяжелые системы мониторинга (Datadog, New Relic с кастомными интрументами), Tokentap может показаться игрушкой. Но его можно как источник метрик для тех же Prometheus.
Главный риск - ложное чувство безопасности
Tokentap отслеживает только трафик, который через него проходит. Если ваше приложение ходит в API LLM напрямую (например, из фронтенда), прокси не поможет. И он не защитит от уязвимостей в самих клиентских библиотеках. Это инструмент видимости, а не бронежилет.
Установите Tokentap на неделю в режиме логгера. Посмотрите, какие запросы уходят в облако, а какие остаются локальными. Посчитайте, сколько вы реально тратите на GPT-5. Потом решите - оставить его в проде как сторожевого пса или убрать, потому что он вам ничего нового не показал. (Спойлер: покажет).