Зачем ломать язык ради пары центов?
Вы когда-нибудь видели промпты, которые выглядят как телеграмма 1950-х? "Напиши код функция сумм". "Сделай рефакторинг метод". Без артиклей, без вежливости, почти без глаголов. Это — caveman style, или пещерный стиль общения с ИИ. В июне 2026 года на GitHub есть целый репозиторий (назовём его Caveman), который учит именно такому подходу, обещая экономию до 40% токенов.
Вопрос: это гениальная утилитарная техника или очередной хайп вокруг токенмаксинга, который только вредит качеству? Я прогнал десятки тестов на актуальных моделях — GPT-5.5, Claude 5 (Anthropic), Gemini 3 (Google) и последней версии GitHub Copilot (сентябрьское обновление 2026). Результаты оказались неоднозначными.
Что именно я тестировал
Взял 10 типовых задач: генерация кода, рефакторинг, объяснение концепций, написание документации, создание тестов. Для каждой составил два варианта промпта:
- Normal — полный, грамотный запрос с контекстом.
- Caveman — максимально сжатый, без стоп-слов, предлогов и артиклей.
Замерял количество токенов через tiktoken (модель cl100k_base) и оценивал качество ответа по трём критериям: полнота, точность, читаемость.
| Задача | Normal (токенов) | Caveman (токенов) | Экономия | Качество |
|---|---|---|---|---|
| Функция сортировки пузырьком (Python) | 72 | 45 | 37% | нормально |
| Объяснить DI (TypeScript) | 110 | 78 | 29% | хуже — потеряны примеры |
| Написать readme к проекту | 95 | 60 | 37% | слишком коротко |
| Рефакторинг легаси (Java) | 230 | 145 | 37% | пропущены зависимости |
| Тест-кейсы для API | 160 | 102 | 36% | нормально, но без граничных условий |
Анатомия экономии
Токенизаторы современных моделей дробят текст неравномерно. Артикли, предлоги, знаки препинания часто занимают отдельный токен или даже два. Убирая их, вы реально сокращаете длину последовательности. Но беда в другом: модель, обученная на связном языке, может неправильно интерпретировать телеграфный запрос. В тесте с объяснением dependency injection Claude 5 вообще начал объяснять, что такое "DI" — как ди-инъекция, забыв упомянуть про IoC-контейнеры.
Когда вы пишете "исправить баг в коде", AI не понимает, какой именно баг. Нужен контекст. А caveman его как раз обрезает. Помните историю про утечку подхода GPT-5.5: там показано, что caveman-мышление полезно для цепных рассуждений внутри модели, но не для входных промптов пользователя. Модель сама сжимает шаги, но на входе ей нужны чёткие инструкции.
⚠️ Осторожно: Не экономьте на критически важных указаниях. Один разработчик сэкономил 30% токенов на промпте для агента деплоя — и агент выкатил непроверенный код в продакшен. Экономия обернулась потерей $12к.
Когда caveman выигрывает
- Простые команды автодополнения — например, в Copilot:
// функция сортировки пузырькомработает не хуже, чем полный запрос. - Шаблонные задачи — "создай CRUD на Django", "напиши тест для эндпоинта /login". Здесь контекст очевиден из одного-двух слов.
- Когда вы используете кэш — если у вас высокий cache-hit rate, то одинаково сжатые промпты кэшируются лучше. Но нюанс: если вы пишете их каждый раз по-разному в пещерном стиле — кэш наоборот падает.
Когда лучше писать по-человечески
- Сложные архитектурные решения — модель должна видеть полную картину, иначе предложит трешовое решение.
- Ревью кода — если вы пишете "найди баги", AI может не заметить логическую ошибку, потому что не понял контекст.
- Генерация документации — каменный стиль даёт куцые описания, которые потом придётся переписывать. Экономия токенов превращается в extra human effort.
Парадокс токенмаксинга
В современной среде, где цена на токены не падает, а провайдеры поднимают цены (OpenAI уже объявил о подорожании GPT-5.5 на 15% с августа 2026), любая экономия кажется благом. Но tokenmaxxing — это новая форма плановой экономики, где измерение идёт по входным токенам, а не по ценности результата. Caveman — его яркое проявление: вы сокращаете количество токенов, но теряете в качестве ответа, а значит, тратите больше времени на правки. Итоговый cost-per-task может вырасти.
Я провёл экспериментальный расчёт: на 1000 запросов к GPT-5.5 через API caveman-стиль экономит около $3.20 (при цене $15 за 1M входных токенов). Но если каждый десятый ответ требует перегенерации или доработки, экономия превращается в убыток. Особенно это заметно на агентах, где качество промпта напрямую влияет на количество шагов. Если агент схавает плохой промпт — он сделает лишние циклы, и вот уже вы сожгли больше токенов, чем сэкономили.
Как тестировать свой use case
1 Выберите 5 типовых задач
Которые вы решаете с AI каждый день. Например, генерация кода, написание email, суть фичи.
2 Замерьте baseline
Прогоните через токенизатор (можно официальный токенизатор OpenAI) и запишите количество токенов. Оцените длину и качество ответа.
3 Напишите caveman-версию
Удалите всё, без чего можно обойтись. Но оставьте ключевые сущности и однозначность.
4 Сравните метрики
Не только токены, но и количество правок, прошедших тестов, время на доработку.
Мой вердикт (субъективный, но честный)
Caveman — не панацея. Это инструмент, который в 30% случаев даёт выгоду при нулевых потерях. В 40% случаев качество страдает незначительно, и экономия оправдана. В оставшихся 30% caveman ломает логику модели — особенно на задачах, где нужна причинно-следственная связь.
Советую придерживаться гибрида: для автодополнения и тривиальных штук — caveman. Для агентов, цепных рассуждений и ревью — человеческий язык. И не забывайте, что на длинной дистанции лучше полагаться не на токенмаксинг, а на structured output и качественный контекст — он сэкономит вам в разы больше.
P.S. Если хотите проверить на своей команде — прогоните слепой A/B-тест, как я описал выше. Но предупреждаю: один из моих инженеров так увлёкся экономией, что переписал все промпты для деплой-агента. Агент удалил staging-инфраструктуру. Восстановление обошлось дороже сэкономленных 5000 токенов.