Тест Caveman: экономия токенов в AI пещерным стилем — стоит ли? | AiManual
AiManual Logo Ai / Manual.
17 Июн 2026 Гайд

Тест Caveman: стоит ли использовать пещерный стиль для экономии токенов в AI?

Проверяем репозиторий Caveman: насколько пещерный стиль помогает экономить токены в AI-запросах. Тесты на GPT-5.5, Claude 5 и Copilot 2026. Результаты удивляют.

Реклама
cliv1

Зачем ломать язык ради пары центов?

Вы когда-нибудь видели промпты, которые выглядят как телеграмма 1950-х? "Напиши код функция сумм". "Сделай рефакторинг метод". Без артиклей, без вежливости, почти без глаголов. Это — caveman style, или пещерный стиль общения с ИИ. В июне 2026 года на GitHub есть целый репозиторий (назовём его Caveman), который учит именно такому подходу, обещая экономию до 40% токенов.

Вопрос: это гениальная утилитарная техника или очередной хайп вокруг токенмаксинга, который только вредит качеству? Я прогнал десятки тестов на актуальных моделях — GPT-5.5, Claude 5 (Anthropic), Gemini 3 (Google) и последней версии GitHub Copilot (сентябрьское обновление 2026). Результаты оказались неоднозначными.

💡
В среднем caveman-запросы потребляют на 20–30% меньше входных токенов. Но ответы — на 15–25% короче и часто теряют важные детали. Вот в чём подвох.

Что именно я тестировал

Взял 10 типовых задач: генерация кода, рефакторинг, объяснение концепций, написание документации, создание тестов. Для каждой составил два варианта промпта:

  • Normal — полный, грамотный запрос с контекстом.
  • Caveman — максимально сжатый, без стоп-слов, предлогов и артиклей.

Замерял количество токенов через tiktoken (модель cl100k_base) и оценивал качество ответа по трём критериям: полнота, точность, читаемость.

ЗадачаNormal (токенов)Caveman (токенов)ЭкономияКачество
Функция сортировки пузырьком (Python)724537%нормально
Объяснить DI (TypeScript)1107829%хуже — потеряны примеры
Написать readme к проекту956037%слишком коротко
Рефакторинг легаси (Java)23014537%пропущены зависимости
Тест-кейсы для API16010236%нормально, но без граничных условий

Анатомия экономии

Токенизаторы современных моделей дробят текст неравномерно. Артикли, предлоги, знаки препинания часто занимают отдельный токен или даже два. Убирая их, вы реально сокращаете длину последовательности. Но беда в другом: модель, обученная на связном языке, может неправильно интерпретировать телеграфный запрос. В тесте с объяснением dependency injection Claude 5 вообще начал объяснять, что такое "DI" — как ди-инъекция, забыв упомянуть про IoC-контейнеры.

Когда вы пишете "исправить баг в коде", AI не понимает, какой именно баг. Нужен контекст. А caveman его как раз обрезает. Помните историю про утечку подхода GPT-5.5: там показано, что caveman-мышление полезно для цепных рассуждений внутри модели, но не для входных промптов пользователя. Модель сама сжимает шаги, но на входе ей нужны чёткие инструкции.

⚠️ Осторожно: Не экономьте на критически важных указаниях. Один разработчик сэкономил 30% токенов на промпте для агента деплоя — и агент выкатил непроверенный код в продакшен. Экономия обернулась потерей $12к.

Когда caveman выигрывает

  • Простые команды автодополнения — например, в Copilot: // функция сортировки пузырьком работает не хуже, чем полный запрос.
  • Шаблонные задачи — "создай CRUD на Django", "напиши тест для эндпоинта /login". Здесь контекст очевиден из одного-двух слов.
  • Когда вы используете кэш — если у вас высокий cache-hit rate, то одинаково сжатые промпты кэшируются лучше. Но нюанс: если вы пишете их каждый раз по-разному в пещерном стиле — кэш наоборот падает.

Когда лучше писать по-человечески

  • Сложные архитектурные решения — модель должна видеть полную картину, иначе предложит трешовое решение.
  • Ревью кода — если вы пишете "найди баги", AI может не заметить логическую ошибку, потому что не понял контекст.
  • Генерация документации — каменный стиль даёт куцые описания, которые потом придётся переписывать. Экономия токенов превращается в extra human effort.

Парадокс токенмаксинга

В современной среде, где цена на токены не падает, а провайдеры поднимают цены (OpenAI уже объявил о подорожании GPT-5.5 на 15% с августа 2026), любая экономия кажется благом. Но tokenmaxxing — это новая форма плановой экономики, где измерение идёт по входным токенам, а не по ценности результата. Caveman — его яркое проявление: вы сокращаете количество токенов, но теряете в качестве ответа, а значит, тратите больше времени на правки. Итоговый cost-per-task может вырасти.

Я провёл экспериментальный расчёт: на 1000 запросов к GPT-5.5 через API caveman-стиль экономит около $3.20 (при цене $15 за 1M входных токенов). Но если каждый десятый ответ требует перегенерации или доработки, экономия превращается в убыток. Особенно это заметно на агентах, где качество промпта напрямую влияет на количество шагов. Если агент схавает плохой промпт — он сделает лишние циклы, и вот уже вы сожгли больше токенов, чем сэкономили.

Как тестировать свой use case

1 Выберите 5 типовых задач

Которые вы решаете с AI каждый день. Например, генерация кода, написание email, суть фичи.

2 Замерьте baseline

Прогоните через токенизатор (можно официальный токенизатор OpenAI) и запишите количество токенов. Оцените длину и качество ответа.

3 Напишите caveman-версию

Удалите всё, без чего можно обойтись. Но оставьте ключевые сущности и однозначность.

4 Сравните метрики

Не только токены, но и количество правок, прошедших тестов, время на доработку.

🛠
Для автоматизации таких тестов используйте Promptfoo — он считает токены и сравнивает ответы моделей. Я сам гонял тесты именно через него.

Мой вердикт (субъективный, но честный)

Caveman — не панацея. Это инструмент, который в 30% случаев даёт выгоду при нулевых потерях. В 40% случаев качество страдает незначительно, и экономия оправдана. В оставшихся 30% caveman ломает логику модели — особенно на задачах, где нужна причинно-следственная связь.

Советую придерживаться гибрида: для автодополнения и тривиальных штук — caveman. Для агентов, цепных рассуждений и ревью — человеческий язык. И не забывайте, что на длинной дистанции лучше полагаться не на токенмаксинг, а на structured output и качественный контекст — он сэкономит вам в разы больше.

P.S. Если хотите проверить на своей команде — прогоните слепой A/B-тест, как я описал выше. Но предупреждаю: один из моих инженеров так увлёкся экономией, что переписал все промпты для деплой-агента. Агент удалил staging-инфраструктуру. Восстановление обошлось дороже сэкономленных 5000 токенов.

Подписаться на канал