Когда AI начинает злиться: проблема троттлинга и задержек

Вы запустили своего AI-агента на Amazon Bedrock, и все работает... пока не работает. Запросы начинают висеть, ответы приходят через 10 секунд, а в логах появляются зловещие 429 ошибки. До недавнего времени вы летали вслепую: почему тормозит? Хватает ли квот? Сейчас AWS дала два новых инструмента в CloudWatch, которые покажут все.

💡

На март 2026, Amazon Bedrock поддерживает последние модели, включая Claude 4.5, GPT-5 Turbo, и Llama 4. Новые метрики работают для всех моделей Bedrock, включая недавно добавленные.

TimeToFirstToken: почему первый токен такой важный

TimeToFirstToken (TTFT) — это метрика, которая измеряет время от момента отправки запроса до получения первого токена ответа. Для интерактивных приложений, например чат-ботов, это критично. Пользователь не должен ждать больше пары секунд.

Раньше вы могли только догадываться, почему ответ медленный: то ли модель думает, то ли сеть тормозит, то ли Bedrock перегружен. Теперь TTFT дает четкую цифру.

TTFT не включает время на передачу данных по сети от Bedrock до вашего приложения. Только время обработки на стороне Bedrock. Для полной картины задержки нужны еще метрики сети.

EstimatedTPMQuotaUsage: как не упереться в потолок

Вторая метрика — EstimatedTPMQuotaUsage. Она показывает, какой процент от вашей квоты токенов в минуту (TPM) вы используете. Квоты в Bedrock — это боль, особенно когда вы масштабируетесь.

Как мы уже писали в статье "Когда Bedrock говорит «нет»: как не сломать продакшн при ошибках 429 и 503", троттлинг может стать кошмаром. Теперь вы можете видеть, как близко подходите к лимиту, и заранее увеличить квоту или оптимизировать запросы.

Настройка алертов: пять минут, которые спасут проект

CloudWatch делает настройку алертов простой. Вот шаги:

1 Откройте CloudWatch в консоли AWS

Перейдите в раздел "Метрики", найдите пространство имен "AWS/Bedrock". Там вы увидите новые метрики TimeToFirstToken и EstimatedTPMQuotaUsage.

2 Выберите метрику и создайте алерт

Для TTFT, например, выберите метрику, укажите статистику (например, среднее за 5 минут) и пороговое значение. Если TTFT превышает 2 секунды для интерактивного чата — это повод для алерта.

Для EstimatedTPMQuotaUsage установите алерт на 80%. Так вы получите предупреждение, прежде чем упретесь в лимит.

Сравнение: встроенные метрики против самоделок

До появления этих метрик, инженеры выкручивались как могли. Некоторые писали свои скрипты для отслеживания квот, другие использовали внешние инструменты. Например, onWatch-бинарник следил за квотами нескольких провайдеров. Но теперь Bedrock предлагает встроенное решение.

Подход	Плюсы	Минусы
Встроенные метрики CloudWatch	Интеграция с AWS, простота настройки, бесплатно (за исключением стоимости CloudWatch)	Только для Bedrock, нет кросс-провайдерского мониторинга
Самодельные скрипты	Полный контроль, можно адаптировать под любые нужды	Требует разработки и поддержки, могут быть ошибки
Внешние инструменты (например, onWatch)	Могут охватывать несколько провайдеров AI, дополнительные функции	Дополнительные затраты, сложность интеграции

Примеры использования: от чат-ботов до пакетной обработки

Представьте, что у вас есть чат-бот для поддержки клиентов. Если TTFT растет, пользователи начинают злиться. С алертом на TTFT вы узнаете о проблеме, пока она не стала массовой. Возможно, нужно переключиться на другую модель или регион. Как в статье "Когда Южная Африка тормозит", задержки могут быть географическими.

Или вы запускаете пакетную обработку тысяч документов. EstimatedTPMQuotaUsage покажет, не превысите ли вы квоту. Если приближаетесь к 100%, можно приостановить обработку или запросить увеличение квоты заранее.

Кому это нужно? Если вы в продакшене на Bedrock — это обязательно

Эти метрики не для тех, кто экспериментирует в песочнице. Если ваш бизнес зависит от Bedrock в продакшене, мониторинг TTFT и квот — это как ремни безопасности в автомобиле. Не ждите аварии.

Начните с малого: настройте алерты для самых критичных endpoint. Постепенно расширяйте покрытие. И не забудьте про защиту AI-агентов с Guardrails, потому что мониторинг производительности — это только часть картины.

📚

Для глубокого погружения в мониторинг AI, рекомендую курс по продвинутому мониторингу AWS и книгу "Mastering Amazon Bedrock". Это партнерские ссылки, которые помогают поддерживать наш контент.

Что дальше? Прогноз на 2027

Эти метрики — только начало. Я ожидаю, что к 2027 году все cloud AI сервисы будут предоставлять подобные метрики из коробки. Также появятся метрики для качества ответов (например, оценка релевантности) и стоимости на токен. Следите за обновлениями Bedrock — AWS явно набирает обороты в AI.

А пока — настройте алерты, и спите спокойнее. Ваш AI-агент теперь под присмотром.

Подписаться на канал

Новые CloudWatch метрики TimeToFirstToken и EstimatedTPMQuotaUsage для Amazon Bedrock: настройка алертов и управление квотами