Год, когда SageMaker перестал просто считать часы и начал считать ваши деньги
До 2025 года работа с Amazon SageMaker напоминала такси с включенным счетчиком. Запустил training job на 100 GPU - готовь кошелек. Развернул endpoint для инференса - счетчик тикает, даже если запросов ноль. Философия была проста: плати за каждую секунду, а дальше разбирайся сам.
Все изменилось в прошлом году. На фоне дикой конкуренции (привет, Modal и Baseten) и растущего недовольства ценами AWS выпустил пакет обновлений, который переворачивает экономику ML-проектов. Речь не о мелких улучшениях интерфейса. Это стратегический ответ на вопрос: как удержать клиентов, когда каждый доллар на счету?
Контекст: По данным отчета за IV квартал 2025, AWS показал выручку $36.2 млрд, а годовой темп (ARR) достиг $142 млрд. Рост на 24% г/г во многом обеспечен AI-сервисами, включая SageMaker. Но чтобы сохранить лидерство, нужно было решить главную боль клиентов - непредсказуемые затраты.
Training Plans: предоплата, которая наконец-то имеет смысл
Главное новшество 2025 года - гибкие планы обучения (Training Plans). Раньше резервирование инстансов (SageMaker Savings Plans) касалось в основном инференса. Теперь эта логика пришла в training.
Как это работает? Вы коммититесь на определенный объем вычислительных часов (например, 10,000 часов на инстансах ml.p4d.24xlarge) на 1 или 3 года. Взамен получаете скидку до 52% по сравнению с on-demand тарифами. Звучит стандартно? Но здесь есть три ключевых отличия от старых моделей.
- Гибкость типов инстансов: План привязан не к конкретному типу GPU (например, только A100), а к семейству (GPU-based training). Можно использовать p4d, p5, g5, даже новые инстансы на Trainium2. AWS сам оптимизирует распределение.
- Переносимость между регионами: Купили план в us-east-1, но через месяц запустили масштабный проект в eu-central-1? Часы можно перенести. Раньше это было невозможно.
- Автоматическое применение: Не нужно вручную назначать план к каждому job. Система автоматически применяет скидку к любым подходящим запускам в вашем аккаунте.
Для компаний, которые регулярно проводят тонкую настройку LLM или обучение компьютерного зрения, это меняет правила бюджетирования. Вместо шока от ежемесячного счета появляется предсказуемость.
Инференс 2025: резервирование GPU, которое не заставляет вас плакать
С инференсом история была еще болезненнее. Развернул endpoint для своей модели - плати за каждый час, даже если ночью трафика нет. Варианты были: либо жить с этим, либо выключать endpoint вручную (и убивать latency), либо использовать сложные системы автоскейлинга.
Обновление 2025 ввело две критически важные опции.
1. Zonal GPU Reservation
Резервирование GPU в конкретной зоне доступности (AZ) со скидкой до 72%. Это не абстрактный кредит, а привязка к реальному железу в конкретном дата-центре. Звучит жестко, но дает максимальную экономию для продакшн-нагрузок, где низкая задержка критична, и вы готовы зафиксировать AZ.
2. Inference Savings Plans с гранулярностью в 1 час
Старые планы требовали коммита на 1 или 3 года с минимальным использованием 1 час в месяц. Новые планы позволяют покупать скидку с гранулярностью в 1 час и автоматическим применением ко всему инференсу в аккаунте, независимо от типа инстанса (CPU, GPU, Inferentia) и региона. Это идеально для компаний, использующих квантованные модели на разных типах инстансов.
| Тип экономии | Макс. скидка | Гибкость | Для кого |
|---|---|---|---|
| Zonal GPU Reservation | до 72% | Низкая (фиксированные AZ, тип инстанса) | Стабильный продакшн-инференс с strict SLA |
| Inference Savings Plans (новые) | до 50% | Высокая (любой инстанс, любой регион) | Несколько моделей, меняющийся трафик, эксперименты |
| On-Demand | 0% | Максимальная | Непредсказуемые R&D проекты, пилоты |
Эти изменения - прямой ответ на рост специализированных сервисов инференса, которые обещают оплату только за запрос. AWS не стал менять модель ценообразования полностью, но дал инструменты, чтобы снизить счет в 2-3 раза при правильном планировании.
А что с доступностью GPU? Это все еще лотерея?
Даже с лучшими планами экономии бесполезно, если не можешь получить нужные инстансы. В 2024 году получить кластер из 16 A100 было квестом. AWS в 2025 году сделал два шага.
Во-первых, Capacity Blocks для обучения стали доступны для большего числа типов инстансов (не только p4d/p5). Теперь можно зарезервировать блок из 8 или 16 GPU на конкретные даты на 1-2 недели вперед. Гарантированно. Цена фиксированная.
Во-вторых, для инференса появился Priority Access к Managed GPU Endpoints. За дополнительную плату (примерно +15% к hourly rate) ваши endpoint'ы получают приоритет при размещении на дефицитном железе. Это не гарантия, но сильно повышает шансы.
Важно: Priority Access - это не волшебная палочка. В периоды экстремального дефицита (например, все запускают обучение новой флагманской модели OpenAI) приоритет может не сработать. Но для 95% случаев это решает проблему.
Как это меняет выбор платформы? SageMaker против Azure ML в 2026
После обновлений 2025 года баланс сил между SageMaker и Azure ML снова пошатнулся. Сила Azure всегда была в глубокой интеграции с остальным стеком Microsoft и предсказуемыми enterprise-контрактами (EA). Теперь у AWS появился похожий уровень гибкости в ценообразовании.
Главное отличие теперь не в ценах (они сравнялись), а в философии. AWS дает больше контроля и вариантов, но требует большего управления. Azure предлагает более простые, упакованные предложения. Выбор стал сложнее, но в этом и есть прогресс.
Итог: стоит ли бросаться покупать планы?
Нет. Самый частый совет от архитекторов, которые уже прошли этот путь: начните с детального анализа ваших затрат за последние 6 месяцев. Используйте Cost Explorer, сгруппируйте расходы по типу операции (training, inference, processing) и типам инстансов.
Если видите стабильную ежемесячную нагрузку по обучению от 500 часов - Training Plans ваш вариант. Если инференс составляет больше 30% от счета AWS - смотрите в сторону Zonal Reservation или новых Savings Plans.
И помните главное: эти обновления - часть большой игры. AWS зарабатывает сотни миллиардов не на том, чтобы сделать услуги дешевле, а на том, чтобы сделать их потребление более удобным и, как следствие, более объемным. Ваша задача - использовать эту удобность себе на пользу, не попадая в ловушку overcommitment. Начните с малого, зафиксируйте 20% бюджета на год вперед, а остальное оставьте на гибкость. В мире AI на 2026 год это единственная разумная стратегия.