Что такое гибкие планы обучения (Training Plans) в SageMaker?

Это новый способ оплаты от Amazon SageMaker, представленный в 2025 году. Вы можете заранее зафиксировать объем вычислительных часов для обучения моделей на 1 или 3 года и получить скидку до 52%. Планы гибкие - применяются к семейству GPU-инстансов и переносимы между регионами.

Как сэкономить на инференсе моделей в SageMaker в 2026 году?

AWS предлагает два основных способа: Zonal GPU Reservation (резервирование GPU в конкретной зоне доступности со скидкой до 72% для стабильных нагрузок) и новые Inference Savings Plans с гранулярностью в 1 час и автоматическим применением ко всем типам инстансов в аккаунте.

Решили ли обновления 2025 года проблему дефицита GPU в SageMaker?

Не полностью, но ситуация улучшилась. AWS расширил программу Capacity Blocks для бронирования GPU на обучение и ввел опцию Priority Access для Managed GPU Endpoints (за доплату), что повышает шансы получить нужные инстансы в периоды высокого спроса.

Обновления SageMaker 2025: Гибкие планы обучения, скидки на инференс

Год, когда SageMaker перестал просто считать часы и начал считать ваши деньги

До 2025 года работа с Amazon SageMaker напоминала такси с включенным счетчиком. Запустил training job на 100 GPU - готовь кошелек. Развернул endpoint для инференса - счетчик тикает, даже если запросов ноль. Философия была проста: плати за каждую секунду, а дальше разбирайся сам.

Все изменилось в прошлом году. На фоне дикой конкуренции (привет, Modal и Baseten) и растущего недовольства ценами AWS выпустил пакет обновлений, который переворачивает экономику ML-проектов. Речь не о мелких улучшениях интерфейса. Это стратегический ответ на вопрос: как удержать клиентов, когда каждый доллар на счету?

Контекст: По данным отчета за IV квартал 2025, AWS показал выручку $36.2 млрд, а годовой темп (ARR) достиг $142 млрд. Рост на 24% г/г во многом обеспечен AI-сервисами, включая SageMaker. Но чтобы сохранить лидерство, нужно было решить главную боль клиентов - непредсказуемые затраты.

Training Plans: предоплата, которая наконец-то имеет смысл

Главное новшество 2025 года - гибкие планы обучения (Training Plans). Раньше резервирование инстансов (SageMaker Savings Plans) касалось в основном инференса. Теперь эта логика пришла в training.

Как это работает? Вы коммититесь на определенный объем вычислительных часов (например, 10,000 часов на инстансах ml.p4d.24xlarge) на 1 или 3 года. Взамен получаете скидку до 52% по сравнению с on-demand тарифами. Звучит стандартно? Но здесь есть три ключевых отличия от старых моделей.

Гибкость типов инстансов: План привязан не к конкретному типу GPU (например, только A100), а к семейству (GPU-based training). Можно использовать p4d, p5, g5, даже новые инстансы на Trainium2. AWS сам оптимизирует распределение.
Переносимость между регионами: Купили план в us-east-1, но через месяц запустили масштабный проект в eu-central-1? Часы можно перенести. Раньше это было невозможно.
Автоматическое применение: Не нужно вручную назначать план к каждому job. Система автоматически применяет скидку к любым подходящим запускам в вашем аккаунте.

Для компаний, которые регулярно проводят тонкую настройку LLM или обучение компьютерного зрения, это меняет правила бюджетирования. Вместо шока от ежемесячного счета появляется предсказуемость.

💡

В теории экономия до 52% выглядит отлично. На практике все зависит от паттернов нагрузки. Если ваше обучение носит спорадический, исследовательский характер (месяц простоя, неделя безумных экспериментов), on-demand может оказаться выгоднее. Планы работают для стабильных, производственных конвейеров ретренинга.

Инференс 2025: резервирование GPU, которое не заставляет вас плакать

С инференсом история была еще болезненнее. Развернул endpoint для своей модели - плати за каждый час, даже если ночью трафика нет. Варианты были: либо жить с этим, либо выключать endpoint вручную (и убивать latency), либо использовать сложные системы автоскейлинга.

Обновление 2025 ввело две критически важные опции.

1. Zonal GPU Reservation

Резервирование GPU в конкретной зоне доступности (AZ) со скидкой до 72%. Это не абстрактный кредит, а привязка к реальному железу в конкретном дата-центре. Звучит жестко, но дает максимальную экономию для продакшн-нагрузок, где низкая задержка критична, и вы готовы зафиксировать AZ.

2. Inference Savings Plans с гранулярностью в 1 час

Старые планы требовали коммита на 1 или 3 года с минимальным использованием 1 час в месяц. Новые планы позволяют покупать скидку с гранулярностью в 1 час и автоматическим применением ко всему инференсу в аккаунте, независимо от типа инстанса (CPU, GPU, Inferentia) и региона. Это идеально для компаний, использующих квантованные модели на разных типах инстансов.

Тип экономии	Макс. скидка	Гибкость	Для кого
Zonal GPU Reservation	до 72%	Низкая (фиксированные AZ, тип инстанса)	Стабильный продакшн-инференс с strict SLA
Inference Savings Plans (новые)	до 50%	Высокая (любой инстанс, любой регион)	Несколько моделей, меняющийся трафик, эксперименты
On-Demand	0%	Максимальная	Непредсказуемые R&D проекты, пилоты

Эти изменения - прямой ответ на рост специализированных сервисов инференса, которые обещают оплату только за запрос. AWS не стал менять модель ценообразования полностью, но дал инструменты, чтобы снизить счет в 2-3 раза при правильном планировании.

А что с доступностью GPU? Это все еще лотерея?

Даже с лучшими планами экономии бесполезно, если не можешь получить нужные инстансы. В 2024 году получить кластер из 16 A100 было квестом. AWS в 2025 году сделал два шага.

Во-первых, Capacity Blocks для обучения стали доступны для большего числа типов инстансов (не только p4d/p5). Теперь можно зарезервировать блок из 8 или 16 GPU на конкретные даты на 1-2 недели вперед. Гарантированно. Цена фиксированная.

Во-вторых, для инференса появился Priority Access к Managed GPU Endpoints. За дополнительную плату (примерно +15% к hourly rate) ваши endpoint'ы получают приоритет при размещении на дефицитном железе. Это не гарантия, но сильно повышает шансы.

Важно: Priority Access - это не волшебная палочка. В периоды экстремального дефицита (например, все запускают обучение новой флагманской модели OpenAI) приоритет может не сработать. Но для 95% случаев это решает проблему.

Как это меняет выбор платформы? SageMaker против Azure ML в 2026

После обновлений 2025 года баланс сил между SageMaker и Azure ML снова пошатнулся. Сила Azure всегда была в глубокой интеграции с остальным стеком Microsoft и предсказуемыми enterprise-контрактами (EA). Теперь у AWS появился похожий уровень гибкости в ценообразовании.

Главное отличие теперь не в ценах (они сравнялись), а в философии. AWS дает больше контроля и вариантов, но требует большего управления. Azure предлагает более простые, упакованные предложения. Выбор стал сложнее, но в этом и есть прогресс.

Итог: стоит ли бросаться покупать планы?

Нет. Самый частый совет от архитекторов, которые уже прошли этот путь: начните с детального анализа ваших затрат за последние 6 месяцев. Используйте Cost Explorer, сгруппируйте расходы по типу операции (training, inference, processing) и типам инстансов.

Если видите стабильную ежемесячную нагрузку по обучению от 500 часов - Training Plans ваш вариант. Если инференс составляет больше 30% от счета AWS - смотрите в сторону Zonal Reservation или новых Savings Plans.

И помните главное: эти обновления - часть большой игры. AWS зарабатывает сотни миллиардов не на том, чтобы сделать услуги дешевле, а на том, чтобы сделать их потребление более удобным и, как следствие, более объемным. Ваша задача - использовать эту удобность себе на пользу, не попадая в ловушку overcommitment. Начните с малого, зафиксируйте 20% бюджета на год вперед, а остальное оставьте на гибкость. В мире AI на 2026 год это единственная разумная стратегия.

Подписаться на канал

Amazon SageMaker в 2025: гибкие планы обучения и экономия на инференсе, которая заставила инженеров вздохнуть с облегчением