Ваши чекпоинты на 15 Гб теперь живут в том же месте, что и модели. И это бесплатно
Помните ту боль, когда после пяти дней обучения на A100 у вас падает интернет, а чекпоинты лежат на локальном диске? Или когда финансы просят отчет по расходам на S3, а там 90% - это промежуточные артефакты, которые никогда не понадобятся в продакшене? Hugging Face в марте 2026 убивает эту проблему одним выстрелом. Storage Buckets - это не просто еще одно облачное хранилище. Это прямая интеграция объектаки в экосистему ML, которая давно переросла рамки репозитория для весов.
Актуально на 15 марта 2026: Storage Buckets стали стандартным способом хранения приватных артефактов на HF Hub после полной интеграции с платформой Xet в 2025 году. Клиент huggingface-hub версии 1.0.0 включает нативные команды для работы с бакетами без танцев с boto3.
Зачем это вообще нужно? (Вопрос, который задают все, пока не потеряют чекпоинт 32-й эпохи)
Представьте типичный пайплайн: предобработка данных → обучение → валидация. Между этапами летают датасеты в формате .arrow, логгеры пишут метрики в .json, а модель сохраняет веса каждые 1000 шагов. Куда это все девать? Раньше вариантов было три:
- Тащить в публичный репозиторий на HF и краснеть за бинарные файлы в git истории (спойлер: LFS тоже не панацея)
- Платить Amazon S3 за хранение и трафик, а потом неделю разбираться с IAM ролями для CI/CD
- Хранить локально и молиться, чтобы диск не сгорел
Storage Buckets появились как ответ на боль ML-инженеров, которые устали выбирать между удобством и стоимостью. Теперь у вас есть S3-совместимое API, но с привязкой к вашему аккаунту Hugging Face. И да, с бесплатным тарифом в 50 ГБ (по данным на март 2026) это сразу меняет экономику экспериментов.
Что там под капотом? Xet и магия дедупликации
Когда в 2025 году HF объявили о партнерстве с Xet Storage, многие пожали плечами. Через год стало ясно - это был стратегический ход. Xet обеспечивает дедупликацию на уровне блоков, что для ML-артефактов работает как волшебная таблетка.
Ваша модель сохраняет чекпоинт каждую эпоху. Между версиями меняется 3-5% весов. Обычное хранилище запишет 20 копий по 15 Гб каждая. Xet сохранит первую версию полностью, а остальные - только дельты. На практике это экономит до 80% места на чекпоинтах. Для предобработанных датасетов, где вы меняете только аугментации, экономия еще больше.
huggingface-cli или Python API, система сама определяет дублирующиеся блоки. Это особенно эффективно для бинарных форматов типа .pth или .safetensors.Как это встраивается в пайплайны? Отложите boto3, у нас есть hf://
Технически Storage Buckets поддерживают полную S3-совместимость. Можно использовать boto3, awscli, даже rclone. Но зачем, если у HF Hub есть собственная схема адресации hf://?
Представьте, что ваш скрипт обучения пишет чекпоинты напрямую в:
hf://username/training-january-2026/checkpoints/epoch-5.safetensorsЭто не абстрактный путь. Это реальный URL, который работает из любой точки, где есть доступ к интернету и токен HF. Интеграция с SageMaker или другими облачными платформами становится тривиальной задачей - не нужно генерировать временные ключи доступа.
Важный нюанс на март 2026: бакеты создаются в пространстве имен пользователя или организации. Если вы работаете в команде, создавайте бакет с флагом --org your-team, чтобы коллеги имели доступ по ролям.
Что это меняет в MLOps? (Спойлер: почти все)
До появления Storage Buckets цепочка "эксперимент → артефакт → регистрация" была разорвана. Вы обучали модель, сохраняли чекпоинты куда попало, а потом вручную загружали лучшую версию в Model Registry. Теперь пайплайн становится энд-ту-энд:
- Данные предобрабатываются и сохраняются в бакет как .arrow файлы
- Скрипт обучения пишет чекпоинты прямо в тот же бакет
- После валидации лучшие веса автоматически регистрируются как модель на HF Hub
- Все промежуточные артефакты остаются в бакете с версионированием
Это особенно мощно в связке с инструментами типа Temple Vault, где файловая система становится памятью для агентов. Ваши ML-артефакты теперь живут в той же экосистеме, что и модели для продакшена.
А что с приватностью? (Вопрос дня)
По умолчанию бакеты приватные. Но здесь есть тонкость: вы можете делиться файлами через временные пре-сайнд URL, как в S3. Или сделать отдельные объекты публичными, если это, например, датасет для воспроизведения эксперимента.
Главное отличие от публичных репозиториев на HF - в бакетах нет версионирования через git. Каждый файл просто лежит по своему пути. Это одновременно и проще (не нужно делать коммиты), и сложнее (версионировать приходится вручную, добавляя суффиксы к именам файлов).
| Что хранить в бакетах | Что не стоит хранить |
|---|---|
| Чекпоинты обучения | Исходный код проекта |
| Предобработанные датасеты (.arrow, .parquet) | Конфигурационные файлы с секретами |
| Логи экспериментов (TensorBoard, MLflow) | Данные с персональной информацией |
| Векторные индексы для RAG систем | Бинарные зависимости окружения |
Что дальше? Интеграция или изоляция?
Пока большинство команды используют Storage Buckets как замену S3 для личных экспериментов. Но потенциал в корпоративном MLOps огромен. Представьте, что все артефакты вашей компании - от разреженных эмбеддингов до логов оптимизации - живут в одном месте, с единой аутентификацией и контролем доступа.
Мой прогноз на конец 2026: появятся нативные интеграции с KV-cache системами и инструментами для квантования. Вместо того чтобы перегонять данные между сервисами, мы будем указывать им на hf:// пути. Экономия времени на сериализацию/десериализацию может достигать часов в неделю.
А теперь плохие новости: бесплатный лимит в 50 ГБ закончится, когда вы осознаете, как удобно хранить там все подряд. И вот тогда начнется настоящая игра - оптимизация форматов хранения, сжатие и, конечно, квантование не только моделей, но и данных.
Совет напоследок: создайте тестовый бакет сегодня и загрузите туда один чекпоинт. Через месяц вы удивитесь, сколько мусора из ваших пайплайнов переедет туда на постоянное жительство. А кошелек AWS скажет вам спасибо.